10G


Сегодня мой проект перешёл на следующий уровень под названием “10G” :-)

Закончился расчёт MOLAP куба размером больше 10 000 000 000 (10 миллиардов) ячеек.
Возможно, что такое у кого-то происходит каждый день, но вот наконец то и я смог )))

В деталях:
1. Размер куба 300 ГБ (сжат “gz”), примерный размер несжатого куба 3 ТБ.
2. Время затраченное на расчёт куба 227 часов одного процессорного ядра (3.4GHz).
3. Также затрачено 7.15 ТБ ресурсов ввода вывода :-) на 6-ти жёстких дисках.
4. Примерное время расчёта на трёх-нодовом hadoop-кластере одни сутки (24 часа).
5. Из функций агрегаций/анализа были использованы Sum,Count,Max,stdstat(группа функций :Count,Sum,Max,Min,Avg).

При этом была обнаружена следующая проблема:
1. Функция хеширования «SHA256» произвела хеши с не равномерным распределением :-(, и из-за этого
перекоса 2/3 данных обрабатывалось на 1/3 процессоров :-), что собственно замедлило время расчёта куба.

Продолжаю работу ….




К сожалению, не доступен сервер mySQL