Старт big data проекта: 6 важных вопросов +3


Использование данных в своей деятельности давно стало очевидным для многих, потенциальные преимущества ясны, но порой непонятно с чего все-таки начать и как двигаться в это будущее, которое где-то уже наступило.



В связи со стартом big data направления или просто проекта, у руководителя в голове есть множество вопросов, ответы на которые он хочет получить.

1. У меня есть вроде бы какие-то данные. Что я могу с ними сделать?

Конечно, изначально стоит исходить из целей проекта, которые в свою очередь транслируются из текущих-бизнес задач. Если говорить по-крупному, то использование данных может помочь увеличить доходы или сократить расходы через оптимизацию. Можно, к примеру, эффективнее нанимать людей: тратить на это меньше денег и времени; у сотрудников снизится “текучка”. Либо внедрить рекомендательную систему, которая будет помогать увеличивать средний чек клиента, при этом предлагая что-то ему действительно важное и нужное. К примеру, крупнейшие телеком-компании России — МегаФон, Билайн, МТС — применяют индивидуальный подход в определении тарифов. Анализируя собственные данные об абонентах по нескольким десяткам параметров, компании предлагают клиентам индивидуальные тарифные планы, и в результате увеличивается прибыль на одного абонента.

2. Я понимаю, чего хочу. Какие данные мне нужны?

Данные бывают двух типов: внутренние и внешние. С точки зрения стратегии правильнее начать с тех данных, которые у вас уже есть. Использование внешних источников данных — это уже следующий этап, необходимый скорее для обогащения существующих. Это позволяет увеличивать качество моделей, которые будут построены на их основе. К внешним источникам данных относятся данные из социальных сетей, где можно найти наиболее важную и актуальную информацию о клиенте, а также данные из Интернета вещей (Internet of Things) — к 2020 году миллионы девайсов будут связаны между собой через IoT, улучшая все сферы жизнедеятельности: от “умных” домов и до регулирования светофоров. Использование Интернета вещей уже сегодня приносит огромную пользу компаниям: Apple постоянно собирает данные со всех своих девайсов, от iPhone и до Apple Watch, получая ценную информацию: удобен ли дизайн и интерфейс, как часто люди пользуются девайсами и т.д, чтобы постоянно улучшать свои продукты.

При этом какие конкретно данные нужны, станет понятно только после того, как вы сформулируете гипотезы. Если мы говорим про повышение эффективности HR, то нам нужно подумать, что теоретически на это может влиять. Как пример, если мы прогнозируем отток сотрудников, то мы можем нагенерировать следующие гипотезы: “люди, которые планируют уходить, начинают чаще опаздывать”, “люди, которые планируют уходить, меньше тратят времени за компьютером”, и т.д. Похожий кейс был на днях описан на Хабре.

Также ярким примером является ритейл-банкинг: в процессе кредитного скоринга клиентов банкам хотелось бы знать как можно больше о своих клиентах, и здесь возраста, доходов и кредитной истории может быть недостаточно для качественной оценки вероятности невыплаты кредита, поэтому на протяжении последних нескольких лет крупнейшие банки страны (Сбербанк, ВТБ24, Альфа-банк, Тинькофф) стали использовать внешние источники данных в скоринге, в частности, профили клиентов в социальных сетях.

3. С данными более или менее понятно. Какие есть алгоритмы работы с ними?

Существует некоторое количество разных видов анализа: дескриптивный, разведочный, предиктивный и др. Каждый из них решает свою роль и может приносить ценность организации. Возможно, наиболее интересным является предиктивный, который часто сводится к применению алгоритмов машинного обучения.

Суть машинного обучения заключается в следующем. У нас есть данные по какому-то количеству объектов, и нам известен некий результат по ним, который мы и хотим предсказывать. При этом у нас есть данные по другим объектам, и мы просим алгоритм сделать прогноз для них, используя знания из того датасета.

По-крупному есть две задачи машинного обучения с учителем: классификация и регрессия. В случае классификации мы прогнозируем категориальную переменную: пол, возрастная категория, факт покупки и т.д. В регрессионной задачи мы делаем прогноз для количественной переменной: стоимость квартиры, заработную плату, объем продаж и т.д.

На сегодняшний день наиболее популярными алгоритмами регрессии и классификации являются градиентный бустинг, случайный лес, логистическая регрессия и нейронные сети. Мы уже упоминали кредитный скоринг, который является ярким примером решения задачи классификации.

Если говорить о регрессии, то одним из примеров такой задачи может быть прогнозирование спроса на продукцию. Yandex Data Factory в первом квартале 2016 года разработала и успешно протестировала предиктивную модель спроса на товары со скидкой для “Пятерочки” — бренда X5 Retail Group. Товары по акции занимают около трети в общем обороте компании, поэтому более точное планирование позволит снизить затраты из-за хранения лишних запасов, либо наоборот, их нехватки.

Помимо обучения по размеченным данным есть другой тип задач — обучение без учителя, то есть построение модели по данным, где нет целевой переменной, то есть неразмеченным, например, кластеризация — разделение совокупности на схожие группы. Бизнес-аналогом данной задачи является сегментация пользователей для создания индивидуальных предложений, о ней мы уже упоминали.

Однако здесь есть два момента. Первый: нет размеченных данных (данные, где известен результат) — нет возможности делать прогноз, а если они есть, то могут возникнуть сложности с тем, что из себя будет представлять целевая переменная в рамках данной бизнес-задачи. К примеру, вы хотите определить идеальное расположение новых торговых точек. Что будет наиболее важным критерием “идеальности”: выручка, близость к метро, количество посетителей в день?

Второй: на качество моделей оказывает большее влияние объем данных, а не сложность алгоритмов.

4. Ок. Какой софт мне нужен?

Во-первых, надо определиться с тем, готовы ли вы использовать open-source решения или же enterprise. Open-source хороши тем, что бесплатны, но если что-то ломается, то поддержки нет. Enterprise-решения могут быть кастомизированы под вас, плюс будут поддерживаться профессионалами в этой области. К примеру, QIWI, Тинькофф, Сбербанк разрабатывали big data кластер своими силами, многие другие компании обращаются за помощью к сторонним экспертам, которые могут разработать готовое решение для бизнеса.

Во-вторых, выбор софта зависит от объема данных. Если данных много, то текущим стандартом является использование инструментов экосистемы Hadoop, в рамках которой есть и распределенное хранилище данных HDFS, и колоночная база данных HBase, инструменты аналитики Hive и Spark и много чего другого. Данными инструментами сейчас активно пользуется, например, Сбербанк. Если данных немного, то это будет стрельбой из пушки по воробьям, поэтому вполне можно обойтись обычными реляционными базами данных и, например, Jupyter Notebook — среда, где data scientist проводит большую часть своих вычислений, строит модели и предобрабатывает данные.

В-третьих, на выбор софта влияет тип обработки данных, который больше подходит нуждам компании. Существуют два основных типа обработки больших данных: streaming-обработка предполагает анализ данных с интервалом до нескольких секунд, что подойдет компаниям, работающим с непрерывными данными: e-commerce, SMM, ритейл. Ежедневно в Твиттере постится больше 350 миллионов твитов от более чем 140 миллионов пользователей, поэтому компания использует streaming-подход через Apache Storm для обработки такого огромного потока данных. При batch-обработке происходит комплексный анализ всех имеющихся данных, вычисления занимают более минуты и комплексность вычислений ставится выше скорости.

5. А что с “железом”?

Железо тоже зависит от объема данных, которым вы собираетесь оперировать, и софта, который планируете использовать. Идея текущих решений в области больших данных — это использовать, так называемое commodity оборудование. Под этим имеется в виду, что суперкомпьютеры тут не нужны, а достаточно обычных серверов, но естественно: чем они мощнее, тем лучше.

Еще один момент, над которым стоит задуматься: покупать ли сервера, арендовать их или пользоваться облаком. Если вы работаете с персональными данными, то тут ответ почти всегда один — покупка своих серверов. Если персональных данных нет, то с точки зрения экономики могут выгодны и другие опции. Потенциальное преимущество облака в том, что его очень быстро можно опробовать и сделать какой-то пилот на нем, например, и дальше принимать решение. Также облака быстро восстанавливаются после аварий и легко масштабируются нажатием нескольких клавиш, в то время как физические сервера требуют месяцев планирования. Плюс у них есть программы грантов для стартапов, что тоже неплохо: раз и два.

6. Предположим, у меня всё это есть. Какие люди мне нужны?

Принято выделять три роли: data scientist, data engineer, data manager. Первый, как правило, умеет программировать, разбирается в математике и строит те самые модели машинного обучения. Второй часто занимается сбором и предобработкой данных, а также конфигурированием софта. Третий понимает очень хорошо бизнес, умеет монетизировать данные и способен правильно поставить задачу двум другим на их же языке. Содержать всех троих по началу может показаться роскошью, да и поскольку в компании еще нет этой экспертизы, непонятно как их нанимать. Один за лайфаков — это отправить своего проверенного бойца на обучение, где он сможет полностью погрузиться в эту новую и сложную тему. Понятно, что он будет скорее универсальным солдатом, но на начальном этапе это является плюсом. В результате таким образом, внутри появится уже экспертиза плюс сеть контактов людей, к которым можно обратиться в случае чего.

Вокруг этих шести вопросов, но и не только их, выстроена наша программа Big Data for Executives. В конце нее наши участники заполняют, специально разработанный нами шаблон оценки проекта в области больших данных, получая своего рода дорожную карту. На презентации проектов наш эксперт дает обратную связь и полезные советы с точки зрения стратегии.

-->


К сожалению, не доступен сервер mySQL