Нейросети: где взять данные для тонкого обучения алгоритмов?


Привет, Хабр! Меня зовут Алиса Невейкина, и я работаю в стартапе из Беларуси SmartCoders. Мы занимаемся разработкой нейросетей и решений на базе ИИ для бизнеса. Этот пост стал результатом глубоких раздумий  об особенностях развития проектов с использованием машинного обучения, а также о моделях монетизации данных технологий. Если вы уже работали с ИИ или планируете это сделать, приглашаю присоединиться к обсуждению.

Разработка ИИ определяется алгоритмами, которые заложены в нейросеть. Однако проверить их можно только опираясь на значительные объемы данных. Если речь идет об уже обкатанной системе, которая прошла боевое крещение хотя бы в одной из компаний, то тут все понятно. Но что делать в случае, когда нейросети нужны данные “как воздух”, чтобы доказать свою жизнеспособность?

Мы начинали работать как подрядчики на разных проектах, выполняя задачи заказчика. Так появилось решение для проекта Salary2.me, который помогает определить реальную зарплату ИТ-работника в Москве, Киеве, Минске и во многих городах Европы.

Но чтобы претендовать на универсальность этим технологиям не хватает машинного обучения по существующим дата-сетам.  

@Елена Кураш
@Елена Кураш

Где взять данные для машинного обучения?

На этапе разработки самих алгоритмов можно использовать какие-то синтетические наборы данных. Однако для дальнейшего совершенствования функций ИИ этого недостаточно. Нужны живые дата-сеты, чтобы найти corner cases, проверить, как ведут себя алгоритмы на разных выборках и так далее. Но получить такой набор оказывается не так-то просто, потому что:

Все боятся за конфиденциальность данных

Несмотря на то, что для тестирования ИИ достаточно обезличенных данных, которые не содержат никакой персональной информации, компании боятся санкций со стороны регуляторов за передачу своих клиентских баз, да и мало кто может выдать обезличенный дата-сет. Его нужно готовить, а заниматься этим некому. 

Существует проблеме недоверия

Еще одна проблема — это отсутствие доверия. А вдруг мы со своим ИИ пришли от лица конкурентов? Вот нас пустят, дадут работать с данными, а база окажется в чужих руках.

Денег нет

Наконец, на тестирование ИИ нужны средства. Но если эффект не очевиден, в бюджете не появляется денег на внедрение и развитие ИИ. Компания просто продолжает работать также как работала.

Что делать?

Теоретически ИИ может принести бизнесу кучу плюсов, начиная с построения персонализированных программ лояльности до повышения вовлеченности пользователей и разработки методов возврата ушедших или “спящих” клиентов. Однако в том и прикол ИИ, что алгоритмы нужно тренировать для каждого отдельного случая, проводить обучение. Только после проверки на конкретных дата-сетах, становится ясно, каким будет эффект. Но пока нет данных — нет эффекта, а пока нет понимания эффекта, никто не дает данные. Получается настоящая проблема “курицы и яйца”.

Возможно, эту проблему можно решить одним из трех способов:

— Разработать какое-то универсальное решение для подготовки данных, которое поможет компаниям делать стандартную выгрузку обезличенной информации. Возможно, нужен алгоритм, который можно встраивать прямо в движок сайта, чтобы автоматически собирать и выгружать данные для систем ИИ. Но как обеспечить доверие компаний к такому решению?

— Заниматься развитием ИИ, вкладывая собственные средства, как партнер для магазина, игровой платформы, клиентского сервиса. При этом договориться об оплате в виде какой-то части добавочной прибыли. Мне кажется, что такой подход вообще будет более честным и справедливым. Остается только вопрос, как зафиксировать компенсацию в договоре? 

— Проводить бесплатные пилотные проекты, тестируя эффективность решения на ограниченном количестве пользователей. Но как найти компании, готовые к диалогу в России и СНГ, если у большинства пока нет практики сбора аналитики, а опасения за свои данные накладывают “вето” на участие даже в бесплатных тестах

Развитие проектов

Дополнительным аргументом в пользу длительного сотрудничества является желание развивать дальше проекты, в которые уже было вложено много сил и креатива. Тем более, что отдача от ИИ может вырасти, если продолжить fine tuning алгоритмов. 

Я понимаю, что этот пост порождает больше вопросов, чем ответов. И если у вас есть свое мнение или уже состоявшийся опыт развития нейросетей и поиска данных для их обучения, поделитесь им, пожалуйста, в комментариях. Буду признательна за живую дискуссию на эту тему.

Опрос:

Как найти данные для тестирования ИИ?

— Помочь обезличить клиентскую базу

— Стать партером и развивать ИИ за роялти

— Проводить небольшие пилоты, чтобы доказать эффективность

— Другое (расскажите в комментариях)




К сожалению, не доступен сервер mySQL