Пост-задача


Дорогие хабро-пользователи и любители машинного обучения!

Предлагаю вам попробовать решить задачу на моделирование данных и потренировать свои навыки.




В прилагаемом наборе данных 100 входов, крайняя правая колонка — выход. И около 40К примеров.

Задача такова: на первых 20 000 примерах обучить регрессионную модель (предсказание значения выхода на основе информации из входов), чтобы при однократном ее применении к остальным 20К наблюдений получить R^2 на уровне не хуже 0.5.

Данные синтетические (я их сам подготовил) и если присмотреться, вы поймете, что это единый временной ряд. В файле на вход подаются 100 отсчетов временного ряда, и прогноз делается на 1 отсчет вперед.

Можно использовать любые методы. После получения нескольких ваших ответов и описания решения хотя бы общими словами, я выложу алгоритм решения (процедуру генерации ряда).

Данные в формате .R: drive.google.com/open?id=0B_Au3ANgcG7CcjZVRU9fbUZyUkE

-->


К сожалению, не доступен сервер mySQL