В последние несколько лет было опубликовано огромное количество статей и даже книг о Big Data — огромных объёмах данных, для анализа которых нужны специальные знания и навыки. Сейчас в мире собирается огромное количество данных, анализировать которые существующими методиками довольно затруднительно. Более того, компании часто и не знают, как вообще можно использовать те данные, которые они собирают.
По предсказаниям экспертов, через пять лет на рынке труда станут очень востребованными те, кто одновременно знает статистику, машинное обучение и программирование. Иногда их называют «data scientists» — учёными по работе с данными. Именно эти специалисты смогут извлекать неочевидные вещи из данных, часто большого объёма и мало структурированных. Они же будут придумывать интересные применения этих данных — например, рекомендации о том, какая другая музыка может понравиться пользователям.
Где же можно научиться всему этому? Благодаря Coursera — в интернете, бесплатно и в лучших университетах мира.
Именно в этой области работают основатели Coursera, профессора Стэнфорда Эндрю Нг и Дафна Кёллер. Поэтому на Coursera сразу же появилось два сильных курса:
Курс по машинному обучению очень рекомендуется, даже если вам уже читали этот курс в университете. Это вводный курс, но материал дан очень логично — например, нейронные сети даны как расширение логистической регрессии. При всё объясняется очень понятно. Было даже видео о том, как сеть распознаёт рукописные символы и что «видит» каждый нейрон. Кроме того, это вполне современный курс — рассматриваются даже рекомендательные системы.
Курс по вероятностным моделям сложнее, требует 10-20 часов в неделю. Начинается с naive Bayes. Можно рекомендовать этот курс как продолжение курса по машинному обучению.
Сейчас появляются и другие бесплатные онлайн-курсы по теме:
Также на этой неделе впервые начинается курс Computing for Data Analysis. Будет изучаться статистический пакет R: программирование, построение графиков, применение современных статистических методов. Курс рассчитан на четыре недели. 2 часа лекций в неделю. Будут квизы и задания на программирования.
Дополнено:
С момента написания этого сообщения на Coursera закончилось два других тематических курса: "Data Analysis" и "Data Science".
Курс «Data Analysis» — это логическое продолжение вводного курса «Computing for Data Analysis». Краткое описание курса можно найти в русскоязычном блоге про R. В курсе даётся обзор таких широко используемых статистических методов, как линейная регрессия, анализ главных компонентов, кросс-валидация и p-значения.
Второй курс, «Data Science», акцентирует внимание на таких технологиях, как MapReduce, Hadoop и NoSQL. Рассматриваются такие классические темы, как машинное обучение с учителем и без учителя, анализ текстов, рекомендательные системы.