Курсы по машинному обучению, вероятностным моделям, анализу данных

В последние несколько лет было опубликовано огромное количество статей и даже книг о Big Data — огромных объёмах данных, для анализа которых нужны специальные знания и навыки. Сейчас в мире собирается огромное количество данных, анализировать которые существующими методиками довольно затруднительно. Более того, компании часто и не знают, как вообще можно использовать те данные, которые они собирают.

По предсказаниям экспертов, через пять лет на рынке труда станут очень востребованными те, кто одновременно знает статистику, машинное обучение и программирование. Иногда их называют «data scientists» — учёными по работе с данными. Именно эти специалисты смогут извлекать неочевидные вещи из данных, часто большого объёма и мало структурированных. Они же будут придумывать интересные применения этих данных — например, рекомендации о том, какая другая музыка может понравиться пользователям.

Где же можно научиться всему этому? Благодаря Coursera — в интернете, бесплатно и в лучших университетах мира.

Логотип курса по машинному обучению от Эндрю Нг
Логотип курса по машинному обучению от Эндрю Нг

Именно в этой области работают основатели Coursera, профессора Стэнфорда Эндрю Нг и Дафна Кёллер. Поэтому на Coursera сразу же появилось два сильных курса:

Курс по машинному обучению очень рекомендуется, даже если вам уже читали этот курс в университете. Это вводный курс, но материал дан очень логично — например, нейронные сети даны как расширение логистической регрессии. При всё объясняется очень понятно. Было даже видео о том, как сеть распознаёт рукописные символы и что «видит» каждый нейрон. Кроме того, это вполне современный курс — рассматриваются даже рекомендательные системы.

Курс по вероятностным моделям сложнее, требует 10-20 часов в неделю. Начинается с naive Bayes. Можно рекомендовать этот курс как продолжение курса по машинному обучению.

Сейчас появляются и другие бесплатные онлайн-курсы по теме:

Также на этой неделе впервые начинается курс Computing for Data Analysis.  Будет изучаться статистический пакет R: программирование, построение графиков, применение современных статистических методов. Курс рассчитан на четыре недели. 2 часа лекций в неделю. Будут квизы и задания на программирования.

Дополнено:

С момента написания этого сообщения на Coursera закончилось два других тематических курса: "Data Analysis" и "Data Science".

Курс «Data Analysis» — это логическое продолжение вводного курса «Computing for Data Analysis». Краткое описание курса можно найти в русскоязычном блоге про R. В курсе даётся обзор таких широко используемых статистических методов, как линейная регрессия, анализ главных компонентов, кросс-валидация и p-значения.

Второй курс, «Data Science», акцентирует внимание на таких технологиях, как MapReduce, Hadoop и NoSQL. Рассматриваются такие классические темы, как машинное обучение с учителем и без учителя, анализ текстов, рекомендательные системы.

sdk

Энтузиаст онлайн-образования. Активный участник проекта Coursera с самого его открытия.