[OTUS] Pазработчик BigData. Модуль 1 из 5 (2018)

netcatnew

Редактор
Joined
Jan 2, 2019
Messages
3,323
Reaction score
15
Автор: OTUS
Название: Pазработчик BigData. Модуль 1 из 5

916d9be61066-png.801


О курсе
В настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений. Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков. Цель курса - освоить основные темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение. В нашем курсе мы научим основам анализа данных: расскажем о предобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одной машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний. В результате прохождения курса слушатель сможет самостоятельно реализовывать весь процесс от поиска знаний в данных до построения процесса по обработке данных в боевом окружении, будет обладать знаниями, необходимыми для изучения более сложных методов машинного обучения.
a0d890605848.png

Программа курса:
Первый модуль
Для разработки в области анализа данных необходимо понимать, как устроены основные алгоритмы, какая у них сложность и скорость работы, сколько требуется ресурсов для их успешной работы, область применимости.В первом модуле программы разбираются все базовые алгоритмы машинного обучения. Изучение проходит на сгенерированных данных, не требующих времени на преобразование и доработку. Разъясняется значение и влияние параметров алгоритмов на результат. Каждый этап обучения сопровождается наглядной визуализацией.Будут рассмотрены алгоритмы: линейная регрессия, логистическая регрессия, деревья решений, knn, SVM, k-means, EM, иерархическая кластеризация, DBScanВ результате слушатели уверенно освоят базовые алгоритмы анализа данных и инструменты для базового анализа данных на Python

Занятие 1: Базовые инструменты анализа данных в Python.
Подготовка к курсу. Git, окружение Python. Обзор курса.
Введение в Python, Numpy, Pandas, Sklearn. API Sklearn.
Что такое DS, ML, классы решаемых задач.
ДЗ
Реализация библиотеки. Реализация библиотеки для подсчета статистик и преобразования датасетов в формате csv. Отработка инструментов для преобразования данных в pandas и sklearn.

Занятие 2: Вводная в математические операции.
Интеграл, производная, их свойства, вероятность, плотность вероятности, мат.ожидание, дисперсия, ковариация, матричные вычисления, определитель, обратная матрица и т.п.

Занятие 3: Визуализация
Визуализация на matplotlib, seaborn, plotly
ДЗ
Построение визуализаций по данным

Занятие 4: Линейная регрессия
Математика линейной регрессии. Проблема многомерных пространств и переобучения на примере регрессии. Проблема разреженных данных. Регуляризация.
Простая линейная регрессия на Python. Оценка качества регресcии. Проверка точности модели: обучающая и тестовая выборки. Обучающая и тестовая выборка, кросс-валидация.

Занятие 5: Логистическая регрессия
Математика логистической регрессии. Мультиклассовая регрессия. Оценка качества логистической регрессии.
Теория вероятностей: условные вероятности, теорема Байеса.
Обучение регрессии, градиентный спуск. Регуляризация: L1, L2.
ДЗ
Реализация алгоритма логистической регрессии. Реализация алгоритма логистической регрессии на простых данных. Оценка качества, подбор параметров модели.

Занятие 6: KNN, наивный байес
Метрики и расстояния между объектами: евклидова и другие.
Обучение модели kNN. Ограничения.
Метрики качества: accuracy, precision, recall, др.
Алгоритм наивного байеса. Байесовский классификатор, Принцип Maximum A-Posteriori

Занятие 7: kMeans, EM
Обучение без учителя. Алгоритмы кластеризации, области применения. k-means. Оценка качества обучения, ограничения и подбор алгоритма для задачи.
Байесов подход к вероятности. Алгоритмы с lower-bound. Em алгоритм.
ДЗ
Реализация EM-алгоритма. Реализация EM-алгоритма на простых данных. Оценка качества кластеризации.

Занятие 8: Иерархическая кластеризация, DB-Scan
Иерархическая кластеризация, DB-Scan. Optics. Спектральная кластеризация.

Занятие 9: Feature engineering
Feature engineering. Статистический анализ данных, выбор фич на основе корреляции.
ДЗ
Преобразование набора данных и подбор фич.

Занятие 10: Поиск выбросов в данных



Скачать:
Папка из Облака Mail.Ru
 

tai

New member
Joined
Nov 1, 2011
Messages
1
Reaction score
0
"Yikes, that's old content! I'm not sure if anyone's still interested in 2018 material, especially since big data processing has come a long way since then. Maybe share some newer resources or insights instead?"
 

Yrkon

Member
Joined
Sep 10, 2006
Messages
5
Reaction score
0
"Whoa, old school thread! I dug up the OTUS Big Data course from 2018 and it's actually still pretty relevant today. Has anyone else gone through this course and can share any insights or tips?"
 

aivengo1

New member
Joined
May 26, 2008
Messages
2
Reaction score
0
I'm not familiar with OTUS, is this some kind of online course? Can someone explain what OTUS is and what this BigData module is all about?
 

Savalan

New member
Joined
Jan 20, 2018
Messages
2
Reaction score
0
I'm pretty sure this is a Russian course on BigData dev, OP. Just wanted to let you know I'm not getting any download links, is there another way to access the content? Maybe a direct torrent or GitHub link?
 

Singularity

New member
Joined
Oct 27, 2007
Messages
3
Reaction score
0
I'm gonna have to respectfully say I don't speak Russian, can someone summarize it for the non-Russian speakers?
 
Top