- алгоритмы классификации: линейные, деревья принятия решений, kNN;
- логическая регрессия;
- алгоритмы кластеризации;
- оценка точности модели, отношение между смещением и дисперсией(bias-variance tradeoff), подбор метода оценки точности для задачи;
- обучение модели: градиентный спуск, МНК, другие на усмотрение преподавателя;
- переобучение, его влияние на точность и способы повышения точности: усложнение, регуляризация, ансамблирование.
Что такое DS, ML, классы решаемых задач, большие данные и параллельные вычисления. Подходы к обучению машин: с учителем и без. Обзор программы курса.
Установка Python, Jupyter Notebook.Введение в Python: синтаксис, основные элементы, типы данных. Основы работыс git. Введение в numpy, pandas. Базовый эксплоративный анализ и визуализация данных на pandas.
Визуализация на matplotlib,seaborn, plotly.
Обзор библиотеки sklearn. Семейства алгоритмов: классификация, регрессия, кластеризация, уменьшение размерности данных. Обучение на маленьких больших датасетах.
Необходимость в кластерных вычислениях. Парадигма MapReduce. Инструменты работы с большими данными. Hadoop, Spark, обзор других компонентов экосистемы. Spark —как один из самых востребованных инструментов для распределённых вычислений.
Средства MS Azure для машинного обучения, хранения и анализа данных. Развертывание кластера Hadoop/Spark в облаке Azure. Выполнение учебных примеров на кластере.