- Регистрация
- 26.05.2022
- Сообщения
- 23 590
- Реакции
- 56
- Баллы
- 48
MLOps [2022]
OTUS
Дмитрий Бугайченко, Андрей Кузнецов, Михаил Марюфич, Фаррух Кушназаров, Кирилл Султанов, Егор Матешук, Максим Мигутин, Павел Филонов
Единственный в России практический курс по инструментам и технологиям работы с большими данными.
Вы освоите все необходимые навыки машинного обучения для потоковых данных и распределенной среды. В программу включены необходимые знания из областей Data Science и Data Engineering, которые позволят вам обрабатывать большие данные и писать распределенные алгоритмы на Spark.
Каждый модуль вы будете закреплять на практике, выполняя домашнее задание. В конце обучения вас ждет финальный проект, который позволит обобщить все полученные знания и пополнить портфолио. Он может быть выполнен в рамках рабочих задач на вашем датасете или быть учебным проектом, основанным на данных, предоставляемых OTUS.
Особенности курса:
1. Много практики работы с данными
2. Актуальные инструменты и технологии: Scala, Spark, Python, Docker
3. Широкий спектр навыков от распределенного ML и потоковой обработки данных до вывода в продакшн
4. Живое общение с экспертами на вебинарах и в чате Slack
Для кого этот курс?
1. Для специалистов по Машинному обучению или Software инженеров, которые хотят научиться работать с большими данными. Обычно такие задачи имеются в крупных IT-компаниях с масштабным цифровым продуктом.
2. Для Data Scientist, которые хотят усилить свой скиллсет инженерными навыками. Благодаря курсу вы будете уметь обрабатывать данные и самостоятельно выводить результаты ML-решений в продакшн.
Вы научитесь:
1. Использовать стандартные инструменты ML-конвейеров в распределенной среде,
2. Разрабатывать собственные блоки для ML-конвейеров,
3. Адаптировать ML-алгоритмы к распределенной среде и инструментам big data,
4. Использовать Spark, SparkML, Spark Streaming,
5. Разрабатывать алгоритмы потоковой подготовки данных для машинного обучения,
6. Обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.
Содержание
Модуль 1 - Базовые вводные для старта курса
Тема 1. Градиентный спуск и линейные модели
Тема 2. Обзор основных методов и метрик машинного обучения
Тема 3. Эволюция подходов работы с данными
Тема 4. Основы программирования на Scala
Модуль 2 - Технологические основы распределенной обработки данных
Тема 5. Распределенные файловые системы
Тема 6. Менеджеры ресурсов в распределенных системах
Тема 7. Эволюция фреймворков массивно-параллельного и распределенного вычисления
Тема 8. Основы Apache Spark 1
Тема 9. Основы Apache Spark 2
Модуль 3 - Основы распределенного МL
Тема 10. Перенос МЛ-алгоритмов в распределенную среду
Тема 11. ML в Apache Spark
Тема 12. Разработка собственных блоков для SparkML
Тема 13. Оптимизация гиперпараметров и AutoML
Модуль 4 - Потоковая обработка данных
Тема 14. Потоковая обработка данных
Тема 15. Сторонние библиотеки для использования со Spark
Тема 16. Spark Streaming
Тема 17. Структурный и непрерывный стриминг в Spark
Тема 18. Альтернативные потоковые фреймворки
Модуль 5 - Целеполагание и анализ результатов
Тема 19. Определение цели МЛ-проекта и предварительный анализ
Тема 20. Долгосрочные ML-цели на примере задачи уменьшения оттока
Тема 21. А/Б тестирование
Тема 22. Дополнительные темы
Модуль 6 - Вывод результатов ML в продакшн
Тема 23. Подходы к выводу ML-решений в продакшн
Тема 24. Версионирование, воспроизводимость и мониторинг
Тема 25. Онлайн-сервинг моделей
Тема 26. Паттерны асинхронного потокового ML и ETL
Тема 27. Если надо Python
Модуль 7 - ML на Python в продакшне
Тема 28. Production Code на Python. Организация и Packaging кода
Тема 29. REST-архитектура: Flask API
Тема 30. Docker: Структура, применение, деплой
Тема 31. Kubernetes, контейнерная оркестрация
Тема 32. MLOPS инструменты для Kubernetes: KubeFlow, Seldon Core. Особенности эксплуатации гетерогенных систем в проме.
Тема 33. Amazon Sagemaker
Тема 34. AWS ML Service
Модуль 8 - Продвинутые топики
Тема 35. Нейросети
Тема 36. Распределенное обучение и инференс нейросетей
Тема 37. Градиентный бустинг на деревьях
Тема 38. Обучение с подкреплением
Модуль 9 - Проектная работа
Тема 39. Выбор темы и организация проектной работы
Тема 40. Консультация по проектам и домашним заданиям
Тема 41. Защита проектных работ
Продажник
OTUS
Дмитрий Бугайченко, Андрей Кузнецов, Михаил Марюфич, Фаррух Кушназаров, Кирилл Султанов, Егор Матешук, Максим Мигутин, Павел Филонов
Единственный в России практический курс по инструментам и технологиям работы с большими данными.
Вы освоите все необходимые навыки машинного обучения для потоковых данных и распределенной среды. В программу включены необходимые знания из областей Data Science и Data Engineering, которые позволят вам обрабатывать большие данные и писать распределенные алгоритмы на Spark.
Каждый модуль вы будете закреплять на практике, выполняя домашнее задание. В конце обучения вас ждет финальный проект, который позволит обобщить все полученные знания и пополнить портфолио. Он может быть выполнен в рамках рабочих задач на вашем датасете или быть учебным проектом, основанным на данных, предоставляемых OTUS.
Особенности курса:
1. Много практики работы с данными
2. Актуальные инструменты и технологии: Scala, Spark, Python, Docker
3. Широкий спектр навыков от распределенного ML и потоковой обработки данных до вывода в продакшн
4. Живое общение с экспертами на вебинарах и в чате Slack
Для кого этот курс?
1. Для специалистов по Машинному обучению или Software инженеров, которые хотят научиться работать с большими данными. Обычно такие задачи имеются в крупных IT-компаниях с масштабным цифровым продуктом.
2. Для Data Scientist, которые хотят усилить свой скиллсет инженерными навыками. Благодаря курсу вы будете уметь обрабатывать данные и самостоятельно выводить результаты ML-решений в продакшн.
Вы научитесь:
1. Использовать стандартные инструменты ML-конвейеров в распределенной среде,
2. Разрабатывать собственные блоки для ML-конвейеров,
3. Адаптировать ML-алгоритмы к распределенной среде и инструментам big data,
4. Использовать Spark, SparkML, Spark Streaming,
5. Разрабатывать алгоритмы потоковой подготовки данных для машинного обучения,
6. Обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.
Содержание
Модуль 1 - Базовые вводные для старта курса
Тема 1. Градиентный спуск и линейные модели
Тема 2. Обзор основных методов и метрик машинного обучения
Тема 3. Эволюция подходов работы с данными
Тема 4. Основы программирования на Scala
Модуль 2 - Технологические основы распределенной обработки данных
Тема 5. Распределенные файловые системы
Тема 6. Менеджеры ресурсов в распределенных системах
Тема 7. Эволюция фреймворков массивно-параллельного и распределенного вычисления
Тема 8. Основы Apache Spark 1
Тема 9. Основы Apache Spark 2
Модуль 3 - Основы распределенного МL
Тема 10. Перенос МЛ-алгоритмов в распределенную среду
Тема 11. ML в Apache Spark
Тема 12. Разработка собственных блоков для SparkML
Тема 13. Оптимизация гиперпараметров и AutoML
Модуль 4 - Потоковая обработка данных
Тема 14. Потоковая обработка данных
Тема 15. Сторонние библиотеки для использования со Spark
Тема 16. Spark Streaming
Тема 17. Структурный и непрерывный стриминг в Spark
Тема 18. Альтернативные потоковые фреймворки
Модуль 5 - Целеполагание и анализ результатов
Тема 19. Определение цели МЛ-проекта и предварительный анализ
Тема 20. Долгосрочные ML-цели на примере задачи уменьшения оттока
Тема 21. А/Б тестирование
Тема 22. Дополнительные темы
Модуль 6 - Вывод результатов ML в продакшн
Тема 23. Подходы к выводу ML-решений в продакшн
Тема 24. Версионирование, воспроизводимость и мониторинг
Тема 25. Онлайн-сервинг моделей
Тема 26. Паттерны асинхронного потокового ML и ETL
Тема 27. Если надо Python
Модуль 7 - ML на Python в продакшне
Тема 28. Production Code на Python. Организация и Packaging кода
Тема 29. REST-архитектура: Flask API
Тема 30. Docker: Структура, применение, деплой
Тема 31. Kubernetes, контейнерная оркестрация
Тема 32. MLOPS инструменты для Kubernetes: KubeFlow, Seldon Core. Особенности эксплуатации гетерогенных систем в проме.
Тема 33. Amazon Sagemaker
Тема 34. AWS ML Service
Модуль 8 - Продвинутые топики
Тема 35. Нейросети
Тема 36. Распределенное обучение и инференс нейросетей
Тема 37. Градиентный бустинг на деревьях
Тема 38. Обучение с подкреплением
Модуль 9 - Проектная работа
Тема 39. Выбор темы и организация проектной работы
Тема 40. Консультация по проектам и домашним заданиям
Тема 41. Защита проектных работ
Продажник