- Регистрация
- 26.05.2022
- Сообщения
- 26 711
- Реакции
- 179
- Баллы
- 63
Что это за курс:
1. Это курс о методах и инструментах, которые обеспечивают быструю, надежную и возобновляемую доставку данных, готовых к аналитике и эксплуатации моделей data science. DataOps-инженер — тот специалист, который может развернуть и конфигурировать все эти инструменты там, где остро встает вопрос масштабирования и гибкости.
2. Курс предназначен для тех, кто уже знает, как строятся базы данных и работает ETL-процесс, кто уже прошел путь первичных построений и нуждается в расширенных методах обработки потоковых данных и хранения огромных массивов.
Кому будет полезен этот курс:
а) ETL-разработчикам
Сделаете следующий шаг в карьере и сможете помочь бизнесу в процессах масштабирования.
б) Аналитикам и Data Scientists
Сможете перейти из анализа и построения моделей в инжиниринг, стать специалистом редкого профиля и зарабатывать больше.
в) Разработчикам Scala, Python, Java
Сможете сменить разработку на работу с данными, при этом глубокие знания языков позволят это сделать безболезненно и продуктивно.
г) Системным администраторам
Сможете разворачивать среды под задачи аналитики и DS — войдёте в перспективную область, сделаете свои навыки предметными и вырастете в деньгах.
Для успешного обучения вам потребуются знания:
- по теории БД
- организации DWH, SQL
- основам ETL/ELT-процессов, BI-cистем, CLI.
Чему вы научитесь:
а) Предобрабатывать данные с помощью Python
Освоите синтаксис и библиотеки универсального инструмента аналитики, заложите фундамент для ML-изысканий
б) Выстраивать инфраструктуру для больших данных
Развернёте собственный инстанс Hadoop, разберётесь в lambda- и kappa архитектурах, создадите витрины данных
в) Разрабатывать и планировать сложные рабочие процессы
Призовёте направленные ациклические графы в Airflow и ленивые вычисления Spark
г) Обрабатывать real-time данные
Построите свой конвейер обработки даннных, сборщик событий, RTDM-систему с выводом в массовые enterprise BI-решения
д) Строить работающий пайплайн в облачной среде
И включать в него модели машинного обучения, нейронные сети, сервисы оркестрирования контейнеров и проверку версионности
е) Внедрять принципы гибкого подхода MLOps
Узнаете о философии CI\CD, пройдёте путь тестирования, продакшена и автоматического обучения ML-моделей
Программа обучения
1. Python
Основы Python
Введение в анализ данных на Python
Статистика в Python
Предобработка данных
Feature Selection
2. Data Lake & Hadoop
Основы Hadoop
HDFS
MapReduce
MapReduce 2
Yarn
Pig & Hive
HBase & Cassandra
Кластер. Управление и администрирование
3. Продвинутые методы работы с данными
Apache Spark
Работа со Spark
Spark SQL
Продвинутый Spark
Airflow
Работа с Airflow
Продвинутый Airflow
Dbt как инструмент ETL
4. Работа с потоковыми данными
ClickHouse
Kafka
Kafka Streams
Kafka Streams 2
Spark Streaming
Spark Streaming 2
5. Работа с данными в облаке
Google Cloud Platform — хранение данных
Spark в GCP
Managed ETL в GCP
Обработка real-time данных в GCP
Поиск инсайтов в данных при помощи ML
Другие облачные провайдеры
6. Введение в Data Science and Machine Learning
Введение в машинное обучение
Задача классификации
Задача кластеризации
Ансамблевые методы решения задачи классификации
Feature engineering
Нейронные сети
7. MLOps
Зачем нужен DevOps
Docker и микросервисная архитектура
K8S
Орекстраторы
CI/CD
Мониторинг
Инструменты DevOps для обучения ML-моделей
Deploy ML-моделей
Название занятия
Продажник: netology.ru/programs/data-engineering
1. Это курс о методах и инструментах, которые обеспечивают быструю, надежную и возобновляемую доставку данных, готовых к аналитике и эксплуатации моделей data science. DataOps-инженер — тот специалист, который может развернуть и конфигурировать все эти инструменты там, где остро встает вопрос масштабирования и гибкости.
2. Курс предназначен для тех, кто уже знает, как строятся базы данных и работает ETL-процесс, кто уже прошел путь первичных построений и нуждается в расширенных методах обработки потоковых данных и хранения огромных массивов.
Кому будет полезен этот курс:
а) ETL-разработчикам
Сделаете следующий шаг в карьере и сможете помочь бизнесу в процессах масштабирования.
б) Аналитикам и Data Scientists
Сможете перейти из анализа и построения моделей в инжиниринг, стать специалистом редкого профиля и зарабатывать больше.
в) Разработчикам Scala, Python, Java
Сможете сменить разработку на работу с данными, при этом глубокие знания языков позволят это сделать безболезненно и продуктивно.
г) Системным администраторам
Сможете разворачивать среды под задачи аналитики и DS — войдёте в перспективную область, сделаете свои навыки предметными и вырастете в деньгах.
Для успешного обучения вам потребуются знания:
- по теории БД
- организации DWH, SQL
- основам ETL/ELT-процессов, BI-cистем, CLI.
Чему вы научитесь:
а) Предобрабатывать данные с помощью Python
Освоите синтаксис и библиотеки универсального инструмента аналитики, заложите фундамент для ML-изысканий
б) Выстраивать инфраструктуру для больших данных
Развернёте собственный инстанс Hadoop, разберётесь в lambda- и kappa архитектурах, создадите витрины данных
в) Разрабатывать и планировать сложные рабочие процессы
Призовёте направленные ациклические графы в Airflow и ленивые вычисления Spark
г) Обрабатывать real-time данные
Построите свой конвейер обработки даннных, сборщик событий, RTDM-систему с выводом в массовые enterprise BI-решения
д) Строить работающий пайплайн в облачной среде
И включать в него модели машинного обучения, нейронные сети, сервисы оркестрирования контейнеров и проверку версионности
е) Внедрять принципы гибкого подхода MLOps
Узнаете о философии CI\CD, пройдёте путь тестирования, продакшена и автоматического обучения ML-моделей
Программа обучения
1. Python
Основы Python
Введение в анализ данных на Python
Статистика в Python
Предобработка данных
Feature Selection
2. Data Lake & Hadoop
Основы Hadoop
HDFS
MapReduce
MapReduce 2
Yarn
Pig & Hive
HBase & Cassandra
Кластер. Управление и администрирование
3. Продвинутые методы работы с данными
Apache Spark
Работа со Spark
Spark SQL
Продвинутый Spark
Airflow
Работа с Airflow
Продвинутый Airflow
Dbt как инструмент ETL
4. Работа с потоковыми данными
ClickHouse
Kafka
Kafka Streams
Kafka Streams 2
Spark Streaming
Spark Streaming 2
5. Работа с данными в облаке
Google Cloud Platform — хранение данных
Spark в GCP
Managed ETL в GCP
Обработка real-time данных в GCP
Поиск инсайтов в данных при помощи ML
Другие облачные провайдеры
6. Введение в Data Science and Machine Learning
Введение в машинное обучение
Задача классификации
Задача кластеризации
Ансамблевые методы решения задачи классификации
Feature engineering
Нейронные сети
7. MLOps
Зачем нужен DevOps
Docker и микросервисная архитектура
K8S
Орекстраторы
CI/CD
Мониторинг
Инструменты DevOps для обучения ML-моделей
Deploy ML-моделей
Название занятия
Продажник: netology.ru/programs/data-engineering