- Регистрация
- 26.05.2022
- Сообщения
- 26 725
- Реакции
- 187
- Баллы
- 63
В последние годы язык программирования Python становится более востребованным и популярным по нескольким причинам:
множество уже готовых удобных библиотек и фреймворков делает этот язык №1 в сфере обработки данных для научных вычислений
Python для анализа данных используется многими большими компаниями такими, как , Yandex, Google, Facebook, Uber и другими
простота синтаксиса и освоения позволяют новичкам быстро научиться программировать и решать достаточно сложные задачи
Курс Python для анализа данных является продолжение курсов Основы программирования на Python. Уровень 1 и Основы программирования на Python. Уровень 2 и не подходит для тех, кто хочет освоить Pyhton с нуля.
Содержание
Занятие 1. Анализ табличных данных стандартными средствами Python
Стандартные типы коллекций (списки, словари и т.д.) и приемы эффективной работы с ними
Чтение и запись csv и tsv файлов
Обработка Excel файлов с помощью OpenPyXL.
Практика: анализ источника данных Климат городов России
ДЗ: решение задач биоинформатики (4 шт).
Занятие 2. Использование SQL для анализа и манипулирования данными
Определение СУБД. Немного теории (нормальные формы)
Операторы SQL.
Python Database API Specification - для работы с любой СУБД
Примеры работы со встраиваемой СУБД SQLite
Практика: создание реляционных таблиц из источника данных Климат городов России и выполнение аналитических запросов
Занятие 3. NumPy как средство обработки данных
Ndarray - объект многомерного массива
Математические и статистические операции
Файловый ввод/вывод массивов
Немного линейной алгебры
Генерация случайных чисел.
Практика: анализ двумерного массива
Занятие 4. Сбор и подготовка данных. Работа с XML, HTML и JSON. Автоматизация сбора данных
Библиотека beautifulsoup для разбора HTML файлов
Форматы структурированных данных JSON и XML. Примеры практической работы.
Использование Splinter для автоматизации сбора данных
Практика: получение данных от веб-сервисов прогноза погоды и расчет обобщенных показателей
Занятие 5. Визуализация данных в Python: matplotlib, plotly, bokeh
API библиотеки matplotlib
Линейные и столбчатые диаграммы
Гистограммы и графики плотности
Визуализация данных на карте
Построение интерактивных диаграмм с помощью plotly и bokeh
Занятие 6. Библиотека pandas. Базовая функциональность
Арифметические операции и выравнивание данных
Редукция и вычисление описательных характеристик
Обработка отсутствующих данных
Практика: работа с набором данных рейтинга фильмов
Занятие 7. Переформатирование данных с помощью pandas
Комбинирование и слияние наборов данных
Изменение формы и поворот
Устранение дубликатов и прочие преобразования данных
Практика: работа с набором данных рейтинга фильмов
Занятие 8. Аггрегирование данных и групповые операции
Группировка с помощью функций
Группировка по уровням индекса
Аггрегирование данных
Групповые операци и ипреобразования
Сводные таблицы
Занятие 9. Введение в машинное обучение. Модели, задачи классификации и библиотека SciKit
Обзор задач машинного обучения и библиотек для их решения
Построение классификаторов
Методы кластеризации
Практика: пример кластеризации сообщений
Занятие 10. Дополнительные возможности и библиотеки
Дополнительные возможности NumPy и Pandas
Обзор интересных сторонних библиотек
Решение практических задач
Выборочное повторение пройденного материала
Продажник
множество уже готовых удобных библиотек и фреймворков делает этот язык №1 в сфере обработки данных для научных вычислений
Python для анализа данных используется многими большими компаниями такими, как , Yandex, Google, Facebook, Uber и другими
простота синтаксиса и освоения позволяют новичкам быстро научиться программировать и решать достаточно сложные задачи
Курс Python для анализа данных является продолжение курсов Основы программирования на Python. Уровень 1 и Основы программирования на Python. Уровень 2 и не подходит для тех, кто хочет освоить Pyhton с нуля.
Содержание
Занятие 1. Анализ табличных данных стандартными средствами Python
Стандартные типы коллекций (списки, словари и т.д.) и приемы эффективной работы с ними
Чтение и запись csv и tsv файлов
Обработка Excel файлов с помощью OpenPyXL.
Практика: анализ источника данных Климат городов России
ДЗ: решение задач биоинформатики (4 шт).
Занятие 2. Использование SQL для анализа и манипулирования данными
Определение СУБД. Немного теории (нормальные формы)
Операторы SQL.
Python Database API Specification - для работы с любой СУБД
Примеры работы со встраиваемой СУБД SQLite
Практика: создание реляционных таблиц из источника данных Климат городов России и выполнение аналитических запросов
Занятие 3. NumPy как средство обработки данных
Ndarray - объект многомерного массива
Математические и статистические операции
Файловый ввод/вывод массивов
Немного линейной алгебры
Генерация случайных чисел.
Практика: анализ двумерного массива
Занятие 4. Сбор и подготовка данных. Работа с XML, HTML и JSON. Автоматизация сбора данных
Библиотека beautifulsoup для разбора HTML файлов
Форматы структурированных данных JSON и XML. Примеры практической работы.
Использование Splinter для автоматизации сбора данных
Практика: получение данных от веб-сервисов прогноза погоды и расчет обобщенных показателей
Занятие 5. Визуализация данных в Python: matplotlib, plotly, bokeh
API библиотеки matplotlib
Линейные и столбчатые диаграммы
Гистограммы и графики плотности
Визуализация данных на карте
Построение интерактивных диаграмм с помощью plotly и bokeh
Занятие 6. Библиотека pandas. Базовая функциональность
Арифметические операции и выравнивание данных
Редукция и вычисление описательных характеристик
Обработка отсутствующих данных
Практика: работа с набором данных рейтинга фильмов
Занятие 7. Переформатирование данных с помощью pandas
Комбинирование и слияние наборов данных
Изменение формы и поворот
Устранение дубликатов и прочие преобразования данных
Практика: работа с набором данных рейтинга фильмов
Занятие 8. Аггрегирование данных и групповые операции
Группировка с помощью функций
Группировка по уровням индекса
Аггрегирование данных
Групповые операци и ипреобразования
Сводные таблицы
Занятие 9. Введение в машинное обучение. Модели, задачи классификации и библиотека SciKit
Обзор задач машинного обучения и библиотек для их решения
Построение классификаторов
Методы кластеризации
Практика: пример кластеризации сообщений
Занятие 10. Дополнительные возможности и библиотеки
Дополнительные возможности NumPy и Pandas
Обзор интересных сторонних библиотек
Решение практических задач
Выборочное повторение пройденного материала
Продажник