[Data School]Machine Learning with Text in Python

admin · 30.05.2022

Machine Learning with Text in Python

Автор: Kevin Markham бывший наставник Data Science Expert Mentor для Springboard и бывший ведущий научный руководитель Генеральной Ассамблеи в Вашингтоне.
Формат: видео
Продолжительность: ~ 14 ч.
Язык: английский
К каждой лекции прилагаются подробно прокомментированные примеры кода в формате Jupyter Notebook и 1-2 домашних задания.

В этом курсе вы получите практический опыт использования машинного обучения и обработки естественного языка для решения задач, связанных с текстовыми данными.

Мы проведем большую часть времени за написанием кода на Python, и вы поймете, как каждая отдельная строка кода относится к нашей задаче, которую мы решаем.

К концу курса вы сможете уверенно применять эти методы и создавать эффективные модели машинного обучения с использованием текстовых данных для решения ваших собственных задач.

Содержание курса
1. Работа с текстовыми данными в scikit-learn

К концу этой лекции вы сможете уверенно выполнять базовый рабочий процесс для машинного обучения с текстом: создание набора данных, извлечение фич из неструктурированного текста, построение и оценка моделей и проверка моделей для дальнейшего понимания. Вы также освоите понимание Unicode, позволяющее устранить ошибки связанные с кодировкой.

- Извлечение фич из неструктурированного текста с помощью CountVectorizer

- Построение модели MultinomialNB для классификации текста

- Изучение модели для дальнейшего понимания

- Оценка модели:

accuracy_score

confusion_matrix

roc_auc_score

- Сравнение MultinomialNB с LogisticRegression

- Создание нового набора данных из отдельных текстовых файлов с использованием pandas

- Основы Unicode

- Обработка ошибок Unicode

2. Применение методов обработки естественного языка для машинного обучения

К концу этой лекции вы сможете применить несколько методов обработки естественного языка для машинного обучения, чтобы повысить эффективность ваших моделей. Вы также узнаете, как выполнить анализ тональности текста и создать простой инструмент суммаризации документов для своего собственного текстового корпуса.

- Что такое обработка естественного языка (NLP)?

- Терминология и примеры NLP

- CountVectorizer для лучшей производительности модели:

n-grams

stop words

corpus-specific stop words

minimum document frequency

- Алгоритм TF-IDF с использованием TfidfVectorizer

- Суммаризация текста и вывод общей темы документа

- Определение тональности текста используя TextBlob

3. Извлечение текстовых данных с использованием регулярных выражений

В конце этой лекции вы сможете извлекать фичи из беспорядочных источников данных, используя регулярные выражения. Вы узнаете основные правила и синтаксис, которые могут применяться на всех языках программирования, и вы освоите самые важные функции и параметры Python для работы с регулярными выражениями.

- Основные правила и принципы

- Поиск с помощью re.search

- Mетасимволы

- Жадные и ленивые квантификаторы

- Классы символов

- Альтернативы

- Замена с помощью re.sub

- Анкоры

- Флаги опций

- Эффективный поиск нескольких совпадений используя re.findall

- Улучшение производительности с помощью re.compile

- Написание читаемых регулярных выражений с re.VERBOSE

4. Рабочий процесс с текстовыми данными

В конце этой лекции вы сможете создать комплексный рабочий процесс для решения задачь с текстовыми данными, используя scikit-learn и pandas. Вы приобретете опыт в области поиска данных, разработки функций, правильной оценки модели, настройки модели и создания прогнозов для новых наблюдений.

- Исследование и визуализация данных

- Реконструирование с помощью pandas

- Сегментация с использованием регулярных выражений

- Многоклассовая классификация

- Оценка модели:

train_test_split

cross_val_score

DummyClassifier

- Поиск оптимальных параметров настройки с помощью GridSearchCV

- Выполнение прогнозов для данных вне образца

5. Передовые методы машинного обучения

К концу этой лекции вы сможете применять современные методы машинного обучения для повышения точности ваших моделей и эффективности вашего рабочего процесса. Вы узнаете, как создавать и настраивать многоступенчатый многоуровневый конвейер для машинного обучения, а также как собирать и складывать ваши модели.

- Использование Pipeline для правильной перекрестной проверки

- Настройка Pipeline с помощью GridSearchCV

- Эффективный поиск параметров настройки с RandomizedSearchCV

- Stacking sparse and dense feature matrices using SciPy

- Объединение результатов нескольких процессов извлечения компонентов с помощью FeatureUnion

- Создание кастомных трансформаций с помощью FunctionTransformer

- Повышение эффективности классификатора за счет ансамбля

- Неконтролируемая кластеризация документов с использованием подобия косинуса

Этот курс среднего уровня с определенными предпосылками:

Вы уверенно работаете с языком Python.

Вы понимаете основные принципы машинного обучения.

Вы уверенно работаете с scikit-learn.

Вы имеете хотябы базовый опыт работы с pandas.

Продажник:

Поиск

Бесплатные online курсы, скачать сливы курсов - kursy.live

Слив курсов - это быстрый и доступный способ получить дополнительные зания или ознакомиться с курсом, до его покупки.

Оперативная поддержка

Постоянное обновление

Гибкие тарифы

[Data School]Machine Learning with Text in Python

admin

Administrator

О сливах курсов

Что нового

Онлайн статистика