- Регистрация
- 26.05.2022
- Сообщения
- 26 711
- Реакции
- 180
- Баллы
- 63
Machine Learning with Text in Python
Автор: Kevin Markham бывший наставник Data Science Expert Mentor для Springboard и бывший ведущий научный руководитель Генеральной Ассамблеи в Вашингтоне.
Формат: видео
Продолжительность: ~ 14 ч.
Язык: английский
К каждой лекции прилагаются подробно прокомментированные примеры кода в формате Jupyter Notebook и 1-2 домашних задания.
В этом курсе вы получите практический опыт использования машинного обучения и обработки естественного языка для решения задач, связанных с текстовыми данными.
Мы проведем большую часть времени за написанием кода на Python, и вы поймете, как каждая отдельная строка кода относится к нашей задаче, которую мы решаем.
К концу курса вы сможете уверенно применять эти методы и создавать эффективные модели машинного обучения с использованием текстовых данных для решения ваших собственных задач.
Содержание курса
1. Работа с текстовыми данными в scikit-learn
К концу этой лекции вы сможете уверенно выполнять базовый рабочий процесс для машинного обучения с текстом: создание набора данных, извлечение фич из неструктурированного текста, построение и оценка моделей и проверка моделей для дальнейшего понимания. Вы также освоите понимание Unicode, позволяющее устранить ошибки связанные с кодировкой.
- Извлечение фич из неструктурированного текста с помощью CountVectorizer
- Построение модели MultinomialNB для классификации текста
- Изучение модели для дальнейшего понимания
- Оценка модели:
accuracy_score
confusion_matrix
roc_auc_score
- Сравнение MultinomialNB с LogisticRegression
- Создание нового набора данных из отдельных текстовых файлов с использованием pandas
- Основы Unicode
- Обработка ошибок Unicode
2. Применение методов обработки естественного языка для машинного обучения
К концу этой лекции вы сможете применить несколько методов обработки естественного языка для машинного обучения, чтобы повысить эффективность ваших моделей. Вы также узнаете, как выполнить анализ тональности текста и создать простой инструмент суммаризации документов для своего собственного текстового корпуса.
- Что такое обработка естественного языка (NLP)?
- Терминология и примеры NLP
- CountVectorizer для лучшей производительности модели:
n-grams
stop words
corpus-specific stop words
minimum document frequency
- Алгоритм TF-IDF с использованием TfidfVectorizer
- Суммаризация текста и вывод общей темы документа
- Определение тональности текста используя TextBlob
3. Извлечение текстовых данных с использованием регулярных выражений
В конце этой лекции вы сможете извлекать фичи из беспорядочных источников данных, используя регулярные выражения. Вы узнаете основные правила и синтаксис, которые могут применяться на всех языках программирования, и вы освоите самые важные функции и параметры Python для работы с регулярными выражениями.
- Основные правила и принципы
- Поиск с помощью re.search
- Mетасимволы
- Жадные и ленивые квантификаторы
- Классы символов
- Альтернативы
- Замена с помощью re.sub
- Анкоры
- Флаги опций
- Эффективный поиск нескольких совпадений используя re.findall
- Улучшение производительности с помощью re.compile
- Написание читаемых регулярных выражений с re.VERBOSE
4. Рабочий процесс с текстовыми данными
В конце этой лекции вы сможете создать комплексный рабочий процесс для решения задачь с текстовыми данными, используя scikit-learn и pandas. Вы приобретете опыт в области поиска данных, разработки функций, правильной оценки модели, настройки модели и создания прогнозов для новых наблюдений.
- Исследование и визуализация данных
- Реконструирование с помощью pandas
- Сегментация с использованием регулярных выражений
- Многоклассовая классификация
- Оценка модели:
train_test_split
cross_val_score
DummyClassifier
- Поиск оптимальных параметров настройки с помощью GridSearchCV
- Выполнение прогнозов для данных вне образца
5. Передовые методы машинного обучения
К концу этой лекции вы сможете применять современные методы машинного обучения для повышения точности ваших моделей и эффективности вашего рабочего процесса. Вы узнаете, как создавать и настраивать многоступенчатый многоуровневый конвейер для машинного обучения, а также как собирать и складывать ваши модели.
- Использование Pipeline для правильной перекрестной проверки
- Настройка Pipeline с помощью GridSearchCV
- Эффективный поиск параметров настройки с RandomizedSearchCV
- Stacking sparse and dense feature matrices using SciPy
- Объединение результатов нескольких процессов извлечения компонентов с помощью FeatureUnion
- Создание кастомных трансформаций с помощью FunctionTransformer
- Повышение эффективности классификатора за счет ансамбля
- Неконтролируемая кластеризация документов с использованием подобия косинуса
Этот курс среднего уровня с определенными предпосылками:
Вы уверенно работаете с языком Python.
Вы понимаете основные принципы машинного обучения.
Вы уверенно работаете с scikit-learn.
Вы имеете хотябы базовый опыт работы с pandas.
Продажник:
Автор: Kevin Markham бывший наставник Data Science Expert Mentor для Springboard и бывший ведущий научный руководитель Генеральной Ассамблеи в Вашингтоне.
Формат: видео
Продолжительность: ~ 14 ч.
Язык: английский
К каждой лекции прилагаются подробно прокомментированные примеры кода в формате Jupyter Notebook и 1-2 домашних задания.
В этом курсе вы получите практический опыт использования машинного обучения и обработки естественного языка для решения задач, связанных с текстовыми данными.
Мы проведем большую часть времени за написанием кода на Python, и вы поймете, как каждая отдельная строка кода относится к нашей задаче, которую мы решаем.
К концу курса вы сможете уверенно применять эти методы и создавать эффективные модели машинного обучения с использованием текстовых данных для решения ваших собственных задач.
Содержание курса
1. Работа с текстовыми данными в scikit-learn
К концу этой лекции вы сможете уверенно выполнять базовый рабочий процесс для машинного обучения с текстом: создание набора данных, извлечение фич из неструктурированного текста, построение и оценка моделей и проверка моделей для дальнейшего понимания. Вы также освоите понимание Unicode, позволяющее устранить ошибки связанные с кодировкой.
- Извлечение фич из неструктурированного текста с помощью CountVectorizer
- Построение модели MultinomialNB для классификации текста
- Изучение модели для дальнейшего понимания
- Оценка модели:
accuracy_score
confusion_matrix
roc_auc_score
- Сравнение MultinomialNB с LogisticRegression
- Создание нового набора данных из отдельных текстовых файлов с использованием pandas
- Основы Unicode
- Обработка ошибок Unicode
2. Применение методов обработки естественного языка для машинного обучения
К концу этой лекции вы сможете применить несколько методов обработки естественного языка для машинного обучения, чтобы повысить эффективность ваших моделей. Вы также узнаете, как выполнить анализ тональности текста и создать простой инструмент суммаризации документов для своего собственного текстового корпуса.
- Что такое обработка естественного языка (NLP)?
- Терминология и примеры NLP
- CountVectorizer для лучшей производительности модели:
n-grams
stop words
corpus-specific stop words
minimum document frequency
- Алгоритм TF-IDF с использованием TfidfVectorizer
- Суммаризация текста и вывод общей темы документа
- Определение тональности текста используя TextBlob
3. Извлечение текстовых данных с использованием регулярных выражений
В конце этой лекции вы сможете извлекать фичи из беспорядочных источников данных, используя регулярные выражения. Вы узнаете основные правила и синтаксис, которые могут применяться на всех языках программирования, и вы освоите самые важные функции и параметры Python для работы с регулярными выражениями.
- Основные правила и принципы
- Поиск с помощью re.search
- Mетасимволы
- Жадные и ленивые квантификаторы
- Классы символов
- Альтернативы
- Замена с помощью re.sub
- Анкоры
- Флаги опций
- Эффективный поиск нескольких совпадений используя re.findall
- Улучшение производительности с помощью re.compile
- Написание читаемых регулярных выражений с re.VERBOSE
4. Рабочий процесс с текстовыми данными
В конце этой лекции вы сможете создать комплексный рабочий процесс для решения задачь с текстовыми данными, используя scikit-learn и pandas. Вы приобретете опыт в области поиска данных, разработки функций, правильной оценки модели, настройки модели и создания прогнозов для новых наблюдений.
- Исследование и визуализация данных
- Реконструирование с помощью pandas
- Сегментация с использованием регулярных выражений
- Многоклассовая классификация
- Оценка модели:
train_test_split
cross_val_score
DummyClassifier
- Поиск оптимальных параметров настройки с помощью GridSearchCV
- Выполнение прогнозов для данных вне образца
5. Передовые методы машинного обучения
К концу этой лекции вы сможете применять современные методы машинного обучения для повышения точности ваших моделей и эффективности вашего рабочего процесса. Вы узнаете, как создавать и настраивать многоступенчатый многоуровневый конвейер для машинного обучения, а также как собирать и складывать ваши модели.
- Использование Pipeline для правильной перекрестной проверки
- Настройка Pipeline с помощью GridSearchCV
- Эффективный поиск параметров настройки с RandomizedSearchCV
- Stacking sparse and dense feature matrices using SciPy
- Объединение результатов нескольких процессов извлечения компонентов с помощью FeatureUnion
- Создание кастомных трансформаций с помощью FunctionTransformer
- Повышение эффективности классификатора за счет ансамбля
- Неконтролируемая кластеризация документов с использованием подобия косинуса
Этот курс среднего уровня с определенными предпосылками:
Вы уверенно работаете с языком Python.
Вы понимаете основные принципы машинного обучения.
Вы уверенно работаете с scikit-learn.
Вы имеете хотябы базовый опыт работы с pandas.
Продажник: