Продвинутые методы машинного обучения [2021] [МФТИ] [Олег Ивченко]

admin · 30.05.2022

Продвинутые методы машинного обучения [2021]
МФТИ (ФПМИ МФТИ Физтех-школа прикладной математики и информатики)
Олег Ивченко

Программа профессиональной переподготовки.

Программа профессиональной переподготовке включает три курса:
1. Анализ изображений
2. Анализ текстов
3. Машинное обучение на больших объемах данных.

Содержание
Блок 1 - Анализ изображений
Модуль 1 - Введение в анализ изображений. Основы обработки изображений
1.1. Введение в анализ изображений.

Задачи компьютерного зрения – метрическое и семантическое зрение.
Возникающие трудности и визуальные подсказки.
Примеры современных систем и алгоритмов компьютерного зрения.
Устройство камеры и оптической системы человека.
Модели цвета.
1.2 Основы обработки изображений (часть 1)

Основные задачи обработки изображений.
Цветокоррекция изображений. Гистограммы, линейная и нелинейная коррекции яркости. Модели камеры и цветокоррекции.
Виды шума. Операция свертки. Фильтр гаусса, медианный фильтр, повышение резкости. Выравнивание освещенности – алгоритм Retinex. Метрика PSNR.
Выделение краев, алгоритм Canny.
1.3. Основы обработки изображений (часть 2)

Частотное представление изображений, частотная фильтрация изображений, алгоритм JPEG. Простая сегментация изображений - бинаризация, выделение связанных компонент, математическая морфология.
Понятие текстуры.
Эвристические методы распознавания с помощью признаков сегментов.
Модуль 2 - Выделение базовых объектов на изображениях. Геометрические модели сопоставления изображений
2.1. Локальные особенности изображений

Задача сопоставления изображений. Понятие локальной особенности.
Детекторы Харриса, LoG, DOG, Harris-Laplacian.
Сопоставление особенностей по дескрипторам - метод SIFT, аффинная адаптация.
2.2. Оценка параметров моделей

Задачи оценки параметров геометрических моделей.
DLT-метод для линий и преобразований.
Робастные алгоритмы - М-оценки, стохастические алгоритмы, схемы голосования. Применение для построения панорам и поиска объектов.
Модуль 3 - Основы машинного обучения. Обнаружение объектов
3.1. Категоризация изображений

Понятие категории.
Распознавание категорий человеком.
Общая схема категоризации изображений. Признаки. Гистограммы признаков, пирамиды. Визуальные слова и мешок слов.
3.2. Выделение категорий на изображениях

Задача выделения категорий объектов на изображении. Скользящее окно. Применение мешка слов для выделения объектов.
Метод HOG + SVM, размножение выборки и бутстраппинг.
Методы на основе слабых классификаторов. Алгоритм поиска лиц Viola-Jones, признаки Хоара, интегральные изображения.
Пути развития детекторов и современное состояние
3.3. Поиск изображений по содержанию

Варианты постановки задачи - поиск полудубликатов, поиск похожих, поиск по классам. Поиск на основе цветовых гистограмм (QBIC).
Дескриптор GIST.
Поиск полудубликатов - приближенные методы ближайшего соседа, инвертированный индекс, хэширование.
Поиск на основе Мешка слов, обратный индекс, использование пространственной информации для повышения точности.
Модуль 4 - Нейросетевые подходы к анализу изображений. Основные задачи и алгоритмы
4.1. Интернет-зрение

Большие коллекции изображений и методы их составления.
Дополнение изображений (Image completion) с помощью больших коллекций. Классификация изображений с помощью больших коллекций.
Фотоколлажи. Shape context. Объектные фильтры.
4.2.. Оптический поток и вычитание фона

Введение в обработку и анализ видео.
Понятие оптического потока. Глобальные и локальные (Lucas-Kanade) методы оценки оптического потока.
Вычитание фона (BS - background subtraction). Алгоритмы BS: одна гауссиана, смесь гауссиан, поблочные методы, объединение локальных и глобальных цветовых моделей.
4.3. Сопровождение объектов и распознавание событий в видео

Задача сопровождения объектов в видео, постановки, критерии качества и проблемы.
Сопровождение одного объекта - сопоставления шаблонов, на основе Chamfer-метрики, MeanShift, Flock of features, комбинации методов.
Сопровождение множества объектов - сопровождение через сопоставление.
Распознавание событий в видео, тестовые базы, автоматическая разметка видео. Методы распознавания - дескрипторы на основе оптического потока, локальные особенности, классификация, прицеливание.
4.4. Компьютерное зрение реального времени

Алгоритмы дополненной реальности, требования к ним.
Решающий лес как один из базовых методов для дополненной реальности.
Регистрация изображений в реальном времени.
Система Kinect и оценка позы человека в реальном времени.
Блок 2 - Анализ текстов
Модуль 1

Intro to NLP
Модуль 2

Lecture: Word embeddings
Distributional semantics. Count-based (pre-neural) methods. Word2Vec: learn vectors. GloVe: count, then learn. N-gram (collocations) RusVectores. t-SNE.
Practical: word2vec, fasttext
Модуль 3

Lecture: RNN + CNN, Text classification
Neural Language Models: Recurrent Models, Convolutional Models. Text classification (architectures)
Practical: Classification with LSTM, CNN
Модуль 4

Lecture: Language modelling and NER
Task description, methods (Markov Model, RNNs), evaluation (perplexity), Sequence Labelling (NER, pos-tagging, chunking etc.) N-gram language models, HMM, MEMM, CRF
Practical: NER
Модуль 5

Lecture: Machine translation, Seq2seq, Attention, Transformers
Basics: Encoder-Decoder framework, Inference (e.g., beam search), Eval (bleu). Attention: general, score functions, models. Bahdanau and Luong models. Transformer: self-attention, masked self-attention, multi-head attention.
Модуль 6

Lecture: Transfer learning in NLP
Bertology (BERT, GPT-s, t5, etc.), Subword Segmentation (BPE), Evaluation of big LMs.
Practical: transformers models for classification task,
Practical: Transfer learning
Модуль 7

Lecture & Practical: How to train big models? Part1. Distributed training, Part2. RuGPT3 Training
Training Multi-Billion Parameter Language Models. Model Parallelism. Data Parallelism.
Practical: DDP example
Модуль 8

Lecture: Syntax parsing
Practical: Syntax
Модуль 9

Lecture: Question answering
Practical: seminar QA, seminar chatbots
Squads (one-hop, multi-hop), architectures, retrieval and search, chat-bots
Модуль 10

Lecture: Summarization, simplification, paraphrasing
Practical: summarization seminar
Модуль 11

Lecture: Knowledge Distillation in NLP
Блок 3 - Машинное обучение на больших объемах данных
Модуль 1 - Методы оптимизации и линейные модели

Машинное обучение с учителем на больших данных.
Закон Ципфа.
Тематическое моделирование.
Метод стохастического градиента.
Постановка задачи.
Оптимизации обучения на больших данных: градиентный спуск, стохастический градиент.
Признаки.
Пространства признаков, веса признаков, нормализация признаков.
Генерация и хеширование признаков.
Онлайн обучение линейных моделей.
Метод стохастического градиента: выбор функции потерь.
Оценка качества метода стохастического градиента.
Алгоритм Бутстрап.
Хеширование, чувствительное к расстоянию (LSH).
Меры сходства: расстояние Жаккара, Хемминга, косинусное расстояние, Евклидово расстояние.
Оптимизация и тестирование гиперпараметров.
Симплекс-метод.
Модуль 2 - Алгоритмы работы с графами большого размера

Графы, их виды.
Стохастический граф.
Представление графа: матрицы смежности, инцидентности, достижимости.
Списки смежности.
Алгоритмы перевода из одного представления в другое.
Социальный граф.
Задача поиска общих друзей в социальном графе.
Язык DSL.
Граф пользовательских предпочтений.
Использование подхода BigData в анализе графов.
Модуль 3 - Информационный поиск

Постановка ранжирования.
Основные подходы к решению задачи ранжирования.
Метрики измерения точности ранжирования.
Кликовые модели.
Тематическое моделирование и его связь с ранжированием.
Проблемы тематического моделирования при больших данных.
AD-LDA, его недостатки, Y!LDA, Mr. LDA. ARTM.
Архитектура библиотеки BigARTM.
Online LDA и его применение в Vowpal Wabbit.
Модуль 4 - Рекомендательные системы

Рекомендательные системы, постановка задачи предсказания / рекомендации.
Классификация рекомендательных систем.
Неперсонализированные рекомендательные системы, content-based рекомендательные системы.
Задачи коллаборативной фильтрации, транзакционные данные и матрица субъекты—объекты.
Корреляционные методы, методы сходства (neighbourhood) - user-based, item-based.
Латентные методы на основе матричных разложений.
Методы ALS и iALS.
Современные рекомендательные системы: рекомендательные системы, основанные на учете контекста (context aware), аспектные рекомендательные системы (aspect-aware), рекомендательные системы на основе тензорных разложений.

Продажник

Поиск

Бесплатные online курсы, скачать сливы курсов - kursy.live

Слив курсов - это быстрый и доступный способ получить дополнительные зания или ознакомиться с курсом, до его покупки.

Оперативная поддержка

Постоянное обновление

Гибкие тарифы

Продвинутые методы машинного обучения [2021] [МФТИ] [Олег Ивченко]

admin

Administrator

О сливах курсов

Что нового

Онлайн статистика