- Регистрация
- 26.05.2022
- Сообщения
- 26 711
- Реакции
- 179
- Баллы
- 63
Продвинутая аналитика [2022]
HARD Аналитика [2022]
karpov.courses
Максим Годзи, Роман Беднарский, Искандер Мирмахмадов, Виталий Черемисинов, Евгений Ермаков
Глубоко копаем в продукт и поведение пользователей.
Для кого эта программа:
1. Middle/Senior аналитик
Умеете проводить простые A/B-тесты, считать метрики и RFM-анализ. Хотите решать более сложные и интересные задачи и развиваться.2. Junior/Middle Data Scientist
Хотите копнуть в продукт и статистику. Узнаете больше о том как функционирует продукт и как с ним работать с точки зрения аналитики.
Глубокие продуктовые задачи:
1. Выбирайте оптимальные методы для проведения эксперимента и его оценки
2. Ищите самые популярные пути в продукте, а также точки оттока
3. Считайте юнит-экономику продукта в связке с метриками
4. Определяйте оптимальный аналитический стек, настраивайте мониторинги метрик и алёрты
5. Применяйте машинное обучение в продуктовой аналитике
Содержание
Модуль 1 - Работы с экспериментами
Разберемся, какие ошибки допускаются при проектировании и проведении экспериментов, как дизайнить эксперименты для оффлайна и онлайна, что такое оптимальный бутстрап, как ускорять эксперименты, как проверять сплит-систему на качество и где применять баесовские методы.
1. Дизайн метрик
На вводном занятии расскажем про дизайн метрик.
Разберем основные паттерны создания метрик продукта и на примерах рассмотрим, как и когда лучше этим пользоваться.
2. Какие ошибки можно допустить при дизайне и проведении эксперимента
Поговорим про поправку на множественное тестирование, про подглядывания и пересечение групп.
3. Способы проведения экспериментов. Доказательная лестница.
Чистый эксперимент.
Статистический эксперимент (рандомизированные контролируемые исследования).
Квази эксперимент (когда нет возможности поделить объекты на группы).
Counterfactuals (синтетические методы: очень сложно и низкая доказательная сила. Как правило, ретроспективные данные).
4. Как дизайнить эксперименты в онлайне
Как подобрать оптимально мощные критерии для оценки эксперимента.
Как структурировать эксперименты.
5. Как дизайнить эксперименты в оффлайне
Как проводить эксперименты, если субъектом является не пользователь, а магазин/терминал/ресторан.
6. Как понять, что Т-тест не работает, и что делать в таком случае
Как убедиться, что статистический критерий действительно работает и проверить это на основе реальных данных.
7. Как и зачем использовать бутстрап.
Примеры задач, где лучше через бутстрап.
Как работает бутстрап.
Почему он работает.
Почему повсеместно не используют бутстрап: границы применимости.
Различные варианты применения.
Выбор параметров.
Типичные ошибки
8. Зачем и как ускорять эксперименты
Повышение чувствительности метрик, особые приемы обработки.
Включение в эксперимент по триггерам.
Проверка комбинаций гипотез.
9. 5 разных примеров дизайна экспериментов и их результатов с разными типами метрик и способами оценки
Разберем реальные кейсы планирования, запуска, оценки и интерпретации результатов экспериментов.
10. Зачем и как проверять сплит-систему на качество
От качества работы сплит системы зависит исход эксперимента.
Если система ошибается, то результат эксперимента будет зависеть не от гипотезы, а от поломок.
На модуле разберем, как убедиться, что система работает корректно и научимся искать ошибки.
Модуль 2 - Работа с продуктом
Узнаем, как искать пользовательские пути, ключевые фичи в продукте, определять аномалии и делать расчет юнит-экономики продукта.
1. Зачем знать марковские цепи, графы, фиттинг
Ключевой скрытый шаг продуктовой аналитики — выбор модели.
Воронка как модель: плюсы и минусы.
Проблема с детальным анализом траекторий пользователей, полюса подхода.
Постановка задачи перед более детальной моделью.
Проблема весов и нормировок.
Эквивалентность графа и матрицы переходов.
Ограничения матрицы как марковской модели.
Пайплайн работы с данными.
2. Как определить основные пользовательские пути в продукте с помощью инструментов анализа графов
Постановка задачи.
Подготовка данных.
Первичный анализ.
Выбор варианта векторизации.
Построение графов и матриц.
Сравнение графов и матриц.
Необходимость разделения на сегменты, варианты сегментации.
3. Поиск сегментов в продукте через кластеризацию
Построение поведенческих сегментов.
Анализ сегментов (анализ качества кластеризации и верификация).
Влияние качества и метода обработки сырых данных на кластеризацию.
Итеративный процесс анализа, иерархическая кластеризация.
4. Поиск сегментов через эвристики
Альтернативные способы сегментации: эвристики, классификаторы, внешние данные.
Совмещение сегментаций.
5. Как понять, приносит ли продукт деньги.
Расчет юнит-экономики и прогнозирование роста аудитории продукта с помощью когортного анализа.
Финансовая оценка когорт.
Модуль 3 - Машинное обучение для аналитика
Аналитик, не владеющий машинным обучением, сильно ограничен в своих возможностях. Разберем задачу прогноза метрик, подход к оптимизации метрики предсказания, а также прогноз оттока с помощью ML-алгоритмов.
1. Работа с векторами, построение и анализ предсказательных моделей в продуктовой аналитике
Зачем строить предсказательную модель, когда вам не нужно ничего предсказывать.
Подготовка данных для предиктора (тонкие моменты, feature engineering, feature reduction, перекрестное влияние фичей).
Траектории пользователей как фичи: декомпозиция траекторий, события и переходы, варианты векторизации, сравнение результатов, выбор n-грам, выбор нормировок, включение дополнительных фичей.
Критерии качества результата, метрики качества моделей для продуктовой аналитики.
Feature importance, как и зачем, связь с другими метриками фичей и событий.
2. Поиск ключевых фичей
Анализ важности событий.
Почему не только события, но и переходы, и паттерны.
Учет временных задержек.
Сравнение результатов и валидация.
Feature importance сводится к корреляции.
Неочевидные системы причинно-следственных связей, необходимость экспериментов.
3. Что такое прокси-метрики и зачем они нужны. Как искать прокси-метрики.
Разные определения прокси метрик.
Плохая vs хорошая прокси метрика.
Предиктивные прокти-метрики.
Устойчивость и точность предиктора.
Некоторые нюансы из статистики (сдвиги между прокси и целью, смеси распределений, особые случаи).
Зачем смотреть на ROC-AUC при анализе прокси-метрики (экономика ошибок предиктора).
Как выбрать модель для прокси-метрики: предсказательная, экстраполяционная и интерполяционная сила модели.
4. Кейс: Как отлаживать работу предиктора
Анализ точности и валидация.
Наблюдение за работой предиктора на примере модели скоринга.
Средства мониторинга моделей.
5. Кейс: Как и зачем предсказывать отток пользователей.
Разберемся, зачем и как считать отток.
Обучим модель машинного обучения и проверим её качество.
Обсудим, что с этим делать дальше.
Модуль 4 - Аналитическая архитектура
Поговорим про то как организовать сбор сырых данных кликстрима, его обработку. Как решаются типичные проблемы на уровне данных - обнаружение дубликатов записей, проклейка пользователей по различным идентификаторам, а также про построение регулярных процессов выявления аномалий и выбросов для мониторинга качества данных и генерации алертов.
Содержание дорабатывается на момент оформления темы.
Продажник
HARD Аналитика [2022]
karpov.courses
Максим Годзи, Роман Беднарский, Искандер Мирмахмадов, Виталий Черемисинов, Евгений Ермаков
Глубоко копаем в продукт и поведение пользователей.
Для кого эта программа:
1. Middle/Senior аналитик
Умеете проводить простые A/B-тесты, считать метрики и RFM-анализ. Хотите решать более сложные и интересные задачи и развиваться.2. Junior/Middle Data Scientist
Хотите копнуть в продукт и статистику. Узнаете больше о том как функционирует продукт и как с ним работать с точки зрения аналитики.
Глубокие продуктовые задачи:
1. Выбирайте оптимальные методы для проведения эксперимента и его оценки
2. Ищите самые популярные пути в продукте, а также точки оттока
3. Считайте юнит-экономику продукта в связке с метриками
4. Определяйте оптимальный аналитический стек, настраивайте мониторинги метрик и алёрты
5. Применяйте машинное обучение в продуктовой аналитике
Содержание
Модуль 1 - Работы с экспериментами
Разберемся, какие ошибки допускаются при проектировании и проведении экспериментов, как дизайнить эксперименты для оффлайна и онлайна, что такое оптимальный бутстрап, как ускорять эксперименты, как проверять сплит-систему на качество и где применять баесовские методы.
1. Дизайн метрик
На вводном занятии расскажем про дизайн метрик.
Разберем основные паттерны создания метрик продукта и на примерах рассмотрим, как и когда лучше этим пользоваться.
2. Какие ошибки можно допустить при дизайне и проведении эксперимента
Поговорим про поправку на множественное тестирование, про подглядывания и пересечение групп.
3. Способы проведения экспериментов. Доказательная лестница.
Чистый эксперимент.
Статистический эксперимент (рандомизированные контролируемые исследования).
Квази эксперимент (когда нет возможности поделить объекты на группы).
Counterfactuals (синтетические методы: очень сложно и низкая доказательная сила. Как правило, ретроспективные данные).
4. Как дизайнить эксперименты в онлайне
Как подобрать оптимально мощные критерии для оценки эксперимента.
Как структурировать эксперименты.
5. Как дизайнить эксперименты в оффлайне
Как проводить эксперименты, если субъектом является не пользователь, а магазин/терминал/ресторан.
6. Как понять, что Т-тест не работает, и что делать в таком случае
Как убедиться, что статистический критерий действительно работает и проверить это на основе реальных данных.
7. Как и зачем использовать бутстрап.
Примеры задач, где лучше через бутстрап.
Как работает бутстрап.
Почему он работает.
Почему повсеместно не используют бутстрап: границы применимости.
Различные варианты применения.
Выбор параметров.
Типичные ошибки
8. Зачем и как ускорять эксперименты
Повышение чувствительности метрик, особые приемы обработки.
Включение в эксперимент по триггерам.
Проверка комбинаций гипотез.
9. 5 разных примеров дизайна экспериментов и их результатов с разными типами метрик и способами оценки
Разберем реальные кейсы планирования, запуска, оценки и интерпретации результатов экспериментов.
10. Зачем и как проверять сплит-систему на качество
От качества работы сплит системы зависит исход эксперимента.
Если система ошибается, то результат эксперимента будет зависеть не от гипотезы, а от поломок.
На модуле разберем, как убедиться, что система работает корректно и научимся искать ошибки.
Модуль 2 - Работа с продуктом
Узнаем, как искать пользовательские пути, ключевые фичи в продукте, определять аномалии и делать расчет юнит-экономики продукта.
1. Зачем знать марковские цепи, графы, фиттинг
Ключевой скрытый шаг продуктовой аналитики — выбор модели.
Воронка как модель: плюсы и минусы.
Проблема с детальным анализом траекторий пользователей, полюса подхода.
Постановка задачи перед более детальной моделью.
Проблема весов и нормировок.
Эквивалентность графа и матрицы переходов.
Ограничения матрицы как марковской модели.
Пайплайн работы с данными.
2. Как определить основные пользовательские пути в продукте с помощью инструментов анализа графов
Постановка задачи.
Подготовка данных.
Первичный анализ.
Выбор варианта векторизации.
Построение графов и матриц.
Сравнение графов и матриц.
Необходимость разделения на сегменты, варианты сегментации.
3. Поиск сегментов в продукте через кластеризацию
Построение поведенческих сегментов.
Анализ сегментов (анализ качества кластеризации и верификация).
Влияние качества и метода обработки сырых данных на кластеризацию.
Итеративный процесс анализа, иерархическая кластеризация.
4. Поиск сегментов через эвристики
Альтернативные способы сегментации: эвристики, классификаторы, внешние данные.
Совмещение сегментаций.
5. Как понять, приносит ли продукт деньги.
Расчет юнит-экономики и прогнозирование роста аудитории продукта с помощью когортного анализа.
Финансовая оценка когорт.
Модуль 3 - Машинное обучение для аналитика
Аналитик, не владеющий машинным обучением, сильно ограничен в своих возможностях. Разберем задачу прогноза метрик, подход к оптимизации метрики предсказания, а также прогноз оттока с помощью ML-алгоритмов.
1. Работа с векторами, построение и анализ предсказательных моделей в продуктовой аналитике
Зачем строить предсказательную модель, когда вам не нужно ничего предсказывать.
Подготовка данных для предиктора (тонкие моменты, feature engineering, feature reduction, перекрестное влияние фичей).
Траектории пользователей как фичи: декомпозиция траекторий, события и переходы, варианты векторизации, сравнение результатов, выбор n-грам, выбор нормировок, включение дополнительных фичей.
Критерии качества результата, метрики качества моделей для продуктовой аналитики.
Feature importance, как и зачем, связь с другими метриками фичей и событий.
2. Поиск ключевых фичей
Анализ важности событий.
Почему не только события, но и переходы, и паттерны.
Учет временных задержек.
Сравнение результатов и валидация.
Feature importance сводится к корреляции.
Неочевидные системы причинно-следственных связей, необходимость экспериментов.
3. Что такое прокси-метрики и зачем они нужны. Как искать прокси-метрики.
Разные определения прокси метрик.
Плохая vs хорошая прокси метрика.
Предиктивные прокти-метрики.
Устойчивость и точность предиктора.
Некоторые нюансы из статистики (сдвиги между прокси и целью, смеси распределений, особые случаи).
Зачем смотреть на ROC-AUC при анализе прокси-метрики (экономика ошибок предиктора).
Как выбрать модель для прокси-метрики: предсказательная, экстраполяционная и интерполяционная сила модели.
4. Кейс: Как отлаживать работу предиктора
Анализ точности и валидация.
Наблюдение за работой предиктора на примере модели скоринга.
Средства мониторинга моделей.
5. Кейс: Как и зачем предсказывать отток пользователей.
Разберемся, зачем и как считать отток.
Обучим модель машинного обучения и проверим её качество.
Обсудим, что с этим делать дальше.
Модуль 4 - Аналитическая архитектура
Поговорим про то как организовать сбор сырых данных кликстрима, его обработку. Как решаются типичные проблемы на уровне данных - обнаружение дубликатов записей, проклейка пользователей по различным идентификаторам, а также про построение регулярных процессов выявления аномалий и выбросов для мониторинга качества данных и генерации алертов.
Содержание дорабатывается на момент оформления темы.
Продажник