Промежуточный экзамен

Здравствуйте!

Экзамен состит из двух основных частей. В первой части необходимо сделать простой препроцессинг и произвести разведывательный анализ данных.

Во второй части у Вас будет выбор между двумя вариантами: Вы можете провести регрессионный анализ данных или заняться обработкой естественного языка и построением классификатора текстов.

Задание по базе wine

  • Загрузка и разведывательный анализ

    • Загрузите данные (скачать).
    • Посчитайте размерность данных.
    • Посчитайте количество пропущенных значений в каждой переменной.
    • Выведите тип данных каждой переменной. Переконвертируйте при необходимости.
    • Вина какой области (province) получают наилучшие рейтинги?
    • На основе словаря color оздайте переменную, в которой закодирован цвет вина.
    • Удалите наблюдения для которых цвет (color) не указан.
    • Визуализируйте распределения числовых переменных.
    • Для каждой страны рассчитайте долю каждого вида вина. В какой стране доля белого вина наибольшая, а в какой красного? (Нужен ответ вида: в стране А наибольшая доля белого вина, а в стране B — красного.
    • Разделите выборку на обучающую и тестовую.
  • Регрессионная модель

    • На обучающей выборке постройте регрессионную модель, показывающую зависимость между баллом (зависимая переменная) и ценой. Визуализируйте эту зависимость. На сколько изменяется оценка при изменении цены на одну условную единицу?
    • Оцените качество модели на основе предсказаний по тестовой выборке по помощи стандартных метрик качества для регрессионных моделей.
    • Добавьте в модель переменную, в которой закодирован цвет вина. Как изменилось качество?
  • ИЛИ Классификация текстов

    • Сделайте препроцессинг текстов в поле description (токенизацию, стемминг или лемматизацию, удаление стоп-слов).
    • На обучающей выборке постройте модель классификации текста, которая бы классифицировала вина по цвету на основе текстов из описания.
    • Оцените качество работы модели по помощи стандартных метрик качества для алгоритмов классификации. Использование автоматических методов подбора параметров (Grid Search) не обязательно, но в случае наличия — зачтётся.

Указывайте в коде, какой пункт начали выполнять.

color = { "Chardonnay": "white", "Pinot Noir": "red", "Cabernet Sauvignon": "red", "Red Blend": "red", "Bordeaux-style Red Blend": "red", "Sauvignon Blanc": "white", "Syrah": "red", "Riesling": "white", "Merlot": "red", "Zinfandel": "red", "Sangiovese": "red", "Malbec": "red", "White Blend": "white", "Rosé": "other", "Tempranillo": "red", "Nebbiolo": "red", "Portuguese Red": "red", "Sparkling Blend": "other", "Shiraz": "red", "Corvina, Rondinella, Molinara": "red", "Rhône-style Red Blend": "red", "Barbera": "red", "Pinot Gris": "white", "Viognier": "white", "Bordeaux-style White Blend": "white", "Champagne Blend": "other", "Port": "red", "Grüner Veltliner": "white", "Gewürztraminer": "white", "Portuguese White": "white", "Petite Sirah": "red", "Carmenère": "red" }

Комментарии