Промежуточный экзамен

Здравствуйте!

Экзамен состит из двух основных частей. В первой части необходимо сделать простой препроцессинг и произвести разведывательный анализ данных.

Во второй части у Вас будет выбор между двумя вариантами: Вы можете провести регрессионный анализ данных или заняться обработкой естественного языка и построением классификатора текстов.

Задание по базе wine

  • Загрузка и разведывательный анализ

    • Загрузите данные (скачать).
    • Посчитайте размерность данных.
    • Посчитайте количество пропущенных значений в каждой переменной.
    • Выведите тип данных каждой переменной. Переконвертируйте при необходимости.
    • Вина какой области (province) получают наилучшие рейтинги?
    • На основе словаря color оздайте переменную, в которой закодирован цвет вина.
    • Удалите наблюдения для которых цвет (color) не указан.
    • Визуализируйте распределения числовых переменных.
    • Для каждой страны рассчитайте долю каждого вида вина. В какой стране доля белого вина наибольшая, а в какой красного? (Нужен ответ вида: в стране А наибольшая доля белого вина, а в стране B — красного.
    • Разделите выборку на обучающую и тестовую.
  • Регрессионная модель

    • На обучающей выборке постройте регрессионную модель, показывающую зависимость между баллом (зависимая переменная) и ценой. Визуализируйте эту зависимость. На сколько изменяется оценка при изменении цены на одну условную единицу?
    • Оцените качество модели на основе предсказаний по тестовой выборке по помощи стандартных метрик качества для регрессионных моделей.
    • Добавьте в модель переменную, в которой закодирован цвет вина. Как изменилось качество?
  • ИЛИ Классификация текстов

    • Сделайте препроцессинг текстов в поле description (токенизацию, стемминг или лемматизацию, удаление стоп-слов).
    • На обучающей выборке постройте модель классификации текста, которая бы классифицировала вина по цвету на основе текстов из описания.
    • Оцените качество работы модели по помощи стандартных метрик качества для алгоритмов классификации. Использование автоматических методов подбора параметров (Grid Search) не обязательно, но в случае наличия — зачтётся.

Указывайте в коде, какой пункт начали выполнять.

color = {
    "Chardonnay": "white",
    "Pinot Noir": "red",
    "Cabernet Sauvignon": "red",
    "Red Blend": "red",
    "Bordeaux-style Red Blend": "red",
    "Sauvignon Blanc": "white",
    "Syrah": "red",
    "Riesling": "white",
    "Merlot": "red",
    "Zinfandel": "red",
    "Sangiovese": "red",
    "Malbec": "red",
    "White Blend": "white",
    "Rosé": "other",
    "Tempranillo": "red",
    "Nebbiolo": "red",
    "Portuguese Red": "red",
    "Sparkling Blend": "other",
    "Shiraz": "red",
    "Corvina, Rondinella, Molinara": "red",
    "Rhône-style Red Blend": "red",
    "Barbera": "red",
    "Pinot Gris": "white",
    "Viognier": "white",
    "Bordeaux-style White Blend": "white",
    "Champagne Blend": "other",
    "Port": "red",
    "Grüner Veltliner": "white",
    "Gewürztraminer": "white",
    "Portuguese White": "white",
    "Petite Sirah": "red",
    "Carmenère": "red"
}

Comments