Go to file
2026-05-03 23:49:24 +03:00
.gitignore initialization 2026-05-03 23:40:55 +03:00
plot_missing_values.ipynb all code 2026-05-03 23:49:24 +03:00
README.md initialization 2026-05-03 23:40:55 +03:00
requirements.txt initialization 2026-05-03 23:40:55 +03:00

Практика 4: Missing Value Imputation

В качестве примера был выбран News Metadata Dataset (7K)

Цель работы

Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели.

Используемые методы импутации

Метод Описание
Zero Imputation Замена пропусков на 0
Mean Imputation Замена на среднее значение признака
KNN Imputation Восстановление на основе k ближайших соседей
Iterative Imputation Итеративное восстановление через регрессию

Датасеты

  1. Diabetes (встроенный датасет scikit-learn)

    • 442 образца, 10 признаков
    • Задача: предсказание прогрессирования диабета
  2. Boston (openml ID 531)

    • 506 образцов, 13 признаков
    • Задача: предсказание медианной стоимости домов

Результаты

На основе проведённого сравнения:

  • Full Data — baseline, наилучший результат
  • Zero Imputation — наихудший метод, сильно искажает данные
  • Mean Imputation — простой и быстрый метод, приемлемый компромисс
  • KNN Imputation — учитывает локальную структуру, требует масштабирования
  • Iterative Imputation — лучший среди методов импутации

Вывод

Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования.