Практика 4: Missing Value Imputation

В качестве примера был выбран News Metadata Dataset (7K)

Цель работы

Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели.

Используемые методы импутации

Метод	Описание
Zero Imputation	Замена пропусков на 0
Mean Imputation	Замена на среднее значение признака
KNN Imputation	Восстановление на основе k ближайших соседей
Iterative Imputation	Итеративное восстановление через регрессию

Датасеты

Diabetes (встроенный датасет scikit-learn)
- 442 образца, 10 признаков
- Задача: предсказание прогрессирования диабета
Boston (openml ID 531)
- 506 образцов, 13 признаков
- Задача: предсказание медианной стоимости домов

Результаты

На основе проведённого сравнения:

Full Data — baseline, наилучший результат
Zero Imputation — наихудший метод, сильно искажает данные
Mean Imputation — простой и быстрый метод, приемлемый компромисс
KNN Imputation — учитывает локальную структуру, требует масштабирования
Iterative Imputation — лучший среди методов импутации

Вывод

Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования.

2.2 KiB Raw Blame History Unescape Escape