2.2 KiB
2.2 KiB
Практика 4: Missing Value Imputation
В качестве примера был выбран News Metadata Dataset (7K)
Цель работы
Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели.
Используемые методы импутации
| Метод | Описание |
|---|---|
| Zero Imputation | Замена пропусков на 0 |
| Mean Imputation | Замена на среднее значение признака |
| KNN Imputation | Восстановление на основе k ближайших соседей |
| Iterative Imputation | Итеративное восстановление через регрессию |
Датасеты
-
Diabetes (встроенный датасет scikit-learn)
- 442 образца, 10 признаков
- Задача: предсказание прогрессирования диабета
-
Boston (openml ID 531)
- 506 образцов, 13 признаков
- Задача: предсказание медианной стоимости домов
Результаты
На основе проведённого сравнения:
- Full Data — baseline, наилучший результат
- Zero Imputation — наихудший метод, сильно искажает данные
- Mean Imputation — простой и быстрый метод, приемлемый компромисс
- KNN Imputation — учитывает локальную структуру, требует масштабирования
- Iterative Imputation — лучший среди методов импутации
Вывод
Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования.