# Практика 4: Missing Value Imputation В качестве примера был выбран News Metadata Dataset (7K) ## Цель работы Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели. ## Используемые методы импутации | Метод | Описание | |-------|----------| | Zero Imputation | Замена пропусков на 0 | | Mean Imputation | Замена на среднее значение признака | | KNN Imputation | Восстановление на основе k ближайших соседей | | Iterative Imputation | Итеративное восстановление через регрессию | ## Датасеты 1. **Diabetes** (встроенный датасет scikit-learn) - 442 образца, 10 признаков - Задача: предсказание прогрессирования диабета 2. **Boston** (openml ID 531) - 506 образцов, 13 признаков - Задача: предсказание медианной стоимости домов ## Результаты На основе проведённого сравнения: - **Full Data** — baseline, наилучший результат - **Zero Imputation** — наихудший метод, сильно искажает данные - **Mean Imputation** — простой и быстрый метод, приемлемый компромисс - **KNN Imputation** — учитывает локальную структуру, требует масштабирования - **Iterative Imputation** — лучший среди методов импутации ## Вывод Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования.