41 lines
2.2 KiB
Markdown
41 lines
2.2 KiB
Markdown
# Практика 4: Missing Value Imputation
|
||
|
||
В качестве примера был выбран News Metadata Dataset (7K)
|
||
|
||
## Цель работы
|
||
|
||
Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели.
|
||
|
||
## Используемые методы импутации
|
||
|
||
| Метод | Описание |
|
||
|-------|----------|
|
||
| Zero Imputation | Замена пропусков на 0 |
|
||
| Mean Imputation | Замена на среднее значение признака |
|
||
| KNN Imputation | Восстановление на основе k ближайших соседей |
|
||
| Iterative Imputation | Итеративное восстановление через регрессию |
|
||
|
||
## Датасеты
|
||
|
||
1. **Diabetes** (встроенный датасет scikit-learn)
|
||
- 442 образца, 10 признаков
|
||
- Задача: предсказание прогрессирования диабета
|
||
|
||
2. **Boston** (openml ID 531)
|
||
- 506 образцов, 13 признаков
|
||
- Задача: предсказание медианной стоимости домов
|
||
|
||
## Результаты
|
||
|
||
На основе проведённого сравнения:
|
||
|
||
- **Full Data** — baseline, наилучший результат
|
||
- **Zero Imputation** — наихудший метод, сильно искажает данные
|
||
- **Mean Imputation** — простой и быстрый метод, приемлемый компромисс
|
||
- **KNN Imputation** — учитывает локальную структуру, требует масштабирования
|
||
- **Iterative Imputation** — лучший среди методов импутации
|
||
|
||
## Вывод
|
||
|
||
Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования.
|