4_laba/README.md
2026-05-03 23:40:55 +03:00

41 lines
2.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Практика 4: Missing Value Imputation
В качестве примера был выбран News Metadata Dataset (7K)
## Цель работы
Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели.
## Используемые методы импутации
| Метод | Описание |
|-------|----------|
| Zero Imputation | Замена пропусков на 0 |
| Mean Imputation | Замена на среднее значение признака |
| KNN Imputation | Восстановление на основе k ближайших соседей |
| Iterative Imputation | Итеративное восстановление через регрессию |
## Датасеты
1. **Diabetes** (встроенный датасет scikit-learn)
- 442 образца, 10 признаков
- Задача: предсказание прогрессирования диабета
2. **Boston** (openml ID 531)
- 506 образцов, 13 признаков
- Задача: предсказание медианной стоимости домов
## Результаты
На основе проведённого сравнения:
- **Full Data** — baseline, наилучший результат
- **Zero Imputation** — наихудший метод, сильно искажает данные
- **Mean Imputation** — простой и быстрый метод, приемлемый компромисс
- **KNN Imputation** — учитывает локальную структуру, требует масштабирования
- **Iterative Imputation** — лучший среди методов импутации
## Вывод
Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования.