4_laba/README.md

# Практика 4: Missing Value Imputation

В качестве примера был выбран News Metadata Dataset (7K)

## Цель работы

Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели.

## Используемые методы импутации

| Метод | Описание |
|-------|----------|
| Zero Imputation | Замена пропусков на 0 |
| Mean Imputation | Замена на среднее значение признака |
| KNN Imputation | Восстановление на основе k ближайших соседей |
| Iterative Imputation | Итеративное восстановление через регрессию |

## Датасеты

1. **Diabetes** (встроенный датасет scikit-learn)
   - 442 образца, 10 признаков
   - Задача: предсказание прогрессирования диабета

2. **Boston** (openml ID 531)
   - 506 образцов, 13 признаков
   - Задача: предсказание медианной стоимости домов

## Результаты

На основе проведённого сравнения:

- **Full Data** — baseline, наилучший результат
- **Zero Imputation** — наихудший метод, сильно искажает данные
- **Mean Imputation** — простой и быстрый метод, приемлемый компромисс
- **KNN Imputation** — учитывает локальную структуру, требует масштабирования
- **Iterative Imputation** — лучший среди методов импутации

## Вывод

Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования.