stud203992/4_laba

Go to file

stud203992 a3b058921a all code		2026-05-03 23:49:24 +03:00
.gitignore	initialization	2026-05-03 23:40:55 +03:00
plot_missing_values.ipynb	all code	2026-05-03 23:49:24 +03:00
README.md	initialization	2026-05-03 23:40:55 +03:00
requirements.txt	initialization	2026-05-03 23:40:55 +03:00

README.md

Практика 4: Missing Value Imputation

В качестве примера был выбран News Metadata Dataset (7K)

Цель работы

Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели.

Используемые методы импутации

Метод	Описание
Zero Imputation	Замена пропусков на 0
Mean Imputation	Замена на среднее значение признака
KNN Imputation	Восстановление на основе k ближайших соседей
Iterative Imputation	Итеративное восстановление через регрессию

Датасеты

Diabetes (встроенный датасет scikit-learn)
- 442 образца, 10 признаков
- Задача: предсказание прогрессирования диабета
Boston (openml ID 531)
- 506 образцов, 13 признаков
- Задача: предсказание медианной стоимости домов

Результаты

На основе проведённого сравнения:

Full Data — baseline, наилучший результат
Zero Imputation — наихудший метод, сильно искажает данные
Mean Imputation — простой и быстрый метод, приемлемый компромисс
KNN Imputation — учитывает локальную структуру, требует масштабирования
Iterative Imputation — лучший среди методов импутации

Вывод

Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования.

README.md Unescape Escape