commit cff69aa53d0e6e528d6fe10cda4391076decf314 Author: stud203992 Date: Sun May 3 23:40:55 2026 +0300 initialization diff --git a/.gitignore b/.gitignore new file mode 100644 index 0000000..952fbef --- /dev/null +++ b/.gitignore @@ -0,0 +1,3 @@ +.venv/ +.idea/ +.ipynb_checkpoints/ \ No newline at end of file diff --git a/README.md b/README.md new file mode 100644 index 0000000..a0c5f5a --- /dev/null +++ b/README.md @@ -0,0 +1,40 @@ +# Практика 4: Missing Value Imputation + +В качестве примера был выбран News Metadata Dataset (7K) + +## Цель работы + +Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели. + +## Используемые методы импутации + +| Метод | Описание | +|-------|----------| +| Zero Imputation | Замена пропусков на 0 | +| Mean Imputation | Замена на среднее значение признака | +| KNN Imputation | Восстановление на основе k ближайших соседей | +| Iterative Imputation | Итеративное восстановление через регрессию | + +## Датасеты + +1. **Diabetes** (встроенный датасет scikit-learn) + - 442 образца, 10 признаков + - Задача: предсказание прогрессирования диабета + +2. **Boston** (openml ID 531) + - 506 образцов, 13 признаков + - Задача: предсказание медианной стоимости домов + +## Результаты + +На основе проведённого сравнения: + +- **Full Data** — baseline, наилучший результат +- **Zero Imputation** — наихудший метод, сильно искажает данные +- **Mean Imputation** — простой и быстрый метод, приемлемый компромисс +- **KNN Imputation** — учитывает локальную структуру, требует масштабирования +- **Iterative Imputation** — лучший среди методов импутации + +## Вывод + +Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования. diff --git a/requirements.txt b/requirements.txt new file mode 100644 index 0000000..1903b10 Binary files /dev/null and b/requirements.txt differ