initialization

2026-05-03 23:40:55 +03:00 · 2026-05-03 23:40:55 +03:00 · cff69aa53d
commit cff69aa53d
3 changed files with 43 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,3 @@
+.venv/
+.idea/
+.ipynb_checkpoints/
--- a/README.md
+++ b/README.md
@ -0,0 +1,40 @@
+# Практика 4: Missing Value Imputation
+
+В качестве примера был выбран News Metadata Dataset (7K)
+
+## Цель работы
+
+Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели.
+
+## Используемые методы импутации
+
+| Метод | Описание |
+|-------|----------|
+| Zero Imputation | Замена пропусков на 0 |
+| Mean Imputation | Замена на среднее значение признака |
+| KNN Imputation | Восстановление на основе k ближайших соседей |
+| Iterative Imputation | Итеративное восстановление через регрессию |
+
+## Датасеты
+
+1. **Diabetes** (встроенный датасет scikit-learn)
+   - 442 образца, 10 признаков
+   - Задача: предсказание прогрессирования диабета
+
+2. **Boston** (openml ID 531)
+   - 506 образцов, 13 признаков
+   - Задача: предсказание медианной стоимости домов
+
+## Результаты
+
+На основе проведённого сравнения:
+
+- **Full Data** — baseline, наилучший результат
+- **Zero Imputation** — наихудший метод, сильно искажает данные
+- **Mean Imputation** — простой и быстрый метод, приемлемый компромисс
+- **KNN Imputation** — учитывает локальную структуру, требует масштабирования
+- **Iterative Imputation** — лучший среди методов импутации
+
+## Вывод
+
+Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования.
--- a/requirements.txt
+++ b/requirements.txt