initialization

This commit is contained in:
Никита Глушков 2026-05-03 23:40:55 +03:00
commit cff69aa53d
3 changed files with 43 additions and 0 deletions

3
.gitignore vendored Normal file
View File

@ -0,0 +1,3 @@
.venv/
.idea/
.ipynb_checkpoints/

40
README.md Normal file
View File

@ -0,0 +1,40 @@
# Практика 4: Missing Value Imputation
В качестве примера был выбран News Metadata Dataset (7K)
## Цель работы
Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели.
## Используемые методы импутации
| Метод | Описание |
|-------|----------|
| Zero Imputation | Замена пропусков на 0 |
| Mean Imputation | Замена на среднее значение признака |
| KNN Imputation | Восстановление на основе k ближайших соседей |
| Iterative Imputation | Итеративное восстановление через регрессию |
## Датасеты
1. **Diabetes** (встроенный датасет scikit-learn)
- 442 образца, 10 признаков
- Задача: предсказание прогрессирования диабета
2. **Boston** (openml ID 531)
- 506 образцов, 13 признаков
- Задача: предсказание медианной стоимости домов
## Результаты
На основе проведённого сравнения:
- **Full Data** — baseline, наилучший результат
- **Zero Imputation** — наихудший метод, сильно искажает данные
- **Mean Imputation** — простой и быстрый метод, приемлемый компромисс
- **KNN Imputation** — учитывает локальную структуру, требует масштабирования
- **Iterative Imputation** — лучший среди методов импутации
## Вывод
Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования.

BIN
requirements.txt Normal file

Binary file not shown.