initialization
This commit is contained in:
commit
cff69aa53d
3
.gitignore
vendored
Normal file
3
.gitignore
vendored
Normal file
@ -0,0 +1,3 @@
|
|||||||
|
.venv/
|
||||||
|
.idea/
|
||||||
|
.ipynb_checkpoints/
|
||||||
40
README.md
Normal file
40
README.md
Normal file
@ -0,0 +1,40 @@
|
|||||||
|
# Практика 4: Missing Value Imputation
|
||||||
|
|
||||||
|
В качестве примера был выбран News Metadata Dataset (7K)
|
||||||
|
|
||||||
|
## Цель работы
|
||||||
|
|
||||||
|
Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели.
|
||||||
|
|
||||||
|
## Используемые методы импутации
|
||||||
|
|
||||||
|
| Метод | Описание |
|
||||||
|
|-------|----------|
|
||||||
|
| Zero Imputation | Замена пропусков на 0 |
|
||||||
|
| Mean Imputation | Замена на среднее значение признака |
|
||||||
|
| KNN Imputation | Восстановление на основе k ближайших соседей |
|
||||||
|
| Iterative Imputation | Итеративное восстановление через регрессию |
|
||||||
|
|
||||||
|
## Датасеты
|
||||||
|
|
||||||
|
1. **Diabetes** (встроенный датасет scikit-learn)
|
||||||
|
- 442 образца, 10 признаков
|
||||||
|
- Задача: предсказание прогрессирования диабета
|
||||||
|
|
||||||
|
2. **Boston** (openml ID 531)
|
||||||
|
- 506 образцов, 13 признаков
|
||||||
|
- Задача: предсказание медианной стоимости домов
|
||||||
|
|
||||||
|
## Результаты
|
||||||
|
|
||||||
|
На основе проведённого сравнения:
|
||||||
|
|
||||||
|
- **Full Data** — baseline, наилучший результат
|
||||||
|
- **Zero Imputation** — наихудший метод, сильно искажает данные
|
||||||
|
- **Mean Imputation** — простой и быстрый метод, приемлемый компромисс
|
||||||
|
- **KNN Imputation** — учитывает локальную структуру, требует масштабирования
|
||||||
|
- **Iterative Imputation** — лучший среди методов импутации
|
||||||
|
|
||||||
|
## Вывод
|
||||||
|
|
||||||
|
Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования.
|
||||||
BIN
requirements.txt
Normal file
BIN
requirements.txt
Normal file
Binary file not shown.
Loading…
Reference in New Issue
Block a user