From cff69aa53d0e6e528d6fe10cda4391076decf314 Mon Sep 17 00:00:00 2001 From: stud203992 Date: Sun, 3 May 2026 23:40:55 +0300 Subject: [PATCH] initialization --- .gitignore | 3 +++ README.md | 40 ++++++++++++++++++++++++++++++++++++++++ requirements.txt | Bin 0 -> 4280 bytes 3 files changed, 43 insertions(+) create mode 100644 .gitignore create mode 100644 README.md create mode 100644 requirements.txt diff --git a/.gitignore b/.gitignore new file mode 100644 index 0000000..952fbef --- /dev/null +++ b/.gitignore @@ -0,0 +1,3 @@ +.venv/ +.idea/ +.ipynb_checkpoints/ \ No newline at end of file diff --git a/README.md b/README.md new file mode 100644 index 0000000..a0c5f5a --- /dev/null +++ b/README.md @@ -0,0 +1,40 @@ +# Практика 4: Missing Value Imputation + +В качестве примера был выбран News Metadata Dataset (7K) + +## Цель работы + +Сравнить эффективность методов восстановления пропущенных значений и оценить их влияние на качество предсказания модели. + +## Используемые методы импутации + +| Метод | Описание | +|-------|----------| +| Zero Imputation | Замена пропусков на 0 | +| Mean Imputation | Замена на среднее значение признака | +| KNN Imputation | Восстановление на основе k ближайших соседей | +| Iterative Imputation | Итеративное восстановление через регрессию | + +## Датасеты + +1. **Diabetes** (встроенный датасет scikit-learn) + - 442 образца, 10 признаков + - Задача: предсказание прогрессирования диабета + +2. **Boston** (openml ID 531) + - 506 образцов, 13 признаков + - Задача: предсказание медианной стоимости домов + +## Результаты + +На основе проведённого сравнения: + +- **Full Data** — baseline, наилучший результат +- **Zero Imputation** — наихудший метод, сильно искажает данные +- **Mean Imputation** — простой и быстрый метод, приемлемый компромисс +- **KNN Imputation** — учитывает локальную структуру, требует масштабирования +- **Iterative Imputation** — лучший среди методов импутации + +## Вывод + +Iterative Imputation показывает результаты, наиболее близкие к полным данным, и рекомендуется к использованию при наличии вычислительных ресурсов. Mean Imputation может служить хорошим выбором для быстрого прототипирования. diff --git a/requirements.txt b/requirements.txt new file mode 100644 index 0000000000000000000000000000000000000000..1903b10edbb14c08ac20af88e7d817c811b3b675 GIT binary patch literal 4280 zcmai%OK%%T5QOI(AU}nMNm-J0@WEFj1_C&joCLlkQKps@xr!b?K1qFD+dI3m;(*Xn z;B;4aSHEWe`FmcP@?17$S3c?Up}Z^8a-!$^@@x5}%*&x%>#QlWGAYY)rOzfLXXP|x ze=a#G3&}TS70>H({7>D3tUSi)RJiz&9vn-n&#rtgYatoI9^$LLJSv7p{!PkO9zS$e z-i;yw<%g@RhKA(g?3rV1{EH`nE zt;*?AXNL|exqL5vkpg3;4^fTThL7X~TrzVMQmdF7d2=Xt`fV!@UjiS$unFRMhqu!? zlJk&70!$>%dWk!o<;hGZj%X>pMz)ChptzqyhD>22WuE0Tkso@5sba}2t#q=G{`E*7 zmS(8P-UH_Y~IFB>(K?h@T6HL=L2YHm$4NLfI+m>nN9T|qDiw@y!iOaye7E5$vD;6#z z=kT4~1!w-V7j(-iDu=u>Yixn&x!K7Qb2P5j`4*#js8-)=d8%|DF(YHfe#E_$H!x>paOuiA|Hi0D z)0?i-pZR+!>r@3kyO-@L6_`v7;~UFgc2VC&PMB@xiR@wZL)7@#x2;%p{>ceao_%jg z{aDG#C_KI8pV7x&qC-^fM{9kT$B+7>sQJeq;+@$qj^_I&*8q# zVs^wxebYps`J@Sztc~{{WOh=^eoxSlcn(I+D$N=8wyW6 z?~vf;gvYR-nH`_*gu*=8hS$RhYz|-uBu;$CgB5z)JAWU#)JNXFT+Nv$YKIz1hMCT3 zg=m>oiNqa_y}&kEEA#Azw{q+$=Q`L64XwSj=y>l|I>?#Ks84%VjzVUOc<s>&;;G^C+XOTB}NuRjMBx^al?1`;#eh>~`v)deZW@*;t3fbQ!HQbiS znBlR#v{q{Yd;Dd-*#h3ulc)-+bjSp#WCL6_8QoXosk*tvxGV4E+qG~!oyjNNP_>w1 z?8R15WOU%0Nn-o6d@f(hZ*l4_%2RlLQD*PsY}Vb*5}hnDv-sxbUgI`Cd9@!%+$&Od zaPCU1z>d4=AgpElav}~UUGBLT4R4Yl6Q4UYbuQEmXaB1+wu8>ObUaI1S@F#b^vWPN z<&|V6`Zj-#ji+PdhOp5TpxVg?Zw=hl;2NB|gDsgjwo_-|w_tIlTKPlzObowyP!rW3 zzb~*cvd_%s$EZlNL(LxL&oG{v3uXxVNcb+2^^B*k3hK_YE$h@bQ}C$}OZi5VyPXaK z$v%K(zNuRBKNpYGH2ZWZeD^i^ualdZz`N{H-W?TDa!6I1ZK8%<&}yKiGo?Z#d6_Q!8{-Z3gm-9{0{^q+r uvO_s{F7wY3TN`SGgy954ei6cmD;L!*)dg literal 0 HcmV?d00001