Laba4/README.md
2026-05-02 21:28:13 +03:00

27 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Практика 4: Pipelines and composite estimators
Из раздела примеров библиотеки scikit-learn был выбран пример **Effect of Transforming the Targets in Regression Model**.
## Цель работы
Изучить применение `TransformedTargetRegressor` для преобразования целевой переменной в задачах регрессии и сравнить качество модели до и после преобразования.
## Реализовано
- Создан Jupyter Notebook `week4_scikit_learn.ipynb`.
- Использован сгенерированный датасет `make_regression`.
- Использован внешний датасет **California Housing** из OpenML (ID: 44031).
- Выполнена предобработка внешнего датасета:
- удаление пропусков (если есть);
- масштабирование признаков через `StandardScaler`;
- разделение на обучающую и тестовую выборки.
- Обучена модель `RidgeCV`.
- Выполнено преобразование целевой переменной через `TransformedTargetRegressor` с логарифмической функцией `np.log1p` / `np.expm1`.
- Построены графики "Actual vs Predicted" и графики остатков для сравнения модели до и после преобразования.
- Визуализировано распределение целевой переменной до и после логарифмирования.
## Выводы
- На синтетических данных логарифмическое преобразование дало значительное улучшение качества (R² вырос с ~0.5 до ~0.95).
- На реальных данных California Housing преобразование улучшило R² на 2-4%, снизило MAE и RMSE.
- Графики остатков после преобразования стали более равномерными.