# Feature Selection Project

## Описание проекта
Практическая работа по отбору признаков Feature Selection с использованием библиотеки Scikit-learn.

## Используемые методы
- **SelectFromModel** с **LassoCV**
- Linear Regression (для сравнения качества до и после отбора)
- StandardScaler (масштабирование данных)

## Датасеты
1. **California Housing Dataset** (`fetch_california_housing`)
   - Встроенный датасет scikit-learn
   - 20,640 наблюдений, 8 признаков
   - Целевая переменная: медианная стоимость дома

2. **Boston Housing Dataset** (собственный CSV)
   - Загружен через `pandas.read_csv()`
   - 506 наблюдений, 13 признаков
   - Целевая переменная: MEDV (медианная стоимость дома)

## Структура
- `week4_scikit_learn.ipynb` — базовая нейросеть (MLPClassifier)
- `week4_feature_selection.ipynb` — основной ноутбук с Feature Selection
- `Boston-house-price-data.csv` — данные
## Результаты

### California Housing (8 → 4 признака)
| Модель | R² |
| :--- | :--- |
| Linear Regression (все 8) | 0.5758 |
| Linear Regression (отобранные 4) | 0.5706 |
| LassoCV | 0.5767 |

### Boston Housing (13 → 7 признаков)
| Модель | R² |
| :--- | :--- |
| Linear Regression (все 13) | 0.6688 |
| Linear Regression (отобранные 7) | 0.6727 |
| LassoCV | 0.6684 |

### Ключевые выводы
- LassoCV + SelectFromModel успешно сокращают количество признаков без потери качества
- Отбор признаков даже улучшил качество модели на Boston Housing (R² вырос с 0.6688 до 0.6727)
- Геолокация (Latitude/Longitude) и доход (MedInc) — ключевые факторы для California
- Количество комнат (RM) и статус населения (LSTAT) — ключевые факторы для Boston

## Запуск

```bash
# Установка зависимостей
pip install -r requirements.txt

# Запуск Jupyter Lab
jupyter lab