# Решающие деревья

### 1. Загрузка выборки из файла titanic.csv

In [17]:
from sklearn.tree import DecisionTreeClassifier
import pandas as pd

# Шаг 1: Загрузим данные
data = pd.read_csv('titanic.csv')

### 2. Оставим нужные признаки: Pclass, Fare, Age и Sex

In [18]:
features = data[['Pclass', 'Fare', 'Age', 'Sex', 'Survived']].copy()

### 3. Преобразуем пол в числовой формат (male -> 0, female -> 1)

In [19]:
features['Sex'] = features['Sex'].map({'male': 0, 'female': 1})

### 5. Удалим строки с пропусками в признаках

In [20]:
features_cleaned = features.dropna()
features_cleaned.head()

Unnamed: 0,Pclass,Fare,Age,Sex,Survived
0,3,7.25,22.0,0,0
1,1,71.2833,38.0,1,1
2,3,7.925,26.0,1,1
3,1,53.1,35.0,1,1
4,3,8.05,35.0,0,0


### 4. Разделяем признаки и целевую переменную

In [22]:
X = features_cleaned[['Pclass', 'Fare', 'Age', 'Sex']]
y = features_cleaned['Survived']

### 6. Создаем и обучаем модель решающего дерева

In [23]:
clf = DecisionTreeClassifier(random_state=241)
clf.fit(X, y)

### 7. Вычисление важности признаков и поиск признака с наибольшей важностью

In [25]:
importances = clf.feature_importances_

importance_series = pd.Series(importances, index=X.columns)
print(importance_series.sort_values(ascending=False).head(2))

Sex     0.300512
Fare    0.295385
dtype: float64
