50 lines
2.0 KiB
Markdown
50 lines
2.0 KiB
Markdown
# Калибровка вероятностей классификаторов
|
||
|
||
## Описание проекта
|
||
|
||
Проект выполнен в рамках учебной практики по Python и анализу данных.
|
||
|
||
В работе исследуется калибровка вероятностных предсказаний модели машинного обучения с использованием библиотеки scikit-learn. Выполнено сравнение вероятностей до и после калибровки на синтетическом и внешнем датасетах.
|
||
|
||
## Используемые технологии
|
||
|
||
- Python 3.14
|
||
- JupyterLab
|
||
- pandas
|
||
- numpy
|
||
- matplotlib
|
||
- scikit-learn
|
||
- openml
|
||
|
||
## Структура работы
|
||
|
||
В проекте рассматриваются:
|
||
|
||
1. Создание синтетического датасета через `make_classification`
|
||
2. Обучение модели `LogisticRegression`
|
||
3. Калибровка вероятностей через `CalibratedClassifierCV`
|
||
4. Построение calibration curve
|
||
5. Работа с внешним датасетом OpenML
|
||
|
||
## Внешний датасет
|
||
|
||
В качестве внешнего датасета использован набор данных OpenML с ID 40691.
|
||
|
||
Для корректной работы calibration curve многоклассовая задача была преобразована в бинарную классификацию.
|
||
|
||
## Результат работы
|
||
|
||
В ходе выполнения проекта были получены навыки:
|
||
|
||
- работы с JupyterLab;
|
||
- предобработки данных;
|
||
- обучения моделей машинного обучения;
|
||
- построения графиков;
|
||
- анализа вероятностных предсказаний модели.
|
||
|
||
## Запуск проекта
|
||
|
||
Установка зависимостей:
|
||
|
||
```bash
|
||
pip install -r requirements.txt |