81 lines
3.8 KiB
Markdown
81 lines
3.8 KiB
Markdown
# Анализ данных о сердечно-сосудистых заболеваниях
|
||
|
||
## Описание проекта
|
||
|
||
В данном проекте выполнен анализ данных о факторах риска сердечно-сосудистых заболеваний на основе датасета Heart Disease Dataset (cleveland1.csv).
|
||
|
||
Работа выполнена в JupyterLab в рамках практической работы №3 по анализу и визуализации данных.
|
||
|
||
---
|
||
|
||
## Цель работы
|
||
|
||
Освоить базовую работу с JupyterLab, библиотеками для анализа данных и визуализации, а также закрепить навыки ведения проекта с использованием Git.
|
||
|
||
---
|
||
|
||
## Используемые библиотеки
|
||
|
||
В проекте использовались следующие библиотеки:
|
||
|
||
- pandas
|
||
- numpy
|
||
- matplotlib
|
||
- seaborn
|
||
- tqdm
|
||
|
||
---
|
||
|
||
## Что было сделано
|
||
|
||
В ходе работы были выполнены следующие действия:
|
||
|
||
1. **Загружен датасет** из CSV-файла `cleveland1.csv`
|
||
2. **Проведён первичный анализ данных:**
|
||
- просмотр первых строк таблицы (`.head()`)
|
||
- анализ структуры данных (`.info()`)
|
||
- получение статистического описания (`.describe()`)
|
||
- проверка пропущенных значений (`.isnull().sum()`)
|
||
3. **Выполнена подготовка данных:**
|
||
- стандартизированы названия колонок
|
||
4. **Проведён анализ по группам:**
|
||
- группировка по полу (gender)
|
||
- группировка по наличию заболевания (target)
|
||
- сравнение средних показателей
|
||
5. **Создан новый признак** `high_cholesterol_flag` для выделения случаев повышенного риска (холестерин > 240)
|
||
6. **Построены графики:**
|
||
- boxplot распределения возраста у больных и здоровых
|
||
- scatterplot взаимосвязи холестерина и пульса
|
||
- гистограмма распределения возраста пациентов
|
||
- boxplot уровня холестерина по полу
|
||
- тепловая карта корреляций всех числовых признаков
|
||
7. **Использована библиотека tqdm** для отображения прогресса обработки данных
|
||
8. **Сохранены результаты** обработки в CSV-файл
|
||
|
||
---
|
||
|
||
## Результаты анализа
|
||
|
||
На основе проведённого анализа получены следующие выводы:
|
||
|
||
1. **Возраст** является значимым фактором риска — средний возраст больных пациентов выше, чем здоровых
|
||
2. **Холестерин** положительно коррелирует с наличием заболевания
|
||
3. **Максимальный пульс** у больных пациентов в среднем ниже
|
||
4. **Корреляционная матрица** показывает умеренную связь между возрастом и заболеванием
|
||
|
||
---
|
||
|
||
## Структура проекта
|
||
|
||
praktika03/
|
||
├── .venv/
|
||
├── .gitignore
|
||
├── README.md
|
||
├── week2_analysis.ipynb
|
||
├── cleveland1.csv
|
||
├── cleveland2.csv
|
||
├── Dataset Heart Disease.csv
|
||
└── heart_disease_results.csv
|
||
|
||
|