82 lines
3.7 KiB
Markdown
82 lines
3.7 KiB
Markdown
# Анализ данных о сердечно-сосудистых заболеваниях
|
||
|
||
## Описание проекта
|
||
|
||
В данном проекте выполнен анализ данных о факторах риска сердечно-сосудистых заболеваний на основе датасета Heart Disease Dataset (cleveland1.csv).
|
||
|
||
Работа выполнена в JupyterLab в рамках практической работы №3 по анализу и визуализации данных.
|
||
|
||
---
|
||
|
||
## Цель работы
|
||
|
||
Освоить базовую работу с JupyterLab, библиотеками для анализа данных и визуализации, а также закрепить навыки ведения проекта с использованием Git.
|
||
|
||
---
|
||
|
||
## Используемые библиотеки
|
||
|
||
В проекте использовались следующие библиотеки:
|
||
|
||
pandas
|
||
numpy
|
||
matplotlib
|
||
seaborn
|
||
tqdm
|
||
|
||
---
|
||
|
||
## Что было сделано
|
||
|
||
В ходе работы были выполнены следующие действия:
|
||
|
||
1. **Загружен датасет** из CSV-файла `cleveland1.csv`
|
||
2. **Проведён первичный анализ данных:**
|
||
- просмотр первых строк таблицы (`.head()`)
|
||
- анализ структуры данных (`.info()`)
|
||
- получение статистического описания (`.describe()`)
|
||
- проверка пропущенных значений (`.isnull().sum()`)
|
||
3. **Выполнена подготовка данных:**
|
||
- стандартизированы названия колонок
|
||
4. **Проведён анализ по группам:**
|
||
- группировка по полу (gender)
|
||
- группировка по наличию заболевания (target)
|
||
- сравнение средних показателей
|
||
5. **Создан новый признак** `high_cholesterol_flag` для выделения случаев повышенного риска (холестерин > 240)
|
||
6. **Построены графики:**
|
||
- boxplot распределения возраста у больных и здоровых
|
||
- scatterplot взаимосвязи холестерина и пульса
|
||
- гистограмма распределения возраста пациентов
|
||
- boxplot уровня холестерина по полу
|
||
- тепловая карта корреляций всех числовых признаков
|
||
7. **Использована библиотека tqdm** для отображения прогресса обработки данных
|
||
8. **Сохранены результаты** обработки в CSV-файл
|
||
|
||
---
|
||
|
||
## Результаты анализа
|
||
|
||
На основе проведённого анализа получены следующие выводы:
|
||
|
||
1. **Возраст** является значимым фактором риска — средний возраст больных пациентов выше, чем здоровых
|
||
2. **Холестерин** положительно коррелирует с наличием заболевания
|
||
3. **Максимальный пульс** у больных пациентов в среднем ниже
|
||
4. **Корреляционная матрица** показывает умеренную связь между возрастом и заболеванием
|
||
|
||
---
|
||
|
||
## Структура проекта
|
||
|
||
praktika03/
|
||
- .venv/
|
||
- .gitignore
|
||
- README.md
|
||
- week2_analysis.ipynb
|
||
- cleveland1.csv
|
||
- cleveland2.csv
|
||
- Dataset Heart Disease.csv
|
||
- heart_disease_results.csv
|
||
|
||
|
||
|