3zadanie/README.md

82 lines
3.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Анализ данных о сердечно-сосудистых заболеваниях
## Описание проекта
В данном проекте выполнен анализ данных о факторах риска сердечно-сосудистых заболеваний на основе датасета Heart Disease Dataset (cleveland1.csv).
Работа выполнена в JupyterLab в рамках практической работы №3 по анализу и визуализации данных.
---
## Цель работы
Освоить базовую работу с JupyterLab, библиотеками для анализа данных и визуализации, а также закрепить навыки ведения проекта с использованием Git.
---
## Используемые библиотеки
В проекте использовались следующие библиотеки:
pandas
numpy
matplotlib
seaborn
tqdm
---
## Что было сделано
В ходе работы были выполнены следующие действия:
1. **Загружен датасет** из CSV-файла `cleveland1.csv`
2. **Проведён первичный анализ данных:**
- просмотр первых строк таблицы (`.head()`)
- анализ структуры данных (`.info()`)
- получение статистического описания (`.describe()`)
- проверка пропущенных значений (`.isnull().sum()`)
3. **Выполнена подготовка данных:**
- стандартизированы названия колонок
4. **Проведён анализ по группам:**
- группировка по полу (gender)
- группировка по наличию заболевания (target)
- сравнение средних показателей
5. **Создан новый признак** `high_cholesterol_flag` для выделения случаев повышенного риска (холестерин > 240)
6. **Построены графики:**
- boxplot распределения возраста у больных и здоровых
- scatterplot взаимосвязи холестерина и пульса
- гистограмма распределения возраста пациентов
- boxplot уровня холестерина по полу
- тепловая карта корреляций всех числовых признаков
7. **Использована библиотека tqdm** для отображения прогресса обработки данных
8. **Сохранены результаты** обработки в CSV-файл
---
## Результаты анализа
На основе проведённого анализа получены следующие выводы:
1. **Возраст** является значимым фактором риска — средний возраст больных пациентов выше, чем здоровых
2. **Холестерин** положительно коррелирует с наличием заболевания
3. **Максимальный пульс** у больных пациентов в среднем ниже
4. **Корреляционная матрица** показывает умеренную связь между возрастом и заболеванием
---
## Структура проекта
praktika03/
- .venv/
- .gitignore
- README.md
- week2_analysis.ipynb
- cleveland1.csv
- cleveland2.csv
- Dataset Heart Disease.csv
- heart_disease_results.csv