Go to file
2026-05-08 20:07:44 +00:00
.gitignore first commit 2026-05-06 21:04:11 +03:00
cleveland1.csv Выполнил задание 3 2026-05-07 19:50:25 +03:00
README.md Обновить README.md 2026-05-08 20:07:44 +00:00
week2_analysis.ipynb Выполнил задание 3 2026-05-07 19:50:25 +03:00

Анализ данных о сердечно-сосудистых заболеваниях

Описание проекта

В данном проекте выполнен анализ данных о факторах риска сердечно-сосудистых заболеваний на основе датасета Heart Disease Dataset (cleveland1.csv).

Работа выполнена в JupyterLab в рамках практической работы №3 по анализу и визуализации данных.


Цель работы

Освоить базовую работу с JupyterLab, библиотеками для анализа данных и визуализации, а также закрепить навыки ведения проекта с использованием Git.


Используемые библиотеки

В проекте использовались следующие библиотеки:

pandas
numpy matplotlib seaborn tqdm


Что было сделано

В ходе работы были выполнены следующие действия:

  1. Загружен датасет из CSV-файла cleveland1.csv
  2. Проведён первичный анализ данных:
    • просмотр первых строк таблицы (.head())
    • анализ структуры данных (.info())
    • получение статистического описания (.describe())
    • проверка пропущенных значений (.isnull().sum())
  3. Выполнена подготовка данных:
    • стандартизированы названия колонок
  4. Проведён анализ по группам:
    • группировка по полу (gender)
    • группировка по наличию заболевания (target)
    • сравнение средних показателей
  5. Создан новый признак high_cholesterol_flag для выделения случаев повышенного риска (холестерин > 240)
  6. Построены графики:
    • boxplot распределения возраста у больных и здоровых
    • scatterplot взаимосвязи холестерина и пульса
    • гистограмма распределения возраста пациентов
    • boxplot уровня холестерина по полу
    • тепловая карта корреляций всех числовых признаков
  7. Использована библиотека tqdm для отображения прогресса обработки данных
  8. Сохранены результаты обработки в CSV-файл

Результаты анализа

На основе проведённого анализа получены следующие выводы:

  1. Возраст является значимым фактором риска — средний возраст больных пациентов выше, чем здоровых
  2. Холестерин положительно коррелирует с наличием заболевания
  3. Максимальный пульс у больных пациентов в среднем ниже
  4. Корреляционная матрица показывает умеренную связь между возрастом и заболеванием

Структура проекта

praktika03/

  • .venv/
  • .gitignore
  • README.md
  • week2_analysis.ipynb
  • cleveland1.csv
  • cleveland2.csv
  • Dataset Heart Disease.csv
  • heart_disease_results.csv