practice2-2_JupyterLab_Bort.../README.md

25 lines
1.6 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Анализ данных Indian Railways
## Цель
Освоение инструментов анализа и визуализации данных (pandas, numpy, matplotlib, seaborn, tqdm) на примере датасета индийских железных дорог.
## Данные
Набор данных IRCTC_cleaned.csv взят из [Kaggle](https://www.kaggle.com/datasets/antareepdey/indian-railways). Содержит информацию о поездах, станциях, времени отправления, днях курсирования, расстоянии.
## Выполненные шаги
- Загрузка и очистка данных.
- Преобразование типов, извлечение признаков (час отправления, количество дней курсирования).
- Разведочный анализ: пропуски, статистики.
- Визуализация:
- Гистограмма расстояний.
- Scatter plot "расстояние vs. число дней курсирования".
- Boxplot расстояний по дням недели.
- Топ-15 станций по количеству поездов.
- Тепловая карта корреляции.
- Использование tqdm для отслеживания группировки данных.
- Выводы.
## Запуск
1. Установить зависимости: `pip install -r requirements.txt`
2. Поместить `IRCTC_cleaned.csv` в корень проекта.
3. Запустить Jupyter Lab и открыть `week2_analysis.ipynb`.