| src | ||
| .gitignore | ||
| README.md | ||
| requirements.txt | ||
| week2_analysis.ipynb | ||
Анализ данных Indian Railways
Цель
Освоение инструментов анализа и визуализации данных (pandas, numpy, matplotlib, seaborn, tqdm) на примере датасета индийских железных дорог.
Данные
Набор данных IRCTC_cleaned.csv взят из Kaggle. Содержит информацию о поездах, станциях, времени отправления, днях курсирования, расстоянии.
Выполненные шаги
- Загрузка и очистка данных.
- Преобразование типов, извлечение признаков (час отправления, количество дней курсирования).
- Разведочный анализ: пропуски, статистики.
- Визуализация:
- Гистограмма расстояний.
- Scatter plot "расстояние vs. число дней курсирования".
- Boxplot расстояний по дням недели.
- Топ-15 станций по количеству поездов.
- Тепловая карта корреляции.
- Использование tqdm для отслеживания группировки данных.
- Выводы.
Запуск
- Установить зависимости:
pip install -r requirements.txt - Поместить
IRCTC_cleaned.csvв корень проекта. - Запустить Jupyter Lab и открыть
week2_analysis.ipynb.