Go to file
2026-05-06 14:31:31 +03:00
src Final version - week_2: analysis of Indian Railways 2026-05-06 14:31:31 +03:00
.gitignore Final version - week_2: analysis of Indian Railways 2026-05-06 14:31:31 +03:00
README.md Final version - week_2: analysis of Indian Railways 2026-05-06 14:31:31 +03:00
requirements.txt Final version - week_2: analysis of Indian Railways 2026-05-06 14:31:31 +03:00
week2_analysis.ipynb Final version - week_2: analysis of Indian Railways 2026-05-06 14:31:31 +03:00

Анализ данных Indian Railways

Цель

Освоение инструментов анализа и визуализации данных (pandas, numpy, matplotlib, seaborn, tqdm) на примере датасета индийских железных дорог.

Данные

Набор данных IRCTC_cleaned.csv взят из Kaggle. Содержит информацию о поездах, станциях, времени отправления, днях курсирования, расстоянии.

Выполненные шаги

  • Загрузка и очистка данных.
  • Преобразование типов, извлечение признаков (час отправления, количество дней курсирования).
  • Разведочный анализ: пропуски, статистики.
  • Визуализация:
    • Гистограмма расстояний.
    • Scatter plot "расстояние vs. число дней курсирования".
    • Boxplot расстояний по дням недели.
    • Топ-15 станций по количеству поездов.
    • Тепловая карта корреляции.
  • Использование tqdm для отслеживания группировки данных.
  • Выводы.

Запуск

  1. Установить зависимости: pip install -r requirements.txt
  2. Поместить IRCTC_cleaned.csv в корень проекта.
  3. Запустить Jupyter Lab и открыть week2_analysis.ipynb.