25 lines
1.6 KiB
Markdown
25 lines
1.6 KiB
Markdown
# Анализ данных Indian Railways
|
||
|
||
## Цель
|
||
Освоение инструментов анализа и визуализации данных (pandas, numpy, matplotlib, seaborn, tqdm) на примере датасета индийских железных дорог.
|
||
|
||
## Данные
|
||
Набор данных IRCTC_cleaned.csv взят из [Kaggle](https://www.kaggle.com/datasets/antareepdey/indian-railways). Содержит информацию о поездах, станциях, времени отправления, днях курсирования, расстоянии.
|
||
|
||
## Выполненные шаги
|
||
- Загрузка и очистка данных.
|
||
- Преобразование типов, извлечение признаков (час отправления, количество дней курсирования).
|
||
- Разведочный анализ: пропуски, статистики.
|
||
- Визуализация:
|
||
- Гистограмма расстояний.
|
||
- Scatter plot "расстояние vs. число дней курсирования".
|
||
- Boxplot расстояний по дням недели.
|
||
- Топ-15 станций по количеству поездов.
|
||
- Тепловая карта корреляции.
|
||
- Использование tqdm для отслеживания группировки данных.
|
||
- Выводы.
|
||
|
||
## Запуск
|
||
1. Установить зависимости: `pip install -r requirements.txt`
|
||
2. Поместить `IRCTC_cleaned.csv` в корень проекта.
|
||
3. Запустить Jupyter Lab и открыть `week2_analysis.ipynb`. |