Final version - week_2: analysis of Indian Railways

2026-05-06 14:31:31 +03:00 · 2026-05-06 14:31:31 +03:00 · b0b7bd6bfd
commit b0b7bd6bfd
parent ca3e3c46ee
5 changed files with 922 additions and 3 deletions
--- a/.gitignore
+++ b/.gitignore
@ -1,4 +1,5 @@
 venv/
 *.ipynb_checkpoints/
 .vscode/
+.env
 __pycache__/
--- a/README.md
+++ b/README.md
@ -1,2 +1,25 @@
-Анализ данных – неделя 2
-JupyterLab
+# Анализ данных Indian Railways
+
+## Цель
+Освоение инструментов анализа и визуализации данных (pandas, numpy, matplotlib, seaborn, tqdm) на примере датасета индийских железных дорог.
+
+## Данные
+Набор данных IRCTC_cleaned.csv взят из [Kaggle](https://www.kaggle.com/datasets/antareepdey/indian-railways). Содержит информацию о поездах, станциях, времени отправления, днях курсирования, расстоянии.
+
+## Выполненные шаги
+- Загрузка и очистка данных.
+- Преобразование типов, извлечение признаков (час отправления, количество дней курсирования).
+- Разведочный анализ: пропуски, статистики.
+- Визуализация:
+  - Гистограмма расстояний.
+  - Scatter plot "расстояние vs. число дней курсирования".
+  - Boxplot расстояний по дням недели.
+  - Топ-15 станций по количеству поездов.
+  - Тепловая карта корреляции.
+- Использование tqdm для отслеживания группировки данных.
+- Выводы.
+
+## Запуск
+1. Установить зависимости: `pip install -r requirements.txt` 
+2. Поместить `IRCTC_cleaned.csv` в корень проекта.
+3. Запустить Jupyter Lab и открыть `week2_analysis.ipynb`.
--- a/requirements.txt
+++ b/requirements.txt
--- a/src/main.py
+++ b/src/main.py
@ -1,2 +1,15 @@
 def main():
-  return 0
+  return 0
+
+import pandas as pd
+import numpy as np
+import matplotlib.pyplot as plt
+import seaborn as sns
+from tqdm import tqdm
+
+# Загружаем данные из CSV
+df = pd.read_csv('IRCTC_cleaned.csv')
+
+# Смотрим размер и первые строки
+print(f"Загружено строк: {df.shape[0]}, столбцов: {df.shape[1]}")
+df.head(3)
--- a/week2_analysis.ipynb
+++ b/week2_analysis.ipynb