Реализована система анализа комментариев

2026-04-04 10:11:39 +03:00 · 2026-04-04 10:11:39 +03:00 · 35800b825d
commit 35800b825d
parent 31f845f17b
11 changed files with 381 additions and 0 deletions
--- a/.idea/.gitignore
+++ b/.idea/.gitignore
@ -0,0 +1,5 @@
+# Default ignored files
+/shelf/
+/workspace.xml
+# Editor-based HTTP Client requests
+/httpRequests/
--- a/.idea/inspectionProfiles/profiles_settings.xml
+++ b/.idea/inspectionProfiles/profiles_settings.xml
@ -0,0 +1,6 @@
+<component name="InspectionProjectProfileManager">
+  <settings>
+    <option name="USE_PROJECT_PROFILE" value="false" />
+    <version value="1.0" />
+  </settings>
+</component>
--- a/.idea/misc.xml
+++ b/.idea/misc.xml
@ -0,0 +1,7 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="Black">
+    <option name="sdkName" value="Python 3.14" />
+  </component>
+  <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.14" project-jdk-type="Python SDK" />
+</project>
--- a/.idea/modules.xml
+++ b/.idea/modules.xml
@ -0,0 +1,8 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectModuleManager">
+    <modules>
+      <module fileurl="file://$PROJECT_DIR$/.idea/praktika.iml" filepath="$PROJECT_DIR$/.idea/praktika.iml" />
+    </modules>
+  </component>
+</project>
--- a/.idea/praktika.iml
+++ b/.idea/praktika.iml
@ -0,0 +1,8 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<module type="PYTHON_MODULE" version="4">
+  <component name="NewModuleRootManager">
+    <content url="file://$MODULE_DIR$" />
+    <orderEntry type="jdk" jdkName="Python 3.14" jdkType="Python SDK" />
+    <orderEntry type="sourceFolder" forTests="false" />
+  </component>
+</module>
--- a/.idea/vcs.xml
+++ b/.idea/vcs.xml
@ -0,0 +1,6 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="VcsDirectoryMappings">
+    <mapping directory="" vcs="Git" />
+  </component>
+</project>
--- a/data/comments.txt
+++ b/data/comments.txt
@ -0,0 +1,10 @@
+alice|Это плохое кино, ужас просто! Актеры играют отвратительно
+bob|Отлично! Фильм супер, мне очень понравилось. Напишите мне на test@example.com
+charlie|Нормально, но могло быть и лучше. Спецэффекты слабоваты
+alice|Фигня полная, bad фильм. Зря потратил время и деньги
+bob|Хорошо, спасибо за рекомендацию. Буду ждать продолжение
+david|Коротко и неинформативно
+alice|Отстой! Ужасная игра актеров и сценарий ни о чем
+bob|Прекрасный фильм, спасибо огромное! Обратная связь: feedback@site.ru
+eve|Неплохо, но есть к чему стремиться. Сценарий слабоват
+alice|Это плохое кино, ужас просто!
--- a/data/filtered_comments.txt
+++ b/data/filtered_comments.txt
@ -0,0 +1,10 @@
+это *** кино *** просто! актеры играют отвратительно
+отлично! фильм супер мне очень понравилось. напишите мне на test@example.com
+нормально но могло быть и лучше. спецэффекты слабоваты
+*** полная *** фильм. зря потратил время и деньги
+хорошо спасибо за рекомендацию. буду ждать продолжение
+коротко и неинформативно
+отстой! ***ная игра актеров и сценарий ни о чем
+прекрасный фильм спасибо огромное! обратная связь feedback@site.ru
+неплохо но есть к чему стремиться. сценарий слабоват
+это *** кино *** просто!
--- a/src/init.py
+++ b/src/init.py
--- a/src/comment_processor.py
+++ b/src/comment_processor.py
@ -0,0 +1,169 @@
+import re
+from collections import defaultdict
+
+
+def clean_text(raw: str) -> str:
+    """
+    Удаляет лишние пробелы, приводит к нижнему регистру,
+    удаляет знаки пунктуации (кроме ., !), сохраняет email
+    """
+    if not isinstance(raw, str):
+        raw = str(raw)
+
+    text = raw.lower()
+
+    # Временно заменяем email-адреса
+    email_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
+    emails = re.findall(email_pattern, text)
+    for i, email in enumerate(emails):
+        text = text.replace(email, f'__EMAIL_{i}__')
+
+    # Удаляем пунктуацию, но сохраняем . и !
+    text = re.sub(r'[^\w\s.!]', '', text)
+
+    # Восстанавливаем email-адреса
+    for i, email in enumerate(emails):
+        text = text.replace(f'__EMAIL_{i}__', email)
+
+    # Нормализуем пробелы (один пробел между словами)
+    text = ' '.join(text.split())
+
+    return text
+
+
+def extract_emails(text: str) -> list:
+    """
+    Возвращает список всех email-адресов в тексте.
+    """
+    if not isinstance(text, str):
+        return []
+    pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
+    return re.findall(pattern, text)
+
+
+# ----- 3. Маскировка нецензурной лексики -----
+def mask_profanity(text: str, bad_words: list) -> str:
+    """
+    Заменяет все вхождения слов из bad_words на ***
+    """
+    if not isinstance(text, str):
+        text = str(text)
+    result = text
+    for word in bad_words:
+        # Регистронезависимая замена
+        pattern = re.compile(re.escape(word), re.IGNORECASE)
+        result = pattern.sub('***', result)
+    return result
+
+
+# ----- 4. Вычисление тональности -----
+def calculate_sentiment_score(text: str, positive_words: set, negative_words: set) -> int:
+    """
+    Возвращает 1, если больше позитивных слов,
+    -1 если больше негативных, 0 если поровну или слов нет
+    """
+    if not isinstance(text, str):
+        text = str(text)
+
+    words = text.lower().split()
+    pos_count = sum(1 for w in words if w in positive_words)
+    neg_count = sum(1 for w in words if w in negative_words)
+
+    if pos_count > neg_count:
+        return 1
+    elif neg_count > pos_count:
+        return -1
+    else:
+        return 0
+
+
+# ----- 5. Фильтрация по длине -----
+def filter_by_length(comments: list, min_len: int, max_len: int) -> list:
+    """
+    Возвращает список комментариев, длина которых входит в диапазон [min_len, max_len]
+    """
+    if not isinstance(comments, list):
+        return []
+    return [c for c in comments if min_len <= len(str(c)) <= max_len]
+
+
+# ----- 6. Тегирование пользователя по активности -----
+def tag_user_by_activity(comments: list, user_name: str) -> str:
+    """
+    Принимает список комментариев-словарей и имя пользователя.
+    Возвращает 'high' (>5), 'medium' (2-5), 'low' (0-1)
+    """
+    if not isinstance(comments, list):
+        return 'low'
+
+    count = sum(1 for c in comments if isinstance(c, dict) and c.get('user') == user_name)
+
+    if count > 5:
+        return 'high'
+    elif count >= 2:
+        return 'medium'
+    else:
+        return 'low'
+
+
+# ----- 7. Агрегация по пользователям -----
+def aggregate_by_user(comments: list) -> dict:
+    """
+    На входе список словарей {user: str, text: str}
+    Возвращает {user: [list_of_comments]}
+    """
+    if not isinstance(comments, list):
+        return {}
+
+    result = defaultdict(list)
+    for c in comments:
+        if isinstance(c, dict) and 'user' in c and 'text' in c:
+            result[c['user']].append(c['text'])
+    return dict(result)
+
+
+# ----- 8. Поиск дубликатов -----
+def find_duplicates(comments: list) -> list:
+    """
+    Возвращает список индексов элементов, встречающихся более одного раза
+    (первое вхождение не считается дубликатом)
+    """
+    if not isinstance(comments, list):
+        return []
+
+    seen = {}
+    duplicate_indices = []
+
+    for idx, comment in enumerate(comments):
+        if comment in seen:
+            duplicate_indices.append(idx)
+        else:
+            seen[comment] = idx
+
+    return duplicate_indices
+
+
+# ----- 9. Генерация отчёта по комментарию -----
+def generate_comment_report(cleaned_text: str, sentiment: int, has_email: bool) -> dict:
+    """
+    Возвращает словарь с метаданными комментария
+    """
+    return {
+        "text": cleaned_text,
+        "sentiment": sentiment,
+        "contains_email": has_email,
+        "length": len(cleaned_text)
+    }
+
+
+# ----- 10. Сохранение отфильтрованных комментариев -----
+def save_filtered_comments(comments: list, file_path: str) -> None:
+    """
+    Сохраняет список очищенных комментариев в файл (каждый с новой строки)
+    """
+    try:
+        with open(file_path, 'w', encoding='utf-8') as f:
+            for comment in comments:
+                f.write(str(comment) + '\n')
+    except Exception as e:
+        print(f"Ошибка при сохранении файла {file_path}: {e}")
--- a/src/main.py
+++ b/src/main.py
@ -0,0 +1,152 @@
+import os
+import sys
+
+# Добавляем путь к src для импорта модуля
+sys.path.append(os.path.dirname(os.path.abspath(__file__)))
+
+from comment_processor import (
+    clean_text,
+    extract_emails,
+    mask_profanity,
+    calculate_sentiment_score,
+    filter_by_length,
+    tag_user_by_activity,
+    aggregate_by_user,
+    find_duplicates,
+    generate_comment_report,
+    save_filtered_comments
+)
+
+# ----- Захардкоженные данные для модерации -----
+BAD_WORDS = ["плохое", "ругательство", "bad", "ужас", "фигня"]
+
+POSITIVE_WORDS = {"хорошо", "отлично", "супер", "класс", "прекрасно", "нравится", "спасибо"}
+NEGATIVE_WORDS = {"плохо", "ужасно", "отстой", "не нравится", "кошмар", "ужас"}
+
+
+def load_raw_comments(file_path: str) -> list:
+    """
+    Загружает сырые данные из файла формата: user|текст комментария
+    Возвращает список словарей [{"user": ..., "text": ...}]
+    """
+    comments = []
+    try:
+        with open(file_path, 'r', encoding='utf-8') as f:
+            for line_num, line in enumerate(f, 1):
+                line = line.strip()
+                if not line:
+                    continue
+
+                # Разделяем по первому символу '|'
+                if '|' not in line:
+                    print(f"Предупреждение: строка {line_num} не содержит '|', пропускаем: {line}")
+                    continue
+
+                user, text = line.split('|', 1)
+                comments.append({"user": user.strip(), "text": text.strip()})
+    except FileNotFoundError:
+        print(f"Файл {file_path} не найден. Работаем с пустым списком комментариев.")
+    except Exception as e:
+        print(f"Ошибка при чтении файла {file_path}: {e}")
+
+    return comments
+
+
+def main():
+    print("=== Система анализа и очистки пользовательских комментариев ===\n")
+
+    # ----- Шаг 1: Загрузка данных -----
+    import os
+    input_file = os.path.join(os.path.dirname(__file__), "..", "data", "comments.txt")
+    raw_comments = load_raw_comments(input_file)
+    print(f"Загружено комментариев: {len(raw_comments)}")
+
+    if not raw_comments:
+        print("Нет данных для обработки. Завершение работы.")
+        return
+
+    # ----- Шаг 2-4: Обработка каждого комментария -----
+    processed_comments = []  # Для хранения очищенных текстов
+    comment_reports = []  # Для итоговых отчётов
+    emails_found_count = 0
+    sentiment_stats = {1: 0, -1: 0, 0: 0}  # positive, negative, neutral
+
+    for item in raw_comments:
+        original_text = item['text']
+        user = item['user']
+
+        # Шаг 3: Очистка текста
+        cleaned = clean_text(original_text)
+
+        # Шаг 3 (продолжение): Маскировка плохих слов
+        masked = mask_profanity(cleaned, BAD_WORDS)
+
+        # Шаг 4: Вычисление тональности
+        sentiment = calculate_sentiment_score(masked, POSITIVE_WORDS, NEGATIVE_WORDS)
+        sentiment_stats[sentiment] += 1
+
+        # Дополнительно: проверка наличия email
+        emails = extract_emails(masked)
+        has_email = len(emails) > 0
+        if has_email:
+            emails_found_count += 1
+
+        # Шаг 8: Формирование отчёта
+        report = generate_comment_report(masked, sentiment, has_email)
+        comment_reports.append(report)
+
+        # Сохраняем для дальнейших шагов (сохраняем связь с пользователем)
+        processed_comments.append({"user": user, "text": masked})
+
+    # ----- Шаг 5: Фильтрация по длине -----
+    all_texts = [item['text'] for item in processed_comments]
+    filtered_texts = filter_by_length(all_texts, 10, 200)
+    print(f"\nПосле фильтрации по длине (10-200 символов) осталось: {len(filtered_texts)} комментариев")
+
+    # ----- Шаг 6: Поиск дубликатов среди очищенных комментариев -----
+    duplicate_indices = find_duplicates(all_texts)
+    if duplicate_indices:
+        print(f"Найдены дубликаты на индексах: {duplicate_indices}")
+    else:
+        print("Дубликатов не найдено")
+
+    # ----- Шаг 7: Агрегация по пользователям и тегирование -----
+    user_aggregated = aggregate_by_user(processed_comments)
+    print(f"\nУникальных пользователей: {len(user_aggregated)}")
+
+    user_activity = {}
+    for user, comments_list in user_aggregated.items():
+        tag = tag_user_by_activity(processed_comments, user)
+        user_activity[user] = tag
+        print(f"  {user}: {tag} активность ({len(comments_list)} комментариев)")
+
+    # ----- Шаг 9: Сохранение отфильтрованных комментариев -----
+    import os
+    output_file = os.path.join(os.path.dirname(os.path.dirname(__file__)), "data", "filtered_comments.txt")
+    save_filtered_comments(filtered_texts, output_file)
+    print(f"\nОтфильтрованные комментарии сохранены в {output_file}")
+
+    # ----- Шаг 10: Вывод итоговой статистики -----
+    print("\n" + "=" * 50)
+    print("ИТОГОВАЯ СТАТИСТИКА:")
+    print("=" * 50)
+    print(f"1. Общее количество уникальных пользователей: {len(user_aggregated)}")
+    print(f"2. Количество комментариев, содержащих email: {emails_found_count}")
+    print(f"3. Распределение тональности:")
+    print(f"   - Положительные (sentiment = 1): {sentiment_stats[1]}")
+    print(f"   - Отрицательные (sentiment = -1): {sentiment_stats[-1]}")
+    print(f"   - Нейтральные (sentiment = 0): {sentiment_stats[0]}")
+    print("=" * 50)
+
+    # Дополнительно: покажем пример первых 3 отчётов
+    print("\nПример первых 3 отчётов по комментариям:")
+    for i, report in enumerate(comment_reports[:3]):
+        print(f"\n  Отчёт {i + 1}:")
+        print(f"    Текст: {report['text'][:50]}...")
+        print(f"    Тональность: {report['sentiment']}")
+        print(f"    Содержит email: {report['contains_email']}")
+        print(f"    Длина: {report['length']}")
+
+
+if __name__ == "__main__":
+    main()