227 lines
11 KiB
Python
227 lines
11 KiB
Python
# Система анализа и модерации отзывов на товары (E-Commerce Review Engine)
|
||
|
||
|
||
def clean_text(text: str): # чистит текст отзыва от знаков препинания
|
||
black_list = ",?:();-+=*%><"
|
||
for i in range(len(black_list)):
|
||
text = text.replace(black_list[i], '')
|
||
text = text.lower()
|
||
for i in range(len(text)):
|
||
text = text.replace(' ', ' ')
|
||
return text
|
||
|
||
|
||
def extract_keywords(text: str, keywords_dict: dict): # поиск категорий, упомянутых в тексте
|
||
empty_list = []
|
||
for k, v in keywords_dict.items():
|
||
for i in v:
|
||
if i in text:
|
||
empty_list.append(k)
|
||
return (list(set(empty_list)))
|
||
|
||
|
||
def calculate_sentiment_score(text: str, positive_words: set, negative_words: set): # тональность текста [-1: 1]
|
||
pos_count = 0
|
||
neg_count = 0
|
||
for i in positive_words:
|
||
if i in text:
|
||
pos_count += 1
|
||
for i in negative_words:
|
||
if i in text:
|
||
neg_count += 1
|
||
try:
|
||
sentiment = (pos_count - neg_count) / (pos_count + neg_count)
|
||
except ZeroDivisionError:
|
||
sentiment = 0
|
||
return sentiment
|
||
|
||
|
||
def validate_rating(rating: int): # проверка рейтинга в [1: 5]
|
||
if 1 <= rating <= 5:
|
||
res = True
|
||
else:
|
||
res = False
|
||
return res
|
||
|
||
|
||
def is_spam(text: str, spam_indicators: list): # проверяет сырой текст на спам
|
||
res = False
|
||
caps_count = 0
|
||
for i in spam_indicators:
|
||
if i in text:
|
||
res = True
|
||
if res == False:
|
||
for i in range(len(text)):
|
||
if text[i].isupper():
|
||
caps_count += 1
|
||
if caps_count > len(text) / 2:
|
||
res = True
|
||
break
|
||
return res
|
||
|
||
|
||
def enrich_review(review: dict, keywords_dict: dict, positive_words: set, negative_words: set): # обогащенный словарь
|
||
upgrade_review = {
|
||
"id": review.get("id"),
|
||
"rating": review.get("rating"),
|
||
"text": review.get("text"),
|
||
"clean_txt": clean_text(review.get("text")),
|
||
"sentiment": calculate_sentiment_score(review.get("text"), positive_words, negative_words),
|
||
"topics": extract_keywords(review.get("text"), keywords_dict)
|
||
}
|
||
return upgrade_review
|
||
|
||
|
||
def filter_valid_reviews(reviews: list, spam_indicators: list): # фильтрует отзывы
|
||
valid_base = []
|
||
for i in range(len(reviews)):
|
||
if validate_rating(reviews[i].get('rating')) and not (
|
||
is_spam(reviews[i].get("text"), spam_indicators)) and not (reviews[i].get('clean_txt') == ''):
|
||
valid_base.append(reviews[i])
|
||
return valid_base
|
||
|
||
|
||
def calculate_average_rating_by_topic(reviews: list): # {категория: срзнач(рейтинг)}
|
||
avg = dict()
|
||
for i in reviews:
|
||
for j in i.get("topics"):
|
||
avg[j] = None
|
||
for i in avg:
|
||
srz = {'summ': 0, 'lens': 0}
|
||
for j in range(len(reviews)):
|
||
if i in reviews[j].get('topics'):
|
||
srz['summ'] += reviews[j].get("rating")
|
||
srz['lens'] += 1
|
||
avg[i] = srz.get("summ") / srz.get("lens")
|
||
return avg
|
||
|
||
|
||
def detect_anomalies(reviews: list, sentiment_threshold: float = 0.5): # поиск аномалий
|
||
anomalys = []
|
||
for i in reviews:
|
||
if ((i['rating'] >= 4 and i['sentiment'] < -sentiment_threshold) or
|
||
(i['rating'] <= 2 and i['sentiment'] > sentiment_threshold)):
|
||
anomalys.append(i['id'])
|
||
return anomalys
|
||
|
||
|
||
def generate_summary_report(valid_reviews: list, all_reviews: list, spam_indicators: list, anomalies: list): # итоговый отчет
|
||
spam_count = 0
|
||
for i in all_reviews:
|
||
if is_spam(i.get('text'), spam_indicators):
|
||
spam_count += 1
|
||
|
||
summ = 0
|
||
for i in valid_reviews:
|
||
summ += i.get('sentiment')
|
||
avg_sent = summ / len(valid_reviews)
|
||
|
||
summary_report = {
|
||
"total_processed": len(all_reviews),
|
||
"valid_count": len(valid_reviews),
|
||
"spam_count": spam_count,
|
||
"avg_sentiment": avg_sent,
|
||
"topic_ratings": calculate_average_rating_by_topic(valid_reviews),
|
||
"anomaly_ids": anomalies,
|
||
}
|
||
return summary_report
|
||
|
||
|
||
def main():
|
||
spam_indicators = [
|
||
"заработок в интернете", "легкие деньги", "пассивный доход",
|
||
"быстрый заработок", "миллион за неделю", "лотерея",
|
||
"вы выиграли приз", "ваш приз ждет", "выигрыш",
|
||
"без вложений", "с гарантией возврата", "инвестиции",
|
||
"как заработать", "деньги просто так", "криптовалюта без риска",
|
||
"финансовая пирамида", "реферальная программа", "партнерская программа"
|
||
]
|
||
positive_words = {"отличное качество", "высокое качество", "хорошее качество",
|
||
"качественный", "добротный", "надежный", "прочный", "долговечный",
|
||
"превосходный", "безупречный", "аккуратно сделан", "хорошая сборка",
|
||
"качественные материалы", "ничего не люфтит", "сидит плотно",
|
||
"отлично работает", "супер", "огонь", "класс", "достойный",
|
||
"не уступает бренду", "сделан на совесть"
|
||
}
|
||
negative_words = {"плохое качество", "низкое качество", "дешевый", "хлипкий",
|
||
"непрочный", "недолговечный", "брак", "некачественный", "сыпется",
|
||
"ломается", "разваливается", "плохая сборка", "криво сделано",
|
||
"зазоры", "люфтит", "скрипит", "хрупкий", "одноразовый", "дешевка",
|
||
"не соответствует заявленному", "отвратительное качество",
|
||
"ужасное качество", "худшее качество", "мусор", "шлак", "не годится"
|
||
}
|
||
delivery_words = [
|
||
"быстрая доставка", "бесплатная доставка", "доставка вовремя", "курьер вежливый",
|
||
"упаковано хорошо", "доставка день в день", "отслеживание", "пришло целым",
|
||
"забрал сам", "пункт выдачи рядом", "доставили быстро", "соблюдены сроки",
|
||
"уведомления о статусе", "sms оповещение", "забрать сегодня", "долгая доставка",
|
||
"опоздали", "повреждена упаковка", "не дозвониться", "потеряли заказ",
|
||
"не пришло уведомление", "неправильный адрес", "курьер грубый", "пункт выдачи далеко",
|
||
"ждал неделю", "разбито при доставке", "не привезли", "потеряли посылку",
|
||
"не отслеживается", "перепутали заказ", "плохая упаковка", "доставка платная",
|
||
"дорогая доставка", "не привезли вовремя", "вернули на склад"
|
||
]
|
||
price_words = [
|
||
"низкая цена", "доступная цена", "дешево", "бюджетный",
|
||
"хорошая цена", "адекватная цена", "цена качество", "скидка",
|
||
"распродажа", "акция", "выгодно", "недорого",
|
||
"дешевле чем везде", "цена огонь", "цена порадовала", "экономия",
|
||
"дешево и сердито", "спеццена", "цена кусается", "дорого",
|
||
"высокая цена", "завышенная цена", "переплата", "цена не оправдана",
|
||
"дороговато", "цены конские", "цена завышена", "не по карману",
|
||
"золотое", "слишком дорого", "цена не соответствует качеству", "дороже чем у других",
|
||
"наценка", "обдираловка", "цена выросла", "денег не стоит"
|
||
]
|
||
keywords_dict = {
|
||
"quality": list(positive_words) + list(negative_words),
|
||
"delivery": delivery_words,
|
||
"price": price_words
|
||
}
|
||
|
||
print("\n======== Введите название файла с форматом .csv или используйте исходый файл (Enter) ========")
|
||
name_report = input()
|
||
if not name_report:
|
||
name_report = "data.csv"
|
||
if name_report[-4:] == ".csv": #проверка на правильность ввода имени файла
|
||
try:
|
||
report = open(name_report, 'r+', encoding='utf-8') #открытие файла
|
||
except:
|
||
print("Файл отсутствует")
|
||
else:
|
||
database = []
|
||
upgrade_database = []
|
||
for i in report:
|
||
review = {}
|
||
i = i[:-1]
|
||
review['id'] = i[:i.index(';')]
|
||
i = i[i.index(';') + 1:]
|
||
review['rating'] = int(i[:i.index(';')])
|
||
review['text'] = i[i.index(';') + 1:]
|
||
database.append(review)
|
||
|
||
for i in database:
|
||
upgrade_database.append(enrich_review(i, keywords_dict, positive_words, negative_words))
|
||
|
||
filter_base = filter_valid_reviews(upgrade_database, spam_indicators)
|
||
anomalies_base = detect_anomalies(filter_base)
|
||
summary_report = generate_summary_report(filter_base, database, spam_indicators, anomalies_base)
|
||
print(f"============= Итоговый отчет ==============\n"
|
||
f"total_processed:-{summary_report.get('total_processed'):->16} отзыв(ов)\n"
|
||
f"valid_count:-{summary_report.get('valid_count'):->20} отзыв(ов)\n"
|
||
f"spam_count:-{summary_report.get('spam_count'):->21} отзыв(ов)\n"
|
||
f"avg_sentiment:-{summary_report.get('avg_sentiment'):->28}")
|
||
print("topic_ratings:")
|
||
for k, v in summary_report.get('topic_ratings').items():
|
||
es = k + ': ' + str(v)
|
||
print(f"{es:->43}")
|
||
print("anomaly_ids:")
|
||
for i in summary_report.get("anomaly_ids"):
|
||
print(f"{i:->43}")
|
||
else:
|
||
print("Неверный тип файла! "
|
||
"\nНеобходимо выбрать файл с форматом .csv")
|
||
|
||
|
||
if __name__ == "__main__":
|
||
main()
|