Некоторые компании хотят, чтобы о них писали в Интернете только хорошее. Они нанимают специальных людей, которые этим и занимаются. В результате засилье фейковых отзывов не только лишает российский рынок здоровой конкуренции, но и не позволяет пользователям выбрать то, что им действительно нужно.
После появления ChatGPT и подобных ей нейросетей генерировать "липовые", но при этом довольно качественные отзывы стало ещё проще. Отделить зёрна от плевел взялись учёные факультета вычислительной математики и кибернетики МГУ им. Ломоносова.
— В качестве метода распознавания автоматически сгенерированных отзывов мы выбрали языковую модель ruRoBERTa, разработанную командой SberDevices специально для русскоязычных текстов, и математическую модель на основе LSTM. Для генерации отзывов была выбрана модель ruGPT-3 Large, которая хорошо зарекомендовала себя на схожих задачах в других исследованиях, — рассказала Metro ассистент кафедры алгоритмических языков факультета ВМК МГУ Наталья Ефремова.
Для обучения моделей учёные сформировали набор данных в четыре этапа: собрали отзывы на страницах товаров маркетплейсов (20 тысяч реальных отзывов), дообучили модели ruGPT-3 на полученных отзывах, сгенерировали искусственные отзывы с использованием дообученной модели (10 тысяч искусственных отзывов) и создали сбалансированный набор данных из 20 тысяч отзывов. По результатам модель LSTM распознала автоматически созданные тексты в 82%, модель RoBERTa — в 86%.
В целом, по словам учёных, модели правильно выделяют сгенерированные отзывы, которые на первый взгляд кажутся реальными.