Самарские исследователи придумали, как в эпоху искусственного интеллекта отличать в интернете ботов от людей

Преподаватели и аспиранты Самарского университета им. Королева первыми в мире (по данным глобальной поисковой системы по научным публикациям) провели экспериментальное исследование, посвященное проблемам возраста информации, которой оперируют популярные системы искусственного интеллекта (ИИ) – так называемые большие языковые модели (БЯМ). Эти системы ИИ традиционно используются для разнообразных операций с текстами, таких как написание, литературная обработка, исправление ошибок, перевод и так далее. Кроме того, большие языковые модели могут писать программный код, искать и собирать информацию и общаться с пользователями, отвечая на их вопросы – почти как человек.

В ходе экспериментов исследователи определили, с помощью какого типа вопросов можно практически точно понять, с кем именно вы общаетесь в интернете – с человеком или искусственным интеллектом. Это может помочь усовершенствовать классический тест Тьюринга, уже не справляющийся с современными системами ИИ. Результаты исследования опубликованы в авторитетном российском научном журнале "Искусственный интеллект и принятие решений" (12+).

- В нашем исследовании мы рассматривали ограничения в применении больших языковых моделей в связи с устареванием той информации, на которой модели обучались в свое время. Ранее, насколько мне известно, подобные исследования нигде в мире не проводились, можно сказать, что здесь мы первые. Причем это доклад на конференции, который прошел рецензирование, в отличие от препринтов конкурентов, которые и опубликованы позже. Работы также легко отличить по используемой терминологии. Дело в том, что, к сожалению, традиционные БЯМ не оснащены системами дообучения по большинству тем и областей человеческих знаний, поэтому со временем информация, которой владеют эти языковые модели, устаревает, ответы их чат-ботов становятся неточными и теряют актуальность в свете новых событий, новостей, появления новых технологий и так далее. Этот эффект уже много раз наблюдался у различных моделей, в связи с чем изучение ограничений на области применения БЯМ является сейчас весьма важной задачей для ученых, работающих в сфере искусственного интеллекта, - рассказал Андрей Сухов, доктор технических наук, профессор кафедры программных систем Самарского университета им. Королева.

Как отметил ученый, проблема верификации ответов, получаемых от чат-ботов БЯМ, остается сейчас по-прежнему достаточно острой. Пока что невозможно уверенно утверждать, является ли полученный от чат-бота ответ точным и основанным на реальных фактах, или же чат-бот использовал непроверенные факты и домыслы, размещенные в глобальной сети. Однако в ходе изучения проблем возраста информации самарские исследователи выявили закономерность, с помощью которой можно легко выводить в интернете на чистую воду ботов, маскирующихся под человека.

- Формат ответов чат-бота на запросы, относящиеся к информации из разных периодов времени – до и после обучения БЯМ, – сильно различается. Стандартная выдача чат-бота, как правило, представляет собой просто текстовый ответ с объяснением результата. Если же пользователь запросил информацию о событиях и явлениях, произошедших уже после обучения БЯМ, то чат-бот в таком случае обращается к поисковой системе – у разных моделей она разная – и выдает пользователю список из отрывков текстов со ссылками на сайты, откуда взяты эти самые отрывки. Такая смена формата ответа позволяет достаточно точно определить момент времени, в который происходило обучение модели, то есть определить возраст информации, а также может помочь отличить в ходе общения в интернете бота от человека, - подчеркнул один из авторов исследования Мурад Джериби, аспирант кафедры киберфотоники по специальности "Искусcтвенный интеллект и машинное обучение" Самарского университета им. Королева (на учебу в Самару Мурад прибыл из Алжира).

Согласно результатам исследования, чтобы определить время обучения модели и возраст информации, на которой она обучалась, необходимо просто составить и задать список вопросов, которые предполагают простой численный ответ, имеющий различные числовые значения в разные периоды времени. При этом нужно, чтобы ответы на эти вопросы можно было легко проверить с помощью поисковых систем в интернете. В качестве такого контрольного запроса можно, например, спросить чат-бота о численности населения или о количестве браков и разводов за определенные периоды времени в какой-нибудь стране, где подобная статистика общедоступна на сайтах соответствующих ведомств. Как только чат-бот сменит формат ответов и начнет выдавать отрывки статистических данных со ссылками на сайты, можно будет понять, когда модель этого чат-бота проходила обучение.

- Подобные вопросы можно задавать, например, и для того, чтобы понять, с кем вы общаетесь в Сети – с человеком или компьютером. Если ответы вашего собеседника содержат ссылки на интернет-поисковик или в ответе приводится список сайтов с краткой информацией по тематике запроса, то очень велика вероятность, что вы общаетесь именно с системой ИИ. Поэтому мы предлагаем использовать данное изменение формата ответа в качестве специального квалификационного условия-признака для идентификации БЯМ. Считаем, что предложенный нами алгоритм действий следует в дальнейшем также применять для составления обновленного списка вопросов при прохождении теста Тьюринга, - отметил Андрей Сухов.

Материал подготовлен при поддержке Минобрнауки России в рамках Десятилетия науки и технологий.

Самарские исследователи придумали, как в эпоху искусственного интеллекта отличать в интернете ботов от людей

Результаты исследования помогут модернизировать классический тест Тьюринга.

На форуме "Диалог о фейках 3.0" дезинформацию назвали пандемией XXI века