Исследователи из Калифорнийского университета в Сан-Диего заявили, что модель GPT-4.5 смогла пройти модернизированную версию теста Тьюринга и в большинстве случаев убедить людей, что они общаются с реальным человеком. Об этом пишет Digitaltrends.

Почему результаты нового теста Тьюринга вызвали беспокойство?

Согласно результатам исследования, опубликованного в журнале Proceedings of the National Academy of Sciences, GPT-4.5 выбирали как "человека" в 73% случаев во время живых текстовых разговоров. Причем модель не просто избегала разоблачения – она оказалась убедительнее некоторых реальных участников эксперимента.

В отличие от классических проверок искусственного интеллекта, новый тест базировался на реальном общении в режиме онлайн. Участники вели короткие текстовые диалоги одновременно с человеком и AI-моделью, после чего должны были определить, кто из двух собеседников является реальным человеком.

Google Читайте больше проверенных новостей Добавьте 24 Канал в избранные источники в Google Добавить

Как говорится в исследовании от PNAS, исследователи использовали так называемую "трехстороннюю" версию теста Тьюринга, где судья оценивал не отдельные ответы, а общее поведение собеседников в разговоре. Ключевую роль сыграла способность AI демонстрировать естественные социальные сигналы – стиль речи, реакции, непринужденность и поведенческие особенности, которые люди обычно ассоциируют с живым человеком.

Особенно успешными модели становились после так называемых persona prompts – дополнительных инструкций, которые задавали AI определенный характер или стиль личности. Кроме GPT-4.5, в исследовании проверяли и модель LLaMa-3.1-405B. Она также превысила психологический предел, получив 56% голосов в пользу того, что собеседник является человеком.

Что такое тест Тьюринга?

Тест Тьюринга – это концепция, предложенная британским математиком и криптографом Алан Тьюринг еще в 1950 году. Его суть заключается в простом вопросе: может ли машина настолько убедительно имитировать человека в разговоре, чтобы собеседник не смог отличить его от реального человека.

В классическом варианте теста человек общается через текстовый интерфейс с двумя невидимыми собеседниками – человеком и машиной – и пытается определить, кто есть кто. В течение десятилетий тест Тьюринга оставался скорее символическим ориентиром для развития AI, чем точным научным измерением интеллекта.

Однако новые результаты привлекли особое внимание из-за того, насколько естественно современные модели научились вести короткие социальные разговоры.

Авторы исследования отмечают, что результаты не означают появление настоящего сознания или человеческого мышления в AI. Модели не "понимают" человека в человеческом смысле и не имеют эмоций или самосознания. Впрочем, для создания убедительной иллюзии этого уже может быть достаточно.

Искусственному интеллекту не нужен голос, внешность или личная история. Ему достаточно выглядеть убедительным в конкретный момент общения. Именно это, по мнению исследователей, и вызывает наибольшее беспокойство.

Где это может стать проблемой?

Ученые отмечают, что подобные технологии могут влиять на повседневную жизнь значительно сильнее, чем кажется.

Сферы риска включают:

  • службы поддержки клиентов;
  • социальные сети;
  • сайты знакомств;
  • онлайн-образование;
  • политические кампании;
  • маркетинг и рекламу.

Во всех этих случаях люди часто вынуждены быстро оценивать, заслуживает ли собеседник доверия. Если чат-боты научатся полностью растворяться в человеческом общении, это может создать новые проблемы для цифровой безопасности, манипуляций и дезинформации.

Авторы работы считают, что одним из главных вызовов ближайших лет станет вопрос прозрачности. Когда пользователь уже не может легко понять, общается ли он с человеком или алгоритмом, возникает потребность в четких механизмах обозначения AI в чатах и цифровых сервисах.

Особенно важным это может стать в ситуациях, где люди принимают решения на основе доверия, эмоций или личных убеждений. Новое исследование фактически демонстрирует, что эпоха, когда искусственный интеллект можно было легко распознать по "неестественным" ответам, быстро завершается.