Исследователи из Microsoft Research вместе с Salesforce проанализировали более 200 тысяч диалогов с ведущими крупными языковыми моделями. Среди них – GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Об этом пишет Windows central.

Почему AI теряет точность во время длинных разговоров?

Результаты показали: модели демонстрируют около 90% успешности при выполнении задач по одному запросу. Однако в формате естественного многошагового разговора этот показатель падает примерно до 65%.

В то же время исследователи отмечают: это не означает, что модель буквально становится глупее. Общее снижение когнитивной способности оценили примерно в 15%. Однако уровень ненадежности вырос на 112%. Другими словами, ответы чаще становились нестабильными или содержали ошибки.

Как пишет XDA, одной из причин называют так называемое преждевременное генерирование. Модель начинает формировать ответ еще до того, как пользователь полностью изложил контекст или уточнил детали. Это приводит к тому, что дальнейший диалог строится на неточной основе.

Еще одна проблема – закрепление первичной ошибки. Если первый ответ содержал неточность, модель часто использует ее как базу для последующих утверждений, даже когда она ложная.

Исследователи также зафиксировали явление "раздувания ответа". В многошаговых диалогах объем текста возрастал на 20%–300% по сравнению с однократными запросами. Более длинные ответы содержали больше предположений и галлюцинаций, которые впоследствии воспринимались как часть контекста разговора.

Даже модели с дополнительными "thinking tokens", например o3 или DeepSeek R1, не смогли полностью избежать этой проблемы.

В более широком контексте исследование подчеркивает: несмотря на быстрое внедрение генеративного AI и изменение привычек пользователей, в частности переход от классического поиска к AI-инструментам, надежность таких систем остается уязвимой, особенно когда в диалоге появляется много переменных.