کاهش دقت چتباتها در گفتوگوهای طولانی؛ پژوهش جدید مایکروسافت و Salesforce
بررسی ۲۰۰هزار مکالمه نشان میدهد مدلهای زبانی بزرگ در چند تعامل متوالی دچار افت عملکرد تا ۲۵درصد میشوند؛ افزایش حجم پاسخها و توهمزایی از چالشهای اصلی است.

چرا دقت چتباتها در گفتوگوهای طولانی کاهش مییابد؟
پژوهش مشترک Microsoft Research و Salesforce با تحلیل بیش از ۲۰۰هزار مکالمهی واقعی کاربران با مدلهایی مانند GPT-4.1، Gemini 2.5 Pro، Claude 3.7 Sonnet، o3، DeepSeek R1 و Llama 4 نشان میدهد که دقت مدلهای زبانی بزرگ در گفتوگوهای چندمرحلهای بهطور قابلتوجهی افت میکند. در حالی که نرخ موفقیت این مدلها در سناریوهای تکدرخواستی به حدود ۹۰درصد میرسد، میانگین موفقیت آنها در تعاملات رفتوبرگشتی طولانی به ۶۵درصد سقوط میکند؛ یعنی افت ۲۵درصدی که کاربران را با پاسخهای نادرست و توهمزایی مواجه میسازد.
محققان دریافتهاند که پدیدهی «تورم پاسخ» یکی از دلایل اصلی این مشکل است؛ بهگونهای که طول خروجیها در مکالمههای چندنوبتی بین ۲۰ تا ۳۰۰درصد افزایش مییابد. پاسخهای مفصلتر، فرضیات بیشتری وارد متن میکنند و احتمال خطا را بالا میبرند؛ خطاهایی که سپس بهعنوان زمینهی دائمی گفتوگو استفاده شده و دقت را بیش از پیش کاهش میدهند.
عوامل مؤثر بر افت عملکرد
- افزایش طول متن: هرچه گفتوگو طولانیتر شود، احتمال انحراف موضوعی بیشتر میشود.
- تداخل اطلاعات: اطلاعات قبلی بهعنوان نویز عمل کرده و پردازش جدید را مختل میکند.
- حافظهی محدود: مدلها قادر به نگهداری تمام بستر گفتوگو نیستند و بخشهای کلیدی را از دست میدهند.
- تورم پاسخ: افزایش حجم پاسخ منجر به افزایش خطا و کاهش سرعت میشود.
«ظاهراً دقت مدلهای هوش مصنوعی در گفتوگوهای چندمرحلهای طولانی کاهش مییابد.»
«هرچه بیشتر با چتباتها صحبت کنید، دقتشان کمتر خواهد شد.»
پیامدها برای کاربران و توسعهدهندگان
در شرایطی که Google AI Overviews و ابزارهای مشابه بهسرعت در حال جایگزینی موتورهای جستوجوی سنتی هستند، اتکای کامل به پاسخهای تولیدشده توسط مدلهای هوش مصنوعی میتواند ریسکپذیر باشد. کاربران باید بدانند که تعاملات طولانی ممکن است منجر دریافت اطلاعات نادرست شود و در موارد حساس، بررسی مجدد منابع معتبر ضروری است.


