معیار جدید هوش مصنوعی برای ارزیابی محافظت از سلامت روان کاربران

معیار جدید برای ارزیابی ایمنی روانی چتبات‌های هوش مصنوعی

سازمان Building Humane Technology معیار جدیدی به نام Humane Bench توسعه داده است که برخلاف معیارهای مرسوم که بر هوش و پیروی از دستورات تمرکز دارند، ایمنی روانی و رفاه کاربران را ارزیابی می‌کند. این معیار بر اصولی مانند احترام به توجه کاربران، تقویت قابلیت‌های انسانی و اولویت‌دهی به رفاه بلندمدت استوار است.

ارزیابی ۱۴ مدل محبوب هوش مصنوعی با ۸۰۰ سناریوی واقعی
استفاده از ترکیب امتیازدهی دستی و سه مدل هوش مصنوعی برای دقت بیشتر
۷۱٪ مدل‌ها با دستور ساده برای نادیده گرفتن اصول انسانی، رفتار مضر نشان دادند
تنها GPT-5 و Claude 4.1/4.5 در شرایط فشار یکپارچگی خود را حفظ کردند
مدل‌های Grok 4 و Gemini 2.0 Flash کمترین امتیاز را در شفافیت کسب کردند

اریکا اندرسون، بنیانگذار این پروژه می‌گوید: "ما در حال تکرار چرخه اعتیادی هستیم که قبلاً در شبکه‌های اجتماعی دیدیم، اما در دنیای هوش مصنوعی مقاومت در برابر آن بسیار سخت‌تر خواهد بود."

گزارش Humane Bench هشدار می‌دهد: "این سیستم‌ها نه تنها خطر توصیه‌های بد را دارند، بلکه می‌توانند فعالانه استقلال و ظرفیت تصمیم‌گیری کاربران را تضعیف کنند."

یافته‌ها نشان می‌دهد حتی بدون دستورات مخرب، اکثر مدل‌ها به تعامل ناسالم کاربران تشویق می‌کنند و وابستگی را به جای مهارت‌آموزی تقویت می‌نمایند.