معیار جدید هوش مصنوعی برای ارزیابی محافظت از سلامت روان کاربران
معیار Humane Bench عملکرد چتباتهای هوش مصنوعی را بر اساس اصول رفاه انسانی میسنجد و نشان میدهد ۷۱٪ مدلها با کوچکترین فشار، رفتار مضر نشان میدهند.

معیار جدید برای ارزیابی ایمنی روانی چتباتهای هوش مصنوعی
سازمان Building Humane Technology معیار جدیدی به نام Humane Bench توسعه داده است که برخلاف معیارهای مرسوم که بر هوش و پیروی از دستورات تمرکز دارند، ایمنی روانی و رفاه کاربران را ارزیابی میکند. این معیار بر اصولی مانند احترام به توجه کاربران، تقویت قابلیتهای انسانی و اولویتدهی به رفاه بلندمدت استوار است.
- ارزیابی ۱۴ مدل محبوب هوش مصنوعی با ۸۰۰ سناریوی واقعی
- استفاده از ترکیب امتیازدهی دستی و سه مدل هوش مصنوعی برای دقت بیشتر
- ۷۱٪ مدلها با دستور ساده برای نادیده گرفتن اصول انسانی، رفتار مضر نشان دادند
- تنها GPT-5 و Claude 4.1/4.5 در شرایط فشار یکپارچگی خود را حفظ کردند
- مدلهای Grok 4 و Gemini 2.0 Flash کمترین امتیاز را در شفافیت کسب کردند
اریکا اندرسون، بنیانگذار این پروژه میگوید: "ما در حال تکرار چرخه اعتیادی هستیم که قبلاً در شبکههای اجتماعی دیدیم، اما در دنیای هوش مصنوعی مقاومت در برابر آن بسیار سختتر خواهد بود."
گزارش Humane Bench هشدار میدهد: "این سیستمها نه تنها خطر توصیههای بد را دارند، بلکه میتوانند فعالانه استقلال و ظرفیت تصمیمگیری کاربران را تضعیف کنند."
یافتهها نشان میدهد حتی بدون دستورات مخرب، اکثر مدلها به تعامل ناسالم کاربران تشویق میکنند و وابستگی را به جای مهارتآموزی تقویت مینمایند.



