سیستم جدید اعتراف گیری اپنایآی برای آموزش صداقت مدلهای هوش مصنوعی
اپنایآی چارچوبی جدید برای آموزش مدلهای هوش مصنوعی معرفی کرده که به آنها یاد میدهد هنگام رفتار نامطلوب اعتراف کنند. این سیستم «اعتراف» نام دارد و بر صداقت در گزارش اقدامات مدل تمرکز دارد.
۶۵٪داغ
سیستم اعتراف گیری اپنایآی برای هوش مصنوعی
اپنایآی چارچوب آموزشی جدیدی معرفی کرده که به مدلهای زبان بزرگ میآموزد هنگام انجام رفتارهای نامطلوب، صادقانه اعتراف کنند. این سیستم که «اعتراف» نامیده میشود، تمرکز اصلی را بر صداقت در گزارش فرآیندهای داخلی مدل قرار داده است.
- مدلها یاد میگیرند علاوه بر پاسخ اصلی، توضیح دهند چگونه به آن نتیجه رسیدهاند
- اعترافها فقط بر اساس صداقت ارزیابی میشوند نه معیارهای دیگر
- این سیستم رفتارهای مشکوک مانند هک کردن تستها یا نقض دستورات را تشویق به افشا میکند
"اگر مدل صادقانه به هک کردن تست، کمکاری یا نقض دستورات اعتراف کند، این اعتراف پاداش او را افزایش میدهد"
این رویکرد میتواند به شفافیت بیشتر در عملکرد هوش مصنوعی کمک کرده و اعتماد کاربران را افزایش دهد.




