مقایسه عملکرد هوش مصنوعی Gemini ۳ و Grok ۴.۱ در آزمون LM Arena

در آزمون معتبر LM Arena، تفاوت‌های قابل توجهی بین سبک، دقت و قابلیت اتکای دو مدل هوش مصنوعی گوگل و ایلان ماسک در ۹ بخش مختلف از جمله استدلال، منطق و کدنویسی آشکار شد.

مقایسه جامع هوش مصنوعی Gemini ۳ و Grok ۴.۱

در رقابت نفس‌گیر بین دو مدل برتر هوش مصنوعی، Gemini ۳ گوگل و Grok ۴.۱ ایلان ماسک در ۹ بخش مختلف مورد آزمایش قرار گرفتند. این آزمون که توسط LMSYS برگزار می‌شود، یکی از معتبرترین معیارهای سنجش عملکرد مدل‌ها در موقعیت‌های واقعی محسوب می‌شود.

نتایج کلیدی آزمون:

Grok در بخش‌های استدلال، نویسندگی خلاق و خودآگاهی عملکرد بهتری نشان داد
Gemini در بخش‌های منطق، کدنویسی، اشکال‌زدایی و پیروی از دستور برتر بود
هر دو مدل در بخش دقت مبتنی بر واقعیت و پیروی از دستور نتایج مشابهی داشتند
Gemini در سوال نهایی با ترکیب خلاقانه علم و احساس برنده شد

"در آخر Grok به‌دلیل تأکید بهتر بر «نرخ‌های غیریکسان سوختن» و اینکه چگونه این ناهمگونی در روش اندازه‌گیری خنثی می‌شود، برنده این بخش شد."

"Gemini ۳.۰ در این سوال انگار مسیرش را گم کرد؛ حتی برخی از پرسش‌های قبلی را تکرار کرد و سعی کرد دوباره پاسخ دهد."

با وجود برتری کلی Gemini، Grok نیز امتیازات قابل توجهی کسب کرد. نکته جالب توجه، مشاهده توهم (Hallucination) در Gemini برای اولین بار پس از ساعت‌ها آزمایش بود. این مقایسه نشان می‌دهد که انتخاب مدل مناسب به نیازهای خاص کاربر و نوع وظیفه بستگی دارد.