مقایسه عملکرد هوش مصنوعی Gemini ۳ و Grok ۴.۱ در آزمون LM Arena
در آزمون معتبر LM Arena، تفاوتهای قابل توجهی بین سبک، دقت و قابلیت اتکای دو مدل هوش مصنوعی گوگل و ایلان ماسک در ۹ بخش مختلف از جمله استدلال، منطق و کدنویسی آشکار شد.

مقایسه جامع هوش مصنوعی Gemini ۳ و Grok ۴.۱
در رقابت نفسگیر بین دو مدل برتر هوش مصنوعی، Gemini ۳ گوگل و Grok ۴.۱ ایلان ماسک در ۹ بخش مختلف مورد آزمایش قرار گرفتند. این آزمون که توسط LMSYS برگزار میشود، یکی از معتبرترین معیارهای سنجش عملکرد مدلها در موقعیتهای واقعی محسوب میشود.
نتایج کلیدی آزمون:
- Grok در بخشهای استدلال، نویسندگی خلاق و خودآگاهی عملکرد بهتری نشان داد
- Gemini در بخشهای منطق، کدنویسی، اشکالزدایی و پیروی از دستور برتر بود
- هر دو مدل در بخش دقت مبتنی بر واقعیت و پیروی از دستور نتایج مشابهی داشتند
- Gemini در سوال نهایی با ترکیب خلاقانه علم و احساس برنده شد
"در آخر Grok بهدلیل تأکید بهتر بر «نرخهای غیریکسان سوختن» و اینکه چگونه این ناهمگونی در روش اندازهگیری خنثی میشود، برنده این بخش شد."
"Gemini ۳.۰ در این سوال انگار مسیرش را گم کرد؛ حتی برخی از پرسشهای قبلی را تکرار کرد و سعی کرد دوباره پاسخ دهد."
با وجود برتری کلی Gemini، Grok نیز امتیازات قابل توجهی کسب کرد. نکته جالب توجه، مشاهده توهم (Hallucination) در Gemini برای اولین بار پس از ساعتها آزمایش بود. این مقایسه نشان میدهد که انتخاب مدل مناسب به نیازهای خاص کاربر و نوع وظیفه بستگی دارد.




