ریاضیدانان چالشی بزرگ برای ارزیابی تواناییهای واقعی هوش مصنوعی طراحی کردند
گروهی از ریاضیدانان برجسته آزمونی شامل مسائل حلنشده واقعی را برای سنجش توانایی محاسباتی و منطقی هوش مصنوعی طراحی کردهاند تا ادعاهای صنعت این حوزه را به چالش بکشند.
چالش جدید ریاضیدانان برای هوش مصنوعی
رقابت داغی برای توسعه هوش مصنوعی که قادر به انجام ریاضیات محض باشد، شتاب گرفته است. در پاسخ به ادعاهای اثباتنشده صنعت هوش مصنوعی، گروهی از برترین ریاضیدانان جهان چالشی تحت عنوان “اولین اثبات” (First Proof) را طراحی کردهاند. این آزمون از مسائل واقعی و حلنشده مرتبط با تحقیقات خود این دانشمندان تشکیل شده است و به سیستمهای هوش مصنوعی یک هفته فرصت داده شده تا آنها را حل کنند. نکته کلیدی در این چالش این است که مسائل مطرحشده کاملاً جدید هستند و در دادههای آموزشی مدلهای زبانی بزرگ (LLM) وجود ندارند؛ امری که موجب میشود ارزیابی توانایی واقعی مدلها در محاسبات محض و منطقی ممکن شود. اندرو ساترلند، ریاضیدان مؤسسه فناوری ماساچوست (MIT)، این آزمایش را بسیار بهتر از تجارب قبلی برای سنجش مهارت هوش مصنوعی دانسته است.
صنعت هوش مصنوعی به شدت بر ریاضیات محض متمرکز شده است، زیرا اثباتهای ریاضی بر پایه توالی منطقی و قابل بررسی هستند که نتیجه آنها صرفاً درست یا نادرست است. این ویژگی، معیاری عینیتر از ارزیابی میزان متقاعدکننده بودن خروجیهای مدلهای زبانی ارائه میدهد. با این حال، موفقیتهای اخیر مانند کسب امتیاز سطح طلا در المپیاد جهانی ریاضی توسط Gemini Deep Think یا حل برخی “مسائل اردوش”، فاقد کنترلهای آزمایشی دقیق بودند. همچنین، نگرانیهایی وجود دارد مبنی بر اینکه مدلهای زبانی ممکن است صرفاً اثباتهای موجود و فراموششده را از ادبیات ریاضی بازیابی کرده و آنها را به عنوان کشف جدید ارائه دهند، همانطور که در مورد یکی از نتایج شرکت Axiom Math مشاهده شد.
- چالش “اولین اثبات” توسط ۱۱ ریاضیدان، از جمله یک برنده مدال فیلدز، طراحی شده است.
- این آزمون شامل ارائه مسائل ایجاد شده در تحقیقات شخصی آنهاست.
- اثبات راهحلها ارائه شدهاند، اما رمزگذاری شدهاند و در تاریخ مشخصی رمزگشایی میشوند.
- مسائل مطرحشده از نوع “لم” (Lemma) هستند؛ قضایای کوچک که معمولاً به صورت مستقل منتشر نمیشوند.
- هدف اثبات این لمها، نشان دادن پتانسیل هوش مصنوعی به عنوان ابزاری برای تسریع بخشهای خستهکننده تحقیقات ریاضی است.
دنیل اسپیلمن، استاد دانشگاه ییل و یکی از طراحان چالش، اشاره کرده است که بسیاری از گزارشهای منتشرشده در مورد موفقیتهای هوش مصنوعی توسط خود شرکتهای تولیدکننده نوشته شده و بیشتر شبیه آگهی تبلیغاتی هستند.
اسپیلمن میگوید: «تقریباً تمام مقالاتی که درباره استفاده مردم از مدلهای زبانی میبینید، توسط افرادی نوشته شدهاند که در شرکتهای تولیدکننده آن مدلها کار میکنند. این کار بیشتر شبیه به یک آگهی تبلیغاتی به نظر میرسد.»
ساترلند اظهار داشته است که بزرگترین تأثیر هوش مصنوعی بر ریاضیات در سال جاری، نه از طریق حل مسائل بزرگ باز، بلکه از طریق نفوذ آن به زندگی روزمره ریاضیدانان شاغل خواهد بود.
اگر هوش مصنوعی بتواند این لمهای جدید را حل کند، ثابت میشود که میتواند ابزاری مفید در فرآیندهای تحقیق و توسعه ریاضی باشد و مسیر را برای ریاضیدانان تسهیل کند تا انرژی خود را صرف کشفیات بزرگتر سازند.


