رونمایی شیائومی از مدل متنباز Xiaomi-Robotics-0 برای صنعت رباتیک
شیائومی مدل متنباز Xiaomi-Robotics-0 با ۴.۷ میلیارد پارامتر را رونمایی کرد که برای ترکیب درک بصری، فهم زبان و اجرای آنی اقدامات در رباتها طراحی شده است.

معرفی مدل رباتیک جدید شیائومی
شرکت شیائومی که بیشتر در حوزه گوشیهای هوشمند و تجهیزات خانه هوشمند شناخته میشود، اکنون گام مهمی در عرصه تحقیق رباتیک برداشته و از مدل جدیدی به نام Xiaomi-Robotics-0 رونمایی کرده است. این مدل یک معماری متنباز بینایی-زبان-کنش (Vision-Language-Action) است که با داشتن ۴.۷ میلیارد پارامتر، هدفش تقویت جایگاه شیائومی در این حوزه پیشرفته است. این مدل برای حل چرخه بسته ادراک، تصمیمگیری و اجرای اقدامات در رباتها طراحی شده است؛ بدین معنی که ربات باید بتواند محیط را ببیند، فرمانها را بفهمد، برنامهریزی کند و آن را با نرمی اجرا نماید. شیائومی ادعا میکند که این مدل در آزمایشهای دنیای واقعی و شبیهسازیها رکوردهای پیشرفتهای ثبت کرده است.
معماری و ساختار Robotics-0
مدل Robotics-0 برای ایجاد تعادل میان درک گسترده و کنترل حرکتی ظریف از معماری Mixture-of-Transformers استفاده میکند. وظایف در این ساختار بین دو بخش اصلی تقسیم میشوند:
-
مدل بینایی-زبان (VLM): این بخش که به عنوان مغز مدل عمل میکند، آموزش دیده تا دستورات انسانی، حتی دستورات مبهم مانند “لطفاً حوله را تا کن”، را تفسیر نماید. این بخش مسئول تشخیص اشیا، پاسخ به پرسشهای بصری و استدلال منطقی از ورودیهای تصویری با وضوح بالا است.
-
Action Expert: این بخش که بر پایه یک Diffusion Transformer چندلایه ساخته شده است، مسئول اجرای فیزیکی است. به جای تولید عمل در هر لحظه، یک “Action Chunk” تولید میکند که در واقع دنبالهای از حرکات است و با استفاده از تکنیکهای تطبیق جریان، دقت و نرمی حرکت ربات را تضمین میکند.
-
شیائومی با آموزش همزمان مدل بر روی دادههای چندوجهی و دادههای مربوط به عمل، توانسته است بر یکی از مشکلات رایج در این مدلها غلبه کند؛ مشکلی که در آن ربات هنگام یادگیری اعمال فیزیکی، بخشی از تواناییهای درک اولیه خود را از دست میداد.
-
این مدل از هسته هوش فیزیکی بهره میبرد که ترکیب درک بصری، فهم زبان و اجرای آنی اقدامات را ممکن میسازد.
به گفته شیائومی، هدف این است که مدل بتواند تعادلی عالی بین درک کلی محیط و اجرای حرکات دقیق فیزیکی برقرار کند.
"چنین مدلهای رباتیکی چرخه بسته ادراک، تصمیمگیری و اجرا را حل میکنند."
نتیجه رونمایی از Xiaomi-Robotics-0 نشاندهنده عزم جدی شیائومی برای ورود و تأثیرگذاری در صنعت هوش مصنوعی فیزیکی و رباتیک است؛ حوزهای که نیازمند ترکیب پیچیدهای از بینایی کامپیوتری، پردازش زبان طبیعی و کنترل سیستمی دقیق است.
