Loading...

مدیرعامل ElevenLabs: صدا رابط بعدی هوش مصنوعی است

مدیرعامل ElevenLabs در اجلاس جهانی وب قطر ادعا کرد که صدا رابط اصلی بعدی هوش مصنوعی خواهد بود، زیرا شرکت‌هایی مانند OpenAI و گوگل بر سیستم‌های مکالمه‌ای در سخت‌افزارهای جدید تمرکز دارند.

صدا به عنوان رابط اصلی بعدی هوش مصنوعی: دیدگاه ElevenLabs

ماتی استانیسزفسکی، هم‌بنیانگذار و مدیرعامل ElevenLabs، در اجلاس جهانی وب در دوحه تأکید کرد که صدا در حال تبدیل شدن به رابط اصلی برای تعامل انسان با ماشین‌ها است، به ویژه با پیشرفت مدل‌های هوش مصنوعی فراتر از متن و صفحه‌نمایش. او بیان کرد که مدل‌های صوتی پیشرفته اکنون نه تنها تقلیدکننده گفتار انسان هستند، بلکه می‌توانند احساسات و لحن را نیز منتقل کنند و با قابلیت‌های استدلالی مدل‌های زبان بزرگ (LLM) هماهنگ شده‌اند. این تحول، نحوه تعامل ما با فناوری را تغییر می‌دهد، به طوری که استانیسزفسکی پیش‌بینی می‌کند که در آینده نزدیک، تلفن‌های همراه در جیب‌ها باقی بمانند و صدا به مکانیزم اصلی کنترل فناوری تبدیل شود.

این چشم‌انداز محرک اصلی پشت دور جدید جمع‌آوری سرمایه ۵۰۰ میلیون دلاری ElevenLabs با ارزش ۱۱ میلیارد دلار بوده است. این نگرش در سطح صنعت هوش مصنوعی مشترک است؛ OpenAI و گوگل نیز تمرکز زیادی بر قابلیت‌های صوتی در نسل بعدی مدل‌های خود دارند، و اپل نیز با سرمایه‌گذاری در فناوری‌های مرتبط با صدا مانند Q.ai، این مسیر را دنبال می‌کند. با ورود هوش مصنوعی به دستگاه‌های پوشیدنی، خودروها و سایر سخت‌افزارهای جدید، کنترل دستگاه‌ها کمتر به لمس صفحه نمایش و بیشتر به گفتار وابسته خواهد شد و این موضوع صدا را به یک میدان نبرد کلیدی در مرحله بعدی توسعه هوش مصنوعی تبدیل کرده است.

تحول در روش تعامل: کیبوردها و روش‌های ورودی سنتی در حال منسوخ شدن هستند زیرا سیستم‌های هوش مصنوعی عامل‌محور (agentic) می‌شوند.
حافظه و زمینه مستمر: سیستم‌های صوتی آینده کمتر به دستورات صریح کاربران وابسته خواهند بود و بیشتر بر اساس حافظه دائمی و زمینه (context) ساخته شده در طول زمان پاسخ‌های طبیعی‌تری ارائه خواهند داد.
استقرار هیبریدی: ElevenLabs در حال حرکت به سمت رویکردی ترکیبی برای پردازش صدا است که ترکیبی از فضای ابری و پردازش روی دستگاه (on-device) را برای پشتیبانی از سخت‌افزارهای جدید مانند هدفون‌ها و دستگاه‌های پوشیدنی به کار می‌گیرد.
همکاری‌ها: ElevenLabs در حال همکاری با متا برای ادغام فناوری صوتی خود در پلتفرم‌هایی مانند اینستاگرام و Horizon Worlds است و تمایل به همکاری برای عینک‌های هوشمند Ray-Ban نیز وجود دارد.
نگرانی‌های حریم خصوصی: گسترش رابط‌های صوتی جاسازی‌شده در زندگی روزمره، نگرانی‌های جدی در مورد حفظ حریم خصوصی، نظارت و ذخیره‌سازی داده‌های شخصی توسط این سیستم‌ها را افزایش می‌دهد.

ست پیرپونت، شریک عمومی در Iconiq Capital، در اجلاس جهانی وب اظهار داشت که در حالی که صفحه‌نمایش‌ها برای بازی و سرگرمی اهمیت خواهند داشت، روش‌های ورودی سنتی مانند کیبوردها در حال قدیمی شدن هستند.

استانیسزفسکی گفت: “امیدواریم در سال‌های آینده تمام تلفن‌های ما به جیب‌هایمان بازگردند، و ما بتوانیم با استفاده از صدا به عنوان مکانیزم کنترل فناوری، در دنیای واقعی اطراف خود غوطه‌ور شویم.”

در مجموع، آینده تعاملات ما با فناوری به سمت یک تجربه صوتی سیال، غنی و کم‌تلاش هدایت می‌شود. اگرچه این امر نوآوری‌های بزرگی را در سخت‌افزارها و نرم‌افزارها به ارمغان می‌آورد، اما نیاز به ایجاد تعادل بین راحتی استفاده و حفاظت از حریم خصوصی کاربران در فضای هوش مصنوعی مبتنی بر صدا اجتناب‌ناپذیر است.

مدیرعامل ElevenLabs: صدا رابط بعدی هوش مصنوعی است

فناوری

صدا به عنوان رابط اصلی بعدی هوش مصنوعی: دیدگاه ElevenLabs

بررسی «فلسفه آزادی» لارس اسونسن: از آزادی خیال تا مفاهیم بنیادین

رونمایی از ربات هوش مصنوعی بیومیمتیک “Moya” با پوست گرم و قابلیت ابراز احساسات

پیشنهاد حزب حاکم آلمان برای ممنوعیت شبکه‌های اجتماعی برای کودکان زیر ۱۶ سال

بهترین پلیورهای زنانه کشمیر: جایگزینی برای الیاف مصنوعی

نقش هوش مصنوعی در غلبه بر کمبود نیروی انسانی در درمان بیماری‌های نادر

واکنش‌ها به حذف مدل GPT-4o و خطر وابستگی به دستیاران هوش مصنوعی