مدیرعامل ElevenLabs: صدا رابط بعدی هوش مصنوعی است
مدیرعامل ElevenLabs در اجلاس جهانی وب قطر ادعا کرد که صدا رابط اصلی بعدی هوش مصنوعی خواهد بود، زیرا شرکتهایی مانند OpenAI و گوگل بر سیستمهای مکالمهای در سختافزارهای جدید تمرکز دارند.

صدا به عنوان رابط اصلی بعدی هوش مصنوعی: دیدگاه ElevenLabs
ماتی استانیسزفسکی، همبنیانگذار و مدیرعامل ElevenLabs، در اجلاس جهانی وب در دوحه تأکید کرد که صدا در حال تبدیل شدن به رابط اصلی برای تعامل انسان با ماشینها است، به ویژه با پیشرفت مدلهای هوش مصنوعی فراتر از متن و صفحهنمایش. او بیان کرد که مدلهای صوتی پیشرفته اکنون نه تنها تقلیدکننده گفتار انسان هستند، بلکه میتوانند احساسات و لحن را نیز منتقل کنند و با قابلیتهای استدلالی مدلهای زبان بزرگ (LLM) هماهنگ شدهاند. این تحول، نحوه تعامل ما با فناوری را تغییر میدهد، به طوری که استانیسزفسکی پیشبینی میکند که در آینده نزدیک، تلفنهای همراه در جیبها باقی بمانند و صدا به مکانیزم اصلی کنترل فناوری تبدیل شود.
این چشمانداز محرک اصلی پشت دور جدید جمعآوری سرمایه ۵۰۰ میلیون دلاری ElevenLabs با ارزش ۱۱ میلیارد دلار بوده است. این نگرش در سطح صنعت هوش مصنوعی مشترک است؛ OpenAI و گوگل نیز تمرکز زیادی بر قابلیتهای صوتی در نسل بعدی مدلهای خود دارند، و اپل نیز با سرمایهگذاری در فناوریهای مرتبط با صدا مانند Q.ai، این مسیر را دنبال میکند. با ورود هوش مصنوعی به دستگاههای پوشیدنی، خودروها و سایر سختافزارهای جدید، کنترل دستگاهها کمتر به لمس صفحه نمایش و بیشتر به گفتار وابسته خواهد شد و این موضوع صدا را به یک میدان نبرد کلیدی در مرحله بعدی توسعه هوش مصنوعی تبدیل کرده است.
- تحول در روش تعامل: کیبوردها و روشهای ورودی سنتی در حال منسوخ شدن هستند زیرا سیستمهای هوش مصنوعی عاملمحور (agentic) میشوند.
- حافظه و زمینه مستمر: سیستمهای صوتی آینده کمتر به دستورات صریح کاربران وابسته خواهند بود و بیشتر بر اساس حافظه دائمی و زمینه (context) ساخته شده در طول زمان پاسخهای طبیعیتری ارائه خواهند داد.
- استقرار هیبریدی: ElevenLabs در حال حرکت به سمت رویکردی ترکیبی برای پردازش صدا است که ترکیبی از فضای ابری و پردازش روی دستگاه (on-device) را برای پشتیبانی از سختافزارهای جدید مانند هدفونها و دستگاههای پوشیدنی به کار میگیرد.
- همکاریها: ElevenLabs در حال همکاری با متا برای ادغام فناوری صوتی خود در پلتفرمهایی مانند اینستاگرام و Horizon Worlds است و تمایل به همکاری برای عینکهای هوشمند Ray-Ban نیز وجود دارد.
- نگرانیهای حریم خصوصی: گسترش رابطهای صوتی جاسازیشده در زندگی روزمره، نگرانیهای جدی در مورد حفظ حریم خصوصی، نظارت و ذخیرهسازی دادههای شخصی توسط این سیستمها را افزایش میدهد.
ست پیرپونت، شریک عمومی در Iconiq Capital، در اجلاس جهانی وب اظهار داشت که در حالی که صفحهنمایشها برای بازی و سرگرمی اهمیت خواهند داشت، روشهای ورودی سنتی مانند کیبوردها در حال قدیمی شدن هستند.
استانیسزفسکی گفت: “امیدواریم در سالهای آینده تمام تلفنهای ما به جیبهایمان بازگردند، و ما بتوانیم با استفاده از صدا به عنوان مکانیزم کنترل فناوری، در دنیای واقعی اطراف خود غوطهور شویم.”
در مجموع، آینده تعاملات ما با فناوری به سمت یک تجربه صوتی سیال، غنی و کمتلاش هدایت میشود. اگرچه این امر نوآوریهای بزرگی را در سختافزارها و نرمافزارها به ارمغان میآورد، اما نیاز به ایجاد تعادل بین راحتی استفاده و حفاظت از حریم خصوصی کاربران در فضای هوش مصنوعی مبتنی بر صدا اجتنابناپذیر است.


