صدای شما یک مسئله داده است: پیشرفتهای هوش مصنوعی گفتاری در دیپگرام
گفتگو با اسکات استیونسون، مدیرعامل دیپگرام، درباره بهبود فناوری هوش مصنوعی گفتار با یادگیری عمیق و ملاحظات اخلاقی کلونینگ صدا.
چالشهای پیشرفته هوش مصنوعی گفتاری و راهکارهای دیپگرام
مصاحبه با اسکات استیونسون، مدیرعامل و همبنیانگذار Deepgram، بر روی توسعه فناوری هوش مصنوعی گفتاری (Voice AI)، بهویژه قابلیتهای تبدیل گفتار به متن (Speech-to-Text) و متن به گفتار (Text-to-Speech) متمرکز است. استیونسون که پیشینهای در فیزیک ذرات دارد، رویکرد خود را به توسعه مدلهای یادگیری عمیق (Deep Learning) با تأکید بر دقت، مقیاسپذیری و تأخیر کم توضیح میدهد. او و همبنیانگذارش با این فرض که راهحلهای موجود مبتنی بر شبکههای عصبی سنتی برای گفتار کافی نیستند، شرکت Deepgram را با هدف استفاده از رویکرد یادگیری عمیق سرتاسری (End-to-End Deep Learning) پایهگذاری کردند.
“فیزیکدانها به این فکر میکنند که همه چیز فقط یک ابزار است، بنابراین این ذهنیت ابزاری در توسعه نرمافزار ما نیز نفوذ کرده است.”
یکی از اهداف اصلی Deepgram کاهش شدید هزینههای تبدیل گفتار به متن بود؛ هزینهای که در آن زمان حدود ۳ دلار در ساعت بود و استیونسون معتقد بود باید حداقل ۱۰ برابر کاهش یابد تا رقابت با نیروی انسانی (مانند مراکز تماس در هند یا فیلیپین که ساعتی ۲ تا ۵ دلار دستمزد میگرفتند) امکانپذیر باشد.
معماری یادگیری عمیق و غلبه بر محدودیتها
Deepgram رویکردی سرتاسری و یادگیری عمیق را پیادهسازی کرد که برخلاف ادعای برخی بازیگران بزرگ آن زمان، از ترکیب مدلهای آکوستیک سنتی و مدلهای زبانی آماری فاصله گرفت. این رویکرد منجر به تأخیر بسیار پایین و توان عملیاتی بالاتر شد و قابلیت تطبیق مدلها با دیتای خاص مشتری را به سادگی (با برچسبگذاری حجم کمی از داده) فراهم آورد، امری که قبلاً بسیار پرهزینه بود.
استیونسون تشریح میکند که موفقیت مدلهای آنها در ترکیب اجزای مختلف یادگیری عمیق است: شبکههای عصبی کانولوشنی (CNN) برای درک فضا، شبکههای بازگشتی (RNN) برای روابط زمانی، و سیستمهای مبتنی بر توجه (Attention-based systems) برای تمرکز بر اطلاعات مهم، که این ترکیبات با لایههای تماماً متصل (Fully Connected Layers) به عنوان رابطهای هوشمند ساماندهی میشوند. او این جستوجو را مشابه کشف «جدول تناوبی» در شیمی میداند، اما برای «قوانین طبیعی هوش».
- چالش اصلی در حوزه گفتار، پوششدهی منیفولد داده (Data Manifold Coverage) کافی است، نه صرفاً نوع تبدیل ورودی (مانند ویوفورم خام یا اسپکتروگرامها).
- یادگیری فعال (Active Learning) به مدل اجازه میدهد تا خود مناطقی را که عملکرد ضعیفی دارد شناسایی کرده و بهبود یابد.
- رویکرد Deepgram بر جریان دوطرفه (Bidirectional Streaming) تأکید دارد، برخلاف مدلهای LLM که اغلب فقط خروجی جریانی دارند.
ملاحظات اخلاقی و دادههای مصنوعی
موضوع مهم دیگر، ملاحظات اخلاقی پیرامون هوش مصنوعی گفتاری، بهخصوص کلونینگ صدا است. استیونسون تصریح میکند که Deepgram در حال حاضر قابلیت کلونینگ صدا را ارائه نمیدهد زیرا دسترسی نامحدود به آن را مضر میداند. با این حال، او معتقد است برای بهرهمندی کامل، باید راهحلهای مسئولانهای مانند واترمارک کردن (Watermarking) و ارائه محصولات جانبی برای تشخیص محتوای تولید شده توسط هوش مصنوعی ارائه شود.
“هر ابزاری، اگر به درستی نگهداری نشود، اساساً یک سلاح است.”
در مورد دادههای مصنوعی (Synthetic Data)، استیونسون بر اهمیت روش سنتز آن تأکید میکند. تولید دادههای مصنوعی باید محیطهای واقعی مانند نویز محیط یا لکنت زبان را بهطور کارآمد شبیهسازی کند؛ در غیر این صورت، مدلها تنها در شرایط “بیش از حد تمیز” بهبود مییابند.
انقلاب هوش (The Intelligence Revolution)
استیونسون دیدگاه بزرگی در مورد تأثیر این فناوری دارد و این دوره را “انقلاب هوش” مینامد که پس از انقلاب کشاورزی، صنعتی و اطلاعاتی رخ داده است. او بر این باور است که این انقلاب با سرعتی بسیار بیشتر (شاید ۲۵ سال در مقایسه با ۱۵۰۰ سال برای انقلاب کشاورزی) پیش خواهد رفت و هر شرکتی باید به یک «شرکت هوشمند» تبدیل شود.
یکی از پروژههای تحقیقاتی آنها، معماری “نور و پلکس” (NeuroPlex) است که الهام گرفته از ساختار مغز انسان است؛ سیستمی ماژولار با قابلیت عبور کامل زمینه (Context) بین ماژولها (شبیه به ماده خاکستری و سفید در مغز)، که امکان بازرسی و اعمال محدودیتها (Guardrails) را فراهم میکند و نسل بعدی سیستمهای هوش مصنوعی گفتاری را شکل خواهد داد.

