مدلهای جدید هوش مصنوعی رونویسی: تمرکز بر سرعت و حفظ حریم خصوصی
مدلهای جدید Voxtral Mini Transcribe 2 و Voxtral Realtime شرکت Mistral AI برای اجرا روی دستگاه کاربر طراحی شدهاند تا حریم خصوصی مکالمات حفظ شود و سرعت رونویسی افزایش یابد.

مدلهای نوین رونویسی صوتی Mistral AI برای سرعت و محرمانگی
شرکت فرانسوی Mistral AI از رونمایی مدلهای جدید رونویسی صوتی خود با نامهای Voxtral Mini Transcribe 2 و Voxtral Realtime خبر داد که هدف اصلی آنها ارائه سرعت بالا و حفظ حریم خصوصی کاربران است. این مدلها به گونهای طراحی شدهاند که به اندازه کافی کوچک باشند تا بتوانند مستقیماً بر روی دستگاه کاربر—مانند گوشی هوشمند، لپتاپ یا حتی گجتهای پوشیدنی—اجرا شوند. این رویکرد پردازش در لبه (Edge Processing) تضمین میکند که دادههای حساس، مانند مکالمات پزشکی یا مصاحبههای خبرنگاری، نیازی به ارسال به مراکز داده ابری نداشته باشند و امنیت اطلاعات به حداکثر برسد.
پییر استوک، معاون بخش عملیات علمی Mistral، اشاره کرد که دلیل اصلی کوچکسازی مدلها، علاوه بر حفظ محرمانگی، کاهش تأخیر (Latency) است. با اجرای برنامه روی دستگاه کاربر، زمان رفت و برگشت داده از طریق اینترنت حذف میشود و رونویسی بلافاصله انجام میگیرد. مدل Voxtral Realtime به طور خاص برای رونویسی زنده طراحی شده و قادر است با تأخیری کمتر از ۲۰۰ میلیثانیه عمل کند، که این امر برای زیرنویسهای زنده بسیار حائز اهمیت است.
- مدل Voxtral Mini Transcribe 2 بسیار کوچک است و برای کارهای رونویسی عمومی بر روی دستگاهها ایدهآل است.
- مدل Voxtral Realtime امکان رونویسی زنده با سرعت بسیار بالا را فراهم میآورد.
- این مدلها متن ۱۳ زبان مختلف را پشتیبانی میکنند.
- کاربران میتوانند با سفارشیسازی مدل، دقت آن را برای واژگان، نامهای خاص و اصطلاحات تخصصی بهبود بخشند.
- چالش اصلی، حفظ کیفیت رونویسی همتراز با مدلهای بزرگتر بوده است، که Mistral مدعی است به آن دست یافته است.
استوک تأکید کرد: «آنچه شما میخواهید این است که رونویسی در نزدیکترین نقطه به شما اتفاق بیفتد... و نزدیکترین چیزی که میتوانیم به شما پیدا کنیم، هر دستگاه لبهای مانند لپتاپ، تلفن یا گجت پوشیدنی است.»
وی افزود: «فقط ساختن یک مدل کوچک کافی نیست؛ بلکه شما به یک مدل کوچک نیاز دارید که همان کیفیت مدلهای بزرگتر را داشته باشد.»
در تستهای اولیه، دقت مدلها در زبان انگلیسی مناسب گزارش شده است، با این حال مدلها در تشخیص دقیق اسامی خاص مانند نام خود شرکت (که آن را “Mr. Lay Eye” تشخیص داد) دچار اشتباه شدند. با این وجود، قابلیت شخصیسازی به کاربران این امکان را میدهد که این نواقص را برطرف سازند. انتشار این مدلهای متنباز (open-source) نشاندهنده تلاش بر افزایش کارایی و امنیت در حوزه پردازش زبان طبیعی است که در آن حفظ دادههای شخصی اهمیت فزایندهای پیدا کرده است.


