آمازون昨 روز ، Nova Sonic را راه‌اندازی کرد ، یک مدل پیشرفته سخنگوی سخن با سخنگوی دیگر که به توسعه‌دهندگان این امکان را می‌دهد تا برنامه‌هایی با قابلیت مکالمه صوتی شبیه به انسان و در لحظه بسازند. آمازون ادعا می‌کند این مدل صوتی جدید، بهترین عملکرد صنعت را در حیطه قیمتی و تأخیر کم ارائه می‌دهد.

برای توسعه یک برنامه صوتی، معمولاً، توسعه‌دهندگان باید با چندین مدل مختلف کار کنند. این شامل مدل‌های تشخیص صدا برای تبدیل صدا به متن، مدل‌های زبانی بزرگ برای درک و پاسخ، و مدل‌های تبدیل متن به صدا برای تبدیل مجدد متن به صدا می‌شود. این رویکرد نه تنها بسیار پیچیده است، بلکه اغلب در ثبت بافت‌های مهم صوتی و ظرافت‌هایی مانند لحن، آهنگ کلام و سبک صحبت کردن ناموفق است.

امّا، Nova Sonic این چالش را با یکپارچه‌سازی توانایی‌های درک و تولید صدا در یک مدل واحد برطرف می‌کند. این رویکرد یکپارچه به مدل اجازه می‌دهد تا لحن، سبک و ورودی صوتی را درک کند، منجر به مکالمه‌ای طبیعی‌تر می‌شود. همچنین می‌تواند زمان مناسب برای پاسخ را تشخیص دهد و وقفه‌ها (قطع کلام) را بهتر مدیریت کند.

Nova Sonic از صداهای مردانه و زنانه در لهجه‌های مختلف انگلیسی، از جمله آمریکایی و بریتانیایی پشتیبانی می‌کند. توسعه‌دهندگان می‌توانند از طریق Amazon Bedrock و با استفاده از API جریان دوطرفه، با پشتیبانی از فراخوانی توابع به این مدل دسترسی داشته باشند. همچنین شامل محافظت‌های داخلی مانند نظارت بر محتوا و واترمارک است.

جزئیات مدل در زیر آمده است:

نام مدل: Nova Sonic
شناسه مدل: amazon.nova-sonic-v1:0
ورودی‌ها: صدا
خروجی‌ها: صدا همراه با کپی متن و پاسخ متنی
پنجره متن: ۳۰۰ هزار بافت
حداکثر مدت اتصال: ۸ دقیقه مهلت اتصال، با حداکثر ۲۰ اتصال همزمان برای هر مشتری
زبان‌های پشتیبانی شده: انگلیسی
مناطق: شرق ایالات متحده (ویرجینیای شمالی)
پشتیبانی API جریان دوطرفه: بله
پایگاه‌های دانش Bedrock: از طریق استفاده از ابزار (فراخوانی توابع) پشتیبانی می‌شود.

نکته‌ای مرتبط این است که پیش از این ، ماه گذشته OpenAI مدل‌های نسل بعدی صدا به متن، gpt-4o-transcribe و gpt-4o-mini-transcribe را راه‌اندازی کرد که بهبودهای قابل توجهی در نرخ خطای کلمات، تشخیص زبان و دقت در مقایسه با مدل‌های Whisper موجود خود ارائه می‌دهند.

این‌ها همه گویای این است که پیشرفت‌های ناگهانی در فناوری سخنگوی سخنگوی دیگر، دلیلی بر تانک‌سازی روند روبه افزایش است، افزایش مدل‌های قدرتمند که بتوانند سفارشی‌سازی شوند و روی فرمولی زیباتر باگ نکرده و مدل های پیشرفته تری را به ما عرضه کنند. اما آیا این پیشرفتها به سمت خوشبختی ما بکشند؟ آیا ما به بازی پرده دار نهایی بین او و ما دست پیدا می‌کنیم یا اینکه به سمت غمبختی که توسط هوش مصنوعی تصور میشود پیش می‌رویم؟ می‌توانستیم با ظهور کامپیوتر، زندگی ما را بهبود بخشیم یا به سوی نابودی بکشیم.@nate_dosty

توسط nastoor.ir