آمازون昨 روز ، Nova Sonic را راهاندازی کرد ، یک مدل پیشرفته سخنگوی سخن با سخنگوی دیگر که به توسعهدهندگان این امکان را میدهد تا برنامههایی با قابلیت مکالمه صوتی شبیه به انسان و در لحظه بسازند. آمازون ادعا میکند این مدل صوتی جدید، بهترین عملکرد صنعت را در حیطه قیمتی و تأخیر کم ارائه میدهد.
برای توسعه یک برنامه صوتی، معمولاً، توسعهدهندگان باید با چندین مدل مختلف کار کنند. این شامل مدلهای تشخیص صدا برای تبدیل صدا به متن، مدلهای زبانی بزرگ برای درک و پاسخ، و مدلهای تبدیل متن به صدا برای تبدیل مجدد متن به صدا میشود. این رویکرد نه تنها بسیار پیچیده است، بلکه اغلب در ثبت بافتهای مهم صوتی و ظرافتهایی مانند لحن، آهنگ کلام و سبک صحبت کردن ناموفق است.
امّا، Nova Sonic این چالش را با یکپارچهسازی تواناییهای درک و تولید صدا در یک مدل واحد برطرف میکند. این رویکرد یکپارچه به مدل اجازه میدهد تا لحن، سبک و ورودی صوتی را درک کند، منجر به مکالمهای طبیعیتر میشود. همچنین میتواند زمان مناسب برای پاسخ را تشخیص دهد و وقفهها (قطع کلام) را بهتر مدیریت کند.
Nova Sonic از صداهای مردانه و زنانه در لهجههای مختلف انگلیسی، از جمله آمریکایی و بریتانیایی پشتیبانی میکند. توسعهدهندگان میتوانند از طریق Amazon Bedrock و با استفاده از API جریان دوطرفه، با پشتیبانی از فراخوانی توابع به این مدل دسترسی داشته باشند. همچنین شامل محافظتهای داخلی مانند نظارت بر محتوا و واترمارک است.
جزئیات مدل در زیر آمده است:
نام مدل: Nova Sonic
شناسه مدل: amazon.nova-sonic-v1:0
ورودیها: صدا
خروجیها: صدا همراه با کپی متن و پاسخ متنی
پنجره متن: ۳۰۰ هزار بافت
حداکثر مدت اتصال: ۸ دقیقه مهلت اتصال، با حداکثر ۲۰ اتصال همزمان برای هر مشتری
زبانهای پشتیبانی شده: انگلیسی
مناطق: شرق ایالات متحده (ویرجینیای شمالی)
پشتیبانی API جریان دوطرفه: بله
پایگاههای دانش Bedrock: از طریق استفاده از ابزار (فراخوانی توابع) پشتیبانی میشود.
نکتهای مرتبط این است که پیش از این ، ماه گذشته OpenAI مدلهای نسل بعدی صدا به متن، gpt-4o-transcribe و gpt-4o-mini-transcribe را راهاندازی کرد که بهبودهای قابل توجهی در نرخ خطای کلمات، تشخیص زبان و دقت در مقایسه با مدلهای Whisper موجود خود ارائه میدهند.
اینها همه گویای این است که پیشرفتهای ناگهانی در فناوری سخنگوی سخنگوی دیگر، دلیلی بر تانکسازی روند روبه افزایش است، افزایش مدلهای قدرتمند که بتوانند سفارشیسازی شوند و روی فرمولی زیباتر باگ نکرده و مدل های پیشرفته تری را به ما عرضه کنند. اما آیا این پیشرفتها به سمت خوشبختی ما بکشند؟ آیا ما به بازی پرده دار نهایی بین او و ما دست پیدا میکنیم یا اینکه به سمت غمبختی که توسط هوش مصنوعی تصور میشود پیش میرویم؟ میتوانستیم با ظهور کامپیوتر، زندگی ما را بهبود بخشیم یا به سوی نابودی بکشیم.@nate_dosty