
به گزارش همشهری آنلاین، شرکت آمازون امروز سهشنبه ۸ آوریل ۲۰۲۵ از مدل جدید هوش مصنوعی مولد خود به نام «Nova Sonic» رونمایی کرد. این مدل که توانایی پردازش بومی صدا و تولید گفتار طبیعی را دارد، به ادعای آمازون در بنچمارکهای مختلف عملکردی رقابتی با مدلهای پیشرو از OpenAI و گوگل ارائه میدهد. Nova Sonic اکنون از طریق پلتفرم Bedrock، بستر توسعهدهندگان آمازون، در دسترس قرار گرفته و به گفته این شرکت، «مقرونبهصرفهترین» مدل صوتی موجود در بازار است که هزینههای آن حدود ۸۰ درصد کمتر از مدل GPT-4o شرکت OpenAI برآورد میشود.
Nova Sonic پاسخی مستقیم به مدلهای صوتی پیشرفتهای مانند حالت Voice Mode در ChatGPT است و هدف آن ارائه تجربه گفتاری طبیعیتر در مقایسه با نسلهای اولیه دستیار صوتی الکسا اعلام شده است. بخشهایی از این مدل هماکنون در نسخه ارتقایافته دستیار صوتی آمازون، موسوم به «الکسا پلاس»، به کار گرفته شده و از تخصص آمازون در سیستمهای عظیم هماهنگی بهره میبرد. به گفته مقامات آمازون، این مدل در اتصال درخواستهای کاربران به APIهای مختلف برتری قابلتوجهی نسبت به رقبا دارد و میتواند بهخوبی تشخیص دهد که چه زمانی باید اطلاعات را از اینترنت دریافت کند یا از منابع داده اختصاصی استفاده نماید.
این مدل صوتی جدید در طول مکالمات دوطرفه، با در نظر گرفتن توقفها و مکثهای طبیعی کاربر، در زمان مناسب پاسخ میدهد و همچنین قابلیت ارائه رونوشت گفتار را دارد که میتواند در کاربردهای متنوعی مفید باشد. آمازون اعلام کرده که Nova Sonic در تشخیص گفتار خطای کمتری دارد و حتی در صورت نامفهوم بودن صدا یا وجود اشتباهات گفتاری،意图 کاربر را بهتر درک میکند. بر اساس بنچمارک Multilingual LibriSpeech، این مدل نرخ خطای واژهای (WER) ۴.۲ درصدی را در پنج زبان انگلیسی، فرانسوی، ایتالیایی، آلمانی و اسپانیایی ثبت کرده است.
رونمایی از Nova Sonic بخشی از استراتژی بلندپروازانه آمازون برای توسعه هوش جامع مصنوعی (AGI) است که به گفته این شرکت، به معنای «سیستمهای هوش مصنوعیای تعریف میشود که قادر به انجام هر کاری هستند که انسان با کامپیوتر میتواند انجام دهد.» این گام جدید نشاندهنده عزم آمازون برای رقابت جدیتر در عرصه هوش مصنوعی و ارائه ابزارهای پیشرفته به توسعهدهندگان و کاربران است.