مایکروسافت نسخه جدیدی از مدل هوش مصنوعی تبدیل متن به گفتار خود با نام VALL-E 2 را توسعه داده است که از نظر طبیعیبودن صدای تولیدشده عملکرد خارقالعادهای دارد. بااینحال، مایکروسافت از این مدل بهعنوان یک پروژه تحقیقاتی یاد کرده است و بهدلیل احتمال سوءاستفاده از آن، قصد ندارد VALL-E 2 را بهصورت عمومی منتشر کند.
VALL-E 2 یک ابزار تبدیل متن به گفتار (TTS) است که میتواند تنها در چند ثانیه، صدای کاملاً شبیه به یک گوینده انسانی را تولید کند. محققان مایکروسافت میگویند که VALL-E 2 قادر به تولید «گفتار دقیق و طبیعی با صدایی قابل مقایسه با انسان» است. به عبارت دیگر، صدای تولیدشده توسط این هوش مصنوعی ممکن است با صدای یک شخص واقعی اشتباه گرفته شود!
محققان مایکروسافت در مقاله خود میگوید:
«VALL-E 2 آخرین پیشرفت ما در مدلهای زبان کدک عصبی است که نقطه عطفی را در تبدیل متن به گفتار (TTS) به همراه دارد و برای اولین بار عملکرد برابر با انسان دارد.»
آنها همچنین اشاره کردهاند که کیفیت خروجی VALL-E 2 به طول و کیفیت دستور متنی و همچنین عوامل محیطی مانند نویز پسزمینه بستگی دارد.
خطرات هوش مصنوعی مایکروسافت
بااینحال، مایکروسافت میگوید که VALL-E2 صرفاً یک پروژه تحقیقاتی است و هیچ برنامهای برای استفاده از این فناوری در محصولات دیگر خود یا عرضه آن برای عموم مردم ندارد. غول ردموندی به خطرات بالقوهای که برای سوءاستفاده از این فناوری وجود دارد اشاره کرده است؛ ازجمله جعل هویت یک شخص خاص یا جعل صدای دیگران.
درحالحاضر نگرانیهای زیادی درباره سیستمهای شبیهساز صدا و فناوریهای ساخت دیپفیک وجود دارد. سایر شرکتهای حوزه هوش مصنوعی مانند OpenAI نیز محدودیتهای مشابهی را برای فناوری صوتی خود اعمال کردهاند.
البته مایکروسافت معتقد است که با وجود این خطرات، میتوان در زمینههای آموزشی، ترجمه، روزنامهنگاری، محتوانویسی و ساخت چتبات از این مدل استفاده کرد.