دانشمندان می گویند که تولید کننده گفتار هوش مصنوعی به برابری انسانی می رسد – اما انتشار آن بسیار خطرناک است
VALL-E 2 مایکروسافت تنها با استفاده از چند ثانیه صدا می تواند صدای انسان را به طور قانع کننده ای بازسازی کند، سازندگان آن ادعا می کنند.
مایکروسافت یک تولید کننده گفتار هوش مصنوعی جدید (AI) توسعه داده است که ظاهراً آنقدر متقاعد کننده است که نمی تواند برای عموم منتشر شود.
VALL-E 2 یک تولید کننده متن به گفتار (TTS) است که می تواند صدای گوینده انسان را تنها با استفاده از چند ثانیه صدا تولید کند.
در مقاله ای که در ۱۷ ژوئن در نسخه پیش از چاپ Server arXiv منتشر شد، محققان مایکروسافت گفتند VALL-E 2 قادر به تولید “گفتار دقیق و طبیعی با صدای دقیق بلندگوی اصلی، قابل مقایسه با عملکرد انسان” است. به عبارت دیگر، تولید کننده صدای جدید هوش مصنوعی به اندازه کافی متقاعد کننده است که با یک شخص واقعی اشتباه گرفته شود – حداقل طبق گفته سازندگان آن.
محققان در این مقاله نوشتند: “VALL-E 2 آخرین پیشرفت در مدلهای زبان کدک عصبی است که نقطه عطفی در سنتز متن به گفتار (TTS) با شات صفر است و برای اولین بار به برابری انسانی دست مییابد. علاوه بر این، VALL-E 2 به طور مداوم گفتار با کیفیت بالا را ترکیب می کند، حتی برای جملاتی که به دلیل پیچیدگی یا عبارات تکراری به طور سنتی چالش برانگیز هستند.
برابری انسانی در این زمینه به این معنی است که گفتار تولید شده توسط VALL-E 2 با کیفیت گفتار انسانی در معیارهای استفاده شده توسط مایکروسافت مطابقت دارد یا از آن فراتر رفته است.
موتور هوش مصنوعی با توجه به گنجاندن دو ویژگی کلیدی قادر به انجام این کار است: “نمونه برداری آگاهانه از تکرار” (Repetition Aware Sampling) و “مدل سازی کد گروهی” (Grouped Code Modeling).
Repetition Aware Sampling
روشی را که هوش مصنوعی با پرداختن به تکرارهای «نشانها» – واحدهای کوچک زبان، مانند کلمات یا بخشهایی از کلمات – تبدیل میکند به گفتار، بهبود میبخشد و از حلقههای نامحدود صدا یا عبارات در طول فرآیند رمزگشایی جلوگیری میکند. به عبارت دیگر، این ویژگی به تغییر الگوی گفتار VALL-E 2 کمک میکند و باعث میشود صدای روانتر و طبیعیتر به نظر برسد.
Grouped Code Modeling
مدلسازی کد گروهی، کارایی را با کاهش طول توالی – یا تعداد نشانههای جداگانهای که مدل در یک دنباله ورودی واحد پردازش میکند، بهبود میبخشد. این کار سرعت تولید گفتار VALL-E 2 را افزایش میدهد و به مدیریت مشکلاتی که با پردازش رشتههای بلند صداها میآیند کمک میکند.
محققان از نمونههای صوتی کتابخانههای گفتاری LibriSpeech و VCTK برای ارزیابی میزان مطابقت VALL-E 2 با ضبطهای سخنرانان انسانی استفاده کردند. آنها همچنین از ELLA-V – یک چارچوب ارزیابی طراحی شده برای اندازه گیری دقت و کیفیت گفتار تولید شده – برای تعیین اینکه VALL-E 2 به طور موثر وظایف تولید گفتار پیچیده تر را انجام می دهد، استفاده کردند.
محققان نوشتند: «آزمایشهای ما که بر روی مجموعه دادههای LibriSpeech و VCTK انجام شد، نشان داد که VALL-E 2 از سیستمهای TTS صفر شات قبلی در استحکام گفتار، طبیعی بودن و شباهت بلندگو پیشی میگیرد. “این اولین مورد از نوع خود است که به برابری انسانی در این معیارها می رسد.”
محققان در این مقاله اشاره کردند که کیفیت خروجی VALL-E 2 به طول و کیفیت پیامهای گفتاری و همچنین عوامل محیطی مانند نویز پسزمینه بستگی دارد.
“پروژه تحقیقاتی صرف”
مایکروسافت علیرغم تواناییهایش، VALL-E 2 را به دلیل خطرات احتمالی سوءاستفاده برای عموم منتشر نخواهد کرد. این همزمان با افزایش نگرانی ها در مورد شبیه سازی صدا و فناوری دیپ فیک است. سایر شرکتهای هوش مصنوعی مانند OpenAI محدودیتهای مشابهی را بر روی فناوری صوتی خود اعمال کردهاند.
محققان در یک پست وبلاگ نوشتند: “VALL-E 2 صرفا یک پروژه تحقیقاتی است. در حال حاضر، ما هیچ برنامه ای برای ترکیب VALL-E 2 در یک محصول یا گسترش دسترسی به عموم نداریم.” ممکن است در استفاده نادرست از مدل، خطرات بالقوهای داشته باشد، مانند جعل هویت صدا یا جعل هویت یک گوینده خاص.»
با این حال، آنها پیشنهاد کردند که فناوری گفتار هوش مصنوعی می تواند در آینده کاربردهای عملی داشته باشد. محققان افزودند: “VALL-E 2 می تواند گفتاری را ترکیب کند که هویت گوینده را حفظ می کند و می تواند برای یادگیری آموزشی، سرگرمی، روزنامه نگاری، محتوای خودنویس، ویژگی های دسترسی، سیستم های پاسخ صوتی تعاملی، ترجمه، چت بات و غیره استفاده شود.”
آنها ادامه دادند: اگر این مدل به سخنرانان غیرقابل مشاهده در دنیای واقعی تعمیم داده شود، باید شامل پروتکلی برای اطمینان از تایید استفاده از صدای آنها توسط گوینده و یک مدل تشخیص گفتار ترکیبی باشد.