سورا آمد، خلق ویدئو از روی متن

ما به هوش مصنوعی یاد می‌دهیم که دنیای فیزیکی در حال حرکت را درک و شبیه‌سازی کند، با هدف مدل‌های آموزشی که به مردم کمک می‌کند مشکلاتی را که نیاز به تعامل در دنیای واقعی دارند حل کنند.

معرفی سورا، مدل تبدیل متن به ویدیو. Sora می‌تواند ویدیوهایی به مدت یک دقیقه تولید کند و در عین حال کیفیت بصری را حفظ کرده و مطابق درخواست کاربر باشد.

امروزه، Sora در دسترس تیم‌های قرمز قرار می‌گیرد تا مناطق حیاتی را از نظر آسیب‌ها یا خطرات ارزیابی کنند. ما همچنین به تعدادی از هنرمندان تجسمی، طراحان و فیلمسازان دسترسی می دهیم تا بازخورد خود را در مورد چگونگی پیشبرد این مدل به دست آورند تا برای حرفه ای های خلاق بسیار مفید باشد.

ما پیشرفت تحقیقات خود را زود به اشتراک می گذاریم تا کار با افراد خارج از OpenAI را شروع کنیم و از آنها بازخورد بگیریم و به مردم این احساس را بدهیم که قابلیت های هوش مصنوعی در افق چیست.

سورا قادر است صحنه های پیچیده با شخصیت های متعدد، انواع حرکت خاص و جزئیات دقیق سوژه و پس زمینه را ایجاد کند. این مدل نه تنها آنچه را که کاربر در اعلان درخواست کرده است، می‌فهمد، بلکه چگونگی وجود آن چیزها در دنیای فیزیکی را نیز درک می‌کند.

این مدل درک عمیقی از زبان دارد و آن را قادر می‌سازد تا به طور دقیق اعلان‌ها را تفسیر کند و شخصیت‌های قانع‌کننده‌ای ایجاد کند که احساسات پر جنب و جوش را بیان می‌کنند. Sora همچنین می‌تواند چندین عکس را در یک ویدیوی تولید شده ایجاد کند که شخصیت‌ها و سبک بصری را با دقت حفظ کند.

مدل فعلی دارای نقاط ضعفی است. ممکن است با شبیه سازی دقیق فیزیک یک صحنه پیچیده مشکل داشته باشد و ممکن است موارد خاصی از علت و معلول را درک نکند. به عنوان مثال، ممکن است فردی از یک کوکی گاز بگیرد، اما پس از آن، کوکی ممکن است علامت نیش نداشته باشد.

این مدل همچنین ممکن است جزئیات فضایی یک اعلان را اشتباه بگیرد، به عنوان مثال، اختلاط چپ و راست، و ممکن است با توصیف دقیق رویدادهایی که در طول زمان رخ می‌دهند، مانند دنبال کردن یک مسیر دوربین خاص، مشکل داشته باشد.

ایمنی

ما چندین گام مهم ایمنی را پیش از در دسترس قرار دادن Sora در محصولات OpenAI انجام خواهیم داد. ما با تیم‌های قرمز کار می‌کنیم——متخصصان حوزه در زمینه‌هایی مانند اطلاعات نادرست، محتوای نفرت‌انگیز، و سوگیری——که به طور خصمانه مدل را آزمایش خواهند کرد.

ما همچنین در حال ساخت ابزارهایی برای کمک به شناسایی محتوای گمراه‌کننده هستیم، مانند طبقه‌بندی‌کننده تشخیص که می‌تواند تشخیص دهد چه زمانی یک ویدیو توسط Sora تولید شده است. اگر مدل را در یک محصول OpenAI به کار گیریم، قصد داریم در آینده ابرداده های C2PA را اضافه کنیم.

ما علاوه بر توسعه تکنیک‌های جدید برای آماده‌سازی برای استقرار، از روش‌های ایمنی موجود برای محصولات خود استفاده می‌کنیم که از DALL·E 3 استفاده می‌کنند، که برای Sora نیز قابل استفاده است.

برای مثال، یک بار در یک محصول OpenAI، طبقه‌بندی‌کننده متن ما درخواست‌های ورودی متنی را که ناقض خط‌مشی‌های استفاده ما هستند، بررسی می‌کند و رد می‌کند، مانند مواردی که درخواست خشونت شدید، محتوای جنسی، تصاویر نفرت‌انگیز، شباهت به افراد مشهور، یا IP دیگران را دارند. ما همچنین طبقه‌بندی‌کننده‌های قوی تصویری را ایجاد کرده‌ایم که برای بازبینی فریم‌های هر ویدیوی تولید شده استفاده می‌شود تا اطمینان حاصل شود که از خط‌مشی‌های استفاده ما پیروی می‌کند، قبل از اینکه به کاربر نشان داده شود.

ما سیاستگذاران، مربیان و هنرمندان در سراسر جهان را برای درک نگرانی های آنها و شناسایی موارد استفاده مثبت از این فناوری جدید درگیر خواهیم کرد. علیرغم تحقیقات و آزمایش‌های گسترده، ما نمی‌توانیم تمام روش‌های مفیدی که مردم از فناوری ما استفاده می‌کنند، و همچنین همه روش‌هایی که مردم از آن سوء استفاده می‌کنند را پیش‌بینی کنیم. به همین دلیل است که ما بر این باوریم که یادگیری از استفاده در دنیای واقعی یک جزء حیاتی در ایجاد و انتشار سیستم‌های هوش مصنوعی ایمن در طول زمان است.

تکنیک های تحقیق

Sora یک مدل انتشار است که با شروع با ویدیویی که شبیه نویز استاتیک است، یک ویدیو تولید می‌کند و به تدریج با حذف نویز در طی مراحل مختلف، آن را تغییر می‌دهد.

Sora قادر است کل ویدیوها را به یکباره تولید کند یا ویدیوهای تولید شده را برای طولانی تر کردن آنها گسترش دهد. با پیش‌بینی مدل بسیاری از فریم‌ها در یک زمان، ما یک مشکل چالش برانگیز را حل کرده‌ایم که مطمئن شویم یک سوژه ثابت می‌ماند حتی زمانی که به طور موقت از دید خارج می‌شود.

مشابه مدل‌های GPT، Sora از معماری ترانسفورماتور استفاده می‌کند که عملکرد مقیاس‌بندی برتر را باز می‌کند.

ما فیلم‌ها و تصاویر را به‌عنوان مجموعه‌ای از واحدهای کوچک‌تر از داده‌ها به نام وصله‌ها نشان می‌دهیم که هر کدام شبیه یک نشانه در GPT هستند. با متحد کردن نحوه نمایش داده‌ها، می‌توانیم ترانسفورماتورهای انتشار را بر روی گستره وسیع‌تری از داده‌های بصری نسبت به قبل آموزش دهیم که مدت‌ها، وضوح‌ها و نسبت‌های ابعادی متفاوتی را در بر می‌گیرد.

Sora بر اساس تحقیقات گذشته در مدل‌های DALL·E و GPT است. از تکنیک بازنویسی از DALL·E 3 استفاده می‌کند که شامل ایجاد زیرنویس‌های بسیار توصیفی برای داده‌های آموزشی بصری است. در نتیجه، مدل می‌تواند دستورالعمل‌های متنی کاربر در ویدیوی تولید شده را با وفاداری بیشتری دنبال کند.

این مدل علاوه بر اینکه می‌تواند یک ویدیو را صرفاً از دستورالعمل‌های متنی تولید کند، می‌تواند یک تصویر ثابت موجود را بگیرد و از آن فیلم بسازد و محتوای تصویر را با دقت و توجه به جزئیات کوچک متحرک کند. این مدل همچنین می‌تواند یک ویدیوی موجود را بگیرد و آن را گسترش دهد یا فریم‌های از دست رفته را پر کند. بیشتر بدانید در

گزارش فنی ما

Sora به عنوان پایه ای برای مدل هایی عمل می کند که می توانند دنیای واقعی را درک و شبیه سازی کنند، قابلیتی که ما معتقدیم نقطه عطف مهمی برای دستیابی به AGI خواهد بود.