ما به هوش مصنوعی یاد میدهیم که دنیای فیزیکی در حال حرکت را درک و شبیهسازی کند، با هدف مدلهای آموزشی که به مردم کمک میکند مشکلاتی را که نیاز به تعامل در دنیای واقعی دارند حل کنند.
معرفی سورا، مدل تبدیل متن به ویدیو. Sora میتواند ویدیوهایی به مدت یک دقیقه تولید کند و در عین حال کیفیت بصری را حفظ کرده و مطابق درخواست کاربر باشد.
امروزه، Sora در دسترس تیمهای قرمز قرار میگیرد تا مناطق حیاتی را از نظر آسیبها یا خطرات ارزیابی کنند. ما همچنین به تعدادی از هنرمندان تجسمی، طراحان و فیلمسازان دسترسی می دهیم تا بازخورد خود را در مورد چگونگی پیشبرد این مدل به دست آورند تا برای حرفه ای های خلاق بسیار مفید باشد.
ما پیشرفت تحقیقات خود را زود به اشتراک می گذاریم تا کار با افراد خارج از OpenAI را شروع کنیم و از آنها بازخورد بگیریم و به مردم این احساس را بدهیم که قابلیت های هوش مصنوعی در افق چیست.
سورا قادر است صحنه های پیچیده با شخصیت های متعدد، انواع حرکت خاص و جزئیات دقیق سوژه و پس زمینه را ایجاد کند. این مدل نه تنها آنچه را که کاربر در اعلان درخواست کرده است، میفهمد، بلکه چگونگی وجود آن چیزها در دنیای فیزیکی را نیز درک میکند.
این مدل درک عمیقی از زبان دارد و آن را قادر میسازد تا به طور دقیق اعلانها را تفسیر کند و شخصیتهای قانعکنندهای ایجاد کند که احساسات پر جنب و جوش را بیان میکنند. Sora همچنین میتواند چندین عکس را در یک ویدیوی تولید شده ایجاد کند که شخصیتها و سبک بصری را با دقت حفظ کند.
مدل فعلی دارای نقاط ضعفی است. ممکن است با شبیه سازی دقیق فیزیک یک صحنه پیچیده مشکل داشته باشد و ممکن است موارد خاصی از علت و معلول را درک نکند. به عنوان مثال، ممکن است فردی از یک کوکی گاز بگیرد، اما پس از آن، کوکی ممکن است علامت نیش نداشته باشد.
این مدل همچنین ممکن است جزئیات فضایی یک اعلان را اشتباه بگیرد، به عنوان مثال، اختلاط چپ و راست، و ممکن است با توصیف دقیق رویدادهایی که در طول زمان رخ میدهند، مانند دنبال کردن یک مسیر دوربین خاص، مشکل داشته باشد.
ایمنی
ما چندین گام مهم ایمنی را پیش از در دسترس قرار دادن Sora در محصولات OpenAI انجام خواهیم داد. ما با تیمهای قرمز کار میکنیم——متخصصان حوزه در زمینههایی مانند اطلاعات نادرست، محتوای نفرتانگیز، و سوگیری——که به طور خصمانه مدل را آزمایش خواهند کرد.
ما همچنین در حال ساخت ابزارهایی برای کمک به شناسایی محتوای گمراهکننده هستیم، مانند طبقهبندیکننده تشخیص که میتواند تشخیص دهد چه زمانی یک ویدیو توسط Sora تولید شده است. اگر مدل را در یک محصول OpenAI به کار گیریم، قصد داریم در آینده ابرداده های C2PA را اضافه کنیم.
ما علاوه بر توسعه تکنیکهای جدید برای آمادهسازی برای استقرار، از روشهای ایمنی موجود برای محصولات خود استفاده میکنیم که از DALL·E 3 استفاده میکنند، که برای Sora نیز قابل استفاده است.
برای مثال، یک بار در یک محصول OpenAI، طبقهبندیکننده متن ما درخواستهای ورودی متنی را که ناقض خطمشیهای استفاده ما هستند، بررسی میکند و رد میکند، مانند مواردی که درخواست خشونت شدید، محتوای جنسی، تصاویر نفرتانگیز، شباهت به افراد مشهور، یا IP دیگران را دارند. ما همچنین طبقهبندیکنندههای قوی تصویری را ایجاد کردهایم که برای بازبینی فریمهای هر ویدیوی تولید شده استفاده میشود تا اطمینان حاصل شود که از خطمشیهای استفاده ما پیروی میکند، قبل از اینکه به کاربر نشان داده شود.
ما سیاستگذاران، مربیان و هنرمندان در سراسر جهان را برای درک نگرانی های آنها و شناسایی موارد استفاده مثبت از این فناوری جدید درگیر خواهیم کرد. علیرغم تحقیقات و آزمایشهای گسترده، ما نمیتوانیم تمام روشهای مفیدی که مردم از فناوری ما استفاده میکنند، و همچنین همه روشهایی که مردم از آن سوء استفاده میکنند را پیشبینی کنیم. به همین دلیل است که ما بر این باوریم که یادگیری از استفاده در دنیای واقعی یک جزء حیاتی در ایجاد و انتشار سیستمهای هوش مصنوعی ایمن در طول زمان است.
تکنیک های تحقیق
Sora یک مدل انتشار است که با شروع با ویدیویی که شبیه نویز استاتیک است، یک ویدیو تولید میکند و به تدریج با حذف نویز در طی مراحل مختلف، آن را تغییر میدهد.
Sora قادر است کل ویدیوها را به یکباره تولید کند یا ویدیوهای تولید شده را برای طولانی تر کردن آنها گسترش دهد. با پیشبینی مدل بسیاری از فریمها در یک زمان، ما یک مشکل چالش برانگیز را حل کردهایم که مطمئن شویم یک سوژه ثابت میماند حتی زمانی که به طور موقت از دید خارج میشود.
مشابه مدلهای GPT، Sora از معماری ترانسفورماتور استفاده میکند که عملکرد مقیاسبندی برتر را باز میکند.
ما فیلمها و تصاویر را بهعنوان مجموعهای از واحدهای کوچکتر از دادهها به نام وصلهها نشان میدهیم که هر کدام شبیه یک نشانه در GPT هستند. با متحد کردن نحوه نمایش دادهها، میتوانیم ترانسفورماتورهای انتشار را بر روی گستره وسیعتری از دادههای بصری نسبت به قبل آموزش دهیم که مدتها، وضوحها و نسبتهای ابعادی متفاوتی را در بر میگیرد.
Sora بر اساس تحقیقات گذشته در مدلهای DALL·E و GPT است. از تکنیک بازنویسی از DALL·E 3 استفاده میکند که شامل ایجاد زیرنویسهای بسیار توصیفی برای دادههای آموزشی بصری است. در نتیجه، مدل میتواند دستورالعملهای متنی کاربر در ویدیوی تولید شده را با وفاداری بیشتری دنبال کند.
این مدل علاوه بر اینکه میتواند یک ویدیو را صرفاً از دستورالعملهای متنی تولید کند، میتواند یک تصویر ثابت موجود را بگیرد و از آن فیلم بسازد و محتوای تصویر را با دقت و توجه به جزئیات کوچک متحرک کند. این مدل همچنین میتواند یک ویدیوی موجود را بگیرد و آن را گسترش دهد یا فریمهای از دست رفته را پر کند. بیشتر بدانید در
گزارش فنی ما
Sora به عنوان پایه ای برای مدل هایی عمل می کند که می توانند دنیای واقعی را درک و شبیه سازی کنند، قابلیتی که ما معتقدیم نقطه عطف مهمی برای دستیابی به AGI خواهد بود.