Hátborzongató újdonságot mutatott be az OpenAI, ami mindent megváltoztat

A Sora nevet viselő program videóit, szinte lehetetlen megkülönböztetni a valóságtól.

A mesterséges intelligencia az elmúlt években rohamos fejlődésbe kezdett, és mára kétségtelen, hogy örökké velünk marad. Felhasználása egyre több területre kiterjed, és számtalan módon könnyíti meg a hétköznapokat is, elég a ChatGPT-re gondolni, amit mostanra valószínűleg az emberek túlnyomó része kipróbált, és sokan közülük napi szinten használják. Úgy tűnhet, hogy kicsit visszaesett a téma körüli felhajtás, ez viszont csak a látszik, hiszen a háttérben gőzerővel folynak a munkálatok, melyek nem maradnak eredmény nélkül. A ChatGPT-t is fejlesztő OpenAI bemutatta új nagy teljesítményű videó generátorát, amely képes megérteni, és szimulálni a valóságot, ez az újdonság pedig mindent megváltoztat.

A Sora nevet viselő program úgy működik a gyakorlatban, hogy írunk neki egy mondatot, melyből készít egy maximum 60 másodperces felvételt – például, hogy „egy középkorú férfi felszáll a villamosra". Az eddigi videó generáló mesterséges intelligenciákkal az volt a probléma, hogy nem voltak képesek fenntartani a konzisztens valóságot, minden képkockánál újratervezték az embereket, a környezetet és valójában mindent. A Sora fejlesztői viszont azt állítják, hogy most már nem csak azt képes megérteni a program, hogy a felhasználó mit kér, hanem azt is tudja, hogy ezek a dolgok miként léteznek a fizikai világban, és az alapján dolgozik. Itt egy tökéletes példa, mellyel ha csak futólagosan találkoznánk a közösségi médiában, azt gondolnánk egy valódi felvétel, közben pedig a Sora generálta a „kínai Holdújév ünneplési videója kínai sárkánnyal" mondat alapján:

Jobban megfigyelve azért látszik, hogy az emberek nagyon furcsán mozognak, és az arányok sem tökéletesek, de már most, a program kezdeti fázisában is lenyűgöző az eredmény. Természetesen a fejlesztők is tudják, hogy még a folyamat elején tartanak, de dolgoznak a Sora tökéletesítésén.

„A jelenlegi modellnek vannak gyengeségei. Előfordulhat, hogy nehézséget okoz egy összetett jelenet fizikájának pontos szimulációja, és nem érti az ok és okozat konkrét eseteit. Például előfordulhat, hogy valaki beleharap egy sütibe, de utána a sütin nem lesz harapásnyom A modell összekeverheti egy felszólítás térbeli részleteit is, például összekeveri a bal és jobb oldalt, és nehézségekbe ütközhet az idő múlásával lezajló események pontos leírásával, például egy adott kamerapálya követésével." – írja az OpenAI.

A Sora jelenleg még csak korlátozottan elérhető, főként képzőművészek, tervezők és filmesek kaptak hozzáférését, hogy visszajelzést adjanak a cégnek arról, miként tehetnék még hasznosabbá a modellt a kreatív szakemberek számára. Számos kérdést is felvet a téma, mint például a filmek jövőhét, ha bárki képes lesz a parancsai alapján tökéletes felvételeket generálni. Jelenleg még nem tartunk itt, de idővel ezekkel az eshetőségekkel is komolyan számolni kell.