OpenAI presenterar Sora

Fantastiska fotorealistiska videor baserade enbart på textbeskrivningar.

Sora TOP 1920x1082 1

(Foto: OpenAI)

Sora syftar till att ge artificiell intelligens förmågan att förstå och grafiskt representera den fysiska världen. Systemet kan generera videor på upp till en minut.

Modellen tränas på ett dataset med textbeskrivningar och videor och kan skapa en mängd olika scenarier, inklusive landskap, stadsmiljöer och inomhusutrymmen.

 

De exempelvideor som OpenAI presenterar täcker ett brett spektrum: från en kvällspromenad på en neonbelyst gata i Tokyo till en hungrig katt som tidigt på morgonen berättar för sin matte att den vill bli matad. Enligt OpenAI är alla exempelvideor skapade direkt av Sora utan någon redigering.

OpenAI medger att Sora har begränsningar. Modellen kan till exempel ha svårt att återge komplexa scener eller förstå skillnaden mellan orsak och verkan. Företaget arbetar med att förbättra Sora och planerar att släppa en mer avancerad version i framtiden.

Till en början är tillgången till Sora begränsad till ett litet antal forskare och kreativa utvecklare. OpenAI planerar att utöka tillgången till Sora i framtiden, men kommer först att implementera säkerhetsåtgärder för att förhindra missbruk av tekniken.

 

Tekniken bakom Sora bygger på avancerade diffusionsmodeller och transformatorarkitekturer, inspirerade av de metoder som använts i OpenAI:s tidigare projekt som DALL-E. Samma tillvägagångssätt används också i Googles nyligen presenterade Lumiere.

Läs vidare
Exit mobile version