Sora syftar till att ge artificiell intelligens förmågan att förstå och grafiskt representera den fysiska världen. Systemet kan generera videor på upp till en minut.
Modellen tränas på ett dataset med textbeskrivningar och videor och kan skapa en mängd olika scenarier, inklusive landskap, stadsmiljöer och inomhusutrymmen.
De exempelvideor som OpenAI presenterar täcker ett brett spektrum: från en kvällspromenad på en neonbelyst gata i Tokyo till en hungrig katt som tidigt på morgonen berättar för sin matte att den vill bli matad. Enligt OpenAI är alla exempelvideor skapade direkt av Sora utan någon redigering.
OpenAI medger att Sora har begränsningar. Modellen kan till exempel ha svårt att återge komplexa scener eller förstå skillnaden mellan orsak och verkan. Företaget arbetar med att förbättra Sora och planerar att släppa en mer avancerad version i framtiden.
here is sora, our video generation model:https://t.co/CDr4DdCrh1
today we are starting red-teaming and offering access to a limited number of creators.@_tim_brooks @billpeeb @model_mechanic are really incredible; amazing work by them and the team.
remarkable moment.
— Sam Altman (@sama) February 15, 2024
Till en början är tillgången till Sora begränsad till ett litet antal forskare och kreativa utvecklare. OpenAI planerar att utöka tillgången till Sora i framtiden, men kommer först att implementera säkerhetsåtgärder för att förhindra missbruk av tekniken.
Tekniken bakom Sora bygger på avancerade diffusionsmodeller och transformatorarkitekturer, inspirerade av de metoder som använts i OpenAI:s tidigare projekt som DALL-E. Samma tillvägagångssätt används också i Googles nyligen presenterade Lumiere.