Det senaste året har vi nästan vant oss vid AI-verktyg som kan skapa bilder åt oss från enbart en beskrivning. Samma sak går naturligtvis att göra med video, men det är mycket svårare att få att se naturligt ut. I veckan släppte Google information om sitt Lumiere-projekt och det ser ut som att tekniken har tagit ett stort steg framåt.
Verktyget kan skapa korta videosnuttar från beskrivningar, som ”en hund med roliga glasögon som kör bil” eller så kan den utgå från en bild, som en känd tavla, och animera den. Om man inte riktigt kan sätta ord på vilken stil man vill ha kan man ge den exempel med en bild. Det går även att ta en stillbild och de den animera delar av den, som röken från ett ånglok.
Mer imponerande är att den kan ta en källvideo och manipulera den. Som att byta kläder på en person i videon. Eller att helt byta stil på den genom att förvandla personer till fantasivarelser.
Lumiere använde en ny diffusionsmodell som kallas Space-Time-U-Net. Som namnet antyder kan AI-modellen lista ut var objekt befinner sig i rummet (space) och hur de förändras med tiden (time). Detta gör att den kan skapa videon från början till slut och få det att se naturligt ut. Detta till skillnad från tidigare verktyg som ofta genererar stillbilder och sedan listar ut hur den ska fylla i med saknade bildrutor.
Läs mer om Google Lumiere
Andra videogenereringsverktyg inkluderar Runway, Stable Video Diffusion och Metas Emu.