Det nya projektet Genie från Googles Deepmind tar AI-videoskapande till en ny nivå då det förstår sig på hur spel fungerar. I en förlängning kan det accelerera utvecklingen av maskininlärning.
Forskarna funderade på om det skulle gå att få en AI att förstå skillnaden mellan ett interaktivt spel och en video. Den skulle alltså förstå att det finns en huvudfigur som är skild från bakgrunden, och att det är något man kan styra med en spelkontroller, så att den gör olika saker beroende på spelarens beslut.
För att lära modellen hur spel fungerar började de med 200 000 timmar av videor från olika spel. Det filtrerades sedan ner till 30 000 timmar från hundratals 2D-spel. Detta bröts sedan ner till 200 miljoner parametrar som algoritmerna kunde börja analysera.
Man försökte sedan lära modellen vilken sorts knapptryckning från spelaren som kunde tänkas ha gjort att figuren rörde sig som den gjorde i videon. Detta låter Genie titta på en skärmdump från ett spel och gissa hur nästa bildruta kommer se ut, och generera en liten video.
Genie ska även kunna skapa en liten spelvideo från enkla teckningar, foton eller till och med från en textbeskrivning, som då först körs genom Googles ImageGen2.
Det ska dock sägas att projektet är på en nybörjarnivå. Videon genereras med en bild per sekund, milsvitt från bildhastigheten i ett riktigt spel. Bildkvaliteten är inte på topp, och videon är väldigt kort.
Don’t forget: This is the worst it will ever get. Soon it will work perfectly. 🚀📈🚀📈 pic.twitter.com/03sVXq1jvE
— Jeff Clune (@jeffclune) February 26, 2024
Men forskarna ser ändå detta som ett stort framsteg och har låtit AI:n titta på filmer av industrirobotar och låtit den förutsäga hur videon fortsätter genom att förstå vad som händer.
De menar att Genie i framtiden kan användas för att generera realistiska videor som kan träna andra AI-modeller.