På Google I/O handlade allt om AI i form av Gemini

Gemini 1.5 Pro får mer kapacitet och bättre förmåga till resonemang i flera steg.

Jonas Ekelund

2024-05-15 - 12:22

Igår kväll hölls inledningstalet på Googles utvecklarkonferens Google I/O. Förra året berättade de om sina planer för AI, men det var lite spretigt. Sedan dess har det blivit desto mer konkret med lansering av Gemini i december 2023. Och utvecklingen har gått rasande snabbt sedan dess. Nu har Google delat med sig av sina planer för den närmaste tiden.

Läs också Smartare bildsök och AI-sökningar Circle to Search och Multisearch ska göra det lättare att hitta information om okända saker

Gemini 1.5 Pro

Först och främst får Gemini Advanced-prenumeranter tillgång till Gemini 1.5 Pro, som nu finns på 35 språk. Med dess kapacitet på 1 miljon tokens kan den basera sitt svar till dig på upp till 1500 sidor PDF, 30 000 rader kod eller video på en timme. Google avslöjade också att kapaciteten ska utökas till 2 miljoner tokens!

Workspace

Gemini kommer även integreras i appar som Gmail, Dokument, Kalkylark, Presentationer och Drive. Det visades exempel på hur Gmail kommer kunna förstå och hålla reda på flera samtidiga mejltrådar, och exempelvis sammanfatta offerter från flera avsändare. Men den kommer även kunna fungera på tvärs av apparna, så att man exempelvis automatiskt kan spara kvitton från mejlen i en mapp på Drive och låta Kalkylark logga och kategorisera dem.

Android

Från att tidigare i år ha fått smartare sökningar med hjälp av AI, kommer Android framöver att ha ”AI som grund”. Gemini Nano, med möjlighet till att använda text, ljud och bilder som både in- och utdata kommer ”senare i år”, vilket vi tolkar som att det lanseras i Pixel 9 i höst. Det demonstrerades hur Circle to search nu kan lösa fysikproblem och förklara resonemanget, samt att det kan varna för bedrägerier i telefonsamtal (åtminstone på engelska).

Webbtjänster

Naturligtvis blir Googles allt fler tjänster på webben smartare. Framför allt kommer Sök att kunna använda realtidsinformation, förstå flerstegsresonemang och sammanfatta svar från många olika källor. Som exempel visades hur den kunde svara på ”hitta de bästa yogastudiorna inom 10 minuter från mitt hem och vad de har för introduktionserbjudanden”.

Google Foto kommer att kunna förstå sammanhang så att man exempelvis kan fråga ”vad är mitt registreringsnummer?”.

AI-verktyg

Google visade också upp nya versioner av verktyg för att generera multimedia. Deras nya modell Veo genererade videoklipp som såg verkligare ut än någonsin. Text-till-bild-verktyget Imagen 3 förstår mer detaljerade beskrivningar och ska inte längre ha så stora problem att generera text. Slutligen visades hur Music AI Toolbox kan hjälpa musikskapare i den kreativa processen.

Riktigt imponerande var dock Project Astra, där man kan ställa frågor i realtid av vad kameran visar:

För mer detaljer kan du se hela den två timmar långa presentationen här:

Läs vidare ⇩