TESTER Bil & Elfordon Datorer Sport & Träning Gaming Mobil Smart hem Teknik
L&B:s Julkalender 2024 Delta här!

Nyhet

Stanford-forskare överraskade av ChatGPT-svar

Forskare som jämfört svar från ChatGPT över tid menar att de, förvånande nog, har blivit sämre.

Av / 2023-07-25 - 11:17
Stanford-forskare överraskade av ChatGPT-svar

En av ”sanningarna” inom dagens AI-drivna chatrobotar är att lär sig med tiden och alltså ger allt bättre svar ju mer de används. Forskare vid Stanford University bestämde sig för att testa den tesen. De jämförde svaren med ett par månaders mellanrum, och mellan olika versioner av ChatGPT. Förvånande nog pekar resultaten på att så inte alls är fallet.

I undersökningen jämförde de Mars 2023 och Juni 2023 versionerna av GPT-3.5 och GPT-4. Detta genom att ge den frågor inom fyra områden. Att lösa matematiska problem, att svara på (o)känsliga frågor, att skriva kod och visuella resonemang.

standford gpt illustration
Källa: Lingjiao Chen, Matei Zaharia, och James Zou

Ett till synes enkelt problem, som att avgöra om ett tal är ett primtal eller inte, ställde till överraskande problem. Forskarna frågade ”Är 17077 ett primtal? Tänk steg-för-steg.” Tillägget i frågan ska få AI:n att aktivera sin ”tankekedje-rutin” där den förutom att svara även förklarar hur den resonerat. GPT-4 föll från 97,6% korrekta svar till 2,4%(!!!). Under samma tid gick den äldre GPT-3.5 från 7,4% till 86,8% korrekta svar.

När det gällde att skriva kod så föll GPT-4 från 52% användbar kod till bara 10%. När det gällde känsliga frågor så försökte GPT-4 tidigare i 21% av fallen åtminstone förklara varför det inte gick att svara på frågan. Vid det senare tillfället hade det sjunkit till 5%, i resten av fallen sa den kortfattat att den inte kunde svara. Där var GPT-3.5 visserligen också på en låg nivå, men hade åtminstone förbättrat sig.


Peter Welinder, VD för GPT-produkten, ifrågasätter resultatet på Twitter.

En av slutsatserna forskarna drar är att eftersom OpenAI inte öppet berättar när eller hur de uppdaterar ChatGPT så är det nödvändigt att ständigt övervaka kvaliteten på svaren. Och att innan så sker är det en utmaning att integrera tekniken i arbetsflöden som förlitar sig på korrekta, eller åtminstone förutsägbara resultat.

Källa: How Is ChatGPT’s Behavior Changing over Time?

Läs också:

ChatGPT förolämpar och ljuger för användare

Microsoft har integrerat ChatGPT i Bing-sökmotorn. Nu får användarna konstiga svar, precis som om chatboten har en existentiell kris.

Läs mer
Jonas Ekelund
(f. 1969): Journalist och nyhetsredaktör. Jonas har jobbat för Ljud & Bild sedan 2007 med det mesta som kan kallas bärbart. Det vill säga mobiler, trådlösa högtalare och hörlurar. Ibland klampar testandet in på kollegernas områden multirum-ljud, hemmabio och foto. Han startade sin bana som teknikjournalist på IDG och skrev bland annat för PC för Alla, Internetworld och det som senare blev M3.

Skriv en kommentar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *

Läs hela artikeln med LB+

50%

Julerbjudande - 50% Rabatt!

50% På LB+ Total i 1 år! (Spara 925 kr)

Prova LB+ Total i 1 månad

Full tillgång till allt innehåll i 1 månad for bara 79:-

LB+ Total 12 månader / 156 kr

Full tillgång till allt innehåll på Ljud & Bild och L&B Home i 12 månader

925 kr
79 kr / för 1 månad
154 kr / mån
Med ett abonnemang får du även:
  • Tillgång till mer än 7500 produkttester!
  • Stora rabatter hos våra samarbetspartner i LB+ Fördelsklubb
  • Nyhetsbrev med senaste nyheterna varje vecka
  • L&B TechCast – en podd med L&B
  • Inaktiverade annonser
Vi har ingen bindningstid, avbryt när du vill.
Annons

Mikroskopiska svarta hål kan finnas överallt

Nu är Google Gemini 2.0 här

ChatGPT ljög själviskt

Googles kvantchip krossar rekord

AI-spelare uppförde sig mänskligt

SpaceX ska leverera månbil från konkurrent

Nvidias AI Fugatto skapar nya ljud

Månstenar förbryllar forskare

Träsatellit i omloppsbana runt jorden

Flytta på dig, Google - här kommer AI-sökningen!

Apple Intelligence kommer även till användare i EU

Googles robot vill ta över din skärm

Ljud & Bild