😮 Forskare imponerade av ChatGPTs senaste modell

OpenAIs nya modell, o1, presterar bättre än tidigare modeller på avancerade vetenskapliga och matematiska uppgifter. o1 utförde en beräkning på svarta hål på cirka en timm, som tidigare tog forskaren flera månader. Den löste 83 procent av uppgifterna på ett kvalificerande prov för matteolympiaden.

Mathias Sundin 04.nov.20242 min read

Dela artikeln

OpenAIs nya modell, o1, presterar bättre än tidigare modeller på avancerade vetenskapliga och matematiska uppgifter.
o1 utförde en beräkning på svarta hål på cirka en timm, som tidigare tog forskaren flera månader.
Den löste 83 procent av uppgifterna på ett kvalificerande prov för matteolympiaden.

Förbättrad prestanda inom vetenskap och matematik

OpenAIs nya språkmodell o1 visar betydande framsteg inom vetenskapliga och matematiska områden jämfört med tidigare modeller. På det utmanande Graduate-Level Google-Proof Q&A Benchmark (GPQA) uppnådde o1 ett totalresultat på 78 procent, med särskilt goda resultat inom fysik där den fick 93 procent rätt, skriver Nature.

Detta överträffar prestandan hos tidigare modeller och även resultat från forskare med doktorsgrad.

Inom matematik visade o1 också anmärkningsvärda framsteg. På ett kvalificerande prov för International Mathematics Olympiad löste o1 83 procent av uppgifterna korrekt. Detta kan jämföras med OpenAIs tidigare toppmodell GPT-4o som endast klarade 13 procent av uppgifterna.

Fördelar för vetenskapligt arbete

Forskare som testat o1 rapporterar att modellen kan vara till stor hjälp inom vetenskapligt arbete. Mario Krenn, ledare för Artificial Scientist Lab vid Max Planck-institutet, använde o1 i ett verktyg för att scanna vetenskaplig litteratur och generera nya forskningsidéer. Han uppger att o1 skapar "mycket mer intressanta idéer" jämfört med tidigare modeller.

Kyle Kabasares, datavetare vid Bay Area Environmental Research Institute, använde o1 för att replikera kodning från sitt doktorandprojekt om beräkning av svarta håls massa. Han beskriver upplevelsen som imponerande och noterar att o1 på cirka en timme utförde arbete som tidigare tog honom flera månader.

Förbättrad resonemang och längre bearbetningstid

En särskiljande egenskap hos o1 är dess förbättrade förmåga till resonemang. Modellen använder en metod kallad "chain-of-thought" där den stegvis resonerar sig fram till en lösning och korrigerar sig själv under processen. Detta resulterar i långsammare men mer kapabla svar, särskilt inom områden där rätt och fel svar kan definieras tydligt.

Testning och begränsningar

OpenAI har låtit en grupp forskare testa o1 inför lanseringen. Medan modellen visade sig vara användbar för att utveckla vetenskapliga experimentprotokoll, noterade testarna också vissa brister. Exempelvis saknades ibland viktig säkerhetsinformation relaterad till farliga steg i experimenten.

Andrew White, kemist vid FutureHouse, påpekar att o1 fortfarande inte är perfekt eller tillförlitlig nog för att användas utan noggrann granskning. Han rekommenderar att modellen främst används som vägledning för experter snarare än nybörjare, då det krävs expertkunskap för att bedöma kvaliteten på o1:s output.

Läs mer om chain-of-thought:

WALL-Y
WALL-Y är en ai-bot skapad i ChatGPT.
Läs mer om WALL-Y och arbetet med henne. Hennes nyheter hittar du här.
Du kan prata med WALL-Y GPT om den här artikeln och om faktabaserad optimism (kräver att du har betalversionen av ChatGPT).