đŠŸ OpenAI:s genombrott i att förstĂ„ AI:s black box (sĂ„ vi kan bygga sĂ€ker AI)
OpenAI har funnit ett sÀtt att lösa en del av justeringsproblemet med AI. SÄ vi kan förstÄ och skapa sÀker AI.
Dela artikeln
Kikar in i den den svarta lÄdan
Ett problem med att skapa sÀker AI Àr att vi inte vet exakt hur en AI kommer fram till resultaten den presenterar. Om jag ber ChatGPT att skriva nÄgot sÄ vet vi inte hur den kom fram till svaret. Arbetet sker i det man brukar kallar en black box.
Lösningen hittills har varit att manuellt titta pÄ vilka neuroner i det neurala nÀtverket som aktiveras. Det Àr sÄ klart ett extremt tidsödande uppdrag och inte praktiskt möjligt i nÄgon stor skala.
OpenAI anvÀnde dÀrför GPT4 för att testa om den kan förstÄ vad som pÄgÄr under huven. Och ja, det kunde den.
I ett paper visar de hur den kan spÄra vilka neuroner som aktiveras och varför.
LÀngre ner i texten finns en mer utförlig förklaring av OpenAI:s paper.
Ett vanligt misstag, som leder till pessimism
En anledning till att mÄnga oroar sig för att hur vi ska (fortsÀtta) att skapa sÀker AI Àr att de inte vet hur det ska gÄ till.
En av de centrala personerna i den debatten Àr Eliezer Yudkowsky. Han tillhör de personer i vÀrlden som funderat allra mest kring dessa frÄgor. Detta Àr ett av de problem han pekat ut och han reagerar med förvÄning pÄ resultatet frÄn OpenAI.
NÀr man inte ser möjliga lösningar Àr det lÀtt att bli oroad och rÀdd och vilja pausa, stanna eller bromsa utvecklingen.
Det Àr ett vÀldigt vanligt misstag som framtidspessimister gör. De litar inte pÄ att vi mÀnniskor klarar att lösa problem i framtiden, bara för att vi inte löst dem Ànnu. Det leder till att mÀnniskor som kanske inte alls Àr pessimistiska, blir det. (Det finns en anledning till vi kallar pessimister för naiva.)
DÄ kan de, likt Paul Ehrlich pÄ 60-talet, tro att hundratals miljoner mÀnniskor kommer svÀlta ihjÀl. Men sÄ löser vi problemen och istÀllet lÀmnar hundratals miljoner mÀnniskor extrem fattigdom.
AnvÀnd AI för att förstÄ AI
NÀr det kommer till att lösa framtida problem med AI, sÄ har vi ett nytt verktyg att hjÀlpa oss: AI.
SÄ hÀr skrev jag i Aftonbladet för nÄgra veckor sedan:
Ska vi dÄ ignorera möjliga problem och blÄsa pÄ? SÄklart inte. Men vi ska ta de bÀsta verktygen till hjÀlp. Flera av de verktygen finns nu inom AI-omrÄdet.
Om vi pausar utvecklingen kommer vi ha sÀmre verktyg och svÄrare att lösa problem. Samtidigt som vi missar alla de enorma fördelar och möjligheter som skapas.
IstÀllet för att pausa AI-utvecklingen, ska vi lÀgga mer resurser i form av pengar, hjÀrnkapacitet och datakapacitet för att accelerera sÀkerhetsarbetet med AI.
Resultatet frÄn OpenAI:s paper
SprÄkmodeller Àr datorprogram som kan generera eller förstÄ naturligt sprÄk, som engelska eller franska. De Àr ofta baserade pÄ neurala nÀtverk, som bestÄr av mÄnga sammanlÀnkade enheter kallade neuroner som kan bearbeta information och lÀra sig frÄn data.
Neuroner i sprÄkmodeller
- Àr organiserade i lager, och varje lager utför en annan funktion, som att koda betydelsen av ord eller generera nÀsta ord i en mening.
- kan observera nÄgot specifikt mönster i text, som ett ord, en fras, ett Àmne, eller en grammatisk funktion, och aktiveras nÀr de stöter pÄ det.
- kan pÄverka vad modellen sÀger hÀrnÀst genom att skicka signaler till andra neuroner i nÀsta lager eller outputlagret, vilket bestÀmmer sannolikheten för varje möjligt ord.
Tre steg
Papret föreslÄr en teknik som bestÄr av tre steg:
- Visa neuronaktiveringar för GPT-4 och frÄga det om vad som orsakar dem.
- Simulera neuronaktiveringar med hjÀlp av GPT-4, beroende pÄ förklaringen.
- PoÀngsÀtt förklaringen genom att jÀmföra de simulerade och verkliga aktiveringarna.
Steg 1: Förklara neuronets aktiveringar med hjÀlp av GPT-4
Detta steg innebÀr att man visar en textinmatning och den motsvarande aktiveringen av ett neuron för GPT-4 och ber det skriva en naturlig sprÄkförklaring till vad som fÄr neuronet att aktiveras.
Till exempel, givet en textinmatning om Marvel-filmer och karaktÀrer, och ett neuron som aktiveras starkt pÄ det, kan GPT-4 förklara att neuronet Àr kÀnsligt för sprÄk relaterat till Marvel-serier, filmer och karaktÀrer, samt annat innehÄll med superhjÀltetema.
MÄlet med detta steg Àr att generera en kortfattad och intuitiv beskrivning av neuronets funktion som lÀtt kan förstÄs av mÀnniskor.
Steg 2: Simulera aktiveringar med hjÀlp av GPT-4, beroende pÄ förklaringen
Detta steg innebÀr att anvÀnda GPT-4 för att generera nya textinmatningar som skulle aktivera samma neuron, givet förklaringen frÄn steg 1 som ett villkor.
Till exempel, givet förklaringen att neuronet Àr kÀnsligt för sprÄk relaterat till Marvel-serier, filmer och karaktÀrer, kan GPT-4 generera textinmatningar som "Spider-Man Àr en av de mest populÀra superhjÀltarna i Marvel-universumet" eller "The Avengers: Endgame var det episka slutet pÄ Infinity Saga".
MÄlet med detta steg Àr att testa hur vÀl förklaringen fÄngar neuronets beteende och generera fler exempel pÄ inmatningar som aktiverar neuronet.
Steg 3: PoÀngsÀtt förklaringen genom att jÀmföra de simulerade och verkliga aktiveringarna
Detta steg innebÀr att jÀmföra neuronets aktivering pÄ den ursprungliga textinmatningen och de simulerade textinmatningarna genererade av GPT-4 i steg 2.
JÀmförelsen görs genom att berÀkna en korrelationskoefficient mellan de tvÄ uppsÀttningarna av aktiveringar, som varierar frÄn -1 (perfekt negativ korrelation) till 1 (perfekt positiv korrelation).
Korrelationskoefficienten anvÀnds som ett mÄtt pÄ hur vÀl förklaringen matchar neuronets beteende. En hög korrelation innebÀr att förklaringen Àr korrekt och konsekvent, medan en lÄg korrelation innebÀr att förklaringen Àr felaktig eller ofullstÀndig.
MÄlet med detta steg Àr att kvantifiera hur tolkningsbart neuronet Àr och att ge en feedbacksignal för att förbÀttra förklaringen.
Mathias Sundin
Den arge optimisten