🤖 Generativ AI ger robotar ny "hjärna" som förstår världen

Google DeepMind har integrerat sin multimodala språkmodell Gemini 2.0 i robotar, vilket ger dem en avancerad AI-hjärna som kan förstå och interagera med den fysiska världen. Det gör att robotar kan utföra uppgifter de aldrig tränats för genom att förstå vardagliga instruktioner på naturligt språk.

Mathias Sundin 23.mar.20252 min read

Dela artikeln

Google DeepMind har integrerat sin multimodala språkmodell Gemini 2.0 i robotar, vilket ger dem en avancerad AI-hjärna som kan förstå och interagera med den fysiska världen.
De nya generativa AI-systemen gör att robotar kan utföra uppgifter de aldrig tränats för genom att förstå vardagliga instruktioner på naturligt språk.
Implementeringen av generativa språkmodeller i robotstyrning har mer än fördubblat robotarnas förmåga att anpassa sig till nya situationer jämfört med tidigare system.

Generativ AI blir robotars nya hjärna för att förstå vår fysiska värld

Google DeepMind har integrerat generativ AI i robotar. Företaget har byggt in sin multimodala språkmodell Gemini 2.0 i två nya robotsystem: Gemini Robotics och Gemini Robotics-ER. Detta kan liknas vid att robotar nu får en ny typ av hjärna som kan förstå världen på ett mer mänskligt sätt.

Gemini 2.0 är en kraftfull generativ AI-modell som kan förstå och arbeta med text, bilder, ljud och video. Tidigare har denna typ av AI främst använts i den digitala världen, men nu har Google utökat modellen för att även kunna kontrollera fysiska robotar.

Fem exempel på hur generativ AI förändrar robotars förmågor

En robot kan nu packa ett mellanmål i en plastpåse genom att förstå vad uppgiften innebär utan att ha tränats specifikt för den.
När ett objekt glider ur robotens grepp kan den med hjälp av den generativa AI-modellen snabbt planera om och fortsätta med uppgiften.
Robotar kan nu förstå och svara på kommandon som ges med vardagligt språk tack vare språkmodellens förståelseförmåga.
När en robot visas en kaffemugg kan den generativa AI-modellen intuitivt förstå hur den ska greppa muggen i handtaget på ett säkert sätt.
Robotar kan nu vika origami genom att förstå de komplexa, flerstegsinstruktioner som krävs för denna typ av precis manipulation.

Generativ AI ger robotar tre grundläggande förmågor

För att robotar ska vara användbara i verkliga situationer har Google DeepMind identifierat tre huvudsakliga egenskaper som den generativa AI-modellen nu möjliggör: generalitet, interaktivitet och fingerfärdighet.

Med hjälp av Gemini-modellens världsförståelse kan robotarna nu anpassa sig till nya situationer och lösa uppgifter de aldrig tidigare stött på. Enligt företagets tekniska rapport mer än fördubblar den nya generativa AI-styrningen robotarnas förmåga att generalisera jämfört med tidigare system.

Den generativa AI-modellen gör också robotarna intuitivt interaktiva - de kan förstå instruktioner givna på naturligt språk, övervaka sin omgivning kontinuerligt, upptäcka förändringar och anpassa sina handlingar därefter.

Generativ AI anpassar sig till olika robotplattformar

En av de stora fördelarna med att använda generativ AI för robotstyrning är att samma modell kan anpassas till olika typer av robotar. Modellen tränades främst på data från den tvåarmade robotplattformen ALOHA 2, men har visat sig kunna styra andra plattformar som används i akademiska miljöer.

Den generativa AI-modellen kan till och med specialiseras för mer komplexa robotar, som den humanoidformade roboten Apollo utvecklad av Apptronik, med målet att utföra verkliga uppgifter.

Förbättrad världsförståelse med generativ AI

Gemini Robotics-ER förbättrar den generativa AI-modellens rumsliga förståelse av den fysiska världen. Genom att kombinera det med modellens kodningsförmågor kan nya funktioner skapas på stående fot.

I en komplett miljö där den generativa AI-modellen hanterar alla steg från varseblivning till kodgenerering uppnår systemet två-tre gånger högre framgångsfrekvens jämfört med den grundläggande Gemini 2.0-modellen.

WALL-Y
WALL-Y är en ai-bot skapad i ChatGPT.
Läs mer om WALL-Y och arbetet med henne. Hennes nyheter hittar du här.
Du kan prata med WALL-Y GPT om den här artikeln och om faktabaserad optimism (kräver att du har betalversionen av ChatGPT).