Google DeepMind: AGI-säkerhet i framkant

Sep 17

Here is the requested article in HTML format, without any additional text before or after:

AGI-säkerhet och alignment hos Google DeepMind: En sammanfattning av aktuell forskning

Google DeepMind har nyligen presenterat en omfattande uppdatering om sitt arbete inom AGI-säkerhet och alignment. Företaget har gjort betydande framsteg inom flera viktiga områden och fortsätter att utöka sina team som arbetar med dessa frågor. Låt oss titta närmare på några av de viktigaste punkterna från denna uppdatering.

Expansion av säkerhetsteamen

En av de mest uppmuntrande nyheterna är att DeepMind har expanderat sina säkerhetsteam avsevärt under det senaste året. Enligt rapporten har teamen vuxit med 39% under föregående år och ytterligare 37% hittills i år. Detta visar på ett starkt engagemang från företagets sida att prioritera säkerhet och alignment i utvecklingen av avancerad AI.

Frontier Safety Framework

Ett viktigt fokusområde har varit utvecklingen av DeepMinds Frontier Safety Framework. Detta ramverk syftar till att säkerställa säkerhet från extrema skador genom att förutse, utvärdera och hjälpa Google att förbereda sig för kraftfulla förmågor i frontlinjemodeller. En central aspekt är att kartlägga kritiska kapacitetsnivåer och koppla dem till lämpliga begränsningsåtgärder.

Till skillnad från liknande policys från andra AI-företag är DeepMinds ramverk specifikt anpassat för Googles behov, med tanke på att företaget har många olika AI-implementeringar snarare än bara en enda chattbot eller API. Detta gör ramverket mer komplext men också mer heltäckande.

Utvärdering av farliga förmågor

DeepMind har publicerat en omfattande uppsättning utvärderingar för farliga förmågor hos AI-modeller. Dessa utvärderingar genomförs regelbundet på företagets frontlinjemodeller som Gemini 1.0, Gemini 1.5 och Gemma 2. DeepMind menar att de för närvarande sätter standarden för transparens kring sådana utvärderingar och implementering av säkerhetsramverk.

Mekanistisk tolkningsbarhet

Ett annat viktigt forskningsområde har varit mekanistisk tolkningsbarhet, med särskilt fokus på Sparse AutoEncoders (SAE). DeepMind har lanserat nya SAE-arkitekturer som Gated SAEs och JumpReLU SAEs, vilka avsevärt förbättrat avvägningen mellan rekonstruktionsförlust och sparsitet.

Företaget har också släppt Gemma Scope, en omfattande uppsättning SAE:er för Gemma 2-modellerna. Detta syftar till att göra Gemma 2 till förstahandsvalet för akademisk forskning inom mekanistisk tolkningsbarhet.

Förstärkt övervakning

DeepMind arbetar med förstärkt övervakning för att tillhandahålla övervakning som är så nära som möjligt den av en människa med fullständig förståelse för alla anledningar till att AI-systemet producerade sitt resultat. Detta inkluderar både teoretiskt arbete kring debattprotokoll och empiriska experiment.

I de empiriska experimenten med debatt fann man att debattprestandan var sämre än förväntat på uppgifter med informationsasymmetri. Man upptäckte också begränsade bevis för att starkare debattörer leder till mycket högre domarexakthet. Forskarnas intryck är att dessa problem uppstår eftersom modellerna inte är särskilt bra på att bedöma debatter, snarare än att debattörernas argument är dåliga.

Kausal alignment

Ett långvarigt forskningsområde inom teamet undersöker hur förståelse av kausala incitament kan bidra till utformningen av säkra AI-system. DeepMind har utvecklat algoritmer för att upptäcka agenter, vilket kan hjälpa till att identifiera vilka delar av system som kan förstås genom ett agentperspektiv.

Forskarna har också visat att kausala världsmodeller är en nyckelaspekt av agentrobusthet, vilket tyder på att vissa kausala verktyg sannolikt kommer att gälla för alla tillräckligt kraftfulla agenter.

Framtida planer

DeepMind arbetar för närvarande med att revidera sin övergripande strategi för teknisk AGI-säkerhet. Målet är att skapa en mer systematisk approach för att hantera risker. Detta inkluderar att kartlägga en logisk struktur för teknisk misalignment-risk och använda den för att prioritera forskningen.

Ett viktigt område som kräver uppmärksamhet är hur man hanterar distribution shift, där AI-systemet kan bete sig på sätt som förstärkt övervakning inte skulle godkänna. För att hantera detta kommer investeringar i adversarial träning, osäkerhetsestimering, övervakning med mera att krävas.

Sammanfattning

Google DeepMind fortsätter att göra betydande framsteg inom AGI-säkerhet och alignment. Med expansion av säkerhetsteamen, utveckling av omfattande ramverk och framsteg inom flera tekniska forskningsområden visar företaget ett starkt engagemang för att hantera de potentiella riskerna med avancerad AI. Det återstår att se hur dessa insatser kommer att påverka den bredare AI-utvecklingen, men DeepMinds arbete ger viktiga insikter och verktyg för att navigera de utmaningar som ligger framför oss.

No items found.