Cerebras AI-chip slår rekord i hastighet

Sep 17

Cerebras lanserar världens snabbaste AI-inferenssystem

Cerebras, ett ledande företag inom AI-hårdvara, har nyligen presenterat en banbrytande lösning för AI-inferens som lovar att revolutionera branschen. Det nya systemet erbjuder oöverträffad hastighet och kostnadseffektivitet, vilket öppnar upp för nya möjligheter inom AI-applikationer.

Rekordhastigheter för AI-inferens

Cerebras inferenssystem levererar imponerande prestanda:

1800 tokens per sekund för Llama3.1 8B-modellen
450 tokens per sekund för den större Llama3.1 70B-modellen

Detta innebär en hastighetsökning på hela 20 gånger jämfört med GPU-baserade lösningar från ledande molnleverantörer. För den som inte är insatt i AI-terminologi kan detta liknas vid att gå från en långsam uppkoppling till supersnabbt bredband - AI-modellerna kan nu generera text och svar i realtid istället för att användaren behöver vänta på varje ord.

Kostnadseffektiv AI-inferens

Förutom de imponerande hastigheterna erbjuder Cerebras även branschledande prissättning:

10 cent per miljon tokens för Llama3.1 8B
60 cent per miljon tokens för Llama3.1 70B

Detta är en bråkdel av kostnaden jämfört med traditionella GPU-baserade lösningar. Den låga kostnaden i kombination med den höga hastigheten öppnar upp för helt nya användningsområden inom AI, där tidigare begränsningar kring kostnad och prestanda nu kan övervinnas.

Tekniken bakom prestandan

Nyckeln till Cerebras överlägsna prestanda ligger i deras unika Wafer Scale Engine-teknologi. Till skillnad från traditionella GPU:er som har begränsad on-chip-minne, kan Cerebras lagra hela AI-modellen direkt på chipet. Detta eliminerar flaskhalsen som uppstår när data måste flyttas mellan externt minne och beräkningsenheter.

Cerebras WSE-3 chip har:

44 GB SRAM-minne integrerat direkt på chipet
21 petabyte/s total minnesbandbredd - 7000 gånger mer än en NVIDIA H100 GPU

Denna arkitektur möjliggör extremt snabb dataåtkomst och bearbetning, vilket är avgörande för att uppnå realtidsprestanda vid AI-inferens.

Skalbarhet för större modeller

Cerebras system är designat för att hantera modeller från några miljarder till biljontals parametrar. För modeller som överskrider kapaciteten hos ett enskilt chip, distribueras beräkningarna över flera CS-3 system:

20 miljarder parametrar ryms på ett enda CS-3 system
70 miljarder parametrar kan hanteras av bara fyra sammankopplade system

Denna skalbarhet säkerställer att även de allra största AI-modellerna kan köras med hög prestanda.

Fokus på noggrannhet och kvalitet

Till skillnad från vissa konkurrenter som kompromissar med modellernas precision för att uppnå högre hastigheter, kör Cerebras inferenssystem Llama3.1-modellerna med ursprungliga 16-bitars vikter. Detta säkerställer högsta möjliga noggrannhet och tillförlitlighet i modellernas output.

Interna utvärderingar och tredjepartsbenchmarks visar att 16-bitarsmodeller presterar upp till 5% bättre än 8-bitarsvarianter på komplexa uppgifter som flerstegsdiskussioner, matematik och resonemang.

Tillgänglighet för utvecklare

Cerebras inferens-API är nu tillgängligt för utvecklare via både chat och API-åtkomst. API:et är kompatibelt med det välkända OpenAI Chat Completions-formatet, vilket gör det enkelt för utvecklare att integrera Cerebras kraftfulla inferensfunktioner i sina applikationer.

För att uppmuntra innovation och testning erbjuder Cerebras:

1 miljon gratis tokens dagligen för utvecklare
Konkurrenskraftig prissättning för storskaliga implementationer

Betydelsen av snabb inferens

Möjligheten att utföra AI-inferens i realtid öppnar upp för helt nya användningsområden och applikationer. Några exempel:

Mer sofistikerade AI-arbetsflöden som kan utforska olika lösningar innan de presenterar ett svar
Förbättrad realtidsintelligens i chattbottar och virtuella assistenter
Möjlighet att implementera avancerade tekniker som "scaffolding" för att förbättra AI-modellernas resonemang

Dessa tekniker kräver ofta upp till 100 gånger fler beräkningar i realtid, något som endast är praktiskt möjligt med den hastighet som Cerebras system erbjuder.

Framtidsutsikter

Cerebras planerar att kontinuerligt utöka sitt erbjudande med stöd för fler och större modeller, inklusive:

Llama3 405B
Mistral Large

Detta kommer att ge utvecklare och företag tillgång till ännu kraftfullare AI-kapacitet med samma höga hastighet och kostnadseffektivitet.

Slutsats

Lanseringen av Cerebras inferenssystem markerar ett betydande framsteg inom AI-teknologi. Genom att kombinera oöverträffad hastighet, kostnadseffektivitet och skalbarhet, sätter Cerebras en ny standard för AI-inferens. Detta öppnar upp för en ny era av AI-applikationer där realtidsinteraktion och avancerat resonemang blir möjligt i en skala som tidigare var otänkbar.

För utvecklare, forskare och företag som arbetar med AI innebär detta spännande möjligheter att skapa mer sofistikerade och responsiva AI-lösningar. Det återstår att se vilka innovativa applikationer och tjänster som kommer att växa fram tack vare denna nya teknologi.

No items found.