Wij gaan het zeggen, komt ie: AI-interference wordt nooit meer hetzelfde. Zo. De Canadese AI-startup Taalas haalt namelijk 17.000 tokens per seconde uit een chip die geen GPU is, geen HBM heeft en 200 watt verbruikt. Axelera AI uit Eindhoven haalde $ 250 miljoen op, de grootste AI-chip investering in de EU ooit, voor energiezuinige edge-chips. De boodschap is duidelijk: de toekomst van AI draait niet op grote datacenters, maar op silicium.
ChatJimmy is snel
Even terug naar Taalas en hun 17.000 tokens per seconde. Taalas ontwikkelde met AI-model Llama 3.1 8B chatbot ChatJimmy. De chatbot lijkt op het eerste gezicht een gewone chat-interface. Tot je iets typt. Het antwoord verschijnt zó snel, dat je denkt dat het gecached is. Maar dat is het niet: het is een HC1-chip die 17.000 tokens per seconde haalt. Ter vergelijking: een Nvidia H200, een van de snelste GPU’s ter wereld, haalt met hetzelfde model ongeveer 230 tokens per seconde. ChatJimmy is dus 74 keer sneller.
Ga zelf maar eens naar chatjimmy.ai en vraag: “Schrijf 20 paragrafen over de toekomst van AI-hardware”. Je ziet het verschil in seconden, letterlijk.
Het model als chip
Hoe doet Taalas dat? Leggen we natuurlijk aan je uit. Bij normale AI-interference laadt een GPU de weights van een model uit geheugen (HBM), rekent ermee en schrijft het resultaat terug. Dat heen en weer schuiven van data is de bottleneck; de zogenaamde memory wall.
Taalas pakt dit radicaal anders aan. Eerst bouwden ze een ASIC (Application-Specific Integrated Circuit), waarbij de weights van het AI-model letterlijk in de metaallagen van de chip zijn geëtst. Er is nu geen apart geheugen meer: het model is de chip.
Stel je voor dat je een recept uit een kookboek volgt. Normaal pak je het boek, lees je een stap, leg je het boek weg, voer je de stap uit, en pak je het boek weer om verder te gaan met de volgende stap. Dat is ook hoe een GPU werkt. Maar met de HC1-chip van Taalas is het alsof het recept in je handen gegraveerd staat; je hoeft nergens meer te zoeken.
De specificaties
- 53 miljard transistors op 815 mm²
- Gefabriceerd door TSMC op 6nm
- 200 watt per kaart (een H100 verbruikt 700 watt)
- Een server met 10 HC1-kaarten: 2.500 watt totaal
- 20x lagere kosten dan GPU-gebaseerde inference
- 10x minder stroomverbruik
En misschien het meest indrukwekkende: Taalas heeft een compiler-achtig systeem gebouwd dat van elk model in ongeveer een week een chipontwerp maakt. Geen R&D-cyclus van jaren, maar gewoon meteen een productielijn.
Kwaliteit versus snelheid
De HC1 draait Llama 3.1 8B met agressieve quantisatie: een mix van 3-bit en 6-bit parameters. Dat betekent dat het model kleiner en minder precies is dan de full-precision versie op een GPU. En dat merk je soms. Bij complexe redeneeringstaken of genuanceerde teksten levert een groter model betere resultaten.
Maar juist daar zit de crux: voor heel veel taken is een kleiner model al goed genoeg. Voor het beantwoorden van klantvragen, classificeren van data, samenvatten van teksten, verwerken van formulieren of het routeren van e-mails heb je geen 70B–parameter model nodig.
De kracht van parallelle iteratie
En nu wordt het pas echt interessant. Bij 17.000 tokens per seconde kun je hetzelfde model 100 keer dezelfde vraag laten benaderen, iedere keer vanuit een andere invalshoek. Vervolgens selecteer je het beste antwoord. Vergelijk het met één expert die lang nadenkt; in plaats daarvan pak je honderd snelle denkers en kies je het slimste antwoord. Bij de huidige GPU-snelheden is dit onbetaalbaar, maar bij HC1-snelheden is dat triviaal.
Dit is een fundamenteel andere manier van denken over AI-kwaliteit. Niet: gebruik een groter model. Maar: gebruik een snel model, vaker, slimmer.
Meer weten?
Verder praten en nog meer weten? Bel of mail ons.