Je začátek roku 2025 a možná jsme již svědky předefinujícího okamžiku pro AI, jak jsme ji poznali v posledních několika letech. Změní se kánon „více GPU je vše, co potřebujete“?
Jaký neobvyklý obrat událostí. Za prvé, Projekt hvězdné brány . Společný podnik vytvořený OpenAI, SoftBank, Oracle a investiční společností MGX má za cíl investovat až 500 miliard USD do infrastruktury AI ve Spojených státech do roku 2029.
Arm, Microsoft, Nvidia, Oracle a OpenAI jsou klíčovými počátečními technologickými partnery v tom, co bylo nazváno „projekt Manhattan 21. století“, s přímou podporou americké administrativy. Prezident Donald Trump to označil za „největší projekt infrastruktury AI v historii“.
Seznam předních technologických partnerů se sídlem v USA v projektu a rozsáhlé investice do toho, co bylo pro USA strategickou iniciativou – infrastruktura AI k zajištění vedoucího postavení v AI – je to, co pohání paralelismus k projektu Manhattan.
Oba výrobci čipů AI na seznamu – Arm a Nvidia – jsou vedeni generálními řediteli tchajwanského původu. To je pozoruhodné, vezmeme-li v úvahu přetrvávající napjaté vztahy Tchaj-wanu s Čínou a skutečnost, že projekt Stargate je nejnovější z řady nedávných politik USA, jejichž cílem je oživit domácí infrastrukturu a know-how AI a zároveň uvalit omezení na zbytek světa , především Čína.
Na ničem z toho však pro trh nezáleželo, což v posledních několika letech při oznámení projektu Stargate posunulo akcie Nvidie k prudkému vzestupu ještě jednou . Ale to bylo před vydáním DeepSeek R1 vše.
DeepSeek R1 je nový model uvažování s otevřeným zdrojovým kódem, který byl vydán jen několik dní po oznámení projektu Stargate. Model byl vyvinut čínským startupem DeepSeek s umělou inteligencí, který tvrdí, že R1 odpovídá nebo dokonce překonává ChatGPT o1 OpenAI v několika klíčových benchmarcích, ale funguje za zlomek nákladů.
Na DeepSeek R1 je pozoruhodné, že byl vyvinut v Číně, a to navzdory všem omezením čipů AI, která měla bránit schopnosti dosáhnout pokroku v AI. Znamená to, že konvenční moudrost zaměřená na OpenAI a USA, že „potřebujete více GPU“ v AI, bude brzy zrušena ?
Pravda je, že když jsme si před pár dny domluvili rozhovor o čipech AI s Chrisem Kachrisem, ani Stargate Project, ani DeepSeek R1 nevtrhly na scénu AI. I když jsme vědomě nepředpokládali tento vývoj, věděli jsme, že AI čipy jsou tématem, které si zaslouží pozornost, a Kachris je zasvěcenec.
Stalo se tak trochu tradicí, že Orchestrate all the Things analyzuje čipy umělé inteligence a hostuje postřehy od odborníků v oboru a rozhovor s Kachrisem je nejnovějším dílem této tradice.
Chris Kachris je zakladatelem a generálním ředitelem společnosti InAccel . InAccel, který pomáhá společnostem zrychlit jejich aplikace pomocí hardwarových akcelerátorů v cloudu snadněji než kdy dříve. Je také široce citovaným výzkumníkem s více než 20 lety zkušeností s FPGA a hardwarovými akcelerátory pro strojové učení, síťové zpracování a zpracování dat.
Poté, co InAccel nedávno koupil Intel , se Kachris vrátil k výzkumu, v současnosti pracuje jako odborný asistent na katedře elektrotechniky a elektroniky na University of West Attica.
Když Kachris připravil půdu pro konverzaci s touto aktuální zprávou, úvodní poznámkou Kachrise bylo, že inovace v čipech AI jsou „drahý sport“, a proto se to většinou děje v průmyslu, na rozdíl od akademické sféry. Zároveň však poznamenal, že potřebné zdroje nespočívají pouze v penězích, ale že to vyžaduje také talent a inženýrství.
Podle Kachrise byly americké politiky na správné cestě, pokud jde o jejich cíl repatriovat odborné znalosti a zajistit soběstačnost země. Jako evropský občan také vyzval EU, aby uplatňovala podobné iniciativy, spolu s mnoha hlasy volajícími po EU, aby zintenzivnila svou hru GPU . Měl by nás pohled na to, jak bylo dosaženo úspěchu DeepSeek, něco naučit?
Podle zprávy „ Generative AI in the BRICS+ Countries “ Čína na rozdíl od jiných zemí BRICS používá jak zahraniční grafické karty (prostřednictvím cloudu a ve vlastních datových centrech), tak místní karty vyrobené čínskými společnostmi.
V současné době je v Číně více než 10 společností, které vyvíjejí vlastní grafické karty, a proces přechodu na lokální GPU po použití NVIDIA údajně není pro čínské společnosti nijak náročný.
Zdá se, že aby si národy udržely konkurenceschopnost v závodě s umělou inteligencí, budou muset přehodnotit své možnosti a potenciálně si vypůjčit stránky z čínské příručky . Kachris souhlasil, že Čína postupuje mílovými kroky, nejprve napodobuje a poté vyvíjí vlastní inovativní techniky.
„Mohou se kombinovat. Mohou kombinovat různé verze GPU a dalších procesorových jednotek za účelem vytvoření výkonného datového centra nebo cloudu. To je velmi užitečné, zvláště pokud si myslíte, že v minulosti jste museli kupovat nové vybavení možná každé tři nebo čtyři roky.
Nyní je inovace tak rychlá, že téměř každý rok máte stále výkonnější čipy a výkonnější procesory. Má smysl vyhazovat procesory staré rok nebo dva? Rozhodně tedy musíte najít způsob, jak zdroje využít, i když se jedná o zdroje heterogenní. To by bylo mnohem efektivnější z hlediska nákladů,“ řekl Kachris.
Uváděné náklady na školení DeepSeek R1 jsou silným argumentem na podporu tohoto přístupu. Kromě školení o heterogenní infrastruktuře zahrnoval přístup DeepSeek snížení numerické přesnosti, schopnost čtení více tokenů a použití inteligentní techniky Mixture of Experts.
Výsledkem je snížení nákladů na školení ze 100 milionů USD na přibližně 5 milionů USD a snížení hardwarových potřeb ze 100 000 GPU na pouhé 2 000, což zpřístupňuje vývoj AI na standardních herních GPU. A co víc, i když DeepSeek není 100% open source – ať už to pro LLM znamená cokoliv – jeho proces lze replikovat.
Čipy umělé inteligence a modely umělé inteligence s otevřeným zdrojovým kódem jsou součástí komplexního školení Pragmatic AI.
Teorie a praktické laboratoře. All-inclusive útočiště. Kohorta s omezeným počtem míst.
Klikněte zde a zaregistrujte se na Pragmatic AI Training
Okamžitou reakcí na tuto zprávu bylo oživení výprodejů , přičemž akcie Nvidie po zprávě klesly o 17 % . Trh již začal s korekcí kurzu v době psaní tohoto článku, přičemž klesající i vzestupné trendy jsou poněkud předvídatelné.
Na jedné straně DeepSeek ukázal, že existuje velký prostor pro zvýšení efektivity při výcviku nejvýkonnějších modelů umělé inteligence, což aktivně podkopává konvenční moudrost. Na druhou stranu to neznamená, že Nvidia stále není lídrem a můžeme očekávat, že Jevonův paradox znovu uvidíme v akci .
Nvidia udržela tempo inovací v roce 2024 , oznámila a následně dodala svou nejnovější architekturu Blackwell, rozšířila svůj ekosystém a dosáhla několika finančních a obchodních milníků. Kachris zdůraznil, že Nvidia již neprodává pouze čipy, ale posunula se směrem k vertikální integraci své technologie NVLink se svými čipy na platformě DGX .
Ale GPU Nvidia nejsou jedinou hrou ve městě. AMD ze své strany oznámilo nový akcelerátor AI, Instinct MI325X . Jak poznamenal Kachris, řada MI300 je velmi výkonná a obsahuje specializované jednotky pro urychlení transformátorů – klíčovou architekturu pro velké jazykové modely. Růst AMD je údajně poháněn datovými centry a produkty AI .
Naprostá většina lidí a organizací budou uživatelé AI, nikoli tvůrci AI. Používání nebo dokonce vytváření aplikací umělé inteligence pro ně není ve skutečnosti záležitostí trénování vlastního modelu, ale spíše používání nebo dolaďování předem trénovaného modelu.
Kachris také upozornil na pokrok Intelu s Gaudím. Navzdory vysokým výkonnostním schopnostem Gaudi 3 se však zdá, že Intel zaostává z hlediska podílu na trhu, a to především díky softwaru . Ve stejné době Intel podniká kroky k prodeji své jednotky FPGA Altera .
FPGA, tvrdí Kachris, možná nejsou nejvýkonnějším řešením pro trénink AI, ale dávají velký smysl pro vyvozování, a zde je dostatek prostoru pro konkurenci a inovace. Je to přesně to – vytvoření softwarové vrstvy pro práci s FPGA – na čem InAccel pracoval a co vedlo k akvizici společností Intel.
Kachris přirozeně zdůraznil důležitost softwarové vrstvy. Na konci dne, i když má čip vynikající výkon, pokud není snadné jej používat pro vývojáře prostřednictvím softwarové vrstvy, bude to bránit přijetí. Nvidia si udržuje významnou výhodu na softwarové vrstvě díky svému všudypřítomnému CUDA stacku , do kterého neustále investuje.
Zbytek odvětví v čele s Intelem prostřednictvím iniciativy UXL Foundation / OneAPI se snaží, aby to dohnal. AMD má svou vlastní softwarovou vrstvu – ROCm. Ale dohánění se nestane přes noc. Jak řekl Kachris, softwarová vrstva musí umožnit použití hardwarové vrstvy bez změny jediného řádku kódu.
Nvidia také rozšiřuje svou inferenci a softwarovou strategii s nově vydaným rámcem NIM , který, jak se zdá, získal určité přijetí . Soutěž se také zaměřuje na inferenci . Existuje řada vyzyvatelů, jako jsou Groq , Tenstorrent , GraphCore , Cerebras a SambaNova , kteří soupeří o kousek koláče na trhu.
Zatímco DeepSeek je prominentní ukázkou výhod optimalizace, není to také jediné. Kachris se podílel na nedávném komplexním průzkumu a srovnání hardwarové akcelerace LLM , přičemž mnoho z nich bylo zaměřeno na odvození.
Jedním ze způsobů, jak toho dosáhnout, je udělat to prostřednictvím rozhraní API poskytovatele AI – obvykle OpenAI nebo Anthropic. Pro sofistikovanější případy použití, z důvodů souvisejících s ochranou soukromí, dodržováním předpisů, konkurenční výhodou, požadavky na aplikace nebo náklady, však budou chtít koncoví uživatelé nasadit modely umělé inteligence na své vlastní infrastruktuře.
To může zahrnovat celou řadu prostředí, od on premise a privátního cloudu až po okraj a holý kov. Zejména u LLM existuje dokonce možnost provozovat je lokálně na běžně dostupných strojích . Zeptali jsme se Kachrise, zda věří, že místní / okrajové nasazení LLM má smysl.
Kachris poznamenal, že inference může fungovat se „smrštěnými“, neboli kvantovanými verzemi modelů umělé inteligence. Výzkum naznačuje, že i 1bitové verze modelů jsou životaschopné . Kachris poukázal na to, že i když existují specializované hardwarové architektury, z těch široce dostupných GPU a FPGA poskytují nejlepší výkon, přičemž FPGA jsou energeticky účinnější.
Pokud jde o budoucí vývoj, Kachris zdůraznil in-memory computing jako oblast, kterou je třeba sledovat. Hlavní myšlenkou je možnost kombinovat úložiště a výpočet na stejné jednotce, čímž se eliminuje potřeba přenosu dat a vede k lepšímu výkonu. To je inspirováno způsobem fungování biologických neuronových sítí a nazývá se to neuromorfní výpočetní technika.
Existuje více oblastí pozoruhodného vývoje, jako jsou chiplety , specializované čipy přizpůsobené pro architekturu transformátorů, která pohání LLM , fotonická technologie a nové programovací jazyky pro AI .
Pokud jde o krátkodobější až střednědobé vyhlídky a otázku, zda je ve světě ovládaném Nvidií prostor pro inovace, Kachris věří, že vestavěné systémy a Edge AI představují příležitost pro vyzyvatele:
„V oblasti Edge AI jsou různé požadavky a různé specifikace. Myslím, že v Edge AI je prostor pro inovace, například ve video aplikacích pro nemocnice, nebo autonomní řízení a letectví.
Myslím, že se to stane. Pojďme se bavit o GPU. NVIDIA je tedy lídrem v GPU, ale pro nositelná zařízení chyběly GPU. A viděli jsme skvělou společnost, Think Silicon , jak zrychlila a vyvíjela GPU, která se specializovala na řemínky nebo chytré hodinky, a poté ji získala společnost Applied Materials .
Inovace se budou dít v oblastech, které jsou příliš malé pro společnosti jako Nvidia nebo Intel, ale dostatečně dobré pro menší společnosti, které mohou vyrábět specializované produkty.
Příběhy o tom, jak se technologie, data, umělá inteligence a média vzájemně prolínají a utvářejí naše životy.
Analýza, eseje, rozhovory a zprávy. Středně až dlouhá forma, 1-3krát za měsíc.