paint-brush
중국의 DeepSeek이 '더 많은 GPU, 더 많은 전력' 이론을 깨뜨릴 수 있을까?~에 의해@linked_do
689 판독값
689 판독값

중국의 DeepSeek이 '더 많은 GPU, 더 많은 전력' 이론을 깨뜨릴 수 있을까?

~에 의해 George Anadiotis9m2025/01/30
Read on Terminal Reader

너무 오래; 읽다

지금은 2025년 초이고, 우리는 지난 몇 년 동안 알게 된 AI의 재정의 순간을 이미 목격하고 있을지도 모릅니다. "더 많은 GPU만 있으면 된다"는 정전이 바뀌려고 합니까?
featured image - 중국의 DeepSeek이 '더 많은 GPU, 더 많은 전력' 이론을 깨뜨릴 수 있을까?
George Anadiotis HackerNoon profile picture
0-item
1-item
2-item

지금은 2025년 초이고, 우리는 지난 몇 년 동안 알게 된 AI의 재정의 순간을 이미 목격하고 있을지도 모릅니다. "더 많은 GPU만 있으면 된다"는 정전이 바뀌려고 합니까?


얼마나 특이한 사건의 전개인가. 첫째, 스타게이트 프로젝트 . OpenAI, SoftBank, Oracle, 투자 회사 MGX가 만든 합작 투자 회사는 2029년까지 미국 내 AI 인프라에 최대 5,000억 달러를 투자할 계획이다.


Arm, Microsoft, Nvidia, Oracle, OpenAI는 미국 행정부의 직접적인 지원을 받아 "21세기의 맨해튼 프로젝트"로 불리는 이 프로젝트의 핵심 초기 기술 파트너입니다. 도널드 트럼프 대통령은 이를 "역사상 가장 큰 AI 인프라 프로젝트"라고 불렀습니다.


이 프로젝트에 참여한 미국의 주요 기술 파트너 목록과 미국의 전략적 이니셔티브인 AI 인프라에 대한 막대한 투자가 맨해튼 프로젝트와의 유사성을 뒷받침하는 요소입니다.


목록에 있는 두 AI 칩 제조업체인 Arm과 Nvidia는 모두 대만 출신 CEO가 이끌고 있습니다. 이는 대만과 중국 간의 지속적인 긴장 관계와 Stargate Project가 국내 AI 인프라와 노하우를 활성화하는 동시에 나머지 세계, 주로 중국에 제한을 가하는 것을 목표로 하는 최근 미국 정책 의 최신 버전이라는 사실을 고려할 때 주목할 만한 일입니다.


하지만 그 중 어느 것도 시장에 중요하지 않았고, 이로 인해 엔비디아의 주가는 지난 몇 년 동안 스타게이트 프로젝트 발표로 다시 급등했습니다 . 하지만 그것은 모두 DeepSeek R1이 출시되기 전의 일이었습니다.


DeepSeek R1 은 Stargate Project 발표 후 며칠 만에 출시된 새로운 오픈소스 추론 모델입니다. 이 모델은 중국 AI 스타트업 DeepSeek에서 개발했으며, R1은 여러 주요 벤치마크에서 OpenAI의 ChatGPT o1과 동일하거나 심지어 능가하지만 비용은 훨씬 적게 든다고 주장합니다.


DeepSeek R1의 주목할 점은 AI 칩에 대한 모든 제한에도 불구하고 중국에서 개발되었다는 점입니다. 이는 AI에서 "더 많은 GPU만 있으면 된다"는 OpenAI와 미국 중심의 통념이 뒤집힐 것이라는 의미일까요?

AI 칩, 돈, 인재, 엔지니어링

사실, 며칠 전 Chris Kachris와 AI 칩에 대한 대화를 주선했을 때, Stargate Project도 DeepSeek R1도 AI 분야에 등장하지 않았습니다. 우리가 이러한 발전을 의식적으로 예상하지는 않았지만, AI 칩이 주목할 만한 주제라는 것을 알고 있었고 Kachris는 내부자였습니다.


모든 사물을 조직하여 AI 칩을 분석하고 해당 분야 전문가의 통찰력을 제공하는 것이 일종의 전통이 되었으며, 카크리스와의 대화는 이러한 전통을 이어받은 최신 사례입니다.


크리스 카크리스는 InAccel 의 설립자이자 CEO입니다. InAccel은 기업이 클라우드에서 하드웨어 가속기를 사용하여 그 어느 때보다 쉽게 애플리케이션을 가속화하도록 돕습니다. 그는 또한 머신 러닝, 네트워크 처리 및 데이터 처리를 위한 FPGA 및 하드웨어 가속기에 대한 20년 이상의 경험을 가진 널리 인용되는 연구자이기도 합니다.

InAccel이 최근 인텔에 인수된 후, 카크리스는 연구로 돌아갔으며 현재는 서아티카 대학교의 전기 및 전자공학과에서 조교수로 일하고 있습니다.


이 시기적절한 뉴스로 대화의 배경을 마련할 때, 카크리스는 AI 칩의 혁신은 "비싼 스포츠"라고 말하며, 이것이 대부분 학계가 아닌 산업계에서 일어나는 이유라고 말했습니다. 그러나 동시에 그는 필요한 리소스가 돈으로만 결정되는 것이 아니라 재능과 엔지니어링도 수반한다고 지적했습니다.


카크리스는 미국 정책이 전문성을 본국으로 송환하고 국가를 자립적으로 만드는 목표 측면에서 올바른 길을 가고 있다고 생각합니다. 그는 유럽 시민으로서 EU가 유사한 이니셔티브를 적용해야 한다고 주장했고, 많은 사람들 이 EU가 GPU 게임을 강화해야 한다고 주장했습니다 . 하지만 DeepSeek의 성공을 어떻게 이루었는지 살펴보면 우리에게 무엇을 가르쳐 줄 수 있을까요?

DeepSeek의 성공으로부터 배우기

" BRICS+ 국가의 생성적 AI " 보고서에 따르면, 다른 BRICS 국가와 달리 중국은 클라우드와 자체 데이터 센터를 통해 외국산 그래픽 카드와 중국 회사가 만든 국산 카드를 모두 사용합니다.


현재 중국에서는 자체 그래픽카드를 개발하고 있는 기업이 10곳이 넘으며, 엔비디아를 사용하던 중 국산 GPU로 전환하는 과정은 중국 기업의 경우 어렵지 않은 것으로 전해졌습니다.


AI 경쟁에서 경쟁력을 유지하기 위해 국가들은 중국의 플레이북에서 페이지를 빌려서 라도 옵션을 재고해야 할 것 같습니다. 카크리스는 중국이 비약적으로 발전해 왔다는 데 동의하며, 처음에는 모방하고 나중에는 자체 혁신 기술을 개발했습니다.


"그들은 혼합하고 매치할 수 있습니다. 그들은 강력한 데이터 센터나 클라우드를 만들기 위해 다양한 버전의 GPU와 다른 처리 장치를 결합할 수 있습니다. 이것은 매우 유용합니다. 특히 과거에는 3~4년마다 새로운 장비를 구매해야 했다고 생각한다면 더욱 그렇습니다.


이제 혁신이 너무 빨라서 거의 매년 더 강력한 칩과 더 강력한 프로세서가 생깁니다. 1~2년 된 프로세서를 버리는 것이 합리적일까요? 따라서 이기종 리소스일지라도 리소스를 활용할 방법을 찾아야 합니다. 이렇게 하면 훨씬 비용 효율적일 것입니다."라고 Kachris는 말했습니다.


DeepSeek R1의 보고된 훈련 비용은 이 접근 방식을 뒷받침하는 강력한 주장입니다. 이기종 인프라에서 훈련하는 것 외에도 DeepSeek의 접근 방식 에는 수치적 정밀도 감소, 다중 토큰 판독 기능, 지능형 Mixture of Experts 기술 적용이 포함되었습니다.


그 결과 훈련 비용이 1억 달러에서 약 500만 달러로 줄어들고 하드웨어 요구 사항이 10만 개의 GPU에서 단 2,000개로 줄어들어 표준 게임 GPU에서 AI 개발이 가능해졌습니다. 게다가 DeepSeek이 100% 오픈 소스가 아니더라도( LLM에게 무슨 의미이든 ) 프로세스는 복제될 수 있습니다.




AI 칩과 오픈소스 AI 모델은 포괄적인 Pragmatic AI Training의 일부입니다.


이론 및 실습 랩. 모든 것을 포함하는 휴양. 제한된 좌석 코호트.


Pragmatic AI Training에 등록하려면 여기를 클릭하세요.


AI 칩 시장 평가

이 소식에 대한 즉각적인 반응은 매도 랠리 였으며, 이 소식에 따라 Nvidia의 주가는 17% 하락했습니다 . 이 글을 쓰는 시점에서 시장은 이미 진로 수정을 시작했으며, 하락과 상승 추세는 어느 정도 예측 가능합니다.


한편, DeepSeek이 보여준 것은 최고 성능의 AI 모델을 훈련하는 데 효율성을 높일 여지가 많다는 것이었으며, 기존의 지혜를 적극적으로 훼손했습니다. 반면에, 이는 Nvidia가 여전히 선두 주자가 아니라는 것을 의미하지 않으며 , Jevon의 역설이 다시 한 번 실제로 작용하는 것을 볼 수 있을 것입니다 .


엔비디아는 2024년에도 혁신 의 속도를 유지하며 최신 블랙웰 아키텍처를 발표하고 출시하여 생태계를 확장하고 여러 가지 재정적, 사업적 이정표를 달성했습니다. 카크리스는 엔비디아가 더 이상 칩을 판매하는 데 그치지 않고 DGX 플랫폼 에서 칩과 NVLink 기술 의 수직적 통합으로 이동했다고 강조했습니다.


하지만 엔비디아 GPU가 유일한 게임은 아닙니다. AMD는 새로운 AI 가속기인 Instinct MI325X를 발표했습니다. Kachris가 언급했듯이 MI300 시리즈는 매우 강력하며, 대규모 언어 모델의 핵심 아키텍처인 변압기를 가속화하는 특수 장치를 갖추고 있습니다. AMD의 성장은 데이터 센터와 AI 제품에 의해 주도된다고 합니다 .


대다수의 사람과 조직은 AI 빌더가 아닌 AI 사용자일 것입니다. 그들에게 AI 애플리케이션을 사용하거나 빌드하는 것은 실제로 자신의 모델을 훈련하는 문제가 아니라 사전 훈련된 모델을 사용하거나 미세 조정하는 문제입니다.


Kachris는 또한 Gaudi에 대한 Intel의 진전을 언급했습니다. 그러나 Gaudi 3의 고성능 기능에도 불구하고 Intel은 주로 소프트웨어로 인해 시장 점유율 측면에서 뒤처진 것으로 보입니다. 동시에 Intel은 FPGA 부문인 Altera를 매각하기 위한 움직임을 보이고 있습니다 .


Kachris는 FPGA가 AI 훈련에 가장 성능이 좋은 솔루션은 아니지만 추론에는 매우 합리적이며, 여기서 경쟁과 혁신의 여지가 충분하다고 주장합니다. InAccel이 작업한 것은 바로 FPGA와 함께 작동하는 소프트웨어 계층을 구축하는 것이었고, 인텔에 인수되는 데 이르게 된 것입니다.


당연히 Kachris는 소프트웨어 계층의 중요성을 강조했습니다. 결국 칩의 성능이 우수하더라도 소프트웨어 계층을 통해 개발자가 사용하기 쉽지 않다면 채택을 방해할 것입니다. Nvidia는 널리 사용되는 CUDA 스택 덕분에 소프트웨어 계층에서 상당한 이점을 유지하고 있으며, 이에 계속 투자하고 있습니다.


인텔이 UXL Foundation/OneAPI 이니셔티브를 통해 이끄는 나머지 업계는 따라잡기 위해 노력하고 있습니다. AMD는 자체 소프트웨어 계층인 ROCm을 보유하고 있습니다. 하지만 따라잡는 것은 하룻밤 사이에 이루어지지 않을 것입니다. Kachris가 말했듯이, 소프트웨어 계층은 코드 한 줄도 변경하지 않고도 하드웨어 계층을 사용할 수 있도록 해야 합니다.


엔비디아는 새롭게 출시한 NIM 프레임워크로 추론 및 소프트웨어 전략을 강화하고 있으며, 일부 채택이 이루어진 것으로 보입니다. 경쟁 역시 추론에 집중하고 있습니다. Groq , Tenstorrent , GraphCore , Cerebras , SambaNova 등 추론 시장 파이를 놓고 경쟁하는 경쟁자들이 있습니다.

엣지: 가속 및 에너지 효율성

DeepSeek가 최적화의 이점을 두드러지게 보여주지만 유일한 것은 아닙니다. Kachris는 최근 LLM의 하드웨어 가속에 대한 포괄적인 조사 및 비교 에 참여했으며, 그 중 많은 부분이 추론에 맞춰져 있습니다.


이를 수행하는 한 가지 방법은 AI 제공자 API(일반적으로 OpenAI 또는 Anthropic)를 통해 이를 수행하는 것입니다. 그러나 더 정교한 사용 사례의 경우 개인 정보 보호, 규정 준수, 경쟁 우위, 애플리케이션 요구 사항 또는 비용과 관련된 이유로 최종 사용자는 자체 인프라에 AI 모델을 배포하고자 할 것입니다.


Gary Marcus는 DeepSeek에 대해 대부분의 사람들이 이해하지 못하는 5가지 사항을 지적했습니다.

여기에는 온프레미스와 프라이빗 클라우드부터 엣지와 베어 메탈까지 다양한 환경이 포함될 수 있습니다. 특히 LLM의 경우, 기성품 머신에서 로컬로 실행하는 옵션도 있습니다 . 우리는 Kachris에게 LLM의 로컬/엣지 배포가 합리적이라고 생각하는지 물었습니다.


카크리스는 추론이 AI 모델의 "축소된", 즉 양자화된 버전에서 작동할 수 있다고 언급했습니다. 연구에 따르면 1비트 버전의 모델도 실행 가능하다고 합니다. 카크리스는 전문화된 하드웨어 아키텍처가 있지만, 널리 사용 가능한 것 중에서 GPU와 FPGA가 가장 좋은 성능을 제공하고 FPGA가 더 에너지 효율적이라고 지적했습니다.

앞으로의 방향: 혁신과 전문화

미래의 개발에 관한 한, 카크리스는 메모리 내 컴퓨팅을 주시해야 할 분야로 강조했습니다. 주요 아이디어는 동일한 장치에서 스토리지와 컴퓨팅을 결합하여 데이터 전송의 필요성을 없애고 더 나은 성능을 이끌어내는 것입니다. 이는 생물학적 신경망이 작동하는 방식에서 영감을 받았으며, 신경형 컴퓨팅이라고 합니다.


LLM에 전력을 공급하는 변압기 아키텍처에 맞춰 개발된 특수 칩인 칩렛 , 광자 기술 , AI를 위한 새로운 프로그래밍 언어 등 주목할 만한 개발 분야가 많이 있습니다.


단기 및 중기 전망과 Nvidia가 주도하는 세상에서 혁신의 여지가 있는지에 대한 의문에 대해 Kachris는 임베디드 시스템과 Edge AI가 도전자들에게 기회를 제공한다고 생각합니다.


“Edge AI 도메인에는 다양한 요구 사항과 사양이 있습니다. 저는 Edge AI에서 혁신의 여지가 있다고 생각합니다. 예를 들어 병원용 비디오 애플리케이션이나 자율 주행 및 항공 분야에서 말입니다.


그럴 것 같아요. GPU에 대해 이야기해 봅시다. NVIDIA는 GPU 분야의 선두주자지만 웨어러블 기기용 GPU가 부족했습니다. 그리고 Think Silicon 이라는 훌륭한 회사가 나서서 핏 밴드나 스마트워치에 특화된 GPU를 개발하고 Applied Materials에 인수되는 것을 보았습니다.


혁신은 Nvidia나 Intel과 같은 회사에게는 너무 작지만, 전문 제품을 만들 수 있는 소규모 회사에게는 충분히 좋은 분야에서 일어날 것입니다."


Orchestrate all the Things 뉴스레터에 가입하세요

기술, 데이터, AI, 미디어가 어떻게 서로 흘러들어 우리 삶을 형성하는지에 대한 이야기입니다.

분석, 에세이, 인터뷰 및 뉴스. 중간에서 긴 형태, 한 달에 1-3회.

여기를 클릭하여 구독하세요