DeepSeek의 놀랍도록 저렴한 AI 모델은 업계 규범에 도전합니다. DeepSeek은 Deepseek V3 모델의 6 백만 달러에 불과한 훈련 비용을 자랑하지만, 자세히 살펴보면 훨씬 더 많은 투자가 나타납니다.
이미지 : ensigame.com
DeepSeek V3는 향상된 정확도 및 효율성을위한 다중 점화 예측 (MTP)을 포함한 혁신적인 기술을 활용하고, 가속화 된 교육을 위해 256 개의 신경망을 활용하는 전문가 (MOE) 및 정보 추출을 향상시키기 위해 다중 헤드 잠재주의 (MLA)를 활용합니다. 이러한 발전은 경쟁력있는 성능에 기여합니다.
이미지 : ensigame.com
그러나 Semianalysis는 10,000 H800, 10,000 H100 및 추가 H20 장치를 포함하여 약 50,000 NVIDIA HOPPER GPU의 대규모 계산 인프라를 발견했습니다. 이 인프라는 약 16 억 달러의 운영 비용으로 1,600 만 달러로 6 백만 달러의 교육 비용 청구와 크게 모순됩니다.
이미지 : ensigame.com
중국 헤지 펀드 인 High-Flyer의 자회사 인 Deepseek는 데이터 센터를 소유하여 제어력과 더 빠른 혁신을 제공합니다. 자체 자금 지원 상태는 민첩성을 향상시킵니다. 일부 연구자들에게 매년 130 만 달러를 초과하는 높은 급여는 중국 최고의 인재를 유치합니다.
이미지 : ensigame.com
6 백만 달러의 수치는 사전 훈련 GPU 비용, 연구, 개선, 데이터 처리 및 인프라 생략을 나타냅니다. DeepSeek의 총 AI 투자는 5 억 달러를 능가합니다. 린 구조는 효율성을 조성하지만 "혁명 예산"이야기는 오해의 소지가 있습니다. 실제 비용은 상당히 높지만 경쟁 업체보다 여전히 낮습니다. 예를 들어, DeepSeek의 R1 모델은 ChatGpt4o의 1 억 달러에 비해 5 백만 달러입니다. DeepSeek의 성공은 상당한 투자, 기술 혁신 및 예산이 낮은 것이 아니라 숙련 된 팀에서 비롯됩니다. 그럼에도 불구하고 비용은 경쟁 업체보다 훨씬 저렴합니다.