Deepseekの驚くほど安価なAIモデルは、業界の規範に挑戦しています。 DeepSeekは、DeepSeek V3モデルにわずか600万ドルのトレーニングコストを誇っていますが、よく見てもはるかに大きな投資が明らかになります。
画像:Ensigame.com
Deepseek V3は、精度と効率を向上させるためのマルチトークン予測(MTP)、加速トレーニングのために256のニューラルネットワークを利用した専門家(MOE)の混合、および改善された情報抽出のためのマルチヘッド潜在的注意(MLA)を含む革新的な技術を活用しています。これらの進歩は、競争力のあるパフォーマンスに貢献しています。
画像:Ensigame.com
ただし、セミアンアリシスにより、大規模な計算インフラストラクチャが発見されました。10,000H800、10,000 H100、および追加のH20ユニットを含む約50,000のNVIDIAホッパーGPUが複数のデータセンターに広がっています。このインフラストラクチャは、9億4,400万ドルの運用費用で約16億ドルと評価されており、600万ドルのトレーニングコスト請求とは大きく矛盾しています。
画像:Ensigame.com
中国のヘッジファンドであるHigh-Flyerの子会社であるDeepseekは、データセンターを所有しており、制御と迅速なイノベーションを提供しています。その自己資金のステータスは敏ility性を高めます。一部の研究者にとって年間130万ドルを超える高給は、中国の最高の才能を引き付けます。
画像:Ensigame.com
600万ドルの数値は、トレーニング前のGPUコストのみを表し、調査、洗練、データ処理、インフラストラクチャを省略しています。 Deepseekの総AI投資は5億ドルを超えています。その無駄のない構造は効率を促進しますが、「革新的な予算」の物語は誤解を招くものです。競合他社よりも潜在的に低いものの、真のコストは大幅に高くなっています。たとえば、DeepseekのR1モデルは、ChatGPT4Oの1億ドルと比較して500万ドルの費用がかかります。 Deepseekの成功は、実質的な投資、技術的なブレークスルー、および熟練したチームに由来し、単に低予算ではありません。それにもかかわらず、そのコストは競合他社よりも大幅に低いままです。