DeepSeek的廉價AI模型令人驚訝地挑戰了行業規範。盡管DeepSeek的DeepSeek V3模型僅擁有600萬美元的培訓成本,但仔細觀察顯示出了更大的投資。
圖像:ensigame.com
DeepSeek V3利用包括多token預測(MTP)在內的創新技術提高準確性和效率,使用256個神經網絡的專家(MOE)的混合物(MOE)進行加速培訓以及多頭潛在注意力(MLA),以改善信息提取的信息。這些進步有助於其競爭性能。
圖像:ensigame.com
然而,半分析發現了大量的計算基礎設施:大約50,000個NVIDIA HOPPER GPU,包括10,000 H800、10,000 H100和其他H20單位,分布在多個數據中心。這項基礎設施價值約16億美元,經營費用為9.44億美元,與600萬美元的培訓成本索賠相矛盾。
圖像:ensigame.com
DeepSeek是中國對衝基金High-Flyer的子公司擁有其數據中心,提供控製和更快的創新。它的自籌資金地位增強了敏捷性。一些研究人員每年超過130萬美元的高薪,吸引了中國頂級人才。
圖像:ensigame.com
這筆600萬美元的數字僅代表培訓前的GPU成本,省略了研究,改進,數據處理和基礎架構。 DeepSeek的AI總投資超過了5億美元。盡管其精益結構提高了效率,但“革命性預算”的敘述卻誤導了。真正的成本明顯高,盡管仍然可能低於競爭對手。例如,DeepSeek的R1型號的價格為500萬美元,而Chatgpt4o的1億美元。 DeepSeek的成功源於大量投資,技術突破和熟練的團隊,而不僅僅是預算低。然而,其成本仍然大大低於競爭對手。