DeepSeek的廉价AI模型令人惊讶地挑战了行业规范。尽管DeepSeek的DeepSeek V3模型仅拥有600万美元的培训成本,但仔细观察显示出了更大的投资。
图像:ensigame.com
DeepSeek V3利用包括多token预测(MTP)在内的创新技术提高准确性和效率,使用256个神经网络的专家(MOE)的混合物(MOE)进行加速培训以及多头潜在注意力(MLA),以改善信息提取的信息。这些进步有助于其竞争性能。
图像:ensigame.com
然而,半分析发现了大量的计算基础设施:大约50,000个NVIDIA HOPPER GPU,包括10,000 H800、10,000 H100和其他H20单位,分布在多个数据中心。这项基础设施价值约16亿美元,经营费用为9.44亿美元,与600万美元的培训成本索赔相矛盾。
图像:ensigame.com
DeepSeek是中国对冲基金High-Flyer的子公司拥有其数据中心,提供控制和更快的创新。它的自筹资金地位增强了敏捷性。一些研究人员每年超过130万美元的高薪,吸引了中国顶级人才。
图像:ensigame.com
这笔600万美元的数字仅代表培训前的GPU成本,省略了研究,改进,数据处理和基础架构。 DeepSeek的AI总投资超过了5亿美元。尽管其精益结构提高了效率,但“革命性预算”的叙述却误导了。真正的成本明显高,尽管仍然可能低于竞争对手。例如,DeepSeek的R1型号的价格为500万美元,而Chatgpt4o的1亿美元。 DeepSeek的成功源于大量投资,技术突破和熟练的团队,而不仅仅是预算低。然而,其成本仍然大大低于竞争对手。