Ang nakakagulat na Deepseek ay murang mga hamon sa modelo ng AI na mga pamantayan sa industriya. Habang ipinagmamalaki ng Deepseek ang isang $ 6 milyong gastos sa pagsasanay para sa modelo ng Deepseek V3, ang isang mas malapit na hitsura ay nagpapakita ng isang mas malaking pamumuhunan.
Imahe: ensigame.com
Ang Deepseek V3 ay gumagamit ng mga makabagong teknolohiya kabilang ang multi-token prediction (MTP) para sa pinahusay na kawastuhan at kahusayan, pinaghalong mga eksperto (MOE) na gumagamit ng 256 neural network para sa pinabilis na pagsasanay, at multi-head latent atensyon (MLA) para sa pinabuting impormasyon ng pagkuha. Ang mga pagsulong na ito ay nag -aambag sa mapagkumpitensyang pagganap nito.
Imahe: ensigame.com
Gayunpaman, ang semianalysis ay walang takip ang isang napakalaking imprastraktura ng computational: humigit -kumulang 50,000 nvidia hopper GPU, kabilang ang 10,000 H800, 10,000 H100, at karagdagang mga yunit ng H20, kumalat sa maraming mga sentro ng data. Ang imprastraktura na ito, na nagkakahalaga ng halos $ 1.6 bilyon na may $ 944 milyon sa mga gastos sa pagpapatakbo, makabuluhang sumasalungat sa $ 6 milyong paghahabol sa gastos sa pagsasanay.
Imahe: ensigame.com
Ang Deepseek, isang subsidiary ng High-Flyer, isang pondo ng hedge ng Tsino, ay nagmamay-ari ng mga sentro ng data nito, na nagbibigay ng kontrol at mas mabilis na pagbabago. Ang katayuan na pinondohan ng sarili ay nagpapabuti ng liksi. Ang mataas na suweldo, na higit sa $ 1.3 milyon taun -taon para sa ilang mga mananaliksik, ay nakakaakit ng nangungunang talento ng Tsino.
Imahe: ensigame.com
Ang $ 6 milyong figure ay kumakatawan lamang sa mga gastos sa pre-pagsasanay na GPU, pagtanggal ng pananaliksik, pagpipino, pagproseso ng data, at imprastraktura. Ang kabuuang pamumuhunan ng Deepseek ay higit sa $ 500 milyon. Habang ang istraktura ng sandalan nito ay nagtataguyod ng kahusayan, ang salaysay na "rebolusyonaryong badyet" ay nakaliligaw. Ang tunay na gastos ay makabuluhang mas mataas, kahit na potensyal na mas mababa kaysa sa mga kakumpitensya. Halimbawa, ang modelo ng R1 ng Deepseek ay nagkakahalaga ng $ 5 milyon, kumpara sa $ 100 milyon ng Chatgpt4O. Ang tagumpay ng Deepseek ay nagmumula sa malaking pamumuhunan, mga breakthrough ng teknolohiya, at isang bihasang koponan, hindi lamang isang mababang badyet. Gayunpaman, ang gastos nito ay nananatiling mas mababa kaysa sa mga katunggali nito.