Mô hình AI rẻ tiền đáng ngạc nhiên của Deepseek thách thức các chuẩn mực ngành. Trong khi Deepseek tự hào chỉ có chi phí đào tạo 6 triệu đô la cho mẫu Deepseek V3 của mình, một cái nhìn gần hơn cho thấy một khoản đầu tư đáng kể hơn nhiều.
Hình ảnh: Obligame.com
DeepSeek V3 tận dụng các công nghệ sáng tạo bao gồm Dự đoán đa điểm (MTP) để tăng độ chính xác và hiệu quả, hỗn hợp của các chuyên gia (MOE) sử dụng 256 mạng thần kinh để đào tạo tăng tốc và chú ý nhiều đầu (MLA) để cải thiện việc trích xuất thông tin. Những tiến bộ này góp phần vào hiệu suất cạnh tranh của nó.
Hình ảnh: Obligame.com
Tuy nhiên, bán phân giải đã phát hiện ra một cơ sở hạ tầng tính toán lớn: khoảng 50.000 GPU phễu NVIDIA, bao gồm 10.000 H800, 10.000 H100 và các đơn vị H20 bổ sung, trải đều trên nhiều trung tâm dữ liệu. Cơ sở hạ tầng này, trị giá khoảng 1,6 tỷ đô la với 944 triệu đô la chi phí hoạt động, mâu thuẫn đáng kể cho yêu cầu chi phí đào tạo trị giá 6 triệu đô la.
Hình ảnh: Obligame.com
Deepseek, một công ty con của High Flyer, một quỹ phòng hộ của Trung Quốc, sở hữu các trung tâm dữ liệu của mình, cung cấp quyền kiểm soát và đổi mới nhanh hơn. Tình trạng tự tài trợ của nó giúp tăng cường sự nhanh nhẹn. Mức lương cao, vượt quá 1,3 triệu đô la hàng năm cho một số nhà nghiên cứu, thu hút tài năng hàng đầu của Trung Quốc.
Hình ảnh: Obligame.com
Con số 6 triệu đô la chỉ đại diện cho chi phí GPU trước khi đào tạo, bỏ qua nghiên cứu, hoàn thiện, xử lý dữ liệu và cơ sở hạ tầng. Tổng đầu tư AI của Deepseek vượt qua 500 triệu đô la. Trong khi cấu trúc nạc của nó thúc đẩy hiệu quả, thì câu chuyện "Ngân sách cách mạng" là sai lệch. Chi phí thực sự cao hơn đáng kể, mặc dù vẫn có khả năng thấp hơn so với các đối thủ cạnh tranh. Ví dụ, mô hình R1 của Deepseek có giá 5 triệu đô la, so với 100 triệu đô la của TATGPT4O. Thành công của Deepseek bắt nguồn từ đầu tư đáng kể, những đột phá công nghệ và một đội ngũ lành nghề, không chỉ là một ngân sách thấp. Tuy nhiên, chi phí của nó vẫn thấp hơn đáng kể so với các đối thủ cạnh tranh.