DeepSeek 對中國最大的啟示,還是“開放”二字。無論是 心態上還是方法上,都要毫不動搖地堅持開放,繼續開放。 DeepSeek 的勝利,就是開源打敗閉源。OpenAI 以前是開源 的,后來變成閉源的,這次 DeepSeek 爆火之后,OpenAI 的 奧特曼也出來說話,承認閉源是一種戰略錯誤。
本周圍繞 DeepSeek 的熱議,讓許多人清 晰地看到了幾個一直存在的重要趨勢:美國在 GenAI領域的領先地位正在被中國迎頭趕上,AI 供應鏈格局將被重塑;開放權重模型正在推動基礎模型層商品化,為應用開發者帶來新機遇 ;擴大規模并非通往 AI 進步的唯一途徑。盡管算力 備受追捧,但算法創新正在快速降低訓練成本。
“DeepSeek 可能會開辟一個全新的由中國引領的技術 生態系統,這會讓全球的開發者因 DeepSeek 開發的低成本、 更高效的人工智能產品而受益。”一位 TMT 領域投資人如是 說,“這種競爭從某種程度來說也將打破美國科技巨頭的市 場主導地位。
大模型訓練降低成本主要靠兩招:壓縮、并行和提升硬 件使用效率。DeepSeek-V3 這次所用的方法基本上就是猛揮 這三板斧。
1. 壓縮:從結構到量化
壓縮很容易理解,就是把大的東西壓縮成小的。對于模 型訓練來講,壓縮之后,運算單元(GPU 和 CPU)需要進行 的運算數據量就會減少,運算速率必然會提升。另一個重要 影響是,內存占用和緩存會減少,這樣訓練同樣大小的模型 所需要的硬件規模也可以大幅減少。
2. 并行:對硬件的極限使用
要實現更快的訓練速度,最有效的方法就是增加并行計 算的規模,讓更多的計算單元同時處理不同的數據或任務。 而在并行中,需要解決的問題就是盡可能的有效利用計算資 源,讓它們都高負載的工作。
DeepSeek-V3 這回真的可以說是在訓練工程上無所不用 其極。總結下來,最重要的包括以下這么幾個方面。
DeepSeek-V3 的橫空出世,用一組的數據完美詮釋了沒 有 GPU Poor,只有卷得不夠多。當 o1、Claude、Gemini 和 Llama 3 等模型還在為數億美元的訓練成本苦惱時, DeepSeek-V3 用 557.6 萬美元的預算,在 2048 個 H800 GPU集群上僅花費 3.7 天/萬億 tokens 的訓練時間,就達到了足以 與它們比肩的性能。這意味著每萬億 tokens 僅需 180K 個 H800 GPU 小時,總計 278 萬 GPU 小時的訓練成本。而 Llama 3.1 的訓練使用了 16,384 塊 Nvidia H100 GPU,總計 2100 多 萬 GPU 小時,翻了十倍。通過 671B 的總參數量,在每個 token 激活 37B 參數的精準控制下,DeepSeek-V3 用 14.8 萬 億高質量多樣化 token,構建出了一個能夠超越所有開源模 型,直逼 GPT-4 和 Claude-3.5 的 AI 巨人。
![]() |
機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 紫外線消毒機器人 消毒機器人價格 展廳機器人 服務機器人底盤 核酸采樣機器人 智能配送機器人 導覽機器人 |