Thinker
9 months ago
既然 DeepSeek-R1 這麼紅,我對 ML 也一直有興趣,所以就找論文來讀一下。讀完前兩節,後面是實驗結果和結論就跳過了。

https://arxiv.org/...

來點業餘愛好的想法。
latest #7
Thinker
9 months ago
一直有人在宣傳成本很低。我不知道他們是怎麼算的,但我看過前兩節之後,他們該不會只算 post-training 的部分,不算 pre-training ? 不然我怎麼看都覺得成本不會這麼低。
Thinker
9 months ago
以論文來看, DeepSeek-R1 在架構上沒什麼特別,主要的改變是訓練的流程。就是透過流程的改變來達到更好的結果。以我業餘的比喻,大概是訓犬師透過動物心理學,找到更有效的訓犬方法。
Thinker
9 months ago
這讓我想到,忘記幾年前,曾經說過類似的話「以後 AI 訓練師大概會像訓犬師一樣的存在」
立即下載
Thinker
9 months ago
這篇論文主要就是討論 LLM 的訓練方法論。
Thinker
9 months ago
對於我這樣的工程師,或許更重要的是如何更有效率執行 ML 任務,而不是怎麼訓練。如果以狗為例的話,比起訓犬,我對育種更有興趣。
Thinker
9 months ago
以上是非 ML 專業的想法
Thinker
9 months ago
中國 DeepSeek 掀起 AI 話題,外資不認為具成本優勢以影響 AI 晶片市場
看到一個比較專業的看法「至於,最重要的是 DeepSeek 實際上使用了 5 萬個 GPU,其中包括 1 萬個 H100、1 萬個 H800、3 萬個 H20,而 GPT4 則是使用了使用的是 2.5 萬個 A100。因此,市場認為 GPT4 相比,DeepSeek-R1 的訓練成本僅為 5% 到 10% 的成本計算並不正確,DeepSeek 仍是付出了相當巨大的基礎設施成本,其成本效益不如市場猜測的那樣具競爭力」
back to top