kivava
3 days ago
NVIDIA ConnectX-8 SuperNICs Advance AI Platform Arch...
ConnectX-8 整合 48 lanes PCIe Gen6 與內建 PCIe Gen6 switch,將 GPU-to-GPU 與 GPU-to-NIC 的通訊整合在單一高性能裝置中

https://images.plurk.com/4sW75bxSSMrNo6Un8dk019.png

GPU-to-GPU across two CPU sockets: NCCL 會直接將所有流量導到 Ethernet

GPU-to-NIC communication: 2:1 GPU-to-NIC configuration

GPU-to-GPU through the same PCIe switch:
latest #10
kivava
3 days ago
目前大型 AI 模型的推論通常分為兩個階段,分別是「上下文階段」(Context Phase,即 Prefill)和「生成階段」(Generation Phase,即 Decode)。前者是運算密集型的初始階段,用來處理輸入並生成第一個輸出 token;後者則是模型基於已處理的上下文生成後續的 token
kivava
3 days ago
https://images.plurk.com/6mI4kuEVuuGiHSKLUhEukJ.png
立即下載
kivava
3 days ago
Rubin CPX 沒有 NVLink
kivava
Yesterday
目前市場上的AI晶片(多數是GPU),通常採用「一體適用」的設計,也就是用同一顆晶片來跑完Prefill和Decode兩個階段。

這種做法造成了資源浪費:

在 Prefill 階段,晶片運算力全開,但記憶體(頻寬)利用率不足。
在 Decode 階段,記憶體需求爆增,但運算力卻有很多閒置。
kivava
Yesterday
Prefill 晶片應使用更大型的脈動陣列 (Systolic Array),但記憶體僅需暫存 KV Cache,因此可以搭配更具成本效益的 GDDR 或 LPDDR 記憶體;Decode 晶片則應降低算力,並搭配高容量、高頻寬的記憶體,如 HBM、HBF。二者之間再使用 Scale-Out 高速互連來傳遞 KV Cache。
kivava
Yesterday
https://images.plurk.com/6UcHXUwYVcDXDw6gqyKj3q.png
kivava
Yesterday
https://images.plurk.com/65TfbzpX0lCCbXRZqUcYZz.png
back to top