kivava NVIDIA ConnectX-8 SuperNICs Advance AI Platform Arch...ConnectX-8 整合 48 lanes PCIe Gen6 與內建 PCIe Gen - #3hx2v1a233

3 days ago

NVIDIA ConnectX-8 SuperNICs Advance AI Platform Arch...
ConnectX-8 整合 48 lanes PCIe Gen6 與內建 PCIe Gen6 switch，將 GPU-to-GPU 與 GPU-to-NIC 的通訊整合在單一高性能裝置中

https://images.plurk.com/4sW75bxSSMrNo6Un8dk019.png

GPU-to-GPU across two CPU sockets: NCCL 會直接將所有流量導到 Ethernet

GPU-to-NIC communication: 2:1 GPU-to-NIC configuration

GPU-to-GPU through the same PCIe switch:

latest #10

kivava

3 days ago

專為 AI 推論而生！NVIDIA 留一手底牌 Rubin CPX GPU，恐改變 ASIC 競爭格局？

kivava

3 days ago

目前大型 AI 模型的推論通常分為兩個階段，分別是「上下文階段」（Context Phase，即 Prefill）和「生成階段」（Generation Phase，即 Decode）。前者是運算密集型的初始階段，用來處理輸入並生成第一個輸出 token；後者則是模型基於已處理的上下文生成後續的 token

kivava

3 days ago

https://images.plurk.com/6mI4kuEVuuGiHSKLUhEukJ.png

立即下載

kivava

3 days ago

https://img.technews.tw/...

kivava

3 days ago

Rubin CPX 沒有 NVLink

kivava

Yesterday

推理晶片戰火升溫，GPU、ASIC 誰能奪下 AI 應用新制高點？

kivava

Yesterday

目前市場上的AI晶片（多數是GPU），通常採用「一體適用」的設計，也就是用同一顆晶片來跑完Prefill和Decode兩個階段。

這種做法造成了資源浪費：

在 Prefill 階段，晶片運算力全開，但記憶體（頻寬）利用率不足。
在 Decode 階段，記憶體需求爆增，但運算力卻有很多閒置。

kivava

Yesterday

Prefill 晶片應使用更大型的脈動陣列 (Systolic Array)，但記憶體僅需暫存 KV Cache，因此可以搭配更具成本效益的 GDDR 或 LPDDR 記憶體；Decode 晶片則應降低算力，並搭配高容量、高頻寬的記憶體，如 HBM、HBF。二者之間再使用 Scale-Out 高速互連來傳遞 KV Cache。

kivava

Yesterday

https://images.plurk.com/6UcHXUwYVcDXDw6gqyKj3q.png

kivava

Yesterday

https://images.plurk.com/65TfbzpX0lCCbXRZqUcYZz.png