Ryan He says
用最小範例理解 TransformerUnderstanding Transformers Using A Minimal Example
這篇文章透過極度精簡的資料集、符號切分方法與模型架構,逐步拆解 Transformer 大型語言模型 (LLM, Large Language Model) 的內部運作方式,並以可視化的方式呈現資訊在各層之間的流動,以及注意力機制 (attention mechanism) 如何運作。作者建立了一個只有兩層、兩個注意力頭、約一萬個參數的小型 Transformer,使用 20 維度的詞向量,並在極簡的「水果與味道」資料集上進行訓練,例如「lemon tastes sour」、「chili tastes spicy」等句子。驗證資料則測試模型...

Ryan He (@ryanhe)