THEO
1 months ago
嗯……早上微調一個模型拿來翻譯用,結果它現在輸出會一直loop……看來應該是過擬合了……
latest #13
掰噗~ 不思議に思う
1 months ago
真假!? (p-woot)
THEO
1 months ago
懷疑是太貪心用了1000句去訓練的結果
等下就改成100句觀察看看
THEO
1 months ago
聽了同事建議,把8B模型換成70B模型,就好了。
立即下載
THEO
1 months ago
8B模型果然還是不夠堪用
dwj
1 months ago
你的vram多大啊?
THEO
1 months ago
買CoLab pro+,80GB
THEO
1 months ago
現在試過500句進去就有效果,後來又灌了1000句進去,效果更接近我的風格。
THEO
1 months ago
不過比起notebooklm,這種方式比較費時也比較沒有彈性。
每次微調完,模型就越往偏門走,不知道哪一天會被我玩壞
THEO
1 months ago
記錄一下訓練用的參數:
使用模型:
unsloth/Llama-3.3-70B-Instruct-bnb-4bit
LoRA參數:
r = 32,
lora_alpha = 32,
這樣大概會動到1.5%的參數
THEO
1 months ago
訓練資料:
日文-中文 tab分隔檔
以中文字數30-50字為條件,抽選random排序
準備1000筆
THEO
1 months ago
批次數 "per_device_train_batch_size": 20,
訓練輪數 "num_train_epochs": 2,
學習率 "learning_rate": 2e-4,
THEO
1 months ago
聊天樣板 chat_template = "llama-3.3"
每句話前面插入 "請將以下日文翻譯成繁體中文:"
THEO
1 months ago
生成範例:
===== Start Chat (Type 'exit' or 'quit' to end) =====
You: このようにすることで、検出装置20は、メモリ容量を超えることなく、より多くの正常画像を学習することができる。
Model: 藉由這樣做,偵測裝置20,係可在不超過記憶體容量的情況下,學習到更多的正常影像。
You: 特に、図9に示すように、誤検出率を低減することができる。
Model: 特別是,如圖9所示,能夠降低誤偵測率。
You: 次に、図10~図12を参照しながら第4の実施形態について詳しく説明する。
Model: 接著參照圖10~圖12,詳細說明第4實施形態。
You: exit
===== Chat Ended =====
back to top