kurudaz
7 months ago @Edit 7 months ago
[AI]因為種種原因突然想介紹「強化學習」,感覺在不太好的情境下被認識,確實反感是正常反應,所以還是放我主觀印象順序
latest #7
印象中偏燒CPU而不是GPU,到了最近到了LLM時代又找到新的角色定位。但獎勵函數的設計還是人類成果...哪天什麼樣的獎勵能激最大反應會是LLM從地上扭動到飛奔解題,還是人類提出該被獎勵的原因...值得期待
畢竟是一次一次去試錯然後再根據獎勵函數來做更新,用叢集一次開超多agent 這樣效率比較高
back to top