[AI]因為種種原因突然想介紹「強化學習」，感覺在不太好的情境下被認識，確實反感是正常反應，所以還是放我主觀印象順序

7 months ago @Edit 7 months ago

7 months ago

7 months ago

其實感覺蠻類似這個老遊戲

7 months ago

立即下載

7 months ago

印象中偏燒CPU而不是GPU,到了最近到了LLM時代又找到新的角色定位。但獎勵函數的設計還是人類成果...哪天什麼樣的獎勵能激最大反應會是LLM從地上扭動到飛奔解題，還是人類提出該被獎勵的原因...值得期待

7 months ago

7 months ago

7 months ago

畢竟是一次一次去試錯然後再根據獎勵函數來做更新，用叢集一次開超多agent 這樣效率比較高