噗趴
4 months ago @Edit 4 months ago
[本地羊駝LLM] 羊駝入住功能GET

設定欄用了很久終於到了尾聲,最壓軸的莫過於上傳語言模型的功能。像這種連接點很多的功能,最容易大爆蟲,事實也是如此。折騰很多天才弄好。弄好之後當然就開心地把收藏的羊駝每隻都叫出來用用看。因此之後的進度就......讓我先玩到爽再說!
噗趴
4 months ago
我那後來壯大成100+GB的羊駝收藏,主要分成幾類。一開始原本很在意的講中文,沒辦法只有Qwen (Made in China),後來也沒有別的選擇。有試試看Deepseek裝在Qwen上的模型,下載了最新大家都驚呼的0528版,但是它爆簡體字的次數太高了,和之前的版本沒兩樣,就默默刪掉了。這類就沒有什麼進展......
噗趴
4 months ago @Edit 4 months ago
因為之後想要開發陪讀小說,陪讀之餘心血來潮還可以來場文字冒險遊戲或書中角色扮演的功能,所以必須在有限的窮酸平板cpu only資源中找到可以處理長文的模型。qwen是候選之一,但我要說這隻有點死板,書照唸可以,要玩遊戲可能就無趣了。於是我還有收NVIDIA開發的超長文羊駝8B,這隻號稱可以一次處理一百萬字元,當然前提是要花一百萬買他們家的處理器才行哪(欸) 但目前還沒有平台可以測試到底多長才會開始秀斗。(現有硬體GPT幫估計最多32k。)

試了Gemma3 12B,模型有點大所以文長很有限,放生。此外還有隻很多AI寫作者推薦的Mistral2.5 Open Hermes,據說是個迷你ChatGPT,先收來用用。等晚點裝上RAG啃資料功能之後再來看誰勝出。
噗趴
4 months ago
另外還有一系列小型Instruct模型──訓練過很會聽指示的工作羊駝。這類4B以下的超迷你模型如果沒特別訓練,常常會無視指示。主要收這些羊駝是為了要處理一下雜事,比如說整理文件。

工作上常常需要做一些文件核對的麻煩事,又不能把公司資料全部上傳給GPT(超想!)只好弄了一個可以文件輸入或是影像輸入給羊駝列出來核對的小程式,希望非常不久的將來可以省點工人智慧。目前還在拚最佳化。只能說速度快準確率就低到想哭,準確率100%就可能要去泡杯茶再回來。
立即下載
噗趴
4 months ago @Edit 4 months ago
核對小程式原本打算用llamafile引擎,是全套弄好,不需要自寫後台超方便。但圖片辨識寫好(因為原本要用羊駝1B沒有圖片辨識功能)前台架好,接起來用了之後,又回到我第一次跳本地羊駝坑的撞牆狀態──慢、到、不、行!連我自建小農場app的Gemma3 4B都比那1B快,WHYYYY?

羊駝1B的核對準確度大概80%,勉強不通過,還是得用Gemma3 4B。這個基本上llamafile在我的平板上是一個泥沼中奔跑的速度。於是又回到那個結果還是要用llama.ccp引擎+自建輕薄好自在後台。

是的,自己重新發明輪子就是因為自己的輪子真的跑比較快啊!嗯,人參
噗趴
4 months ago @Edit 4 months ago
不懂就問ChatGPT,全包版llamafile有多幾層運算,資源使用比較保守,也不太能調整,估計用Gemma3 4B速度5-15 token/秒 (10以下就可以泡茶了),自建農場速度大約30-50 t/秒。這差很多欸

另一方面,llamafile如果單純要試試看模型又不想裝各種東西,確實是蠻方便的。只要下載檔案.llamafile,下載完把名稱改後面加.exe,點開就能用了。能用不代表好用就是........硬體ok想玩還是建議裝LM Studio。