reke
4 years ago
Create Traditional and Simplified Chinese conversion...
戰完了,然後我在回應裡寫一下我的想法。以一個被拿來當飯粒範例的維基百科貢獻者的實際經驗。

給懶得看內文的內提要:總之有人建議說明文件可以只出一份中文版,不用分成繁體/簡體中文版,用繁簡用機器轉換就好。提案人認為中文維基如此行之有年而且可以做得很好。
latest #11
reke
4 years ago
其實中文維基百科在繁簡對應上的確創造了某種「成就」,那就是靠工人智慧合力編出了應該是全世界最完整的「中台港澳馬星中文異詞對應資料庫」。不只收錄了生活用語中的異詞(如光碟跟光盤,雖然光碟快不是日常生活用品了),也收錄了各種奇妙領域的專有名詞,如電影中譯名稱。

但是這種「成就」背後帶來大量的技術問題可能沒深入玩過的人不知曉,好比說討論串中反對者提出很多翻譯上的技術問題,但還有漏掉甚多技術無解問題。
~prita~
4 years ago
工人智慧,哈
reke
4 years ago
首先就是,維基百科因為轉換表與文本是分開的,只在顯示時轉換而不是靠機器自動同步多份文本,以致於所謂的「繁簡轉換」只有在連進維基百科且使用眼睛閱讀時可以體驗。

好比說搜尋引擎摘要部分讓維基受到很多指責,因為當原始版本是使用簡中用語時,Google標題就只會是簡中用語版本,以致於讀者就開罵了,完全沒有想連進去看到轉換好版本的慾望。

解決此一問題的方式就是機器轉換不能只是顯示上的轉換,必須出多種獨立版本並由機器來同步以減少人力同步的需求。但既然都要分那麼多版本的文檔了,社群便可以各自編修,根本沒必要用機器再強制同步。
立即下載
reke
4 years ago
其次是,由於中文維基百科必須以同一文本對應,不得不做出很多近乎垃圾碼的解方以避免機器轉換。比方說「貢寮國小」在簡中版會被轉成「贡老挝小」,因為機器不會斷詞成「貢寮-國小」,看到寮國就以為是 Laos 然後轉成老挝。維基百科的解法是教機器斷詞,把原始碼改成「貢寮-{}-國小」,但除了維基百科本身轉換程式懂那個-{}-,對其他機器人來說根本是個干擾。

除非維基百科把這種奇葩解法搞什網路標準,不然其實繁簡同版本的代價時製造很多垃圾碼。
reke
4 years ago
第三是,同前述,中文維基百科必須以同一文本對應,以致於原始文本是繁簡混雜的。對於讀者來說這點可以忽略,但對編者來說就是強制得理解另一種文字及習慣用語。換言之這個解決方案對於文中訴求的「社群維護」省力大有誤解,它是以對維護者的不友善來換取對讀者的某些價值,比方說確保讀者看到的是全球中文使用者的觀點總和,而不是台灣偏向觀點。

原討論中有看到語言對譯上的困難、也有人提到政治上的文化多元問題;但好像沒人體會到這種做法是在讓不懂另一種文字的潛在貢獻者難以進入社群,而不是在給社群省力。
reke
4 years ago
以上回應中的三點連同第一則引言提供給開源社群參考。為方便大家有必要時可複製貼上,本人宣告可標注 reke 後依 CC-BY 授權使用。
reke: 居然只有 BY 沒有 SA 嗎
reke
4 years ago
s8321414: 本來有點想CC0
kidwm
4 years ago
還是 decoupling 比較好啦
back to top