2014年8月1日 星期五

分享大易輸入法的碼表

大易輸入法,學生時代學到的第一個輸入法,比起不用背字根就能用的注音,大易是麻煩了點,現在用的人很少了,會大易的應該都是和我一樣懶的去學習其它輸入法,加上我口齒不清,用注音也要猜半天,而漢語拼音又用不順,還是習慣大易。

大易最常見的還是四碼版,在 Windows, Mac 上都有內建,但我還是喜歡三碼版,可少打一碼且也没有多太多選字。常見的碼表是一萬多字 Big5 字元集的版本,雖然是夠用,但主流的 Unicode 漢字可是多好幾倍。

目前知道比較完整的碼表是 瑲珩-動態拆碼暨動態組字 ,這是 自由軟體鑄造場 的專案。最新的是 0.27 版,可得到內含大易四碼的 29373 個字 (含字頻)。有了四碼的表, 就可以寫個轉換程式轉成三碼,這才是我想要的。


qhdy4.txt     瑲珩-動態拆碼暨動態組字-大易四碼 共 29373 字
qhdy3.txt     瑲珩-動態拆碼暨動態組字-大易三碼 共 29373 字

大易除了字的輸入,也能詞輸入,雖然我是習慣一個字一個字打,但只要能熟練,相信詞輸入會更快更順。最早大易對於三個字以上的詞是採用頭頭尾的取碼,不過近幾年看到網路上都是只取頭碼,我決定跟著潮流走,使用下面的規則

二字詞,取每字頭尾碼:「頭尾 + 頭尾 」
三字詞以上為每字的頭碼,最多為五碼

要把詞依上面的規則編碼,對我來說不是問題,寫程式就可搞定。
但要取得免費的詞庫和詞頻就有點費事。下面是我找到的參考資料

把字庫加上這些詞庫整合後,再加上一些我找來的其它資料
例如 國家、地區、縣市鄉鎮區村里、景點、美食、人名、台股、學校……
最後删除重覆的詞,有字頻詞頻的就排序,得到下面這個碼表

dayi3-danbo-14081.txt           字加上詞共有 24 萬以上

一二三碼大部份是單字,四五碼則是詞句
實際用起來如何?我也才剛要用,有問題再慢慢來修正

我上網使用的暱稱為 淡泊明志,所以這個碼表就取名 淡泊 danbo
後面接的數字是發佈的年份,月份,序號
danbo 也是 紙箱人阿楞 的英文縮寫,蠻可愛的

從上個世紀在學校買的DOS原版到現在換了很多輸人法軟體。linux 用過了 IBus, gcin, hime, fcitx 而 windows 除了內建的還用過 Yahoo輸入法 和 小小輸入法,手機 Android 只用過 LIME-HD。怎麼這麼多?就是用不順呀!這也是用大易的人很可悲的地方,没有官方主導,没有免費好用的碼表,更没有習慣的輸人法軟體。我目前是用 小小輸入法,所以先轉成 小小輸入法 的表格與大家分享


如果對 小小輸入法 有興趣,可先參考 泰瑞的世界 的介紹。
我目前使用的正是 泰瑞版小小輸入法,剛好他的三碼大易碼表有問題,正好可以換上我的版本。

大易、行列、輕鬆輸入法空間 有個 大易輸入法專區 也有提供 小小輸入法 和好幾個平台的大易。專區中也有整理一個大易的碼表含詞庫,但是大易三碼和四碼的混合版並不適合我,有這種需求的人可以試用看看。

我使用的 小小輸入法 是拿 泰瑞版 來改的,把大易以外的輸入法都關了,然後選字框改成直式的,選字按鍵和官方版的相同使用 ' [ ] - \ 和空白鍵,當遇到少數拆不出來的字,不用切換注音,直接按 ` 再打注音即可。我對 小小輸入法 並没有很熟,但使用的感覺很好,碼表很大也没有什麼影響。下面的下載點是換上了 大易淡泊版 的 小小輸入法 for window

Danbo_Terry_Yong.zip

下載後可參考
泰瑞版小小輸入法─使用說明篇
泰瑞版小小輸入法─安裝設置篇


如果覺得二十多萬的字詞太多,我還做一個精簡版本,字和詞總共四萬
單字只有常用的一萬三千多字,詞句最長四個字
大易最多取四碼,一二三碼大部份是單字,四碼則都是詞句

dayi3-danbo-lite-14081.txt          精簡版的碼表
dayi3-danbo-yong-lite-14081.txt  精簡版,給 小小輸入法 使用

dayi3-danbo-14081.txt                 完整版的碼表
dayi3-danbo-yong-14081.txt        完整版,給 小小輸入法 使用

以上如果有任何侵犯版權的地方, 請和我連絡, 一定會馬上處理
我無意侵權, 原本只是要整理自用
但想到取之於網路, 也要回饋給網路, 所以公開跟網友分享
有建議歡迎留言討論

沒有留言:

張貼留言