廣東話拼音字詞輸入法-繁體版 & English Win2K/XP/Vista/7

thhui · 發表於 2010-9-13 03:00:04

我們的國文知識可能真是太少了，應多些看書才對！

不需緊張，
「身 gyun1」的同義異讀
guen1
黃(p.52)
周(p.173)
李(p.141) 同音字捐, 焆, 蠲 [8..]
身毒(印度的古譯名)

當我們不明白時，就是我們學習的機會到來了！
又學多一個字了，
都不需何文匯教我們正音了，
打廣東拼音就又學新字了！

You see! 機會多的是！

thhui · 發表於 2010-9-13 03:05:42

版本多是因為
不斷加多了輸入法的 features 及 debug.

由於不能有同一個名字，所以就用不同名稱了。

其實最後一版就是最update 及
features 最多的版本，
所以download 香港版就夠了。

lotus7174 · 發表於 2010-9-13 08:40:37

本帖最後由 lotus7174 於 2010-9-13 09:17 編輯

我的字頻表是參考了Big5 13060個字的字頻排出來的，
可以在網上找到，
不是見仁見知的！

當字頻表遇到多音字
樓主反應很快。用現成排列表很好，我以為有人手動調整。
但是真的有問題，唔只係「伸」音「信」字排頭，「捐」音重「身」字排頭。
當然知道「身毒」（音：捐篤）<gûendüg>，係「天竺」<tînzüg>嘅古異譯，
甚至可以讀做「軒篤」<hîndüg>，如「鐵<tìd 33>板」有南洋人用廣州話讀「歇<hìd 33>板」。

此外，打「已」音，「尔」字排頭也很難得出，因為繁體字是「爾」字，
而且「尔」字不是五大碼。

麻煩你查下所謂字頻，佢點樣處理多音字和非五大碼字。
目前排法會影響實用性。
能否提供未經字頻排列過的原始碼表？它用什麼次序？

我猜是「信、身」是常用字，但是它作為的「伸、捐」讀音，不是常用字。
而字碼表只照字頻排列，而沒有考慮到「該發音上」那些字的字頻。

多音字、非五大碼字、非正規音字
如果要分開多音字同異讀字，可以恁樣：

(san) <sen> 申伸身＋信←插入＋號，隔出多音字
(guen) <guen> 捐娟＋身←插入＋號，隔出多音字
(yi) <yi> 已爾＊尔←插入＊號，隔出非五大碼字（舊電腦無法使用）
(nga) <nga> 牙訝迓－亞氬←插入－號，隔出非正規音字（避免使用）

諸版本
此外，樓主公布了太多版本：
ＨＫ：原版（工具欄上稱「ＨＫ」）
港拼：自創版（工具欄上稱「港拼」）
香港：最新版（工具欄上稱「香港」，設定裡面稱「香港廣拼」）
它的Remove好像是卸裝程序，但是效果有待改善。

最新版內碼表
樓主在《通用輸入法工具》提供的內碼表，好像不是「最新版」採用的內碼表。
能否提供與輸入法同步的最新版？

而標點符號、日語字母等，說明，散落在本帖各樓，
建議做一個說明文檔，附在安裝包裡面。
不然，提供最新碼表供查閱也可以。

反而簡體的 imegen.exe 輸入法生成器可以出到 unicode character.
簡體 windows disk 找找 imegen.exe imegen.hlp imegen.chm 這幾個 file.

繁體字《微軟視窗》，補充字；
五大碼、國標碼、統一碼
我上便講過，我用嘅係繁體字Windows XP。

至於香港字，我之前上過一個網站話，睇唔倒字就裝香港字（五大碼補充字？），
但係我用Windows XP繁體版，裝咗之後一樣睇唔倒。
而樓主嘅《通用輸入法工具》附嘅字碼，唔覺得有問號字
（如上便講嘅(ngap) <ngeb>〔噏〕音），唔知點試。

《行列輸入法》多咗【唔係五大碼】而【國標碼簡、繁體字集】「食得」嘅字，
所以有「嘅、咗」，但係冇「（口架）」爾個字。
所以寄「伊尾（陰平）佬」簡「簡體字」逼佢用大陸國標碼，反而對方重睇得倒。
而《通用輸入法工具》工具唔知追唔追得上。
但係樓主收錄咗嘅「尔、噏」唔係五大碼喎！恁好嘢？
我懷疑《通用輸入法工具》，可以超出五大碼，但係喺國標碼簡、繁體字集之內。
不過，《行列輸入法》可能係因為納入《通用輸入法工具》，
所以冇咗「1^、1-、1v」（一上、一中、一下）嘅顯示法，可惜。

想打快一點的話，我已有了方法，
不過你要識倉頡的頭碼就夠了，

減少同碼字，打快尐
一般人很難為了打快一點，跑去再學一個倉頡輸入法。
建議順著本來輸入法的精神，再加入聲調（九聲），減少同碼字，自然就打得快。

謝謝！

thhui · 發表於 2010-9-13 14:18:29

本帖最後由 thhui 於 2010-9-13 14:21 編輯

＋倉頡頭碼？噉唔會同原底嘅拼音相撞咩？（譬如ｐ、ｔ、ｋ、ｎ、ｇ）
billyswong 發表於 2010-9-12 23:47

撞碼的機會是有，不過機會少於5%，
可以不理。

總好過不理會拼音的死穴--重碼多(就算分足六聲)，有一大堆候選字，
就算撞碼也是常用字排先，不需理會非常用字。
非常用字的實用性其實很低。
所以有些輸入法索性不載。

其實可以不撞碼，但要打多一個字碼。例如z在後面。
不過通用輸入法最多是六碼。
多碼的字就要減少一碼遷就，重碼又增加了，
所以針無兩頭利的！

thhui · 發表於 2010-9-13 14:31:53

本帖最後由 thhui 於 2010-9-21 04:03 編輯

你的所謂辦法是
不能完成的辦法，
麻煩你自己試一下所謂的分字義辨罕音字。

我的輸入法是要找常用字，
可以輕鬆地找到想要打的字的辦法已想過，
快意速成也是引用這個方案的概念找字。
打速成碼+廣東拼音頭碼。
我則反其道，用廣東拼音碼+速成頭碼。

建議lotus 兄自己試一下創作自己方案時也
用你的辦法試試，你就知道什麼是可行，
什麼是想當然罷了。
行不通的辦法很多，行得通的才是王道，才是真理！

thhui · 發表於 2010-9-13 14:41:08

分六聲的輸入法注定是失敗，
因為很少人可以分得出六聲，
只有少眾人會用，
所以不會用六聲來做廣東拼音輸入法。

thhui · 發表於 2010-9-13 19:18:33

原來我想做六聲廣拼輸入法也不行。
因為
廣拼已用了六個碼，
多加一個聲調變成七碼，
這在通用輸入法是不許可的。

要用有調號的輸入法，
請試用中州韻的weasel 小狼毫。
這個輸入法沒有M$的限制。

thhui · 發表於 2010-9-14 10:26:38

本帖最後由 thhui 於 2010-9-14 10:55 編輯

廣東拼音加上了六聲，
我查過數據，
變化大約有2200個，
但分配極不均，最多的重碼字為
yue4 「如」字音有180個左右之多。
如果揀字不按字頻，yue4 要找二十多頁也找不到。

我加上如「六哥隨想輸入法」般的倉頡頭碼就是為了解決重碼的死症。
倉頡頭碼不難記，比簡易更易找。
香港人最多人用的輸入法就是簡易。

用了這個快速找字鍵就可以把重碼減低至只有十幾個右右。
所以鼓勵大家用這個快捷碼。

另外，打詞也可解決多重碼字的問題。

thhui · 發表於 2010-9-14 11:53:26

拼音輸入法為何在大陸及台灣大行其道？

因為好用？
因為易學？
因為在學校已學過漢語拼音或注音？
因為執筆忘字？

為何拼音在香港及不上簡易速成？

但又為何會在倉頡及五筆的筆形輸入法叱吒風雲之後，卻在現今台灣及大陸兩地都分別取而代之？

究其原因，是因為拼音較為直觀，較為簡單，比形碼更易對人有感覺。

再加上現代科技及軟件上的進步，令拼音輸入法不像以往般的龜速，要左揀右揀都找不到字。

打無意義的random單字的效率，純拼音實在低得可憐，比速成還不如呢。

但隨著大量的大型詞庫加進輸入法內，cpu速度的提昇，大程度上幫助了拼音，相對上對形碼的幫助卻甚微。
很少用形碼的人肯認低威用詞語幫忙，除非去參賽打字。這才有了五筆的打字紀錄(一分鐘290多個)。

軟件工作者也認為形碼不甚需要他們的詞庫做設計。只會專注為拼音加上大量各式詞庫。
因為沒有了詞庫，拼音就好像開車沒油一樣罷。

lotus7174 · 發表於 2010-9-18 11:09:12

本帖最後由 lotus7174 於 2010-10-6 17:51 編輯

樓主用心良苦，感謝！

暫時唔理聲調住
台灣人學注音、大陸人學拼音，都有聲調。
唔通廣州話人學字音、學查字典，冇學到（定係冇學倒

）九聲？
不過，最長六碼「撐」(chaang)、「昌」(cheung)的確係一個問題。
但係「我拼」最長只有五碼「撐」<cang>、「昌」<coeng>。
要攞倒有聲調嘅碼表又係另外一個問題。

當字頻表遇到多音字
爾個諗法應該比較可行。
最簡單的建議是：「信」同「身」字能否不要出現在「伸」和「捐」音的首位？
這樣不符合「某個發音之內」的字頻。

想法：

一、把字碼表內的多音字（重覆出現）找出來。可能要用QBASIC寫一個小程序。
　　唯不知多少。

二、照日常習慣人為找出常見音，如：信（訊音）、身（伸音）、樂（落音）。

三、把次常見音移到後面，甚至用符號隔開。
　　如果明知是次常見音，可以去後面找，如「岳」音要打「音樂」的「樂」字。

(lok) <log> 洛落樂
(ngok) <ngog> 岳獄＋樂
(ngaau) <ngau> 咬爻＋樂

字碼表內碼的發現
發現canton.txt文檔是一份五大碼文件，猜測是最原始的「不論發音的字頻」字碼表。
也發現hkong.txt文檔是一份統一碼文件，以FF FE開頭。
而有些行如(a) <a>（丫音），後面有幾個缺字。
請問：要用什麼字集看？
我上網找（厾），拿到2001版本（厾），找測試頁（厾），可以看（厾），
但是那不是輸入法缺的字，用Notepad《微軟記事簿》看會變成別的字
（後來解掉重裝後，一樣是空白，不會變成別的字），
裝到輸入法後仍然空白。

不過暫時不理hkong.txt這張表，它有錯，如(ap) <eb>鴨，要人工改回來。
樓主輸入法的發布版，「鴨」字(aap) <ab>是對的，它也不是用這個表做的。

微軟QBASIC (Quick BASIC)的發現
canton.txt幾乎可以用QBASIC當成text文件讀入，誰知道A0這個字節有問題。
hkong.txt文檔是無法用QBASIC當成text文件讀入，下次我試用binary讀入看看。

但是，如果，QBASIC無法讀入十六進A0這個字節的話，
我以前寫的五大轉HZ程序的五大碼輸入就會有問題。
但是因為Windows XP不知道怎麼用DOS運行魏亞桂（廣州話人）的ZWDOS，
所以無從以DOS的方式顯示HZ碼文件。

讀入後可以判斷，哪些字在不同拼音出現。

不想用程序全部讀入，就用眼睛看
可以用眼睛看，哪些字的次常見音，被誤判為常用字，列在行頭幾位。
真接用眼睛從頭看到尾，然後將它調到後面。

如果先檢查第一位：
(san) <sen>（伸音）信、(guen) <guen>（捐音）身：上次打字時發現。
(but) <bud>（撥音）發、(buk) <bug>（曝音）暴、(bung) <bung>（一埲牆個埲，陰上）捧：
睇來真係唔少。
(cha) <ca>差、(chaai) <cai>差：如果只算一個常見音，就算前者；後者算次常見音。
(chaang) <cang>爭、槍：前兩位都係；第三位先至輪到撐字。

等等。

多謝晒！

thhui · 發表於 2011-4-14 23:18:25

我的ＨＫ廣拼
快速簡碼
一碼字字例

a啊
b不本吧比
c請出前此
d的大到多
e欸
f發法方科
g個交過工
h可好學系
i我
j在中資這
k其球及期
l了來理路
m文沒問們唔
n我你能那
o奧
p壹
r啫嚟吓嗰
s是上時生
t他天同題
u啲嘅咗唔
w會為還和
y一有人以

homan999 · 發表於 2012-8-16 02:11:45

could you please send me uimetool v2.1????
i cannot use Cantonese input method....want to die....haha

I am using Win7 64bit.

thhui · 發表於 2012-9-23 06:05:50

本帖最後由 thhui 於 2014-7-25 23:46 編輯

could you please send me uimetool v2.1????
i cannot use Cantonese input method....want to die....hah ...
homan999 發表於 2012-8-16 02:11

很久沒有到這裡來。
很多檔案都變成死link了。
再重新upload上dropbox.
UimeTool.zip
https://www.dropbox.com/s/cwzxa9awqvk0zq5/UimeTool.zip

		自動登錄	找回密碼
密碼			註冊

[輸入法] 廣東話拼音字詞輸入法-繁體版 & English Win2K/XP/Vista/7

瀏覽過的版塊

[輸入法] 廣東話拼音字詞 輸入法-繁體版 & English Win2K/XP/Vista/7

瀏覽過的版塊

[輸入法] 廣東話拼音字詞輸入法-繁體版 & English Win2K/XP/Vista/7