找回密碼
 註冊

QQ登錄

只需一步,快速開始

搜索
熱搜: 活動 交友 discuz
樓主: thhui

[輸入法] 廣東話拼音字詞 輸入法-繁體版 & English Win2K/XP/Vista/7

[複製鏈接]
 樓主| 發表於 2010-9-13 03:00:04 | 顯示全部樓層
我們的國文知識可能真是太少了,應多些看書才對!

不需緊張,
「身 gyun1」的同義異讀
guen1                
黃(p.52)
周(p.173)
李(p.141) 同音字捐, 焆, 蠲 [8..]                
身毒(印度的古譯名)

當我們不明白時,就是我們學習的機會到來了!
又學多一個字了,
都不需何文匯教我們正音了,
打廣東拼音就又學新字了!

You see! 機會多的是!
 樓主| 發表於 2010-9-13 03:05:42 | 顯示全部樓層
版本多是因為
不斷加多了輸入法的 features 及 debug.

由於不能有同一個名字,所以就用不同名稱了。

其實最後一版就是最update 及
features 最多的版本,
所以download 香港版 就夠了。
發表於 2010-9-13 08:40:37 | 顯示全部樓層
本帖最後由 lotus7174 於 2010-9-13 09:17 編輯
我的字頻表是參考了Big5 13060個字的字頻排出來的,
可以在網上找到,
不是見仁見知的!


當字頻表遇到多音字
樓主反應很快。用現成排列表很好,我以為有人手動調整。
但是真的有問題,唔只係「伸」音「信」字排頭,「捐」音重「身」字排頭。
當然知道「身毒」(音:捐篤)<gûendüg>,係「天竺」<tînzüg>嘅古異譯,
甚至可以讀做「軒篤」<hîndüg>,如「鐵<tìd 33>板」有南洋人用廣州話讀「歇<hìd 33>板」。

此外,打「已」音,「尔」字排頭也很難得出,因為繁體字是「爾」字,
而且「尔」字不是五大碼。

麻煩你查下所謂字頻,佢點樣處理多音字和非五大碼字。
目前排法會影響實用性。
能否提供未經字頻排列過的原始碼表?它用什麼次序?

我猜是「信、身」是常用字,但是它作為的「伸、捐」讀音,不是常用字。
而字碼表只照字頻排列,而沒有考慮到「該發音上」那些字的字頻。

多音字、非五大碼字、非正規音字
如果要分開多音字同異讀字,可以恁樣:

(san) <sen> 申伸身+信←插入+號,隔出多音字
(guen) <guen> 捐娟+身←插入+號,隔出多音字
(yi) <yi> 已爾*尔←插入*號,隔出非五大碼字(舊電腦無法使用)
(nga) <nga> 牙訝迓-亞氬←插入-號,隔出非正規音字(避免使用)

諸版本
此外,樓主公布了太多版本:
HK:原版(工具欄上稱「 HK」)
港拼:自創版(工具欄上稱「港拼」)
香港:最新版(工具欄上稱「香港」,設定裡面稱「香港廣拼」)
它的Remove好像是卸裝程序,但是效果有待改善。

最新版內碼表
樓主在《通用輸入法工具》提供的內碼表,好像不是「最新版」採用的內碼表。
能否提供與輸入法同步的最新版?

而標點符號、日語字母等,說明,散落在本帖各樓,
建議做一個說明文檔,附在安裝包裡面。
不然,提供最新碼表供查閱也可以。

反而簡體的 imegen.exe 輸入法生成器 可以出到 unicode character.
簡體 windows disk 找找 imegen.exe imegen.hlp imegen.chm 這幾個 file.


繁體字《微軟視窗》,補充字;
五大碼、國標碼、統一碼
我上便講過,我用嘅係繁體字Windows XP。

至於香港字,我之前上過一個網站話,睇唔倒字就裝香港字(五大碼補充字?),
但係我用Windows XP繁體版,裝咗之後一樣睇唔倒。
而樓主嘅《通用輸入法工具》附嘅字碼,唔覺得有問號字
(如上便講嘅(ngap) <ngeb>〔噏〕音),唔知點試。

《行列輸入法》多咗【唔係五大碼】而【國標碼簡、繁體字集】「食得」嘅字,
所以有「嘅、咗」,但係冇「(口架)」爾個字。
所以寄「伊尾(陰平)佬」簡「簡體字」逼佢用大陸國標碼,反而對方重睇得倒。
而《通用輸入法工具》工具唔知追唔追得上。
但係樓主收錄咗嘅「尔、噏」唔係五大碼喎!恁好嘢?
我懷疑《通用輸入法工具》,可以超出五大碼,但係喺國標碼簡、繁體字集之內。
不過,《行列輸入法》可能係因為納入《通用輸入法工具》,
所以冇咗「1^、1-、1v」(一上、一中、一下)嘅顯示法,可惜。

想打快一點的話,我已有了方法,
不過你要識倉頡的頭碼就夠了,


減少同碼字打快尐
一般人很難為了打快一點,跑去再學一個倉頡輸入法。
建議順著本來輸入法的精神,再加入聲調(九聲),減少同碼字,自然就打得快。

謝謝!
 樓主| 發表於 2010-9-13 14:18:29 | 顯示全部樓層
本帖最後由 thhui 於 2010-9-13 14:21 編輯
+倉頡頭碼?噉唔會同原底嘅拼音相撞咩?(譬如p、t、k、n、g)
billyswong 發表於 2010-9-12 23:47


撞碼的機會是有,不過機會少於5%,
可以不理。

總好過不理會拼音的死穴--重碼多(就算分足六聲), 有一大堆候選字,
就算撞碼也是常用字排先,不需理會非常用字。
非常用字的實用性其實很低。
所以有些輸入法索性不載。


其實可以不撞碼,但要打多一個字碼。例如z在後面。
不過通用輸入法最多是六碼。
多碼的字就要減少一碼遷就,重碼又增加了,
所以針無兩頭利的!
 樓主| 發表於 2010-9-13 14:31:53 | 顯示全部樓層
本帖最後由 thhui 於 2010-9-21 04:03 編輯

你的所謂辦法是
不能完成的辦法,
麻煩你自己試一下所謂的分字義辨罕音字。

我的輸入法是要找常用字,
可以輕鬆地找到想要打的字的辦法已想過,
快意速成也是引用這個方案的概念找字。
打 速成碼+廣東拼音頭碼。
我則反其道,用廣東拼音碼+速成頭碼。

建議lotus 兄自己試一下創作自己方案時也
用你的辦法試試,你就知道什麼是可行,
什麼是想當然罷了。
行不通的辦法很多,行得通的才是王道,才是真理!
 樓主| 發表於 2010-9-13 14:41:08 | 顯示全部樓層
分六聲的輸入法注定是失敗,
因為很少人可以分得出六聲,
只有少眾人會用,
所以不會用六聲來做廣東拼音輸入法。
 樓主| 發表於 2010-9-13 19:18:33 | 顯示全部樓層
原來我想做六聲廣拼輸入法也不行。
因為
廣拼已用了六個碼,
多加一個聲調變成七碼,
這在通用輸入法是不許可的。

要用有調號的輸入法,
請試用中州韻的weasel 小狼毫。
這個輸入法沒有M$的限制。
 樓主| 發表於 2010-9-14 10:26:38 | 顯示全部樓層
本帖最後由 thhui 於 2010-9-14 10:55 編輯

廣東拼音加上了六聲,
我查過數據,
變化大約有2200個,
但分配極不均,最多的重碼字為
yue4 「如」字音 有180個左右之多。
如果揀字不按字頻,yue4 要找二十多頁也找不到。

我加上 如「六哥隨想輸入法 」般 的倉頡 頭碼 就是為了 解決重碼的死症。
倉頡頭碼不難記,比簡易更易找。
香港人最多人用的輸入法就是簡易。

用了這個 快速找字鍵 就可以把重碼減低至只有十幾個右右。
所以鼓勵大家用這個快捷碼。

另外,打詞也可解決多重碼字的問題。
 樓主| 發表於 2010-9-14 11:53:26 | 顯示全部樓層
拼音輸入法為何在大陸及台灣大行其道?

因為好用?
因為易學?
因為在學校已學過漢語拼音或注音?
因為執筆忘字?

為何拼音在香港及不上簡易速成?

但 又為何會在 倉頡及五筆的筆形輸入法 叱吒風雲之後,卻在現今 台灣及大陸 兩地都分別取而代之?

究其原因,是因為拼音較為直觀,較為簡單,比形碼更易對人有感覺。

再加上現代科技及軟件上的進步,令拼音輸入法不像以往般的龜速,要左揀右揀都找不到字。

打無意義的random單字的效率,純拼音實在低得可憐,比速成還不如呢。

但隨著大量的大型詞庫加進輸入法內,cpu速度的提昇,大程度上幫助了拼音,相對上對形碼的幫助卻甚微。
很少用形碼的人肯認低威用詞語幫忙,除非去參賽打字。這才有了五筆的打字紀錄(一分鐘290多個)。

軟件工作者也認為形碼不甚需要他們的詞庫做設計。只會專注為拼音加上大量各式詞庫。
因為沒有了詞庫,拼音就好像開車沒油一樣罷。
發表於 2010-9-18 11:09:12 | 顯示全部樓層
本帖最後由 lotus7174 於 2010-10-6 17:51 編輯

樓主用心良苦,感謝!

暫時唔理聲調住
台灣人學注音、大陸人學拼音,都有聲調。
唔通廣州話人學字音、學查字典,冇學到(定係冇學倒)九聲?
不過,最長六碼「撐」(chaang)、「昌」(cheung)的確係一個問題。
但係「我拼」最長只有五碼「撐」<cang>、「昌」<coeng>。
要攞倒有聲調嘅碼表又係另外一個問題。

當字頻表遇到多音字
爾個諗法應該比較可行。
最簡單的建議是:「信」同「身」字能否不要出現在「伸」和「捐」音的首位?
這樣不符合「某個發音之內」的字頻。

想法:

一、把字碼表內的多音字(重覆出現)找出來。可能要用QBASIC寫一個小程序。
  唯不知多少。

二、照日常習慣人為找出常見音,如:信(訊音)、身(伸音)、樂(落音)。

三、把次常見音移到後面,甚至用符號隔開。
  如果明知是次常見音,可以去後面找,如「岳」音要打「音樂」的「樂」字。

(lok) <log> 洛落樂
(ngok) <ngog> 岳獄+樂
(ngaau) <ngau> 咬爻+樂

字碼表內碼的發現
發現canton.txt文檔是一份五大碼文件,猜測是最原始的「不論發音的字頻」字碼表。
也發現hkong.txt文檔是一份統一碼文件,以FF FE開頭。
而有些行如(a) <a>(丫音),後面有幾個缺字。
請問:要用什麼字集看?

我上網找(厾),拿到2001版本(厾),找測試頁(厾),可以看(厾)
但是那不是輸入法缺的字,用Notepad《微軟記事簿》看會變成別的字
(後來解掉重裝後,一樣是空白,不會變成別的字),
裝到輸入法後仍然空白。

不過暫時不理hkong.txt這張表,它有錯,如(ap) <eb>鴨,要人工改回來。
樓主輸入法的發布版,「鴨」字(aap) <ab>是對的,它也不是用這個表做的。

微軟QBASIC (Quick BASIC)的發現
canton.txt幾乎可以用QBASIC當成text文件讀入,誰知道A0這個字節有問題。
hkong.txt文檔是無法用QBASIC當成text文件讀入,下次我試用binary讀入看看。

但是,如果,QBASIC無法讀入十六進A0這個字節的話,
我以前寫的五大轉HZ程序的五大碼輸入就會有問題。
但是因為Windows XP不知道怎麼用DOS運行魏亞桂(廣州話人)的ZWDOS,
所以無從以DOS的方式顯示HZ碼文件。

讀入後可以判斷,哪些字在不同拼音出現。

不想用程序全部讀入,就用眼睛看
可以用眼睛看,哪些字的次常見音,被誤判為常用字,列在行頭幾位。
真接用眼睛從頭看到尾,然後將它調到後面。

如果先檢查第一位:
(san) <sen>(伸音)信、(guen) <guen>(捐音)身:上次打字時發現。
(but) <bud>(撥音)發、(buk) <bug>(曝音)暴、(bung) <bung>(一埲牆個埲,陰上)捧:
睇來真係唔少。
(cha) <ca>差、(chaai) <cai>差:如果只算一個常見音,就算前者;後者算次常見音。
(chaang) <cang>爭、槍:前兩位都係;第三位先至輪到撐字。

等等。

多謝晒!
 樓主| 發表於 2011-4-14 23:18:25 | 顯示全部樓層
我的HK廣拼
快速簡碼
一碼字字例

a啊
b不本吧比
c請出前此
d的大到多
e欸
f發法方科
g個交過工
h可好學系
i我
j在中資這
k其球及期
l了來理路
m文沒問們唔
n我你能那
o奧
p壹
r啫嚟吓嗰
s是上時生
t他天同題
u啲嘅咗唔
w會為還和
y一有人以
發表於 2012-8-16 02:11:45 | 顯示全部樓層
could you please send me uimetool v2.1????
i cannot use Cantonese input method....want to die....haha

I am using Win7 64bit.
 樓主| 發表於 2012-9-23 06:05:50 | 顯示全部樓層
本帖最後由 thhui 於 2014-7-25 23:46 編輯
could you please send me uimetool v2.1????
i cannot use Cantonese input method....want to die....hah ...
homan999 發表於 2012-8-16 02:11


很久沒有到這裡來。
很多檔案都變成死link了。
再重新upload上dropbox.
UimeTool.zip
https://www.dropbox.com/s/cwzxa9awqvk0zq5/UimeTool.zip
您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

Archiver|手機版|粵語協會

GMT+8, 2024-11-23 15:59 , Processed in 0.057601 second(s), 19 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回復 返回頂部 返回列表