找回密碼
 註冊

QQ登錄

只需一步,快速開始

搜索
熱搜: 活動 交友 discuz
查看: 15207|回復: 26

[輸入法] [原創]共同製作粵語拼音輸入法碼表

[複製鏈接]
發表於 2007-1-12 19:36:56 | 顯示全部樓層 |閱讀模式

2007年3月7號

共同製作粵語拼音輸入法碼表 - 前期工作

目標︰

為約2400條目嘅常用多音字分辨「次常用音」和「罕用音」。

歡迎參與、討論或提供意見,有意者請跟帖。並透過以下網頁聯絡本人,謝謝!


http://www.o-cj.com/simo/index.php?lang=tradchi&page=contactus

?====================================================================================

2007年1月12號

共同製作粵語拼音輸入法碼表


目標︰


裝作一個達25萬個繁體詞條的帶聲調粵語拼音碼表


資料補充︰


1. 決定編制繁體詞庫是因為可以使用繁簡轉換軟件,把繁體詞庫自動轉換成簡體詞庫,

繁轉簡的錯誤很少,反之卻不然,這可大大減少將來的工作量

2. 使用的粵語拼音方案可以公開討論,或眾參與者各自使用熟悉的粵語拼音方案(但必須能夠準確區分每個讀音)


用途︰


1. 粵語拼音碼表可作為母體碼表,衍生出各種以不同粵語拼音方案編碼的粵語輸入法

2. 作為粵語語料參考,供製作粵語辭典、研究粵語之用


版權︰


GNU General Public License 通用公共許可證


製作方法︰


初步想法是先用程式把25萬個繁體詞條自動編碼,其後再作人工校對


製作難處︰


1. 粵語正確用字問題,如︰仲有/重有,需要討論

2. 25萬個繁體詞條內有些簡繁對應錯誤的「沙石」,如︰仙後座、之后,需要處理


歡迎參與、討論或提供意見,有意者請跟帖。並透過以下網頁聯絡本人,謝謝!


http://www.o-cj.com/simo/index.php?lang=tradchi&page=contactus

[此帖子已經被作者於2007-3-7 13:12:55編輯過]
發表於 2007-1-12 21:25:42 | 顯示全部樓層
我們是否可以仿照 文泉驛點陣漢字計劃 的做法, 大家自願參與, 分區合作承包.
關於文泉驛點陣漢字計劃及其做法, 可以睇下
http://wqy.sourceforge.net/cgi-bin/index.cgi
 樓主| 發表於 2007-1-12 22:10:29 | 顯示全部樓層
當然可以噉樣做,海峰五筆大字庫編碼好似就係由孫博士統籌,大家自願參與,分區合作承包。我哋越人多數幾時上msn,我哋可以喺網上再詳談。
發表於 2007-1-12 22:30:12 | 顯示全部樓層
我呢度上MSN經常都有問題, 話主要連接埠連接唔上, 唔知點解. skype就無問題.
 樓主| 發表於 2007-1-12 23:00:02 | 顯示全部樓層
噉我開返個skype戶口,大家協商吓點樣具體實行分區合作承包。
我都喺北大中文論壇同其他論壇度開咗帖,睇吓搵唔搵到更多幫手。
http://pkucn.com/viewthread.php?tid=190213&extra=page%3D1
http://srf.cn/index.asp?boardid=20&page=1
http://inputclub.foruto.com/cgi-bin/Forum/UltraBoard.cgi?action=Headlines&BID=6
 樓主| 發表於 2007-1-14 07:56:03 | 顯示全部樓層
我哋越人平時多數幾點上skype?要好好討論點搞個碼表。
發表於 2007-1-14 08:22:49 | 顯示全部樓層

  我有Skype嘅account,可以add我:imyuok

 樓主| 發表於 2007-1-14 18:22:26 | 顯示全部樓層
加咗了,不過其實唔係咁想裝咁多種即時訊息軟件。
發表於 2007-1-17 03:11:02 | 顯示全部樓層

我想問吓各位高手幾個問題

1.漢字編碼係咪分為Big5同gb2312?噉粵語輕鬆輸入法係咪按gb2312嚟整嘅?輕鬆輸入法唔支持細明體係咪噉嘅原因?噉big5碼同gb碼可唔可以集中喺一齊?

2.繁體輸入法安裝嗰時係咪裝喺中文(台灣)度好啲?依家粵語輕鬆輸入法係裝喺中文(PRC)度,有咩方法改番中文(台灣)呢?

3.下個版本輕鬆輸入法會唔會改為中文(台灣)同big5碼?噉如果改咗中文(台灣),嗰啲簡體嘅即時通訊軟體用嗰時會唔會亂碼?

4.可唔可以解釋吓unicode嘅含意,同埋unicode同漢字嘅編碼有咩關係

發表於 2007-1-17 06:04:44 | 顯示全部樓層
個碼表會使用unicode編碼。唔會用gb碼或big5碼。gb2312只收咗六千幾個漢字,都係簡體字,收字太少,呢個編碼一早就應該淘汰。big5碼冇收粵語字。big5-hkscs係香港政府對big5碼嘅擴增,加咗大概5000個字,包括粵字。unicode係國際統一碼,佢入便包括咗中日韓粵所有漢字。
 樓主| 發表於 2007-1-17 06:31:04 | 顯示全部樓層
多謝各位的支持和意見。打算製作網上粵語詞庫編碼編輯介面,讓不懂粵語拼音的參與者也能輕鬆編碼。
[此帖子已經被作者於2007-1-18 19:49:55編輯過]
發表於 2007-2-2 13:05:12 | 顯示全部樓層
有边位朋友可以话我知,系度可以获得粤语打字软件吖!!?仲要系繁体字....拜托拜托!
發表於 2007-2-2 17:09:01 | 顯示全部樓層
QUOTE:
以下是引用東山三少在2007-2-2 5:05:12的發言:
有边位朋友可以话我知,系度可以获得粤语打字软件吖!!?仲要系繁体字....拜托拜托!

喺粵協嘅首頁就有啦

http://www.cantonese.asia/Soft/Index.html

發表於 2007-4-8 12:19:41 | 顯示全部樓層
請問去到個輸入法在線又點搵到樓主?
發表於 2007-4-9 00:44:17 | 顯示全部樓層
QUOTE:
以下是引用唔係人0敢品在2007-1-16 19:11:02的發言:

我想問吓各位高手幾個問題

1.漢字編碼係咪分為Big5同gb2312?噉粵語輕鬆輸入法係咪按gb2312嚟整嘅?輕鬆輸入法唔支持細明體係咪噉嘅原因?噉big5碼同gb碼可唔可以集中喺一齊?

2.繁體輸入法安裝嗰時係咪裝喺中文(台灣)度好啲?依家粵語輕鬆輸入法係裝喺中文(PRC)度,有咩方法改番中文(台灣)呢?

3.下個版本輕鬆輸入法會唔會改為中文(台灣)同big5碼?噉如果改咗中文(台灣),嗰啲簡體嘅即時通訊軟體用嗰時會唔會亂碼?

4.可唔可以解釋吓unicode嘅含意,同埋unicode同漢字嘅編碼有咩關係

1. 輕鬆係按unicode做嘅,至于支持字體係windows問題,同輸入法無關。

2. 安裝嘅時候可以修改註冊表,此問題容易解决。衹不過輕鬆V2.1冇針對繁體系統做安裝包。

3. 以後會繼續用unicode做,衹要windows2000以上繁體系統都支持。

4. google,baidu 啦。

發表於 2007-4-14 05:14:21 | 顯示全部樓層

我想請教老兄一個問題,粵拼輸入法可唔可以做到好似普拼如清華紫光噉呢?

因為清華紫光唔但只有聯想,而且仲可以成句輸入選擇。如果可以做到噉嘅水準,估計好多人會用。

發表於 2007-6-22 17:40:22 | 顯示全部樓層
以下是引用紫凤凰在2007-4-13 21:14:21的發言:

我想請教老兄一個問題,粵拼輸入法可唔可以做到好似普拼如清華紫光噉呢?

因為清華紫光唔但只有聯想,而且仲可以成句輸入選擇。如果可以做到噉嘅水準,估計好多人會用。

多極相信都唔會夠拼音多.......

發表於 2008-6-18 10:49:40 | 顯示全部樓層

原帖由 desmond 於 2007-1-12 19:36 發表 2007年3月7號共同製作粵語拼音輸入法碼表 - 前期工作目標︰為約2400條目嘅常用多音字分辨「次常用音」和「罕用音」。歡迎參與、討論或提供意見,有意者請跟帖。並透過以下網頁聯絡本人,謝謝!http://www.o-cj.com/simo/inde ...

http://www.o-cj.com/simo/index.php?lang=tradchi&page=contactus係一個無效嘅鏈接.

發表於 2008-6-30 17:02:18 | 顯示全部樓層

主要是多音字的判断,据我统计过,一万三千多个字只有八千多个是只有一个读音,剩下近五千个是多音字或异读字。我从一个47790组两字词统计出这样的结果:两个字都是单独音的只有16880组,剩下30910组是需要人工判断才能得出正确的读音。这一万多组中,读音有重复的词组:二组相同为431组,三组相同为70组,四组相同为2组。我用的是广州话拼音方案,对粤语拼音码表有兴趣的朋友可以给我留言,一起探讨。

 樓主| 發表於 2008-7-1 13:14:16 | 顯示全部樓層

對製作粵拼輸入法碼表的主張:

 

 

1. 繁體詞表(很多粵語字在電腦上都沒有對應的簡化字寫法,而且母表為繁體詞表,轉化為簡體詞表是很容易的事)

 

 

2. 拼音方案先定為 jyutping(這裏熟悉和支持 jyutping的人最多,而且方便電腦輸入,各種方案相互轉化是很容易的)

 

 

3. 無聲調全拼式粵拼(e.g. 粵語協會 = jyutjyuhipwui;鑒於漢字多音字的特性,如果標粵音連聲調也標上的話,一詞多音錯音的機會倍數增加,而且分辨聲調需時,影響輸入速度,單字可考慮加上聲調減少重碼)

 

 

4. 同碼詞需要作常用度調整先後次序

 

 

 

製作粵拼輸入法碼表的難題

 

1. 毒詞:偽繁體詞、錯別字、非建議粵語字

 

2. 一詞多音:一個詞可能有好幾個音,但只有一個是對的。

 

 

如果有甚麼遺漏了的地方,可以補上。

您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

Archiver|手機版|粵語協會

GMT+8, 2024-5-18 18:49 , Processed in 0.065246 second(s), 23 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回復 返回頂部 返回列表