desmond 發表於 2007-1-12 19:36:56

[原創]共同製作粵語拼音輸入法碼表

<p>2007年3月7號</p><p>共同製作粵語拼音輸入法碼表 - 前期工作</p><p>目標︰<br/></p><p>為約2400條目嘅常用多音字分辨「次常用音」和「罕用音」。</p><p></p><p>歡迎參與、討論或提供意見,有意者請跟帖。並透過以下網頁聯絡本人,謝謝!<br/><br/><br/>http://www.o-cj.com/simo/index.php?lang=tradchi&amp;page=contactus</p><p>?====================================================================================</p><p>2007年1月12號 </p><p>共同製作粵語拼音輸入法碼表<br/><br/><br/>目標︰<br/><br/><br/>裝作一個達25萬個繁體詞條的帶聲調粵語拼音碼表<br/><br/><br/>資料補充︰<br/><br/><br/>1. 決定編制繁體詞庫是因為可以使用繁簡轉換軟件,把繁體詞庫自動轉換成簡體詞庫,<br/><br/>繁轉簡的錯誤很少,反之卻不然,這可大大減少將來的工作量<br/><br/>2. 使用的粵語拼音方案可以公開討論,或眾參與者各自使用熟悉的粵語拼音方案(但必須能夠準確區分每個讀音)<br/><br/><br/>用途︰<br/><br/><br/>1. 粵語拼音碼表可作為母體碼表,衍生出各種以不同粵語拼音方案編碼的粵語輸入法<br/><br/>2. 作為粵語語料參考,供製作粵語辭典、研究粵語之用<br/><br/><br/>版權︰<br/><br/><br/>GNU General Public License 通用公共許可證<br/><br/><br/>製作方法︰<br/><br/><br/>初步想法是先用程式把25萬個繁體詞條自動編碼,其後再作人工校對<br/><br/><br/>製作難處︰<br/><br/><br/>1. 粵語正確用字問題,如︰仲有/重有,需要討論<br/><br/>2. 25萬個繁體詞條內有些簡繁對應錯誤的「沙石」,如︰仙後座、之后,需要處理<br/><br/><br/>歡迎參與、討論或提供意見,有意者請跟帖。並透過以下網頁聯絡本人,謝謝!<br/><br/><br/>http://www.o-cj.com/simo/index.php?lang=tradchi&amp;page=contactus</p>
[此帖子已經被作者於2007-3-7 13:12:55編輯過]

我哋越人 發表於 2007-1-12 21:25:42

我們是否可以仿照 文泉驛點陣漢字計劃 的做法, 大家自願參與, 分區合作承包.<br/>關於文泉驛點陣漢字計劃及其做法, 可以睇下 <br/>http://wqy.sourceforge.net/cgi-bin/index.cgi

desmond 發表於 2007-1-12 22:10:29

當然可以噉樣做,海峰五筆大字庫編碼好似就係由孫博士統籌,大家自願參與,分區合作承包。我哋越人多數幾時上msn,我哋可以喺網上再詳談。

我哋越人 發表於 2007-1-12 22:30:12

我呢度上MSN經常都有問題, 話主要連接埠連接唔上, 唔知點解. skype就無問題.<br/>

desmond 發表於 2007-1-12 23:00:02

噉我開返個skype戶口,大家協商吓點樣具體實行分區合作承包。<br/>我都喺北大中文論壇同其他論壇度開咗帖,睇吓搵唔搵到更多幫手。<br/>http://pkucn.com/viewthread.php?tid=190213&amp;extra=page%3D1<br/>http://srf.cn/index.asp?boardid=20&amp;page=1<br/>http://inputclub.foruto.com/cgi-bin/Forum/UltraBoard.cgi?action=Headlines&amp;BID=6<br/>

desmond 發表於 2007-1-14 07:56:03

我哋越人平時多數幾點上skype?要好好討論點搞個碼表。

余OK 發表於 2007-1-14 08:22:49

<p>  我有Skype嘅account,可以add我:imyuok</p>

desmond 發表於 2007-1-14 18:22:26

加咗了,不過其實唔係咁想裝咁多種即時訊息軟件。

唔係人0敢品 發表於 2007-1-17 03:11:02

<p>我想問吓各位高手幾個問題</p><p>1.漢字編碼係咪分為Big5同gb2312?噉粵語輕鬆輸入法係咪按gb2312嚟整嘅?輕鬆輸入法唔支持細明體係咪噉嘅原因?噉big5碼同gb碼可唔可以集中喺一齊?</p><p>2.繁體輸入法安裝嗰時係咪裝喺中文(台灣)度好啲?依家粵語輕鬆輸入法係裝喺中文(PRC)度,有咩方法改番中文(台灣)呢?</p><p>3.下個版本輕鬆輸入法會唔會改為中文(台灣)同big5碼?噉如果改咗中文(台灣),嗰啲簡體嘅即時通訊軟體用嗰時會唔會亂碼?</p><p>4.可唔可以解釋吓unicode嘅含意,同埋unicode同漢字嘅編碼有咩關係</p>

我哋越人 發表於 2007-1-17 06:04:44

個碼表會使用unicode編碼。唔會用gb碼或big5碼。gb2312只收咗六千幾個漢字,都係簡體字,收字太少,呢個編碼一早就應該淘汰。big5碼冇收粵語字。big5-hkscs係香港政府對big5碼嘅擴增,加咗大概5000個字,包括粵字。unicode係國際統一碼,佢入便包括咗中日韓粵所有漢字。<br/>

desmond 發表於 2007-1-17 06:31:04

多謝各位的支持和意見。打算製作網上粵語詞庫編碼編輯介面,讓不懂粵語拼音的參與者也能輕鬆編碼。
[此帖子已經被作者於2007-1-18 19:49:55編輯過]

東山三少 發表於 2007-2-2 13:05:12

有边位朋友可以话我知,系度可以获得粤语打字软件吖!!?仲要系繁体字....拜托拜托!

neo 發表於 2007-2-2 17:09:01

<div class="msgheader">QUOTE:</div><div class="msgborder"><b>以下是引用<i>東山三少</i>在2007-2-2 5:05:12的發言:</b><br/>有边位朋友可以话我知,系度可以获得粤语打字软件吖!!?仲要系繁体字....拜托拜托!</div><p>喺粵協嘅首頁就有啦</p><p><a href="http://www.cantonese.asia/Soft/Index.html">http://www.cantonese.asia/Soft/Index.html</a></p>

矇矇鬆鬆 發表於 2007-4-8 12:19:41

請問去到個輸入法在線又點搵到樓主?

Ultra 發表於 2007-4-9 00:44:17

<div class="msgheader">QUOTE:</div><div class="msgborder"><b>以下是引用<i>唔係人0敢品</i>在2007-1-16 19:11:02的發言:</b><br/><p>我想問吓各位高手幾個問題</p><p>1.漢字編碼係咪分為Big5同gb2312?噉粵語輕鬆輸入法係咪按gb2312嚟整嘅?輕鬆輸入法唔支持細明體係咪噉嘅原因?噉big5碼同gb碼可唔可以集中喺一齊?</p><p>2.繁體輸入法安裝嗰時係咪裝喺中文(台灣)度好啲?依家粵語輕鬆輸入法係裝喺中文(PRC)度,有咩方法改番中文(台灣)呢?</p><p>3.下個版本輕鬆輸入法會唔會改為中文(台灣)同big5碼?噉如果改咗中文(台灣),嗰啲簡體嘅即時通訊軟體用嗰時會唔會亂碼?</p><p>4.可唔可以解釋吓unicode嘅含意,同埋unicode同漢字嘅編碼有咩關係</p></div><p>1. 輕鬆係按unicode做嘅,至于支持字體係windows問題,同輸入法無關。</p><p>2. 安裝嘅時候可以修改註冊表,此問題容易解决。衹不過輕鬆V2.1冇針對繁體系統做安裝包。</p><p>3. 以後會繼續用unicode做,衹要windows2000以上繁體系統都支持。</p><p>4. google,baidu 啦。</p>

紫凤凰 發表於 2007-4-14 05:14:21

<p>我想請教老兄一個問題,粵拼輸入法可唔可以做到好似普拼如清華紫光噉呢?</p><p>因為清華紫光唔但只有聯想,而且仲可以成句輸入選擇。如果可以做到噉嘅水準,估計好多人會用。</p>

殺人王 發表於 2007-6-22 17:40:22

<DIV class=quote><B>以下是引用<I>紫凤凰</I>在2007-4-13 21:14:21的發言:</B><BR>
<P>我想請教老兄一個問題,粵拼輸入法可唔可以做到好似普拼如清華紫光噉呢?</P>
<P>因為清華紫光唔但只有聯想,而且仲可以成句輸入選擇。如果可以做到噉嘅水準,估計好多人會用。</P></DIV>
<P>多極相信都唔會夠拼音多.......</P>

tianyagukexie 發表於 2008-6-18 10:49:40

<P>原帖由 <I>desmond</I> 於 2007-1-12 19:36 發表 <A href="http://bbs.cantonese.asia/redirect.php?goto=findpost&amp;pid=30049&amp;ptid=4790" target=_blank><IMG onclick=zoom(this) alt="" src="http://bbs.cantonese.asia/images/common/back.gif" onload="attachimg(this, 'load')" border=0></A> 2007年3月7號共同製作粵語拼音輸入法碼表 - 前期工作目標︰為約2400條目嘅常用多音字分辨「次常用音」和「罕用音」。歡迎參與、討論或提供意見,有意者請跟帖。並透過以下網頁聯絡本人,謝謝!http://www.o-cj.com/simo/inde ... </P>
<P><A href="http://www.o-cj.com/simo/index.php?lang=tradchi&amp;page=contactus">http://www.o-cj.com/simo/index.php?lang=tradchi&amp;page=contactus</A>係一個無效嘅鏈接.</P>

tianyagukexie 發表於 2008-6-30 17:02:18

<P>主要是多音字的判断,据我统计过,一万三千多个字只有八千多个是只有一个读音,剩下近五千个是多音字或异读字。我从一个47790组两字词统计出这样的结果:两个字都是单独音的只有16880组,剩下30910组是需要人工判断才能得出正确的读音。这一万多组中,读音有重复的词组:二组相同为431组,三组相同为70组,四组相同为2组。我用的是广州话拼音方案,对粤语拼音码表有兴趣的朋友可以给我留言,一起探讨。</P>

desmond 發表於 2008-7-1 13:14:16

<P>對製作粵拼輸入法碼表的主張:</P>
<P>&nbsp;</P>
<P>&nbsp;</P>
<P>1. 繁體詞表(很多粵語字在電腦上都沒有對應的簡化字寫法,而且母表為繁體詞表,轉化為簡體詞表是很容易的事)</P>
<P>&nbsp;</P>
<P>&nbsp;</P>
<P>2. 拼音方案先定為 jyutping(這裏熟悉和支持 jyutping的人最多,而且方便電腦輸入,各種方案相互轉化是很容易的)</P>
<P>&nbsp;</P>
<P>&nbsp;</P>
<P>3. 無聲調全拼式粵拼(e.g. 粵語協會 = jyutjyuhipwui;鑒於漢字多音字的特性,如果標粵音連聲調也標上的話,一詞多音錯音的機會倍數增加,而且分辨聲調需時,影響輸入速度,單字可考慮加上聲調減少重碼)</P>
<P>&nbsp;</P>
<P>&nbsp;</P>
<P>4. 同碼詞需要作常用度調整先後次序</P>
<P>&nbsp;</P>
<P>&nbsp;</P>
<P>&nbsp;</P>
<P>製作粵拼輸入法碼表的難題</P>
<P>&nbsp;</P>
<P>1. 毒詞:偽繁體詞、錯別字、非建議粵語字</P>
<P>&nbsp;</P>
<P>2. 一詞多音:一個詞可能有好幾個音,但只有一個是對的。</P>
<P>&nbsp;</P>
<P>&nbsp;</P>
<P>如果有甚麼遺漏了的地方,可以補上。</P>
頁: [1] 2
查看完整版本: [原創]共同製作粵語拼音輸入法碼表