<P>如果不加音标的话重复词也是很多的。我从16880组去除音标的二字词组中统计:13696组是没有重复。2552组是有两个重复读音,155组三个重复读音,30组四个重复,7组五个重复,两组6个重复。</P>
<P>16880-13696=3184组词是有重复的。那如果是二十万的组词的话,还不知有多少呢?还有三字词,四字词和以上的。</P>
<P> </P> <P>如果加上音标结果是:没重复的16549组。161组两个重复。1组三个重复。1组四个重复。</P>
<P>重复比没标音标是低很多的。四个以上的没有。</P> <P>估計標調和不標調兩者的差異應該是︰</P>
<P> </P>
<P>標調 |不標調</P>
<P>--------------+-------------</P>
<P>每個詞所對應的拼音碼條較多 |每個詞所對應的拼音碼條較少</P>
<P>每個音所對應的詞條較少 |每個音所對應的詞條較多</P>
<P> </P>
<P>你的統計是否反映出以上情況呢?</P>
<P> </P>
<P>由於對粵拼輸入法碼表製作員最頭痛的問題莫過於「每個詞所對應的拼音碼過多」,例如︰</P>
<P> </P>
<P>在標調時,中和風兩字都是多碼字︰</P>
<P>中 zung1/zung3</P>
<P>風 fung1/fung3</P>
<P> </P>
<P>結果造成中風一詞共有四個碼︰</P>
<P> </P>
<P>中風 zung1fung1</P>
<P>中風 zung1fung3</P>
<P>中風 zung3fung1</P>
<P>中風 zung3fung3</P>
<P> </P>
<P>所以製作員需要人手把其中三個錯碼拿走。</P>
<P> </P>
<P>但在不標調時,中和風兩字都是單碼字︰</P>
<P> </P>
<P>中 zung</P>
<P>風 fung</P>
<P> </P>
<P>結果造成中風一詞只有一個碼︰</P>
<P> </P>
<P>中風 zungfung</P>
<P> </P>
<P>製作員甚麼也不用做。</P>
<P> </P>
<P>因此在不標調時,每個詞所對應的拼音碼條較少,粵拼輸入法碼表製作員在審音時的工作量亦降低。</P>
<P>不過,打zungfung時就較多候選詞,中風、中鋒……</P>
[ 本帖最後由 desmond 於 2008-7-1 17:27 編輯 ] <P>你举的例子是属于多音字的情况,我所统计的是指单独音字所组成的二字词组.不是指多音字组成的二字词组.比如:</P>
<P>又如<BR>优裕<BR>犹豫<BR>犹如<BR>鱿鱼<BR></P>
<P>这五组都是发yeoyü ,如果打yeoyü就有五个重码.如果标上音标结果就重码率就大大减小了:</P>
<P>又如 yeo6yü4<BR>优裕 yeo1yü6<BR>犹豫 yeo4yü6<BR>犹如 yeo4yü4<BR>鱿鱼 yeo4yü4<BR>,这里面只有一组有重码犹如 yeo4yü4,鱿鱼 yeo4yü4.像这种5重码的有7*5组,4重码有30*4组,3重码朋155*3组,2重码有1226*2组.<BR>唔好意思,上次有个韵母唔记得上音调,我重新统计下:16880组二字词组中,2重码的词组有101*2组,2重码以上的没有。重码率真的很低。</P>
<P>对于多音词我手上有三万多个没确定拼音。其实里面有很多都是很少用到的异读音,比如他:TA1,TO1,共价:gung1,gung2,gung6,ga3,gai3 ,3*2=6种组合,长处:cêng4,zêng2,zêng6,cü2,cü3,sü</P>
<P>3*3=9 种组合。这些都要人工选择来确定。我这些读音主要来自「审音配词网站」,组合都是由程序生成,因而无法判断像TA1,TO,这种异读字。我也无法每个字每个字选择哪个字哪些音很少用。况且我对粤音字的读音很多还不是很了解,因为我的母语不是粤语。我只能将不只一个读音的字选出来,进行词组的组合。其实可以选选择以带音调的方式来确定读音,对各种输入方案都可以灵活多样的选择,不管是全拼还是简拼又或者是双拼,比如想选择不带单调也是很容易过渡的。</P>
[ 本帖最後由 tianyagukexie 於 2008-7-2 11:58 編輯 ] 三万多含多音字的二字词组组合已经生成,但需人工选择。如图所示,如果让懂得拼音的人来选择,每人也不用很多的量。每个下拉框中列出了该字的所有读音。也可以让人知道每个字的每个读音。
[ 本帖最後由 tianyagukexie 於 2008-7-2 12:02 編輯 ] 另一个个人想法:对于多音字,比如他:TA1,TO1,TO1是古音,现代已不用,也就是说现代只有一个读音,大家可以一起找出来,比如:「费」有两个读音:fei3,<FONT size=4><FONT color=#ff0000>b<IMG src="http://humanum.arts.cuhk.edu.hk/Lexis/lexi-can/img/sound_char/e2_g.gif" align=absMiddle border=0></FONT><FONT color=green>i</FONT><FONT color=blue>3,"费"只有做姓氏时才读「<FONT color=#ff0000>b<IMG src="http://humanum.arts.cuhk.edu.hk/Lexis/lexi-can/img/sound_char/e2_g.gif" align=absMiddle border=0></FONT><FONT color=green>i</FONT><FONT color=blue>3</FONT>」,像这种个别意义才读其他音的字,也可以挑出来,先做成一个拼音码。这样,由「费」组成的词就可以直接用「fei3 来生成拼音码,像这两类字可以直接当单独音字用,不必当成多音字了,对这样的字组成的词</FONT></FONT>,可以由程序直接生成拼音码。 <P>原帖由 <I>紫凤凰</I> 於 2007-4-14 05:14 發表 <A href="http://bbs.cantonese.asia/redirect.php?goto=findpost&pid=37750&ptid=4790" target=_blank><IMG onclick=zoom(this) alt="" src="http://bbs.cantonese.asia/images/common/back.gif" onload="attachimg(this, 'load')" border=0></A> 我想請教老兄一個問題,粵拼輸入法可唔可以做到好似普拼如清華紫光噉呢?因為清華紫光唔但只有聯想,而且仲可以成句輸入選擇。如果可以做到噉嘅水準,估計好多人會用。 ... </P>
<P> </P>
<P>我支持你</P>
<P> </P>
頁:
1
[2]