你举的例子是属于多音字的情况,我所统计的是指单独音字所组成的二字词组.不是指多音字组成的二字词组.比如:
又如 优裕 犹豫 犹如 鱿鱼
这五组都是发yeoyü ,如果打yeoyü就有五个重码.如果标上音标结果就重码率就大大减小了:
又如 yeo6yü4 优裕 yeo1yü6 犹豫 yeo4yü6 犹如 yeo4yü4 鱿鱼 yeo4yü4 ,这里面只有一组有重码犹如 yeo4yü4,鱿鱼 yeo4yü4.像这种5重码的有7*5组,4重码有30*4组,3重码朋155*3组,2重码有1226*2组. 唔好意思,上次有个韵母唔记得上音调,我重新统计下:16880组二字词组中,2重码的词组有101*2组,2重码以上的没有。重码率真的很低。
对于多音词我手上有三万多个没确定拼音。其实里面有很多都是很少用到的异读音,比如他:TA1,TO1,共价:gung1,gung2,gung6,ga3,gai3 ,3*2=6种组合,长处:cêng4,zêng2,zêng6,cü2,cü3,sü
3*3=9 种组合。这些都要人工选择来确定。我这些读音主要来自「审音配词网站」,组合都是由程序生成,因而无法判断像TA1,TO,这种异读字。我也无法每个字每个字选择哪个字哪些音很少用。况且我对粤音字的读音很多还不是很了解,因为我的母语不是粤语。我只能将不只一个读音的字选出来,进行词组的组合。其实可以选选择以带音调的方式来确定读音,对各种输入方案都可以灵活多样的选择,不管是全拼还是简拼又或者是双拼,比如想选择不带单调也是很容易过渡的。
[ 本帖最後由 tianyagukexie 於 2008-7-2 11:58 編輯 ] |