找回密碼
 註冊

QQ登錄

只需一步,快速開始

搜索
熱搜: 活動 交友 discuz
樓主: desmond

[輸入法] [原創]共同製作粵語拼音輸入法碼表

[複製鏈接]
發表於 2008-7-1 16:31:39 | 顯示全部樓層

呵呵,我呢度系广东,我一开始就学广东嘅拼音系统,香港嘅拼音有啲唔习惯。不过呢个唔系主要嘅问题。

如果不加音标的话重复词也是很多的。我从16880组去除音标的二字词组中统计:13696组是没有重复。2552组是有两个重复读音,155组三个重复读音,30组四个重复,7组五个重复,两组6个重复。

16880-13696=3184组词是有重复的。那如果是二十万的组词的话,还不知有多少呢?还有三字词,四字词和以上的。

 

發表於 2008-7-1 16:36:57 | 顯示全部樓層

如果加上音标结果是:没重复的16549组。161组两个重复。1组三个重复。1组四个重复。

重复比没标音标是低很多的。四个以上的没有。

 樓主| 發表於 2008-7-1 17:25:58 | 顯示全部樓層

估計標調和不標調兩者的差異應該是︰

 

標調            |不標調

--------------+-------------

每個詞所對應的拼音碼條較多 |每個詞所對應的拼音碼條較少

每個音所對應的詞條較少   |每個音所對應的詞條較多

 

你的統計是否反映出以上情況呢?

 

由於對粵拼輸入法碼表製作員最頭痛的問題莫過於「每個詞所對應的拼音碼過多」,例如︰

 

在標調時,中和風兩字都是多碼字︰

中 zung1/zung3

風 fung1/fung3

 

結果造成中風一詞共有四個碼︰

 

中風 zung1fung1

中風 zung1fung3

中風 zung3fung1

中風 zung3fung3

 

所以製作員需要人手把其中三個錯碼拿走。

 

但在不標調時,中和風兩字都是單碼字︰

 

中 zung

風 fung

 

結果造成中風一詞只有一個碼︰

 

中風 zungfung

 

製作員甚麼也不用做。

 

因此在不標調時,每個詞所對應的拼音碼條較少,粵拼輸入法碼表製作員在審音時的工作量亦降低。

不過,打zungfung時就較多候選詞,中風、中鋒……

[ 本帖最後由 desmond 於 2008-7-1 17:27 編輯 ]
發表於 2008-7-2 11:35:58 | 顯示全部樓層

你举的例子是属于多音字的情况,我所统计的是指单独音字所组成的二字词组.不是指多音字组成的二字词组.比如:

又如
优裕
犹豫
犹如
鱿鱼

这五组都是发yeoyü ,如果打yeoyü就有五个重码.如果标上音标结果就重码率就大大减小了:

又如 yeo6yü4
优裕 yeo1yü6
犹豫 yeo4yü6
犹如 yeo4yü4
鱿鱼 yeo4yü4
,这里面只有一组有重码犹如 yeo4yü4,鱿鱼 yeo4yü4.像这种5重码的有7*5组,4重码有30*4组,3重码朋155*3组,2重码有1226*2组.
唔好意思,上次有个韵母唔记得上音调,我重新统计下:16880组二字词组中,2重码的词组有101*2组,2重码以上的没有。重码率真的很低。

对于多音词我手上有三万多个没确定拼音。其实里面有很多都是很少用到的异读音,比如他:TA1,TO1,共价:gung1,gung2,gung6,ga3,gai3 ,3*2=6种组合,长处:cêng4,zêng2,zêng6,cü2,cü3,sü

3*3=9 种组合。这些都要人工选择来确定。我这些读音主要来自「审音配词网站」,组合都是由程序生成,因而无法判断像TA1,TO,这种异读字。我也无法每个字每个字选择哪个字哪些音很少用。况且我对粤音字的读音很多还不是很了解,因为我的母语不是粤语。我只能将不只一个读音的字选出来,进行词组的组合。其实可以选选择以带音调的方式来确定读音,对各种输入方案都可以灵活多样的选择,不管是全拼还是简拼又或者是双拼,比如想选择不带单调也是很容易过渡的。

[ 本帖最後由 tianyagukexie 於 2008-7-2 11:58 編輯 ]
發表於 2008-7-2 11:46:39 | 顯示全部樓層
三万多含多音字的二字词组组合已经生成,但需人工选择。如图所示,如果让懂得拼音的人来选择,每人也不用很多的量。每个下拉框中列出了该字的所有读音。也可以让人知道每个字的每个读音。 [ 本帖最後由 tianyagukexie 於 2008-7-2 12:02 編輯 ]
QQ1.gif
QQ2.gif
發表於 2008-7-2 12:26:35 | 顯示全部樓層
另一个个人想法:对于多音字,比如他:TA1,TO1,TO1是古音,现代已不用,也就是说现代只有一个读音,大家可以一起找出来,比如:「费」有两个读音:fei3,bi3,"费"只有做姓氏时才读「bi3」,像这种个别意义才读其他音的字,也可以挑出来,先做成一个拼音码。这样,由「费」组成的词就可以直接用「fei3 来生成拼音码,像这两类字可以直接当单独音字用,不必当成多音字了,对这样的字组成的词,可以由程序直接生成拼音码。
發表於 2008-8-14 17:09:22 | 顯示全部樓層

原帖由 紫凤凰 於 2007-4-14 05:14 發表 我想請教老兄一個問題,粵拼輸入法可唔可以做到好似普拼如清華紫光噉呢?因為清華紫光唔但只有聯想,而且仲可以成句輸入選擇。如果可以做到噉嘅水準,估計好多人會用。 ...

 

我支持你

 

您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

Archiver|手機版|粵語協會

GMT+8, 2024-11-22 22:46 , Processed in 0.069064 second(s), 20 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回復 返回頂部 返回列表