Cactus 發表於 2005-10-12 20:30:42

中文自動識詞編程

唔好意思,呢個主題唔知放邊好,祇好擺呢度。

睇過一篇文章,講到點樣編寫程式,從文章中提取中文詞。

佢係用關聯算法,即係將文章中各個相鄰中文字嘅關聯次數列表,出現次數高就表明呢兩個中文字可以組成詞。

我算咗一下,呢個關聯表好大,以兩萬個中文字為例,組成交錯表即係兩萬乘兩萬,大約有四億個關聯。睇怕都幾難搵到一部電腦有咁多記憶體去執行呢個程式。更加冇可能做到三字詞,有兩萬個三次方咁多關聯。

多數非日常中文字都唔可以組成詞;而且中文字有好多介詞,的、地、得、了、之類,可以組成詞,亦可以唔理會呢種詞。

我個目的係想聽下,各位覺得中文構詞有冇乜嘢公式。

Cactus 發表於 2005-10-12 20:43:35

Re:中文自動識詞編程

有另外一種算法雖然慢,但係占用記憶體好少。

就係從文章開頭第一個詞開始,查後面有冇相同嘅詞,如果有且次數夠多,呢個就係詞。然後程式移到下一組詞,重復進行比較,直至文章結束。

希望各位提供意見,無論是否『異想天開』都冇所謂。

tianyagukexie 發表於 2008-6-30 16:36:24

<P>这个问题我也想过,也有你这种想法过,但我觉得不太可行,数量太大了。一般的电脑恐怕难以胜任。光是两字词就不得了了。假如是10万字的话,就是100000平方。10000000000个,这个数量是惊人的,而且这里面有多少可以算是词组还很难说。我看比较明智的办法是拿来主义,直接把别人的东东拿来就好了,呵呵<IMG alt="" src="http://bbs.cantonese.asia/images/smilies/default/lol.gif" border=0 smilieid="12"> ,不过不要让人知道啊,不然可能侵犯别人的权益哦<IMG alt="" src="http://bbs.cantonese.asia/images/smilies/default/titter.gif" border=0 smilieid="9"> !!!</P>
<P>&nbsp;</P>

cingsan 發表於 2008-7-1 02:18:31

<IMG alt="" src="http://bbs.cantonese.asia/images/smilies/default/funk.gif" border=0 smilieid="29">&nbsp;<IMG alt="" src="http://bbs.cantonese.asia/images/smilies/default/funk.gif" border=0 smilieid="29">

tianyagukexie 發表於 2008-7-7 22:37:37

你可以把你的资料发给我,我想我可以帮你自动分词.也包括粤语字.
頁: [1]
查看完整版本: 中文自動識詞編程