中文自動識詞編程

Cactus 發表於 2005-10-12 20:30:42

唔好意思，呢個主題唔知放邊好，祇好擺呢度。

睇過一篇文章，講到點樣編寫程式，從文章中提取中文詞。

佢係用關聯算法，即係將文章中各個相鄰中文字嘅關聯次數列表，出現次數高就表明呢兩個中文字可以組成詞。

我算咗一下，呢個關聯表好大，以兩萬個中文字為例，組成交錯表即係兩萬乘兩萬，大約有四億個關聯。睇怕都幾難搵到一部電腦有咁多記憶體去執行呢個程式。更加冇可能做到三字詞，有兩萬個三次方咁多關聯。

多數非日常中文字都唔可以組成詞；而且中文字有好多介詞，的、地、得、了、之類，可以組成詞，亦可以唔理會呢種詞。

我個目的係想聽下，各位覺得中文構詞有冇乜嘢公式。

Cactus 發表於 2005-10-12 20:43:35

Re:中文自動識詞編程

有另外一種算法雖然慢，但係占用記憶體好少。

就係從文章開頭第一個詞開始，查後面有冇相同嘅詞，如果有且次數夠多，呢個就係詞。然後程式移到下一組詞，重復進行比較，直至文章結束。

希望各位提供意見，無論是否『異想天開』都冇所謂。

tianyagukexie 發表於 2008-6-30 16:36:24

<P>这个问题我也想过，也有你这种想法过，但我觉得不太可行，数量太大了。一般的电脑恐怕难以胜任。光是两字词就不得了了。假如是10万字的话，就是100000平方。10000000000个，这个数量是惊人的，而且这里面有多少可以算是词组还很难说。我看比较明智的办法是拿来主义，直接把别人的东东拿来就好了，呵呵<IMG alt="" src="http://bbs.cantonese.asia/images/smilies/default/lol.gif" border=0 smilieid="12"> ，不过不要让人知道啊，不然可能侵犯别人的权益哦<IMG alt="" src="http://bbs.cantonese.asia/images/smilies/default/titter.gif" border=0 smilieid="9"> ！！！</P>
<P> </P>

cingsan 發表於 2008-7-1 02:18:31

tianyagukexie 發表於 2008-7-7 22:37:37

你可以把你的资料发给我,我想我可以帮你自动分词.也包括粤语字.

頁: [1]

粵語協會's Archiver

中文自動識詞編程

Re:中文自動識詞編程