找回密碼
 註冊

QQ登錄

只需一步,快速開始

搜索
熱搜: 活動 交友 discuz
查看: 4044|回復: 4

[輸入法] 中文自動識詞編程

[複製鏈接]
發表於 2005-10-12 20:30:42 | 顯示全部樓層 |閱讀模式
唔好意思,呢個主題唔知放邊好,祇好擺呢度。 睇過一篇文章,講到點樣編寫程式,從文章中提取中文詞。 佢係用關聯算法,即係將文章中各個相鄰中文字嘅關聯次數列表,出現次數高就表明呢兩個中文字可以組成詞。 我算咗一下,呢個關聯表好大,以兩萬個中文字為例,組成交錯表即係兩萬乘兩萬,大約有四億個關聯。睇怕都幾難搵到一部電腦有咁多記憶體去執行呢個程式。更加冇可能做到三字詞,有兩萬個三次方咁多關聯。 多數非日常中文字都唔可以組成詞;而且中文字有好多介詞,的、地、得、了、之類,可以組成詞,亦可以唔理會呢種詞。 我個目的係想聽下,各位覺得中文構詞有冇乜嘢公式。
 樓主| 發表於 2005-10-12 20:43:35 | 顯示全部樓層

Re:中文自動識詞編程

有另外一種算法雖然慢,但係占用記憶體好少。 就係從文章開頭第一個詞開始,查後面有冇相同嘅詞,如果有且次數夠多,呢個就係詞。然後程式移到下一組詞,重復進行比較,直至文章結束。 希望各位提供意見,無論是否『異想天開』都冇所謂。
發表於 2008-6-30 16:36:24 | 顯示全部樓層

这个问题我也想过,也有你这种想法过,但我觉得不太可行,数量太大了。一般的电脑恐怕难以胜任。光是两字词就不得了了。假如是10万字的话,就是100000平方。10000000000个,这个数量是惊人的,而且这里面有多少可以算是词组还很难说。我看比较明智的办法是拿来主义,直接把别人的东东拿来就好了,呵呵 ,不过不要让人知道啊,不然可能侵犯别人的权益哦 !!!

 

發表於 2008-7-1 02:18:31 | 顯示全部樓層
 
發表於 2008-7-7 22:37:37 | 顯示全部樓層
你可以把你的资料发给我,我想我可以帮你自动分词.也包括粤语字.
您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

Archiver|手機版|粵語協會

GMT+8, 2024-11-25 21:54 , Processed in 0.058213 second(s), 20 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回復 返回頂部 返回列表