找回密碼
 註冊

QQ登錄

只需一步,快速開始

搜索
熱搜: 活動 交友 discuz
查看: 4974|回復: 17

[資料收集] 大家好,好消息,我已经OCR了一本粤语学习书

[複製鏈接]
發表於 2010-5-11 12:04:45 | 顯示全部樓層 |閱讀模式
大家好,告诉广大粤语学习爱好者一个好消息,我已经OCR了一本粤语学习书

《地道广州话用语》这本书应该是比较好的了,网上很容易就下载到这本书,不给是jpg图片格式版的,有140M,图片版打印出来效果非常不好,而且不便查找,所以本人把这本书OCR处理成了WORD文档版的了,以方便广大学习者,我的母语是西南官话,四川话成渝片,我在学习粤语的过程中发现其实四川话虽然是官话,但是还是有少少和粤语相近的,比如:四川话中也有「一啲啲」,但不多。我觉得粤语非常有特色,现在我看粤语电影我能听懂九成了,也许粤语电影很多是所谓的「煲冬瓜」吧,因此就很容易听懂,就相当于普通话拼音换成粤语拼音。我觉得「煲冬瓜」也挺好,也比普通话拼音好嘛。好了,说了这么多的废话。下面的附件呢就是文件的一部分,由于文件还在整理当中,里面有好的错误,我不是说原作者犯的错误,其实原作者很严谨。是软件OCR识别过程中所出的错误。我可能还要花一个月时间,因为,我是个完美主义者,我还要参考《广州话正音字典》正字正音呢,这都是巨花时间的!此WORD文档我是用WPS2009编辑的,大家最好用wps打开啦。因为office打开显示不出unicode超大字符集里面的部分文字,显示不出的,我已经用红色字体标出了!敬请大家期待后续发表。

地道广州话(正体版)样板.rar

81.9 KB, 下載次數: 526

評分

1

查看全部評分

發表於 2010-5-11 22:56:51 | 顯示全部樓層
這東西不錯,鼓勵一下。
建議用(新)細明體/標楷體,微軟正黑仔(體)麻麻地。
 樓主| 發表於 2010-5-11 23:39:48 | 顯示全部樓層
我就钟意微软正黑体,因为打印出来效果好很多,字体可用自己改的嘛。
發表於 2010-5-20 16:29:18 | 顯示全部樓層
唔该~
 樓主| 發表於 2010-5-21 00:06:06 | 顯示全部樓層
我把《广州话正音字典》也顺便整理出来了。虽然这本书有80万字,但涉及纯广州话的也就2万多字。到时我一并发上来供大家享用。因为我是穷鬼嘛,所以要卖30文粤币,大家不介意吧。
發表於 2010-5-26 12:08:16 | 顯示全部樓層
咩叫OCR???
 樓主| 發表於 2010-5-26 23:49:21 | 顯示全部樓層
ocr係乜英文单词嘅缩写我都唔知喎!反正就係用软件识别图片里嘅文字,然后转变文本文件,噉我哋就可以修改嘞。你用百度搜索下了解得更清楚。而家识别中文最犀利嘅软件居然係鬼佬编嘅。自己搜呢啲软件喇!
 樓主| 發表於 2010-5-27 14:59:14 | 顯示全部樓層
我用的这个软件。Nuance.OmniPage.Professional.v17.0.MULTiLANGUAGE-SUBSTANCE
 樓主| 發表於 2010-5-27 15:11:52 | 顯示全部樓層
http://www.52z.com/soft/22314.html
下载地址泰比光学OCR识别软件(ABBYY FineReader ) V10.0.102.95ProfessionalEdition
 樓主| 發表於 2010-5-27 16:26:15 | 顯示全部樓層
本帖最後由 dert112233 於 2010-5-27 16:28 編輯

泰比光学OCR识别软件(ABBYY FineReader ) V10.0.102.95ProfessionalEdition這個軟件我剛剛下載下來用了,比Nuance.OmniPage.Professional.v17.0.MULTiLANGUAGE-SUBSTANCE識別能力更強,也就是說,它應該是目前世界上最強的中文識別軟件,居然能識別很多生僻字。但是這個軟件非常消耗內存,沒有2G的內存,運行起來夠嗆。目前的中文OCR軟件沒有一個能趕上這兩個的,有興趣的試一下吧。
發表於 2010-6-6 06:37:39 | 顯示全部樓層
本帖最後由 TsuNT(♂) 於 2010-6-6 06:46 編輯

1)頭先想送分,系統提示送唔倒,顯示"24小時評價數超過限制,請修改"
2) 我都無乜嘢分,不過好鼓勵樓主所做, 我經已從另一貼中下載咗你嘅本詞典PDF, 如有其他詞典\字典,都好希望上傳,不過唔好賣咁貴啊, 好多新手都需要,不過就 新手無乜嘢分,
3) 建議樓主,建立一個集貼,  可以 以網址方式 指向你嘅其他貼, 例如,  "http://~~~, 貼題=~~"
    因為 對於關注你嘅人嘅講, 限於論壇功能,唔可以睇到,你總共發咗幾個貼,
4) 順便提一下, 本人嘅上傳貼 之 集貼, 可參見以下, 供樓主及其他人參考,
     " http://bbs.cantonese.asia/viewthread.php?tid=23892&extra= 樓主=TsuNT(♂),題=[會員專欄] 本人如有上傳均存於此,先上傳'節版廣州音字典.txt'
發表於 2010-6-6 21:06:35 | 顯示全部樓層
回覆 6# 小承

Optical Character Recognition

by the way, 樓主用甚麼OCR軟件?
 樓主| 發表於 2010-6-6 23:06:47 | 顯示全部樓層
泰比光学OCR识别软件(ABBYY FineReader ) V10.0.102.95ProfessionalEdition和Nuance.OmniPage.Professional.v17.0.MULTiLANGUAGE-SUBSTANCE交替用,哪个对某个特定的图片识别好就用哪个,一般是泰比光学OCR识别软件(ABBYY FineReader ) V10.0.102.95ProfessionalEdition较好。
發表於 2010-6-12 17:31:46 | 顯示全部樓層
多谢分享哦~
發表於 2010-8-5 09:50:35 | 顯示全部樓層
我也是四川的哎 想学粤语,但看了一些粤语版的电视剧和节目之类,还是没什么提高,它说慢一点才能懂一些,更不用说亲口说了,所以想请教一下你是怎么学的啊,谢谢
 樓主| 發表於 2010-8-6 12:26:58 | 顯示全部樓層
樓上,請等我改天上粵語學習心得
發表於 2010-8-10 06:14:35 | 顯示全部樓層
樓上,請等我改天上粵語學習心得
dert112233 發表於 2010-8-6 12:26

------樓主, 曾聽聞你鷹語都好唔錯,  照你嘅睇法,
1) 身為中原人仕, 學邊種語言容易D (排序) : 鷹語 \ 日語 \ 粵語
2) 身為粵語區人, 學邊種語言容易D (排序) : 鷹語 \ 日語
 樓主| 發表於 2010-8-12 09:38:10 | 顯示全部樓層
------樓主, 曾聽聞你鷹語都好唔錯,  照你嘅睇法,
1) 身為中原人仕, 學邊種語言容易D (排序) : 鷹語 \ 日 ...
TsuNT(♂) 發表於 2010-8-10 06:14


我認為從易到難是
    中原人士:粵語\英語\日語
   粵語人士:英語\日語
您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

Archiver|手機版|粵語協會

GMT+8, 2024-12-23 06:46 , Processed in 0.062740 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回復 返回頂部 返回列表