設為首頁收藏本站

粵語協會

 找回密碼
 註冊

QQ登錄

只需一步,快速開始

掃一掃,訪問微社區

搜索
熱搜: 活動 交友 discuz
樓主: dert112233

[粵語教程] 《地道廣州話用語》圖片版轉word版和pdf版,歡迎下載

[複製鏈接]
 樓主| 發表於 2010-6-6 19:39:39 | 顯示全部樓層
下一步我就要OCR《實用廣州話分類詞典》(麥耕 譚步雲 編著 廣東人民出版社 1997年8月第1版),这本书有30万余字,搞好就更累人,只要大家学得开心,我辛苦点都无所谓啦!估计要两个月才能出来,因为我只有周末才有两天时间,平时每天只能抽查两三个小时,这次我用aabby fine reader,这个软件比我上次用的软件好些,能识别基本上所以粤语字,我上一个软件不能识别粤语字,「嚟」、「啱」、「嘢」 、「咗」这些常用字都是我打上去的,费了很多力,这次就会轻松些了,不过量就大一倍了,不过我觉这本书用粤语举的实例很多,对初学者更有用。
發表於 2010-6-7 04:59:17 | 顯示全部樓層
本帖最後由 TsuNT(♂) 於 2010-6-7 05:23 編輯
由于粤语不是我的母语,所以我改着较吃力,即使有的地方改错了也不知道,我主要是根据原书和网络文章修改, ...
dert112233 發表於 2010-6-6 19:21

-------支持, 完成之后,會髮上嚟,  如果系我嘅話, 仲會注明"XX詞典(TS較正版V1).doc"
如果其他人在樓主基礎上較正,也請注明"XX詞典(XX較正版V1).doc"
如果其他人在本人基礎上再較正, 煩請改文件成 "XX詞典(TS較v1 + XX較v1).doc" ...如此類推,
   對於某人修改之處可於 該 句末,打個標籖, 例如, "[XX人]" (注: 顏色 僅 於此處容易顯示, 如有可能,可在DOC上標色,否則亦無傷大雅)
  (文件 : XX詞典(樓主版V1).doc:    當佢有嚟★①根本不把他的話放在心上②不把他放在眼裡。
  (文件 : XX詞典(樓主版V1 + TS較正版v1).doc:    當佢嚟★①根本不把他的話放在心上②不把他放在眼裡。[TS]
  (文件 : XX詞典(樓主版V1 + TS較v1+KK較v1).doc:    當佢嚟★①根本不把他的話放在心上②不把他放在眼裡。[TS][KK]同義詞:當佢無到
  (文件 : XX詞典(樓主版V1+TS較v1+KK較v1+TS較v2).doc:    當佢嚟★①根本不把他的話放在心上②不把他放在眼裡。[TS][KK]同義詞:當佢無到,[TS]\當佢透明\當佢唱歌\當佢發e瘋

咁樣嘅話, 就不容易亂, 且對於任何人 都可以取用任一版本DOC, 再附加自己嘅較正, 唔會喪失 任何人嘅努力, 而每人所得,均是 各人之全集,


--------
至於排序, 如果可能,按原文(指原書)順序 可能更佳(更易對比原書較正),     
    如果已非原書順序, 都問題不大,
發表於 2010-6-7 05:01:24 | 顯示全部樓層
下一步我就要OCR《實用廣州話分類詞典》(麥耕 譚步雲 編著 廣東人民出版社 1997年8月第1版),这本书有30 ...
dert112233 發表於 2010-6-6 19:39

-------------------《實用廣州話分類詞典》....好啊, 期待中...
發表於 2010-6-7 05:13:59 | 顯示全部樓層
本帖最後由 TsuNT(♂) 於 2010-6-7 05:34 編輯

------該網頁 打開不便, 需逐張打開, 本人擬 全部逐張 下載 后,上傳於 SkyDrive網絡硬盤,再供各位下載, (初步估計,需 200K*195張 = 40MB空間)
本人使用嘅 "檢較環境" = 兩台電腦 (其中一台,使用'ACD See 2.5'全屏顯示JPG, 另一台, 打開 DOC並全屏顯示)
發表於 2010-6-7 10:02:45 | 顯示全部樓層
本帖最後由 TsuNT(♂) 於 2010-6-7 10:03 編輯

-------已將195個JPG集結成一個Rar文件,(44MB),放于http://cid-fee2df8108d26863.skydrive.live.com/browse.aspx/.Public
地道廣州話用語(05羊晚)001_封面頁.jpg
地道廣州話用語(05羊晚)005_目錄頁01.jpg
地道廣州話用語(05羊晚)007_正文頁001.jpg
地道廣州話用語(05羊晚)008_正文頁002.jpg
地道廣州話用語(05羊晚)195_正文頁376.jpg
發表於 2010-6-7 10:43:21 | 顯示全部樓層
对了,本书的笔画排序是按简体字排的,对正体字没效。
dert112233 發表於 2010-6-6 19:25

-------正式文本,我都系中意 繁體多D,  (非正式文本,簡繁體 隨意)
 樓主| 發表於 2010-6-7 13:14:44 | 顯示全部樓層
兄台的裝備好高級啊,兩臺電腦的檢較環境,我就只有一臺電腦了,搞得手忙腳亂!兄台這樣效率一定高很多。我正在加緊整理《實用廣州話分類詞典》,這次的軟件識別好些,不會有那麼多錯誤了。
發表於 2010-6-7 13:23:53 | 顯示全部樓層
本帖最後由 TsuNT(♂) 於 2010-6-7 13:25 編輯

兄台的裝備好高級啊,兩臺電腦的檢較環境,我就只有一臺電腦了,搞得手忙腳亂!兄台這樣效率一定高很多。我 ...
dert112233 發表於 2010-6-7 13:14

------見笑,兩部垃圾機, 都系 CPU 1.3G,    256M內存,  硬盤 =10G~~20G, 二手市場, 1000蚊/套,都有啦
我兩台加埋起身 都未比得上你一台, 做D複雜嘢就做唔倒喇


 樓主| 發表於 2010-6-7 13:25:40 | 顯示全部樓層
TsuNT(♂) 認真是一個擅長organize的人。頂你
 樓主| 發表於 2010-6-7 13:30:40 | 顯示全部樓層
我原來用的軟件根本就不能識別粵語用字,把「冇」全識別成「有」,一不小心,就漏改到,我現在用泰比光学OCR识别软件(ABBYY FineReader ) V10.0.102.95ProfessionalEdition就不會出這樣的錯誤了。
發表於 2010-6-7 13:31:46 | 顯示全部樓層
TsuNT(♂) 認真是一個擅長organize的人。頂你
dert112233 發表於 2010-6-7 13:25

------

共同研究研究, 取長補短,

你搵到呢D   OCR軟件,我都好佩服你,贊一個,

 樓主| 發表於 2010-6-7 13:53:07 | 顯示全部樓層
------見笑,兩部垃圾機, 都系 CPU 1.3G,    256M內存,  硬盤 =10G~~20G, 二手市場, 1000蚊/套,都有啦
我兩 ...
TsuNT(♂) 發表於 2010-6-7 13:23



你是在哪裡買的,這種配置我們這裡不到500文一套。我其實也有兩套電腦,現在用的新電腦,那一套電腦是我升級留下的,差個顯示器,就沒管它。我佩服你的熱心和激情!其實文字處理電腦不用太高的配置。
發表於 2010-6-7 14:18:28 | 顯示全部樓層
你是在哪裡買的,這種配置我們這裡不到500文一套。我其實也有兩套電腦,現在用的新電腦,那一套電腦是我 ...
dert112233 發表於 2010-6-7 13:53

-------我其中一台電腦(主機,上述配置,無顯示器),  約三年前買嘅,當時(主機)250蚊,  而二手17寸 CRT顯示, 亦250蚊左右,
如果要稍好D電腦, 二手電腦市場450蚊主機(連鍵盤鼠標), + 400~600蚊 19寸(可能系17寸,唔記得咗),  夾埋起身, 1000蚊有找

不過依家(現時刻),做較對,使用嘅系 一台電腦(17寸彩顯), 其 桌面 截圖,已發你郵箱 (發咗兩次,都無回信回執,應該發咗羅掛),
 樓主| 發表於 2010-6-7 14:33:33 | 顯示全部樓層
泰比光学OCR识别软件(ABBYY FineReader ) V10.0.102.95ProfessionalEdition是個非常好的軟件,你不妨也試試,它的ABBYY Screenshot Reader支持抓圖識別,就像QQ抓圖軟件一樣,它可以把你抓的圖片中的文字識別出來。我太愛這個軟件了,相見恨晚。我現在工作中都常用它處理圖片,我用N95拍照,識別相當好,能達到百分之99識別。這個軟件最強大的是即使圖片里的文字格式很亂,但只要能識別的,它都能一字不漏地識別下來,其他軟件就不行,就會識別出一堆亂碼。我以前都沒想整理《實用廣州話分類詞典》,因為其他軟件都是一堆亂碼,唯獨ABBYY FineReader 就能達到半分之90,由於遇到TsuNT(♂) 這樣的熱心人,給了我更多的動力,我一定會為粵語傳播做更多貢獻的。
 樓主| 發表於 2010-6-7 14:36:38 | 顯示全部樓層
回覆 33# TsuNT(♂)

我馬上去郵箱裏看看
 樓主| 發表於 2010-6-7 14:41:13 | 顯示全部樓層
由於我的顯示器不是寬屏的,寬屏的校對就更方便了,我也是這樣校對的,我覺得輸入法用小鴨五筆加超大字符集非常好用。打繁體出簡體遇到一簡對多繁字可以選擇。
 樓主| 發表於 2010-6-7 14:51:37 | 顯示全部樓層
電腦的配置夠好的話,用office2007加泰比光学OCR识别软件(ABBYY FineReader ) V10.0.102.95ProfessionalEdition,備用Nuance.OmniPage.Professional.v17.0.MULTiLANGUAGE-SUBSTANCE就非常好,Nuance.OmniPage.Professional對電腦要求不多高。
 樓主| 發表於 2010-6-7 14:54:09 | 顯示全部樓層
我發現在office中顯示不出的超大字庫中的字,字體設置成Sun-ExtB就能顯示
發表於 2010-6-7 15:02:25 | 顯示全部樓層
由於我的顯示器不是寬屏的,寬屏的校對就更方便了,我也是這樣校對的,我覺得輸入法用小鴨五筆加超大字符集 ...
dert112233 發表於 2010-6-7 14:41

-------
我就基本使用 "念青繁體2.05(自動 帶詞組)",   遇特殊生僻字,則轉為 "海峰五筆 (設成 不帶詞組)"
小鴨五筆,未用過,
發表於 2010-6-7 15:15:07 | 顯示全部樓層
本帖最後由 TsuNT(♂) 於 2010-6-7 15:20 編輯
我發現在office中顯示不出的超大字庫中的字,字體設置成Sun-ExtB就能顯示
dert112233 發表於 2010-6-7 14:54

-------
我使用Office2000,
Word2000中,可以顯示   兩字,
     而EXCEL2000就顯示唔倒     (特別系 后字),  設成多種字體都5得, 包括"sun-extA\B" 及帶 "unicode"字樣嘅字體
5知你得唔得, 你嘅Office版本如何?

本帖子中包含更多資源

您需要 登錄 才可以下載或查看,沒有帳號?註冊

x
您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

粵語協會官方網站
網友發帖之言論,純屬個人意見,與本會立場無關

手機版|Archiver|粵語協會    

GMT+8, 2021-10-18 10:29 , Processed in 0.219756 second(s), 24 queries .

Copyright © 2003 - 2021 Cantonese Association. All Rights Reserved. 粵語協會 版權所有

快速回復 返回頂部 返回列表