找回密碼
 註冊

QQ登錄

只需一步,快速開始

搜索
熱搜: 活動 交友 discuz
樓主: dert112233

[其它] 剛剛ocr的《實用廣州話分類詞典》的樣本,大家看看怎麼樣

[複製鏈接]
發表於 2010-6-27 01:55:12 | 顯示全部樓層
<地道>檢較, 我先核至 第 38/376頁
 樓主| 發表於 2010-6-27 11:55:27 | 顯示全部樓層
楼上唔紧要,我这版整理后还得打上香港粤拼,因为原书的国际音标根本没人能看得懂拼得出,还任重道远。
發表於 2010-6-27 13:11:00 | 顯示全部樓層
楼上唔紧要,我这版整理后还得打上香港粤拼,因为原书的国际音标根本没人能看得懂拼得出,还任重道远。 ...
dert112233 發表於 2010-6-27 11:55

-------建議保留原書音標, 而你嘅"粵拼"以 附加形式附上, 以盡量不滅失信息,


另外,正準備檢至第48/376頁,至50頁後再發給你,   (詞條格式已更新,將部分參考"朗文英語分類詞典"之詞條格式)
 樓主| 發表於 2010-6-27 15:34:18 | 顯示全部樓層
我觉得原书的音标标的粤拼是错的,所以我不会保持原状,但会参考之,且书上的音标不能通过键盘打入粤语字。我新打上去的香港拼音绝对不会乱来的,我会以香港粤语审音网和汉典网上的粤音为准。
發表於 2010-6-27 16:35:59 | 顯示全部樓層
本帖最後由 TsuNT(♂) 於 2010-6-27 17:20 編輯
我觉得原书的音标标的粤拼是错的,所以我不会保持原状,但会参考之,且书上的音标不能通过键盘打入粤语字。 ...
dert112233 發表於 2010-6-27 15:34

-----
一係咁樣好喇,界時,   將未刪去原音標嘅文件 與你 修改後嘅文件, 各發一份,好掛
  我嘅目標系, 第一任務系 "不要滅失原作信息".(包括原作好可能系錯誤嘅地方 )        之後,才是以"他人或自己檢較修改本"作為 "自己應用標準"

    我系咁樣認為嘅:
                        盡管自己對前人努力有異議, 都應該盡可能保持原貌,  
                           (況且,仲未確定,自己系咪理解前人嘅意圖, 更未確定,前人嘅努力是否對後人有幫助,)
                           (各人或自己 另字 附加修改意見,係另一回事)
    至於他人或自己是否採用前人嘅結果,   再由 他人或自己 自行決定,


    目前已有粵拼輸入法,   以及 書中不是按照粵拼輸入法 來音標,  
           並不代表"粵拼輸入法"就是 完美,       不代表, 僅僅需要存在"粵拼輸入法"此一種
           舊一套音標 或者對於其他人 更有參考價值,




    相當於,本人認為, 理想的歷史工作者,  
                          不應預設立場, 附加自己意見 嵌入到史書中,  
                          而應該 不偏不倚地 記錄事件,  
                          自己如果有自己意見,應以'附注"的形式存在,


-------
    上綱上線 咁講, "四舊"對於 汶革時代嘅當時睇法 系 無用\廢物\無價值 嘅,  但原則上並不代表,就可以刪除delete,  
          將其壓縮打包, 封存, 才是對待 '(有價值或不確定價值) 歷史遺產' 嘅上策,
發表於 2010-6-27 16:43:14 | 顯示全部樓層
本帖最後由 TsuNT(♂) 於 2010-6-27 17:07 編輯

我会以香港粤语审音网和汉典网上的粤音为准
-------
我嘅態度系, 盡可能並列有代表性嘅方案, (已成書嘅方案,無論 現時是否應用廣泛 , 均應作為'東道主"自動 取得 "世界盃入場券")

以"史記\資治通鑒"為例(假設, 如果到咗某個朝代, 編輯者A認為 某D字句應刪,換成某D字句 (嵌入 後輩A 的意見 入新書中,而不是以明顯附注 的形式存在,)
     再下一朝代, 編輯者B在此基礎上 再嵌入 後後輩B 的意見
     咁樣嘅話, 已失原藉風味,

     前人無電腦,無法以 "明顯附注"的形式 存在,  今人已有電腦, "另行明顯附注(在句末或文章末)" 已無技術問題,
 樓主| 發表於 2010-6-27 18:57:48 | 顯示全部樓層
主要是我用的软件识别不了国际音标,打上去很不方便且要多用很多时间,我认为原书有错是原书上的声母dgztkc全都是tkc,叫人分不清声音到底是送气的还是不送气的。其实中意原版看图片版就行了,我的确觉得原书标音对绝大多数人无阶值。我整理的是word文档,大家都可以在自己的基础上编辑各取所需,我时间真的有限,只能尽量先做些更重要的事。网上流行的粤拼都是香港拼音,目前这个就是国际标准,我只能先随主流。原文文字我99.9没变。有些类推简字打不出我用的繁体字。
發表於 2010-6-27 19:19:46 | 顯示全部樓層
本帖最後由 TsuNT(♂) 於 2010-6-27 19:36 編輯

咁又系, 文字(及'義')系首位嘅,
睇嚟我誤會咗,
   我仲以為系  "機器識別 會一齊識別音標,而樓主希望 植入\嵌入 新音標,刪除舊音標",
   原來都仲有技術問題 及"精力 效果 比例 ----性價比" 響度,
如果系我,我都會以"文字 及 義"為主, 再有多餘精力 先至盡量 顧及/保留 原書音標,

////////////////////////////////////
原文文字我99.9没变
-----
原書文字唔系唔可以喐,   
   而係在"保留原字"嘅基礎上,明顯增加各人備注,
     (各人都可以提出修改意見,各人亦都可以盡量'取眾所長')


關於此點,之前發予樓主嘅郵件DOC文件, 體現咗呢點,
   遺憾 未能 全部 詳細說明,相信樓主亦都可以 睇出大概,
   特別系搜索 "[書頁結"      , (頁碼編號)] 從 30+頁至最尾 第49頁
      前部分嘅"舊 詞條格式",將在大概完成後,更正成 "新 詞條格式",


如果樓主有更佳嘅詞條格式, 或者 本人"新詞條格式"仲有邊D缺點,  歡迎一齊完善,
 樓主| 發表於 2010-6-27 19:56:15 | 顯示全部樓層
本帖最後由 dert112233 於 2010-6-27 19:59 編輯

我觉得先按原书整理好些,目前可供参考的书还有点少,我把网上能下载到的粤语词典图片电子书全整理成word文档后再按一种好的格式整成一本像《现代汉语词典》那样的粤语词典也不迟。但这个整理工作量就非常之大了,可能我又无能为力,我提供上这些原始材料后,相信真正愿意为推广粤语做贡献的人会做这方面的工作的。
發表於 2010-6-27 21:10:55 | 顯示全部樓層
本帖最後由 TsuNT(♂) 於 2010-6-27 21:31 編輯

由於所有程序軟件,都支持文字編程             (可以取得以 '字' 為單位嘅元素 進行 機器編輯)
              只要能變成 DOC等文字文件,      排序呢D唔系問題,

刪除某個人(例如TS本人) 嘅注解, 返回到原書狀態,  亦都唔系問題, 程序可以輕易做到,
          合並所有人  嘅注解總和,亦都唔系問題, 程序亦都可以做到,

一旦基本完成粵語詞典 嘅文字集合, 本人將放更多精力在 (閱讀\理解)英文上,          (盡管本人對英文一知半解)
///////////////////////////////////////////////////////////
而對某些詞條, 各人見解可能不一,(主要基於各人 現實圈子範圍),
       從而,有D人會未聽過某釋義,從而認為 該詞條\釋義 不存在, 或者表示懷疑,
                有D人聽過某釋義, 但因為其他人對該圈子了解不多, 而該釋義難以通過,


故, 本人覺得,   對某一詞條, 有限數人嘅 釋義 之集合 並存, 系一個方法,  (並注明作者)
           (包括情況: 對同一個詞條, 可能詞典A與詞典B 釋義 也會 不盡相同, )
           (況且, 能收錄入詞典的,都系經過刷選嘅, 未能 盡可能的完全反映 現存粵語 嘅真實總集)


對某詞條嘅不同 解釋\理解\描述, 讀者可根據各自想法去接受某一種,  
           (大致上,應該出入不會太大,只是 "釋義用字有待斟酌" 之類的 微觀 )
 樓主| 發表於 2010-6-27 23:15:15 | 顯示全部樓層
几本书的最后整理工作就请楼上完成,我没那方面的软件知识。多谢!
發表於 2010-6-28 02:04:06 | 顯示全部樓層
遲D, 我再寫個功能程式予樓主參考
 樓主| 發表於 2010-6-28 08:48:13 | 顯示全部樓層
好的,是word宏吗?
發表於 2010-6-28 14:31:46 | 顯示全部樓層
本帖最後由 TsuNT(♂) 於 2010-6-28 14:46 編輯

我多用 EXCEL-VBA(即EXCEL宏) \ Word-VBA(即WORD宏) \ VB6
不過,能夠用DOS-BAT執行嘅 就先用 BAT文件
你都可以按下圖嚟做
圖片1
未命名01.JPG

圖片2
未命名002.JPG

圖片3 003.JPG
------
注明:會喪失 (數量極少嘅) unicode字 嘅信息,  可以打開TXT文件後 ,搜索 字符"??" 逐只更改,
 樓主| 發表於 2010-6-28 15:17:01 | 顯示全部樓層
我有兴趣研究一下office的宏,dos命令我知道一些。Word文档保持成unicode的txt排版就乱得很。
發表於 2010-6-28 15:30:24 | 顯示全部樓層
我有兴趣研究一下office的宏,dos命令我知道一些。
--------
你可以打開WORD\EXCEL 後,按 <Alt + F11>進入VBE(宏的編輯介面),
    再按<F1>,睇下佢嘅幫助文件, 我都系咁樣睇番嚟嘅


Word文档保持成unicode的txt排版就乱得很
--------
唔會啊, 點會呢, 有無截屏? 睇下
有可能系: 你Word中,你分成兩欄,  我覺得分成兩欄/三欄,唔多好
發表於 2010-7-1 08:05:27 | 顯示全部樓層
1)  http://cid-fee2df8108d26863.office.live.com/browse.aspx/.Public   TS嘅網盤
     內有-已收集粵語資料, 及本人BAT形式工具(查粵.rar--查粵詞.bat)
2)  http://cid-fee2df8108d26863.offi ... %9F%A5%E7%B2%B5.rar   "查粵.rar "

         rem /////////////////////////////////////////////
         rem /// 第一次使用方法: <win + R>鍵 --> 輸入'c:\查粵\查 鬼馬"(假設想查'鬼馬"呢個詞) ---> 回車鍵 -->          等陣就會自動彈出文件搜索結果
         rem ///        第2~N次使用方法: <win + R>鍵 --> 輸入'查 鬼馬"(假設想查'鬼馬"呢個詞) ---> 回車鍵 -->等陣就會自動彈出文件搜索結果
...
         rem /////////////////////////////////////////////
         rem 例子 及 說明
         rem /////////////////////////////////////////////
         rem /// <win + R>鍵 --> 輸入'查 馬 ' //查 '馬'字嘅 粵拼發音
         rem /// <win + R>鍵 --> 輸入'查 馬 ' //查 '馬'字嘅 意義 及相關鷹語表達(待)
         rem /// <win + R>鍵 --> 輸入'查 maa ' //查 粵拼 'maa' 音標嘅 同音字
         rem /// <win + R>鍵 --> 輸入'查 鬼馬 ' //查 '鬼馬' 粵詞嘅 意義 及 相應詞組,
         rem /// <win + R>鍵 --> 輸入'查 機靈 ' //查 '機靈' 相關意思嘅 粵詞表達


         rem /// <win + R>鍵 --> 輸入'查 clever ' //查 鷹語'clever' 相關意思嘅 粵詞表達 (待)
 樓主| 發表於 2010-7-4 19:42:56 | 顯示全部樓層
报告进度:整理了370页/456页,250,600余字
 樓主| 發表於 2010-7-9 12:47:10 | 顯示全部樓層
这本书已经整理完成,不过还有拼音未打上,打上就传上来。
發表於 2010-7-9 14:03:19 | 顯示全部樓層
您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

Archiver|手機版|粵語協會

GMT+8, 2024-5-22 11:08 , Processed in 0.065102 second(s), 20 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回復 返回頂部 返回列表