找回密碼
 註冊

QQ登錄

只需一步,快速開始

搜索
熱搜: 活動 交友 discuz
樓主: penkyamp

[粵語拼音] Penkyamp 输入软件设想及工作相关贴

[複製鏈接]
 樓主| 發表於 2010-1-15 16:00:17 | 顯示全部樓層
http://www.cojak.org/index.php?function=bgn_index

Cojak

Mandarin Male Given Name Index



Cojak 选名汉字大库,目前只有汉语拼音注音。  我希望以后会逐渐加入 广东话penkyamp 注音。


 樓主| 發表於 2010-1-15 16:03:36 | 顯示全部樓層
http://bbs.cantonese.asia/viewthread.php?tid=18432&extra=page%3D1&page=1

廣東拼音 單字及詞語 輸入法 (劉錫祥 方案)-繁體版(Trad. Chinese and English Win2000/WinXP/Vista/Win7)


希望发展 刘锡祥 -- penkyamp 转换版本


http://en.wikipedia.org/wiki/Intelligent_Input_Bus
IBUS


基於IBus的「中州韻」拼音輸入平台,可打粵拼。
http://zime.googlecode.com/


另外佛振可否把 penkyamp 的下载文件公布在 ZIME 主页,和 其他拼音一起?



[ 本帖最後由 penkyamp 於 2010-1-16 10:48 編輯 ]
發表於 2010-1-15 21:18:46 | 顯示全部樓層
Plume.js 2.0 今日發佈,更動主要是內部實現機制,和方案製作有關聯。
http://zime.googlecode.com/files/plume-2.0.zip
在使用上和 1.1 版沒有太大區別。只不過,如今的Penkyamp方案與粵拼方案共用一部辭典,所以打包在一個文件內:
http://zime.googlecode.com/files/plume-2.0-data-jyutping.zip

如果不需要自己修改、製作輸入方案,可以暫不必更新。
 樓主| 發表於 2010-1-16 10:04:55 | 顯示全部樓層
想冒昧问下,如果我下载最新 penkyamp 输入版本,目前我具备如下自定义功能了吗?

1。 自己加入 ge 的 ye 东西 hay 是 tonk 和  等  「训读基本字词库第一表」

2。实现 安 on - ngon 等字零声母与 ng 声母兼容

3。实现 penkyamp 93 版与 penkyamp 08 版 段前圆唇韵母  ot-eot, ont-eont, oy-eoy 兼容

4。打入每个 penkyamp 音节,不但显示这个音节对应的汉字,而且显示这个音节对应的所有加了调号的拉丁形式,比如说打入  pankjeleongnganyeubagbeywagcinsawbatnankfong (凭这两眼与百臂或千手不能防) , 通过回键选定,可以最终选出显示不是汉字,而是一行带调号的拉丁: Pank jé leóng ngán yeú bâg bêy wàg cïn sãw bätnank fong。我想决定哪里空格断词比较困难,干脆就每音节都断:
Pank jé leóng ngán yeú bâg bêy wàg cïn sãw bät nank fong

5。打入每个音节或音节组,当显示出汉字或汉字词选项时,选项首页可以通过上箭号到达一个叫做「最后一页完毕」的无信息页,然后再通过上箭号到达有汉字词选项的末页。

这些自设计功能,我这个外行可以下载了最新输入版本,就开始加入自己想加入的字库,并编排兼容程序,还是必须由设计者闭源改编?


發表於 2010-1-16 11:12:07 | 顯示全部樓層

0. 这些自设计功能,我这个外行可以下载了最新输入版本,就开始加入自己想加入的字库,并编排兼容程序,还是必须由设计者闭源改编?

佛振製作此款輸入平台的目的就是為讓拼寫法的設計者可以快速實現新的輸入方案。
平台本身不包含具體的輸入法。目前提供下載的輸入方案皆為為讓用戶體驗平台的實用效果而編譯好的測試方案。
若要製作自己的輸入方案,可從ZIME網站取得現有方案的原始檔(文本格式),編輯後再用平台提供的工具重新編譯(輸入方案的數據部份)。前面寫過一個做法的說明,現今方案定義文件的格式略有變動,我會抽時間再寫。
至於輸入法程式部份,已經可以做到對不同類型輸入方案的兼容,直接使用下載的軟件包即可。當然,如果有特殊需求,也可以改編此程式。本品為開源軟件,所有程式碼可由 zime.googlecode.com 獲取。

以下談實現功能的思路,具體做法以後再做說明。

1。 自己加入 ge 的 ye 东西 hay 是 tonk 和  等  「训读基本字词库第一表」
將自定義詞條加入詞庫文件。

2。实现 安 on - ngon 等字零声母与 ng 声母兼容
設置模糊音選項,並重新編譯方案。

3。实现 penkyamp 93 版与 penkyamp 08 版 段前圆唇韵母  ot-eot, ont-eont, oy-eoy 兼容
設置兼容拼寫選項。

4。 打入每个 penkyamp 音节,不但显示这个音节对应的汉字,而且显示这个音节对应的所有加了调号的拉丁形式,比如说打入  pankjeleongnganyeubagbeywagcinsawbatnankfong (凭这两眼与百臂或千手不能防) , 通过回键选定,可以最终选出显示不是汉字,而是一行带调号的拉丁: Pank jé leóng ngán yeú bâg bêy wàg cïn sãw bätnank fong。我想决定哪里空格断词比较困难,干脆就每音节都断:
Pank jé leóng ngán yeú bâg bêy wàg cïn sãw bät nank fong
輸出標調音節,需要由用戶輸入聲調。可採取音節後置數字或其他符號的辦法,由程式轉換為加符字母。相應地,可採用標注了聲調的字詞庫,取得更準確的選詞結果。目前有個「標調拼音」方案,採用了這種技術。輸入完拼音串後,回車打出拼音串,空格顯示漢字選項。
斷詞問題:用戶輸入過程中程式會自動在可確定的音節邊界插入空格,但有歧義的地方不斷開,如粵拼的:maangwok 可作 maan'gwok / maang'wok 二解。按Enter輸出的拼音串中,則不加空白字符,考慮到用戶往往需要取得原始輸入,譬如臨時輸入一個英文單詞,所以不宜按拼音音節來加分隔符號。

5。打入每个音节或音节组,当显示出汉字或汉字词选项时,选项首页可以通过上箭号到达一个叫做「最后一页完毕」的无信息页,然后再通过上箭号到达有汉字词选项的末页。
不太明白。
目前的用法是:輸入拼音串後,按空格顯示漢字選項,此時自動選中語句中最末一個詞(多數輸入法是由句首開始選擇),如果程式的預測符合要輸入內容,可按空格或回車使整句話上屏,也可直接輸入下文自動上屏。

[ 本帖最後由 佛振 於 2010-1-16 11:14 編輯 ]
 樓主| 發表於 2010-1-16 14:49:00 | 顯示全部樓層

中州广东话拼音为粤语界造成极大方便



我欢迎佛振以后拿 Penkyamp 作为软件继续发展的试验样本。因为我提出的几个课题,可能以后佛振要继续发展新版本,会用得上。如果佛振对以上一个话题,某天写出个别的编程,并愿意示范论坛朋友如何自己自定义,请尽情把编程编码,Screen captures 放到这个贴里。 希望于 penkyamp 有关的不断有来的软件自定义课题,能够与佛振中州软件不断互相提高,使它成为现在最方便,最开源的广东话汉字输入工具!


请佛振多在本贴发言和发表任何新成果。同时希望与 penkyamp 课题切磋取得的新成果,能够不断在 中州软件的主页第一时间发表。




[ 本帖最後由 penkyamp 於 2010-1-16 14:50 編輯 ]
發表於 2010-1-16 15:46:42 | 顯示全部樓層
在ZIME主頁已發佈 Plume.js 2.0 及 相應的粵拼、Penkyamp 輸入方案兼容數據集。
我正在嘗試寫一個在線服務,以解決本地網頁版本無法保存資料的不便。

現在還有一事可做:
審查用於粵拼和Penkyamp方案的單字表。
http://zime.googlecode.com/svn/trunk/zime-data/jyutping/jyutping-keywords.txt
由於輸入法詞庫是依此單字表進行自動拼音標注,對於多音字會產生多個結果,其中往往只有一個符合詞語的真實讀音。多音字裡有這樣的情況:
某個音屬罕用讀音,通常不用來組詞,譬如「女」有一個通「汝」的讀音便屬於罕用音。
在單字表中以漢字前置「*」標示出罕用音,以避免罕用音在詞庫中產生大量無用拼音標注,這一方面可縮減詞庫體積,一方面也使字詞選項更加精準。

這一工作需要由對粵語精通的人來完成。
 樓主| 發表於 2010-1-16 16:04:03 | 顯示全部樓層
http://zh-yue.wikipedia.org/wiki/User:Penkyamp/honji
暂存在上


如果佛振能够把上面的 jyutping 字库先转换成一个纯的 http://zime.googlecode.com/svn/trunk/zime-data/penkyamp/penkyamp-keywords.txt  , 命名为「penkyamp 汉字第一版(港语协排法), 则甚振奋人心。可以慢慢来。


我同时可以循序把 jyutping 的汉字第一版(港语协排法) 慢慢纠正为 汉字第二版(去罕读,去懒音/或加疑影兼容)  或 汉字第三版 (去罕读,去懒音/或加疑影兼容,加唔五兼容,加训读,加08兼容,)。  我根据 jyutping 第一版表 或 penkyamp 第一版表 来改进都行。

不过我相信,如果先出了 penkyamp 第一版表,很多东西以后都可以省一步。不知道佛振是否以此为然。


不过我清楚,现在香港协会方面,根据 jyutping 搞出的成果是相当多的。 我相信,一直保持 jyut-penk 互换的习惯,有利于吸收他们的新研究成果。


[ 本帖最後由 penkyamp 於 2010-1-16 16:12 編輯 ]
發表於 2010-1-16 17:10:16 | 顯示全部樓層
是這樣,罕讀的問題是無法通過程式實現、必須借助人工處理的,其他若能單純從拼式上找出規律的則可教機器自動完成轉換。
相同的工作,希望只做一次,避免重複勞動。罕讀標注要能用於與各種粵語拼寫方案才好。所以標注過程中為閱讀方便可用基於Penkyamp拼寫法的字表,但佛振建議最終把標注結果整理到粵拼字表中,由各種拼寫法共享。

發表於 2010-1-16 18:04:42 | 顯示全部樓層
已在 zime-data 中添加了一個工具 translate-keywords.py,用於生成方案中拼寫運算的結果拼式與原拼式及漢字的對照表。可據此檢查拼寫運算結果是否正確。

用它生成的Penkyamp-粵拼-漢字對照表:
http://zime.googlecode.com/svn/trunk/zime-data/jyutping/penkyamp-keyword-mapping.txt
發表於 2010-1-16 21:20:13 | 顯示全部樓層
支持呀!
 樓主| 發表於 2010-1-17 15:39:35 | 顯示全部樓層
指出一下自动转换未完全之处:

http://zime.googlecode.com/svn/trunk/zime-data/jyutping/penkyamp-keyword-mapping.txt
里面,我发现
kua	kwaa	骻
kwant kwan 悃
其实在 penkyamp 1993 版里,介音 w 统一用 u 字母表示, 在 1993 版中不进行 w u 兼容。 因此 1993 版里,kua 骻 为正确,kwant 悃 为错误,应为 kuant 悃

penkyamp 2008 版中,除了 ont, ot, oy 韵母改成 eont, eot, eoy, 介音 u 则统一改成 w , 仅此而已。

请问对 1993 版(或2008 版) 的统一性(或兼容性)有无特别有利于科学便捷化的见解。 我现在手写,打字,习惯,仍用 1993 版。1993 版自身已经比较统一。 2008 版还有我的第三个提交建议(不过不一定采纳),也就是 将 1993 版中的 eo, eu 统一改成 oe, ue, 以方便将 1993 版中的 eau, uenk, ued 统一改成 eu, wenk, wed。 但考虑到第三建议可能造成 1993 版和 2008 版不能严密一一对应,所以暂时只考虑头两个改革,而先搁置第三建议,等 2008 版能够成为成熟的系统后,再考虑第三改革,使其变成比较迥异于 1993 版(原 Penkyamp) 的另外版本。
因此就目前两版来看,这两版都是能一一对应,而且自身都比较统一的。 我仍然认为介音 u 是比 w 更加美观。


再者,请问佛振有无 jyutping-penkyamp 互换工具可以提供,比如说是浏览器为基础的工具,可以让我复制粘贴一个带有 jyutping 的宏大文件,一按「转换」键,即时把文件中所有拉丁成分转换成 penkyamp 字码,并随时可复制出 一个完全按原文件顺序的 penkyamp 版宏大文件?

[ 本帖最後由 penkyamp 於 2010-1-17 15:44 編輯 ]
發表於 2010-1-17 16:01:55 | 顯示全部樓層
出現形如 gw*, kw*, z* 的拼式是因為打開了 gu-gw, j-z 兼容選項,以致有以上聲母的字在結果中出現兩次。

已修正生成對照表的工具。對照表也更新了,除去了多餘的對應項。(兼容拼寫形式在輸入法中依然有效。)
http://zime.googlecode.com/svn/trunk/zime-data/jyutping/penkyamp-keyword-mapping.txt
發表於 2010-1-17 16:09:47 | 顯示全部樓層

編碼轉換工具

瀏覽器處理大文件的能力較差。我是用腳本來做的。

下載此Python腳本:
http://zime.googlecode.com/svn/trunk/zime-data/translate-keywords.py

下載或編輯數據文件:
http://zime.googlecode.com/svn/trunk/zime-data/jyutping/jyutping-keywords.txt
http://zime.googlecode.com/svn/trunk/zime-data/jyutping/Penkyamp.txt
與腳本共置於同一目錄下。

使用 Windows 作業系統請自行安裝 Python 2.6

在終端裡執行:
python translate-keyword.py Penkyamp.txt > output.txt

output.txt 即所求。
 樓主| 發表於 2010-1-17 16:28:45 | 顯示全部樓層
原帖由 佛振 於 2010-1-17 16:01 發表 出現形如 gw*, kw*, z* 的拼式是因為打開了 gu-gw, j-z 兼容選項,以致有以上聲母的字在結果中出現兩次。已修正生成對照表的工具。對照表也更新了,除去了多餘的對應項。(兼容拼寫形式在輸入法中依然有效。)http://zime.go ...



有这个解释,我就明白了。
其实以后如果 2008 版渐渐发展成成熟,并与 1993 版迥异的版本,有兼容两版的能力,或许是件很好的事情。当然,信息量可能会庞大一半。 但是像很多跨国语言,比如说荷兰-比利时的尼德兰语,美英的英语,德-奥-瑞的德语等,能有文字处理上的兼容性,是几国人都很庆幸的事情。1993 版当如是A国文字,2008版当是B国文字,这同一文字系统,能有一定兼容性,自由选择性,改革演变性,但不失系统性,统一性,那这一系统将来的表达能力将是甚大于完全不能容忍微细变异的完全僵化的系统的。 乔叟-莎士比亚时代英语,江户-明治时代日语的文字,都有这种「兼容演变」的特征,但它们同时并不是简陋短命的「暂时音标」,而以其演变的历史版本永存于世界语文之库。




[ 本帖最後由 penkyamp 於 2010-1-17 16:35 編輯 ]
發表於 2010-1-17 16:35:32 | 顯示全部樓層
不會導致「信息量庞大一半」。
只需借助ZIME的拼寫運算機制來定義兼容的拼寫法,不需要在單字表中修改或增加條目。
事實上目前的Penkyamp輸入方案並沒有任何單字的定義,是完全採用粵拼的單字表實現的。
 樓主| 發表於 2010-1-17 16:44:29 | 顯示全部樓層

我想,penkyamp 未来单字定义的任务很简单:

1)penkyamp 的 「曰」字按康熙字典和南海私塾读音写作 yeod , jyutping 目前写作 joek (违反了古韵),待改
2)penkyamp 将加入 a) 「只猪睡到獦 geod 4 獦 geod 2 声」的 geod 4 , 和 b) 「只葵鼠饿到啩 gued 1 啩 gued 1 声」的 gued 1
3) 逐步增加「广东话训读字库」,做到「打拉丁打口语,汉字输出自动成现代汉语」的理想方便境界,比如说打入 fant (瞓)字,输出「睡」字

第三个任务我可以专门开一贴子,用几个月时间将训读字库搜集并归类好,力求系统并方面自动处理。 请指教可行性。


==========

训读「字」有些却是单字。但有些已经具备词的性质。比如说你打一个 mat , 应该显示出两个字的单词字----「什么」。 你再打一个 mat ye , 也应该显示出这同一个单词字---「什么」,然后, 更好玩的是,同一个 mat ye , 同时也应该显示出 mat 和 ye 的一个复合形式: 「什么 东西」, 因为 mat 是「什么」,ye 是 「东西」

再举个例子,不过这个不需要太较真: 你打一个复合penkyamp 双音节词 nigo , 可以显示 「这」。 你打一个拼音单音节,也可以显示 「这」, 更好玩的是,你打上面的双音节 penkymap 复合词 ni go , 也可以显示一个复合汉字词 「这  个」,因为 ni 是「这」,go 是「个」。

这种复杂的训读字词关系,对日本假名训读输入汉字的软件编辑者,甚至是日本教育界的正字专家来说,是小菜一碟的东西。但是对我们其他汉字国家的人来说,是一个处女地课程。

我在国外,可以自如进入 appspot.com   。 有什么任务,请尽管吩咐我。 还可以吩咐其他在香港的坛友。


[ 本帖最後由 penkyamp 於 2010-1-17 17:11 編輯 ]
發表於 2010-1-17 17:00:10 | 顯示全部樓層
「訓讀」可否參與構詞?
按現今的處理方式,「單字」會用於推導詞語的讀音,除非標示以罕讀符號 *,但罕讀會使字頻自動歸零。
如果「訓讀」的字不能用於類推,應直接添加到詞庫中而非單字表中。

發句牢騷,appspot.com 總不能順暢訪問,使我開發在線輸入法十分艱難。
http://zime-plume.appspot.com/static/testing/Plume.html
 樓主| 發表於 2010-1-17 17:01:06 | 顯示全部樓層

Xiss: 也斯(梁秉钧诗集)

Xiss, 下面是我搜集的香港诗人也斯(梁秉钧)的诗集。
我希望制作一个 blog, 将 Penkyamp 版的也斯诗选贴上,作为范文。


http://bbs.cantonese.asia/viewthread.php?tid=20567&extra=page%3D1&frombbs=1

香港伟大诗人 也斯 (梁秉钧)


發表於 2010-1-23 23:38:03 | 顯示全部樓層
我放假了。

一起來開發吧。

想問問佛教,ZIME到底是一項怎樣的程序?目前對Penkyampji方面的開發到了什么程度?以后方向是怎樣的?
您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

Archiver|手機版|粵語協會

GMT+8, 2024-11-21 18:58 , Processed in 0.067252 second(s), 18 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回復 返回頂部 返回列表