kumkee 發表於 2008-6-14 12:36:28

粵協《粵語字打法大全》html版及其自动生成脚本(已完成)

<h2>一、html文件</h2>
  《粵語字打法大全(2007賀歲版)》已寫成有分頁嘅html文件。最新版壓縮為canchars.727.rar。
新版更新咗粵協嘅新域名,修改咗「喼」解析文字内嘅格式错误,同埋跟进咗声母列表响Firefox3嘅显示混乱。<br><br>
<h2>二、自动生成html文件嘅脚本</h2>
  为方便日后大家参与《大全》修改同添加新内容嘅工作,本人已完成由原始表格自动生成html嘅脚本。<br>
  脚本压缩成scripts.727.rar。内含2007贺岁版嘅txt原始表格文件。<br>
  脚本使用嘅係<a href="http://www.gnu.org/software/gawk/manual/gawk.html">awk语言</a>,linux或苹果mac机用户可响解压后嘅目录底下直接执行make命令嚟生成canchars.html。<br>
  Windows用户就要借助<a href="http://www.cygwin.cn/">Cygwin</a>嚟运行<a href="http://www.gnu.org/software/gawk/manual/gawk.html">awk</a>同<a href="http://www.gnu.org/software/make/">make</a>。Cygwin嘅普通安装设置就应该会有呢两个工具。<br>
  由于时间仓卒,未能嚟得及写详细解释脚本嘅comment,或者会响下一版补上。如有朋友有兴趣自己修改同执行脚本,可同我联系。<br><br>
<h2>三、txt原始表格文件</h2>
  txt原始表格係畀大家机会共同贡献《大全》嘅关键。日后大家修改或增加《大全》嘅内容,就只需对txt文件进行修改,然后执行脚本就可以生成新版嘅《大全》html。txt原始表格由声母分类命名,共21个,独立压缩喺txt.727.rar(scripts.727.rar内已包含)方便无兴趣自己执行脚本嘅朋友单嬲。<br>
  兹以P声母嘅原始表格p.txt为例,解释一下点样修改呢啲txt文件:
<pre>p P聲母
粵字 粵拼 同音字 紫光拼音 全拼 五筆 倉頡 簡略解釋與例子
坺 paat6 / ba ba fdcy gikk/gike 堆、團,通常指糊狀物:一~牛屎(一堆牛糞),一~奶油
奅 paau3 炮 pao pao dqtb khhl 車大~(說大話騙人)、大~佬(專說大話的人)
擗 pek6 / pi bo/pi rnku qsrj 扔:~咗啲爛嘢(把破爛東西扔掉)、~炮唔撈(扔下槍不幹,指警察辭職不干)
樖 po1 / ke ke wgkk omrr/ordmr 量詞,「株」、「棵」:一~樹(一棵樹),一~菜(一棵菜)
浮 pou4 蒲 fu fu iebg ebnd 【1】出現,露面:~頭(露面) 【2】混,玩:今晚去邊~?(今晚去哪裡混?)、最近好少去~。(最近很少出去玩了)
</pre>
解释:
<ul type="1">
<li>txt表格入面第一行嘅两个项分别係该声母嘅标记同名称,唔改得(除非你发现粤语有新声母啦<img src="./images/smilies/default/biggrin.gif" smilieid="3" alt=":D" border="0">)。第二行为各栋嘅标题,可增减。
</li><li>html里面嘅每一个格,响txt入面係用一个或以上嘅空格(或者&lt;tab&gt;)隔开(「簡略解釋與例子」一栏除外)。所以好似「擗」字噉一种输入法有两种打法嘅字,两个打法中间就唔可以留空格啦(「bo / pi」要写成「bo/pi」)。
</li><li>html「簡略解釋與例子」一栏入面嘅换行,响txt里面就用一个或以上嘅空格(或者&lt;tab&gt;)嚟表示。例如「浮」字嘅【1】同【2】之间噉。
</li><li>txt每一个换行代表html嘅一个粵字内容(即一个粵字一行)。所以唔可以喺同一个粵字嘅内容之间用换行(&lt;return&gt;)。
</li></ul>
如果您想贡献《大全》嘅内容,为咗方便其他人生成html表格,请按上面原则填写提交。<br><br>

<h2>四、建议及未来计划</h2>
  由于有部分网友嘅浏览器显示唔到某啲字,亦有朋友唔识睇粵拼,所以我有以下建议:
<ul type="1">
<li>表格嘅粵字一栏用图片代替,或者独立新增加一栏叫「粵字圖片」之类嘅。图片来源有现成<a href="http://unicode.org/charts/unihan.html">unihan</a>(例如:<img src="http://www.unicode.org/cgi-bin/refglyph?24-22D29" alt="" border="0">)或者<a href="http://www.chinalanguage.com/">汉字字典</a>(例如:<img src="http://www.chinalanguage.com/cgi-bin/char.cgi?22D29" alt="" border="0">)提供。</li>
<li>对于唔识睇粵拼嘅朋友,我建议响表格嘅「粵拼」一栏加入《审音配词字库》嘅发音链接。</li>
<li>我重计划用cjk latex做一个自带字体且含超链嘅pdf版《大全》,噉就算读者所用嘅电脑冇大字库或字体,只要可以打开pdf文件就可以睇到晒所有字。而且pdf文件方便珍藏。</li>
</ul>
  以上嘅建议同计划实唔实施要睇大家嘅反应,如果大家觉得呢D建议冇乜作用,或者有人反对改变《大全》面目嘅,我就唔会进行。一切依民意行事。<br><br>
<h2>备注</h2>
  本文只讨论《大全》嘅格式同负责跟进其抄写错误。如果您对《大全》嘅具体内容有任何增删改意见,请到:<a href="http://bbs.cantonese.asia/viewthread.php?tid=4134&amp;extra=page%3D1" target="_blank">http://bbs.cantonese.asia/viewthread.php?tid=4134&amp;extra=page%3D1</a>。<br>

[ 本帖最後由 kumkee 於 2008-9-23 22:01 編輯 ]

dada 發表於 2008-6-14 15:26:18

<FONT face=Arial>kumkee</FONT>真係好有心。支持你嘅計劃。

顺德水蛇粥 發表於 2008-6-14 18:39:21

<P>好有建设性,已经下载咗第一版。</P>

highyun 發表於 2008-6-15 14:12:05

<P>多謝kumkee先!</P>
<P>希望喺09年春節前可以出個賀歲版,希望可以得到你嘅協助。</P>

kumkee 發表於 2008-6-16 10:19:49

完成

<br>写咗shell脚本自动生成表格所需嘅html代码,最终版本终于完成啦。<br>
脚本我会公开,揾日得闲会将所有脚本文件上传。<br>
完成版地址:<br>
http://kumkee.axspace.com/canchars.html <br>
或 <br>
http://kumkee.814e.com/canchars.html <br>
大家得闲嘅话检查一下错漏。

Yuok 發表於 2008-6-16 10:51:18

熱情燃燒

  衷心期望Kumkee對粵語粵文化嘅熱情同貢獻持續不間斷,粵協最需要薪火相傳永不熄滅嘅發展。

僆仔 發表於 2008-6-16 20:22:17

有好嘢,当然要来顶一嘢<IMG alt="" src="http://bbs.cantonese.asia/images/smilies/default/handshake.gif" border=0 smilieid="17">

殺人王 發表於 2008-6-16 20:31:15

<P>第一個貌似唔用代理上唔到</P>

kumkee 發表於 2008-6-17 10:12:15

<size=2><quote>原帖由 <i>Yuok</i> 於 2008-6-16 10:51 發表 <a href="http://bbs.cantonese.asia/redirect.php?goto=findpost&amp;pid=86525&amp;ptid=10620" target="_blank"><img src="http://bbs.cantonese.asia/images/common/back.gif" onclick="zoom(this)" onload="attachimg(this, 'load')" alt="" border="0"></a></size>
  衷心期望Kumkee對粵語粵文化嘅熱情同貢獻持續不間斷,粵協最需要薪火相傳永不熄滅嘅發展。 </quote><br><br>
哈,我都怕自己会「热度退减」所以先可以迫自己咁快完成到。我亦会尽快将脚本整理好发表,噉第日《大全》有新内容,就算我唔响其他人都可以用脚本生成新版嘅分页html版本。

kumkee 發表於 2008-6-17 10:25:20

原帖由 <i>殺人王</i> 於 2008-6-16 20:31 發表 <a href="http://bbs.cantonese.asia/redirect.php?goto=findpost&amp;pid=86709&amp;ptid=10620" target="_blank"><img src="http://bbs.cantonese.asia/images/common/back.gif" onclick="zoom(this)" onload="attachimg(this, 'load')" alt="" border="0"></a>
第一個貌似唔用代理上唔到 <br>
我都发觉国内去唔到第一个,所以我先申请咗第二个地址。两个係原完一样嘅。我亦压缩上传咗上论坛(响顶楼可下载canchars.617.rar)。

外外星人 發表於 2008-6-17 11:41:10

楼主,继续努力!

XIAOYU 發表於 2008-6-19 11:40:04

<P>我想問下,系&nbsp; "dam2"低&nbsp;&nbsp; 定&nbsp;&nbsp;&nbsp; "dan2"低呢</P>

dada 發表於 2008-6-19 16:26:06

<P>原帖由 <I>XIAOYU</I> 於 2008-6-19 11:40 發表 <A href="http://bbs.cantonese.asia/redirect.php?goto=findpost&amp;pid=87317&amp;ptid=10620" target=_blank><IMG onclick=zoom(this) alt="" src="http://bbs.cantonese.asia/images/common/back.gif" onload="attachimg(this, 'load')" border=0></A> 我想問下,系&nbsp; "dam2"低&nbsp;&nbsp; 定&nbsp;&nbsp;&nbsp; "dan2"低呢 </P>
<P>係dan2低﹐冇錯。</P>
<P><BR>「喎(㖞)」個「㖞」字﹐中文視窗用Simsun可能冇問題﹐法文視窗就有困難。</P>
<P>&nbsp;</P>
<P>一、用 IE+Unicode睇唔到﹕「喎( )」﹔</P>
<P>&nbsp;</P>
<P>二、用Firefox睇到嘅係「喎(<IMG src="http://www.mojikyo.gr.jp/gif/044/044308.gif" border=0>)」﹔</P>
<P><BR></P>
<P>&nbsp;</P>
<P>三、複製到 BabelPad﹐用 MingLiu 顯示「喎(<IMG src="http://www.mojikyo.gr.jp/gif/044/044308.gif" border=0>)」﹐用 Simsun 顯示「喎(㖞)」。</P>
<P><BR>關鍵可能係原則上U+E81F屬於PUA私用區﹐提議改用比較普遍嘅U+359E﹕</P>
<P><A href="http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=359E&amp;useutf8=false">http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=359E&amp;useutf8=false</A>&nbsp;</P>

highyun 發表於 2008-6-23 23:55:39

<P>錦記製作嘅html版已經擺咗上網站。</P>
<P><A href="http://www.cantonese.asia/?action-model-name-school-itemid-5">http://www.cantonese.asia/?action-model-name-school-itemid-5</A></P>

外外星人 發表於 2008-6-24 01:13:56

<P>原帖由 <I>highyun</I> 於 2008-6-23 23:55 發表 <A href="http://bbs.cantonese.asia/redirect.php?goto=findpost&amp;pid=88536&amp;ptid=10620" target=_blank><IMG onclick=zoom(this) alt="" src="http://bbs.cantonese.asia/images/common/back.gif" onload="attachimg(this, 'load')" border=0></A> 錦記製作嘅html版已經擺咗上網站。 http://www.cantonese.asia/?action-model-name-school-itemid-5 </P>
<P>&nbsp;</P>
<P>学已致用,我经已修改返之前嘅帖。</P>

外外星人 發表於 2008-6-24 02:07:53

<P>我觉得个<A href="http://bbs.cantonese.asia/viewthread.php?tid=10143&amp;page=1&amp;fromuid=7215#pid80359"><FONT color=blue>厾</FONT></A>字意思未够完整。</P>
<P>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ↑</P>
<P>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 请厾入呢个网址查询!</P>

kumkee 發表於 2008-7-28 07:24:20

原帖由 <i>kumkee</i> 於 2008-6-17 10:12 發表 <a href="http://bbs.cantonese.asia/redirect.php?goto=findpost&amp;pid=86788&amp;ptid=10620" target="_blank"><img src="http://bbs.cantonese.asia/images/common/back.gif" onclick="zoom(this)" onload="attachimg(this, 'load')" alt="" border="0"></a> ... 我亦会尽快将脚本整理好发表 ...
<br>
终于有时间同精力整理好晒脚本。<br>
我重提咗几条建议,请睇顶楼。<br>

kumkee 發表於 2008-7-28 07:44:38

原帖由 <i>dada</i> 於 2008-6-19 16:26 發表 <a href="http://bbs.cantonese.asia/redirect.php?goto=findpost&amp;pid=87368&amp;ptid=10620" target="_blank"><img src="http://bbs.cantonese.asia/images/common/back.gif" onclick="zoom(this)" onload="attachimg(this, 'load')" alt="" border="0"></a>

係dan2低﹐冇錯。
「喎(㖞)」個「㖞」字﹐中文視窗用Simsun可能冇問題﹐法文視窗就有困難。

一、用 IE+Unicode睇唔到﹕「喎( )」﹔

二、用Firefox睇到嘅係「喎()」﹔
5845

三、複製到 BabelPad﹐用 MingLiu ... <br><br>
一开始留意唔到你嘅第三点添,我会将佢改成359E咖啦。好多谢你提出嚟嘅呢个问题同解决方案。728版已采用。

[ 本帖最後由 kumkee 於 2008-7-28 20:58 編輯 ]

天平水 發表於 2010-7-16 11:39:09

好啊,支持!
頁: [1]
查看完整版本: 粵協《粵語字打法大全》html版及其自动生成脚本(已完成)