南粤高凉仔 發表於 2007-10-15 13:29:43

粤语是一种可以与汉语并列的独立语言吗?

近年来有人主张粤语是一种可以与汉语并列的独立语言,其主要的依据即是粤语与普通话词汇的相同率很低。并且因此认为粤语、闽语和吴语是汉语族群中独立的三种语言,汉语只包括三种方言,即官话、赣语和湘语(李敬忠,1990年)。笔者对他的统计方法和由此得出的结论一直存疑至今。<BR><BR>对方言间词汇接近率的计量研究,曾有过下述三种方法。<BR><BR>第一,语言年代学(glottochronology)方法<BR><BR>日本学者王育德1960年发表用语言年代学方法研究汉语五大方言接近率及其分化年代的成果。王育德所使用的统计工作包括两部分。第一部分是比较二百个基本词汇在各方言中的异同数,所用的方法即是算术统计法。计算结果共同率最高的是北京话和苏州话,达73.47%,最低的是北京话和厦门话,为51.56%,北京话和广州话的接近率为70.77%。第二部分根据M.Swadesh提出的计算公式,计算五大方言分化的年代。<BR><BR>第二,相关系数统计法<BR><BR>这种方法是郑锦全于1973年最早提出来的。他用「皮尔逊相关」和「非加权平均系联法」来计算不同<BR><BR>方言的字音和词汇的亲疏程度,同时提供方言分区的方法。参加比较的词目供905条。词汇相关度计算结果,北京和苏州为.2891,北京和广州为.2401。在相关系数统计结果的基础上,再做聚类分析。<BR><BR>&nbsp; &nbsp;王士元和沈钟伟于1992年撰文批评郑锦全的方法在语言学上和计算上的不合理性,提出在汉语方言分类上,计算的基本单位应该是语素,而不是词。他们进一步完善了相关系数统计法和聚类分析法。并且对吴语内部三十三个地点方言词汇的亲疏关系进行计量研究。<BR><BR>第三,算术统计法<BR><BR>这种方法将不同方言的词汇的同或异,用加减法进行统计,从而以百分比计算接近率。詹伯慧和张日升<BR><BR>曾根据他们所编《珠江三角洲方言词汇对照》(广东人民出版社,1988年)的材料,比较北京话和粤语词汇的接近率。参加比较的词汇有1001个,两者相同的只有140多个,仅占10.4%。此后李敬忠又根据另三种方言词典的材料统计,这三种词典所收词汇的数量分别为5623个、5078个和8000多个,结果北京话和广州话词汇的接近率分别为21.5%、23.1%和1.78%。 &nbsp; &nbsp;<BR><BR>王育德和詹伯慧等人所使用的方法都是算术统计法,但是所得结果相差甚远。粤语与普通话的接近率,按王育德的计算高至0.77%,按詹伯慧等人的计算最高仅为23.1%。两者相差竞达47个百分比。其中的原因显然是两者参加比较的词汇的数量不同,王育德所用是两百个基本词汇,詹伯慧等人所用的词汇则有一千个至八千个。可见基本词汇相同率较高,一般词汇相同率较低。一般说来,基本词汇在语言中出现的频率较高,一般词汇则较低,因此也可以说词频较高的词汇相同率较高,词频较低的词汇相同率较低。看起来词频在方言接近率的计量研究中是非常重要的因素。<BR><BR>郑锦全的相关系数统计法利用计算机,处理庞大的方言资料,对多达18种方言之间的亲疏程度,用树形图作出直观而细密的描写。显然,相关系数统计法比算术统计法要精密和合理得多。不过它也有两个主要的缺点,一是没有考虑词频这个重要的因素;二是比较词汇异同,只考虑词形异同,并不顾及词内部词根或中心语素的异同。如「太阳」和「日头」词形不同,两者的相同率为0;「太阳」和「太阳佛」词形不同,两者的相同率也为0。实际上「太阳佛」的中心语素跟「太阳」完全相同,将两者的相同率也当作0来处理是不合理的。上述算术统计法也有这两个缺点。王士元和沈钟伟采用语素而不是词作为计算的基本单位,是一大进步,但是他们并未考虑不同种类的语素对方言亲疏关系的重要性是不同的,例如「阿爹」(爷爷)中的「阿」其重要性显然不如「爹」。<BR><BR>本文试图改进上述统计方法,以广州话、上海话和普通话为例,提出方言间词汇接近率计量研究的新方法。这个新方法有以下三个特点:<BR><BR>1 用加权(weight)法统计不同方言词汇的异同,以词频作为权数。<BR><BR>2 以中心语素为基准比较词汇的异同,分级加权统计。<BR><BR>3 多人次测验方言词汇的口语可懂度。<BR><BR>本文所用词频数据见北京语言学院语言教学研究所编《现代汉语词频词典》(北京语言学院出版社,1986年)。<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; 二 &nbsp;粤语和普通话之间书面语词汇异同加权统计<BR><BR>&nbsp;<BR><BR>1 &nbsp;词汇材料来源<BR><BR>&nbsp; &nbsp;普通话(北京话)和粤语书面语词汇材料取自北大中文系语言学教研室编《汉语方言词汇》(第二<BR><BR>版,语文出版社,1995年)。参加比较的词汇,包括少数词组,共1230条。我们用Microsoft &nbsp;Access &nbsp;做了一个小型语料库,内容是上述1230 条北京话词汇,包括每条词汇的序号、词目、分组编号和词频。这个语料库或数据库的名称是like_word_table 。 样张见文末表一。所有词汇按词义或词性分为天文、地理;时间节令;介词、连词等37类。文末表二列出类目(即词汇组名称)及各词汇组的组频率。<BR><BR>&nbsp; &nbsp;2 &nbsp;如何确定权数<BR><BR>我们采用下述两种权数。<BR><BR>2.1 词频权数<BR><BR>&nbsp; &nbsp;在一种方言里,有的词汇常用,有的不常用,使用频率不同的词汇对于方言之间的词汇接近率的重要性是不同的。换句话说,词频对词汇接近率的计量统计应该是很重要的参数。所以我们将以词频为基础的词汇组组频率作为权数。我们把一种方言里的所有词汇及其频率看作是一个系统,而不是单个不同的词的简单相加。在我们的词汇表中,列在表上的每一组的词汇都经过挑选的,它们是这一组所有词汇(包括未列在表上的)的代表。词汇组的组频率即是以这些词汇为基础计算出来的。所以将词汇组的组频率作为权数更能体现词汇的系统性。<BR><BR>2.2 语素重要性权数<BR><BR>单音节词中的语素负载这个词的全部语义和信息,语素重要性自然最大,权数也自然最大。<BR><BR>双音节词除了联绵词以外,是由两个语素(morpheme)组成的。前后两个语素,就所提供的信息而言,有的相等,即同义复词,如「休息」;有的重要性不相等,例如「老虎」的全部语义信息在后一语素,前一语素「老」只有语法意义,而不含「老虎」的词汇意义。「逃跑」的信息重心则在前一语素,后一语素「跑」只含有附加的语义。所以我们以语素为加权的基本单位,又从语义、信息的角度出发判定语素的重要性。<BR><BR>在不同方言双音节词汇比较中,很多情况是两者可能只有一个语素是相同的,而另一个语素所提供的信息量不同。接近率的高低即由后一语素决定。例如"老虎"和「虎」的接近率比「逃跑」和「逃」的接近率高。因为「老」没有语义价值,而「跑」带有附加的语义。这就是说,双音节词内部的不同语素对词汇接近率的重要性是不同的。所以我们对双音节词内部重要性不同的语素,给予不同的权数。<BR><BR>我们根据上述原则给这一千多个词汇分类并按权数大小的顺序排列如下,每类各举两个例子:<BR><BR>a单音节词:头、嘴<BR><BR>由一个语素组成一个词,这个语素负载这个词的全部词义和信息。权数应最大。<BR><BR>b双音节单纯词:垃圾、蝙蝠<BR><BR>此类是双音节单语素的联绵词,一般不会分割使用。权数大小应跟单音节词相同。<BR><BR>c 双音节叠音词:星星、常常<BR><BR>&nbsp;由前后两个相同的语素合成,各负载这个词的一半词义和信息。在方言里往往不用叠音。权数应比a、b类小。<BR><BR>d词根(root)+词缀(fix):<BR><BR>&nbsp;前加:老虎、老鼠<BR><BR>&nbsp;词义和信息的中心在后一语素。<BR><BR>&nbsp;后加:绳子、枣儿<BR><BR>&nbsp;词义和信息的中心在前一语素。<BR><BR>&nbsp;此类词在有的方言里不加词缀。权数应比c类小。<BR><BR>&nbsp; &nbsp;e中心语素(head)+附注语素(modifier):<BR><BR>&nbsp; &nbsp; &nbsp;后注:月亮、露水、雷公<BR><BR>&nbsp; &nbsp; &nbsp;词义和信息的中心在前一语素。非中心语素的重要性比d类大。<BR><BR>&nbsp; &nbsp; &nbsp;前注:颜色、风景、女婿<BR><BR>&nbsp; &nbsp; &nbsp;词义和信息的中心在后一语素。非中心语素的重要性比d类大。<BR><BR>此类词中的中心语素在词义上是自足的,在古汉语或现代某些方言里常单用中心语素。权数应比d类小。<BR><BR>&nbsp; &nbsp;f人称代词+们:我们、他们<BR><BR>&nbsp;词义和信息的中心在前一语素。非中心语素的重要性比e类大。<BR><BR>&nbsp; &nbsp; &nbsp;方言之间的差别主要是表示复数的后一语素。此类权数应比e类小。<BR><BR>&nbsp; &nbsp;g物主代词+的:我的、你的<BR><BR>&nbsp; &nbsp; &nbsp;词义和信息的中心在前一语素。非中心语素的重要性比e类大。<BR><BR>&nbsp; &nbsp; &nbsp;方言之间的差别主要是表示领属的后一语素。此类权数应比e类小。<BR><BR>h一般复合词:上午、扁担<BR><BR>&nbsp;词义和信息由前后两个语素共同负载。缺一不可。<BR><BR>&nbsp;权数应比h类小。<BR><BR>&nbsp; &nbsp;i 动宾式短语:点灯、种地<BR><BR>&nbsp;词义和信息由前后两个语素共同负载。缺一不可。<BR><BR>&nbsp;权数应跟h类相同。<BR><BR>&nbsp; &nbsp;以上各类应加权数大小依次为:a=b&gt;c&gt;d&gt;e&gt;f=g&gt;h=I,即:<BR><BR>&nbsp; &nbsp; &nbsp;a:0.9 =b:0.9 &gt;c:0.8 &gt;d:0.7 &gt;e:0.6 &gt;f:0.5 =g:0.5 &gt;h:0.4 =I:0.4<BR><BR>3 &nbsp;计算步骤和公式<BR><BR>&nbsp; &nbsp;3.1建立数据库<BR><BR>&nbsp; &nbsp; &nbsp; word_rate _table &nbsp;词频表(包括词汇编号、词汇、词频三列)。见文末表三。<BR><BR>&nbsp; &nbsp; &nbsp; like_word _table &nbsp;词汇表(包括词汇、所属词汇组编号、词频三列)。见文末表一。<BR><BR>&nbsp; &nbsp; &nbsp; class_name _table &nbsp;词汇组表(包括词汇组代号、词汇组名称、词汇组组频率三列)。 &nbsp; <BR><BR>&nbsp; &nbsp; &nbsp; 见文末表二。<BR><BR>&nbsp; &nbsp;3.2 查词频<BR><BR>&nbsp; &nbsp; &nbsp; 从word_rate _table中查找like_word_table中每个词的词频。<BR><BR>&nbsp; &nbsp;3.3计算词汇组频率<BR><BR>&nbsp; &nbsp;计算每一个词汇组中词频的平均数,以此作为该词汇组的组频率。<BR><BR>&nbsp; &nbsp;3.4 制作pg_data_ table &nbsp;普通话和广东话的词汇接近率资料表。见文末表四。<BR><BR>&nbsp; &nbsp;表上有各类词汇代号、各类词汇的相同数和不同数、按语素分类的相似词汇数、各类词汇的总数。若参与比较的两个词分属两类,则以普通话为标准。 &nbsp; <BR><BR>&nbsp; &nbsp;3.5 加权计算<BR><BR>&nbsp; &nbsp;3.5.1 词汇组频率加权<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 公式:<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Pn=(D1F1+D2F2+……D37F37)\(N1F1+N2F2+……+N37F37)<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Pn分别表示相同的词汇、不同的词汇、各类相似的词汇出现的概率<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Dn表示每个词汇组中相同(不同或各类相似词)词汇的数量。<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Nn表示每个词汇组中所有词汇的数量。<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Fn表示每个词汇组的组频率。<BR><BR>&nbsp; &nbsp;3.5.2 语素加权<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;公式:P=P0+P1*0+P2*0.9+P3*0.9+P4*0.8+P5*0.7+P6*0.6<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;+P7*0.5+P8*0.5+P9*0.4+P10*0.4<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;说明:P0为相同词的概率<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;P1为不同词的概率<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;P2单音节词的概率<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;P3双音节单纯词的概率<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;P4 双音节叠音词的概率<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;P5「词根+词缀的概率」<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;P6「中心语素+附注语素」的概率<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;P7「人称代词+们」的概率<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;P8「物主代词+的」概率<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;P9一般复合词的概率<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;P10动宾式短语的概率<BR><BR>&nbsp; &nbsp;4 &nbsp;计算结果<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P0 &nbsp; &nbsp;.3739<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P1 &nbsp; &nbsp;.4265<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P2 &nbsp; &nbsp;.0019<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P3 &nbsp; &nbsp;.0009<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P4 &nbsp; &nbsp;.0001<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P5 &nbsp; &nbsp;.0197<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P6 &nbsp; &nbsp;.079<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P7 &nbsp; &nbsp;.0245<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P8 &nbsp; &nbsp;.030<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P9 &nbsp; &nbsp;.87 &nbsp; &nbsp; &nbsp;<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P10 &nbsp; .0142<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp;<BR><BR>&nbsp; &nbsp; Ppg = 0.4824 &nbsp; <BR><BR>&nbsp;普通话和广东话的词汇接近率为0.4824。 &nbsp; &nbsp;<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; <BR><BR>&nbsp; &nbsp; &nbsp; &nbsp;三 &nbsp;上海话和普通话之间书面语词汇接近率加权统计<BR><BR>&nbsp;<BR><BR>1 &nbsp;词汇材料来源<BR><BR>普通话词汇材料来源已见第二节。<BR><BR>&nbsp; &nbsp;上海话词汇材料由本文作者之一杨蓓(上海人)提供。<BR><BR>2 &nbsp;如何确定权数 &nbsp; &nbsp; &nbsp; &nbsp; <BR><BR>参见第二节。<BR><BR>3 &nbsp;计算步骤和公式<BR><BR>&nbsp; &nbsp;制作ps_data_table &nbsp;上海话和普通话的词汇接近率资料表。见文末表五。<BR><BR>&nbsp; &nbsp;余见第二节。<BR><BR>4 &nbsp;计算结果<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P0 &nbsp; .5517<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P1 &nbsp; .2802<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P2 &nbsp; .0094<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P3 &nbsp; 0<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P4 &nbsp; .0005<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P5 &nbsp; .0044<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P6 &nbsp; .0895<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P7 &nbsp; 0<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P8 &nbsp; .0122<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P9 &nbsp; .0413 &nbsp; &nbsp; &nbsp;<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P10 &nbsp;.0131<BR><BR>&nbsp;<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; Pps = 0.6488<BR><BR>&nbsp; &nbsp;上海话和普通话之间书面语词汇接近率为0.6488。<BR><BR><BR><BR>&nbsp; &nbsp; &nbsp;四 &nbsp;粤语和上海话之间书面语词汇接近率加权统计<BR><BR>&nbsp;<BR><BR>1 &nbsp;词汇材料来源<BR><BR>普通话词汇材料来源已见第二节。<BR><BR>&nbsp; &nbsp;上海话词汇材料来源已见第三节。<BR><BR>2 &nbsp;如何确定权数 &nbsp; &nbsp; &nbsp; &nbsp;<BR><BR>&nbsp; &nbsp;3 &nbsp;计算步骤和公式<BR><BR>制作gs_data _table &nbsp;上海话和广东话的词汇接近率资料表。见文末表六。<BR><BR>余见第二节。<BR><BR>4 &nbsp; &nbsp; &nbsp; &nbsp; 计算结果<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P0 &nbsp; .3385<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P1 &nbsp; .5152<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P2 &nbsp; .077<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P3 &nbsp; .002<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P4 &nbsp; .0012<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P5 &nbsp; .0058<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P6 &nbsp; .0781<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P7 &nbsp; 0<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P8 &nbsp; 0061<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P9 &nbsp; .0249 &nbsp; &nbsp; &nbsp;<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; P10 &nbsp;.0219<BR><BR>&nbsp;<BR><BR>&nbsp; &nbsp; Pgs = 0.41926<BR><BR>粤语和上海话之间书面语词汇接近率为0.41926。<BR><BR>5 &nbsp; &nbsp; &nbsp; &nbsp; 北京话、广州话、上海话之间书面语素接近率一览表<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 北京 &nbsp; &nbsp; &nbsp; &nbsp;广州 &nbsp; &nbsp; &nbsp; 上海<BR><BR>&nbsp;<BR><BR>北京 &nbsp; 1 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0.4824 &nbsp; &nbsp; 0.6488<BR><BR>&nbsp;<BR><BR>广州 &nbsp; 0.4824 &nbsp; &nbsp; &nbsp; &nbsp;1 &nbsp; &nbsp; &nbsp; 0.41296<BR><BR>&nbsp;<BR><BR>&nbsp; &nbsp;上海 &nbsp; 0.6488 &nbsp; &nbsp; &nbsp; 0.41926 &nbsp; &nbsp; &nbsp;1<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 五 &nbsp;粤语对上海话和普通话口语词汇可懂度加权统计<BR><BR>&nbsp; <BR><BR>&nbsp; &nbsp;郑锦全曾对各大方言间的可懂度进行计量研究,提出沟通度(可懂度)的计算,必须建立方言间语言成分对当的类型。再根据不同类型对沟通度的重要性不同,决定不同的权重,然后进行加权统计。他还只是对语音沟通度进行理论上的而不是实际口语上的计算。计算结果北京话对广州话的可懂度是0.475。<BR><BR>&nbsp; &nbsp;口语的可懂度(Intelligibility)应是方言之间接近率的重要标志。而词汇异同是可懂度的决定性因素,例如浙南吴语和闽语都把「翅膀」叫做「翼」,虽然语音不同,但是勉强还可以听得懂;「锅子」吴语区叫「镬」,闽语区叫「鼎」,相互间口语可懂度即等于零。听懂一句话中关键性的词语,往往也就听懂这句话的一大半。所以我们拿词汇作为计量研究的对象。<BR><BR>1 &nbsp; &nbsp; &nbsp; &nbsp; 词汇表、调查对象和调查方法<BR><BR>1.1 &nbsp; &nbsp;词汇材料采用《上海话音档》(上海教育出版社,1994年)所录常用词汇,共182个。<BR><BR>这些词汇共分十七类,类目及词汇组组频率见文末表 &nbsp;。其中第十七组是高频词,是指频率在0.5以上的词。因为每组词汇数很少,如果某组高频词略多,组频率就会增大过多,所以把高频词集中起来另列一类。<BR><BR>1.2 &nbsp; &nbsp; &nbsp; 调查对象<BR><BR>&nbsp; &nbsp;被调查人是以上海话为母语,并且会说普通话的大学一年级学生,共四十人。<BR><BR>1.3 &nbsp; &nbsp; &nbsp; 调查方法<BR><BR>&nbsp; &nbsp;先请一位以广州话为母语的发音人黄新宁将182个词分类各读三遍,同时用录音机记录。然后播放录音带,请被调查人用汉字记录听懂的词。词汇是分类播放的,每播放一类前都说明此类词的内容,例如「房舍」、「植物」等。播放录音及记录的时间共45分钟。<BR><BR>2 &nbsp;加权法、计算公式及统计结果<BR><BR>2.1建立数据库<BR><BR>&nbsp; word_rate_table &nbsp; &nbsp;词频表(包括词汇、词频两列)。见文末表三。<BR><BR>&nbsp; known_word_table &nbsp;词汇表(包括词汇、词汇组编号、词频三列)。见文末表七。<BR><BR>&nbsp; known_class_table &nbsp;词汇组表(包括词汇组名称、词汇组编号两列)。见文末表八。<BR><BR>2.2 查词频<BR><BR>&nbsp; &nbsp;从word_rate_ table中查找like_word_table中每个词的词频。<BR><BR>2.3 计算词汇组频率<BR><BR>&nbsp; &nbsp;以每一个词汇组中词频的平均数作为该词汇组的组频率。<BR><BR>2.4 制作known_ data_table 被测试者可懂度统计表。见文末表九。<BR><BR>&nbsp; 表上有四十位被测试者的编号、每人对十七类词汇的分类可懂度比例、每人对十七类词汇的综合可懂度比例。表上左端第41为每类词的总数。<BR><BR>2.5 词汇组频率加权计算<BR><BR>&nbsp; &nbsp; &nbsp; 公式:Pn=(D1F1+D2F2+……D16F16)\(N1F1+N2F2+……+N16F16)<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;其中1&lt; n&lt; 40<BR><BR>&nbsp; &nbsp; &nbsp; Pn分别表示每个被测试者所听懂的词在语言系统中的概率。<BR><BR>&nbsp; &nbsp; &nbsp; Dn表示每个被测试者所听懂的词的数量。<BR><BR>&nbsp; &nbsp; &nbsp; Nn表示每个词汇组中所有词汇的数量。<BR><BR>&nbsp; &nbsp; &nbsp; Fn表示每个词汇组的组频率。<BR><BR>2.6 平均可懂度的计算<BR><BR>&nbsp; &nbsp; &nbsp; 公式:P=(P1+P2+……+P40)\ 40<BR><BR>2.7 计算结果<BR><BR>&nbsp; &nbsp; &nbsp; P=0.67214<BR><BR>&nbsp; &nbsp;粤语对上海话和普通话口语词汇可懂度为67.215%。<BR><BR>3 &nbsp;方言间可懂度调查研究的可行性和局限性<BR><BR>&nbsp; 词汇是影响方言之间可懂度的最重要的因素。词汇相同,语音不同,有时还能听懂或勉强听懂;词汇不同,则可懂度即等于零。方言间语法的差异毕竟较小。有于词汇必须借助语音得以表达,所以口语词汇可懂度实际上已经包含语音因素。<BR><BR>笔者曾设计一种测验可懂度的方法。先选取一两千个基本词汇,按意义分成若干类别。然后由以甲种方言为母语的发音人分类读给使用乙种方言的人听。读每类词汇前,应由测试者说明词类词汇的内容,如「天气」类、「服饰」类等。因为语言在实际使用时总是有一个语言环境,听话人也会有预设,所以预先告诉听话人每类词汇的内容或范围,更接近语言实际使用时的情景。不过应注意不能给听话人更多的别的暗示,例如按顺序排列数词或人称代词。根据听话人能听懂其中多少词汇,再加以词频和语素重要性分级加权统计,即可得出可懂度的百分比。因限于条件,本文仅选用182个基本词汇用于测验。根据我们的实践,这个方法是可行的。<BR><BR>不过,上述方法虽然已经考虑到听话人的预设因素,但是毕竟没有实际的语言环境,又有同音词问题。为了克服这个缺点,可以设计一套类似「托福」(TOEFL)中的「听力综合测验」(Listening Comprehension)那样的测验题。<BR><BR>方言间口语可懂度测试的受试人在理论上应该只会说母语,没有任何别的方言、标准语或书面语知识,但是事实上很难找到理想的受试人。其结果是可懂度测试往往不能逆转,<BR><BR>例如广东话对上海人的可懂度如果是40%,那么上海话对广州人的可懂度有可能达到60%,因为广州人多少有些普通话或书面语知识,而上海话比较接近普通话或书面语。<BR><BR>&nbsp; &nbsp;本文测试广东话对上海人的可懂度,受试者是大学一年级学生,结果可懂度高达67%。如果受试者换成老年人,可懂度可能大为降低。因为近年来上海的青少年喜欢听粤语歌曲,对粤语多少有些感性认识。<BR><BR>&nbsp; <BR><BR>&nbsp;<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 六 &nbsp;结语和讨论<BR><BR>&nbsp;<BR><BR>&nbsp; &nbsp; 粤语词汇和普通话之间的接近率,按语素加权统计为48.24%;粤语词汇与普通话和上海话的接近率,按口语可懂度统计为 &nbsp;67.21%。<BR><BR>&nbsp; &nbsp; 粤语词汇和普通话的差异并没有李敬忠等人认为的那么大,但是比王育德的研究结果要大。兹将本文和各家统计方法和统计结果列表比较如下。<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; <BR><BR>&nbsp; &nbsp; &nbsp;学者 &nbsp; &nbsp; 统计方法 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 词汇数 &nbsp; &nbsp; &nbsp;统计结果 &nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp; &nbsp; 王育德 &nbsp; &nbsp;语言年代学、 &nbsp; &nbsp; &nbsp; &nbsp;200 &nbsp; &nbsp; &nbsp; &nbsp;70.77%。<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 算术统计法<BR><BR>郑锦全 &nbsp; &nbsp;皮尔逊相关法、<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 非加权平均系联法 &nbsp; &nbsp;905 &nbsp; &nbsp; &nbsp; &nbsp;.2401。<BR><BR>詹伯慧、<BR><BR>张日升 &nbsp; &nbsp;算术统计法 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;1001 &nbsp; &nbsp; &nbsp; 10.4%。<BR><BR>李敬忠a &nbsp; 算术统计法 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;5623 &nbsp; &nbsp; &nbsp; 21.5%<BR><BR>李敬忠b &nbsp; 算术统计法 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;5078 &nbsp; &nbsp; &nbsp; 23.1%<BR><BR>李敬忠c &nbsp; 算术统计法 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;8000 &nbsp; &nbsp; &nbsp; 1.78%。<BR><BR>&nbsp;本文 &nbsp; &nbsp; 语素加权 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;1230 &nbsp; &nbsp; &nbsp; 48.24%<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 口语可懂度加权 &nbsp; &nbsp; &nbsp;182 &nbsp; &nbsp; &nbsp; &nbsp;67.21%<BR><BR>&nbsp;<BR><BR>各家统计结果各不相同,相同率最高为70.77%,最低为1.78%,相差竞达69%。本文所得结果介乎两者之间。造成统计结果不同应有下述几方面的原因。<BR><BR>1 &nbsp; &nbsp; &nbsp; &nbsp; 参加比较的词汇数量不同。词汇总数越多,其中常用词汇就越少;词汇总数越其中常用词汇就越多。而常用词汇在方言之间相同的较多。<BR><BR>2 &nbsp; &nbsp; &nbsp; &nbsp; 统计时是否加权。因为不同的词在语言系统中出现的频率(即常用的程度)是不同的;不同的语素在同一个两音节以上的词中,重要性也是不同的。采用非加权统计法显然是不合理的。<BR><BR>3 &nbsp; &nbsp; &nbsp; &nbsp; 统计时是否考虑口语可懂度。方言间的词汇的接近程度,如果仅仅从词汇的书面(即字面)形式出发,那么实际上只是注重语源异同的比较,或历时的比较。口语可懂度的调查研究则是一种共时的比较。同时考虑历时和共时比较才会更合理。<BR><BR>本文还只是个案分析,本文提出的词频加权法、语素重要性加权法和口语可懂度加权法,应该可以用于所有汉语方言之间接近率的计量研究。<BR><BR>&nbsp; &nbsp;方言间的可懂度会随时间的发展而提高。两个使用不同方言的人相处,开头几星期的 &nbsp; <BR><BR>可懂度可能很低,但几个月之后,可懂度就会有所提高。提高的速率会因方言不同而有所不同,例如吴语使用者听懂粤语所需时间比听懂闽语可能要少得多。可懂度在不同的方言之间和在不同的语言之间,提高的速率会大不一样。在不同的方言之间提高得快,在不同的语言之间,提高得慢。例如官话使用者到闽语区生活,最初的可懂度可能等于零,或近乎零,但几个月后可懂度会很快上升;官话使用者到西班牙生活,最初的可<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>懂度等于零,几个月后可懂度可能依然等于零,或近乎零。对可懂度提高的速率,也应该有计量研究。<BR><BR><BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;参考文献<BR><BR><BR><BR>郑锦全 &nbsp; 1988 &nbsp;‘汉语方言亲疏关系的计量研究’ &nbsp; &nbsp; &nbsp; 中国语文 &nbsp;88.2: 87-102<BR><BR>郑锦全 &nbsp; 1994 &nbsp;‘汉语方言沟通度的计算’ &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 中国语文 &nbsp;94.1: 35-43<BR><BR>王士元 沈钟伟 1992‘方言关系的计量表述’ &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;中国语文 &nbsp;92.2: 81-92<BR><BR>马希文 &nbsp; 1988 &nbsp;‘比较方言学中的亲疏计量方法’ &nbsp; &nbsp; &nbsp; 中国语文 &nbsp;88.2: 348-360<BR><BR>陆致极 &nbsp; 1987 &nbsp;‘汉语方言间亲疏关系的计量描写’ &nbsp; &nbsp; 中国社会科学 87.1<BR><BR>杨建国 &nbsp; 1997 &nbsp;‘计算机计量研究汉语方言分区的探索’ 郑锦滨主编 汉语方言论文集<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;现代教育研究社:18-24<BR><BR>李敬忠 &nbsp; 1990 &nbsp;‘粤语是汉语族群中的独立语言’ &nbsp;第二届国际粤语研讨会论文集 &nbsp; &nbsp;<BR><BR>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;暨南大学出版社:22-29<BR><BR>王育德 &nbsp; 1960 &nbsp;‘中国五大方言の分裂年代の言语年代学的试探’ &nbsp;言语研究38<BR><BR>&nbsp;<BR><BR>附 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;表一like_word_table<BR><BR>&nbsp;<BR>词汇名称<BR>词汇代号<BR>词汇频率<BR><BR>1<BR>太阳<BR>01<BR>9.4e-03<BR><BR>2<BR>月亮<BR>01<BR>1.3e-03<BR><BR>3<BR>星星<BR>01<BR>1.3e-03<BR><BR>4<BR>银河<BR>01<BR>1.3e-03<BR><BR>5<BR>风<BR>01<BR>.01<BR><BR>6<BR>云<BR>01<BR>.01<BR><BR>7<BR>雨<BR>01<BR>.04<BR><BR>8<BR>雾<BR>01<BR>1.3e-03<BR><BR>9<BR>露水<BR>01<BR>1.3e-03<BR><BR>10<BR>霜<BR>01<BR>5.0e-03<BR><BR>11<BR>雪<BR>01<BR>.01<BR><BR>12<BR>冰<BR>01<BR>8.8e-03<BR><BR>13<BR>冰雹<BR>01<BR>1.3e-03<BR><BR>14<BR>闪电<BR>01<BR>1.3e-03<BR><BR>15<BR>雷<BR>01<BR>6.9e-03<BR><BR>16<BR>虹<BR>01<BR>1.3e-03<BR><BR>17<BR>天气<BR>01<BR>3.1e-03<BR><BR>18<BR>晴天<BR>01<BR>1.3e-03<BR><BR>19<BR>阴天<BR>01<BR>1.3e-03<BR><BR>20<BR>海<BR>01<BR>9.4e-03<BR><BR><BR>&nbsp;<BR><BR>表二class_name_table<BR><BR>词汇组代号<BR>词汇组类名<BR>词汇组类频<BR><BR>01<BR>天象、地理<BR>6.5e-03<BR><BR>02<BR>时间、节令<BR>.02<BR><BR>03<BR>矿物及其他自然物、物态<BR>4.0e-03<BR><BR>04<BR>动物<BR>2.0e-03<BR><BR>05<BR>植物、粮菜、果品<BR>1.9e-03<BR><BR>06<BR>饮食<BR>4.9e-03<BR><BR>07<BR>服饰<BR>5.0e-03<BR><BR>08<BR>房屋<BR>.01<BR><BR>09<BR>家具、日产用品<BR>3.1e-03<BR><BR>10<BR>工具、材料<BR>2.6e-03<BR><BR>11<BR>商业、邮电、交通<BR>.01<BR><BR>12<BR>文化、娱乐<BR>5.0e-03<BR><BR>13<BR>人体<BR>.01<BR><BR>14<BR>人品<BR>5.5e-03<BR><BR>15<BR>亲属称谓、社会关系<BR>7.7e-03<BR><BR>16<BR>方位<BR>6.0e-03<BR><BR>17<BR>其他<BR>.11<BR><BR>18<BR>自然变化<BR>2.4e-03<BR><BR>19<BR>五官动作<BR>.05<BR><BR>20<BR>肢体动作<BR>.02<BR><BR>21<BR>日常生活动作<BR>9.3e-03<BR><BR>22<BR>交际、事务、人事<BR>.05<BR><BR>23<BR>文化、娱乐<BR>7.9e-03<BR><BR>24<BR>生理、病理<BR>3.3e-03<BR><BR>25<BR>感受、思维<BR>.05<BR><BR>26<BR>愿望、判断<BR>.42<BR><BR>27<BR>事物情状<BR>.02<BR><BR>28<BR>事物性质<BR>.08<BR><BR>29<BR>生理感觉<BR>9.9e-03<BR><BR>30<BR>体态、容貌<BR>.02<BR><BR>31<BR>品行、行为<BR>5.4e-03<BR><BR>32<BR>感受、思维<BR>.01<BR><BR>33<BR>代词<BR>.25<BR><BR>34<BR>数词、量词<BR>.04<BR><BR>35<BR>副词<BR>.19<BR><BR>36<BR>介词<BR>.09<BR><BR>37<BR>连词<BR>.02<BR><BR><BR>&nbsp;<BR><BR>&nbsp;<BR><BR>表三word_rate_table<BR><BR>&nbsp;<BR>词名<BR>词频<BR><BR>1 <BR>的<BR>3.79 <BR><BR>2 <BR>我<BR>3.65 <BR><BR>3 <BR>你<BR>3.01 <BR><BR>4 <BR>不<BR>2.44 <BR><BR>5 <BR>了<BR>2.40 <BR><BR>6 <BR>是<BR>2.33 <BR><BR>7 <BR>这<BR>1.32 <BR><BR>8 <BR>一<BR>1.22 <BR><BR>9 <BR>就<BR>1.10 <BR><BR>10 <BR>有<BR>1.10 <BR><BR>11 <BR>他<BR>.99 <BR><BR>12 <BR>个<BR>.97 <BR><BR>13 <BR>说<BR>.95 <BR><BR>14 <BR>来<BR>.84 <BR><BR>15 <BR>好<BR>.73 <BR><BR>16 <BR>去<BR>.66 <BR><BR>17 <BR>人<BR>.66 <BR><BR>18 <BR>也<BR>.66 <BR><BR>19 <BR>着<BR>.66 <BR><BR>20 <BR>什么<BR>.62 <BR><BR>21 <BR>还<BR>.61 <BR><BR>22 <BR>您<BR>.58 <BR><BR>23 <BR>看<BR>.58 <BR><BR>24 <BR>要<BR>.57 <BR><BR>25 <BR>在<BR>.55 <BR><BR>26 <BR>都<BR>.53 <BR><BR>27 <BR>吧<BR>.53 <BR><BR>28 <BR>那<BR>.50 <BR><BR>29 <BR>我们<BR>.50 <BR><BR>30 <BR>她<BR>.47 <BR><BR>31 <BR>大<BR>.44 <BR><BR>32 <BR>没<BR>.43 <BR><BR>33 <BR>呢<BR>.42 <BR><BR>34 <BR>走<BR>.40 <BR><BR>35 <BR>怎么<BR>.39 <BR><BR>36 <BR>上<BR>.38 <BR><BR>37 <BR>把<BR>.37 <BR><BR>38 <BR>呀<BR>.36 <BR><BR>39 <BR>啦<BR>.35 &lt;/o<BR>

紫凤凰 發表於 2007-10-15 16:53:36

<P>這種方法其實十分有問題。</P>
<P>&nbsp;</P>
<P>因為並冇確切考慮到語言詞彙的變化,另外漢語並不只有普通話,完全忽略漢語其他方言。</P>
<P>&nbsp;</P>
<P>例如官話方言,目前分有八大區,並無完全取足八區來比較,另外通常不算作官話的晉語、平話並沒有算進,另外即使閩語分有閩東、閩南、閩北,並且漢語方言目前還有東幹話沒有算進。</P>
<P>&nbsp;</P>
<P>另外通話率的問題東西方學者一直抱有爭議。把西方學者的那一套搬來放在東方是不可行的。因為漢語的歷史悠久,並且中國在幾千年來經歷了不少天災人禍。情況的複雜導致不可用西方的那一套來用的。</P>
<P>&nbsp;</P>
<P>該文完全用西方的方法來區分是一種對中文缺乏足夠了解造成的。是一種不科學的論調。</P>

芬1012 發表於 2007-10-19 23:14:27

<P>遲啲啊,「相似率」重高啊。粵語嘅受污染程度高咗囉。</P>
頁: [1]
查看完整版本: 粤语是一种可以与汉语并列的独立语言吗?