登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 文学教育类 > 汉语国际教育 > 正文

基于语料库的联合短语歧义结构分析毕业论文

 2020-02-19 04:02  

摘 要

联合短语是由语法地位相等的各项成分构成的基本短语结构。本文基于“潜在歧义理论”,描写联合短语的歧义结构,在分析相应语料的基础上,为计算机句处理提供一定程度上的理论参考。本文采用文献分析法和语料库分析法,对无标记的“N N”、“V V”、“ADJ ADJ”类格式和有标记的“N和 N的 N”、“X (的) N 和 N”进行了潜在歧义分析;在此基础上,从语法、语义、形式三方面,为计算机识别和消除联合短语的歧义结构提出一些解决措施。

关键词:联合短语;歧义;潜在歧义理论

Abstract

The joint phrase is a basic phrase structure that composed of various components with equal grammatical status. Based on the theory of "potential ambiguity", this paper describes the ambiguous structure of the joint phrase, analyzing the corresponding corpus,which provides some theoretical help for the processing of computer sentences. In this paper, the potential ambiguity analysis of unmarked "N N","V V", "ADJ ADJ" format and labeled "N and N N", "X (de) N and N" is carried out by using literature analysis method and corpus analysis method. On this basis, from three aspects of grammar, semantics and form, This paper puts forward some measures for the computer to identify and eliminate the ambiguous structure of the joint phrase.

Key Words:joint phrase;ambiguity structure;potential ambiguity theory

目 录

第1章 绪论 1

1.1研究背景及意义 1

1.2研究综述 1

1.3研究内容 2

1.4研究方法 2

1.4.1基于语料库的方法 2

1.4.2分析与综合的方法 3

1.4.3定性与定量的方法 3

1.4.4归纳与演绎的方法 3

第2章 联合短语的相关界定 4

2.1联合短语的定义 4

2.2联合短语的类型 4

2.2.1 联合短语的形式分类 5

2.2.2内部成分的词性分类 5

2.2.3联合短语的语义分类 6

第3章 短语的歧义分析 8

3.1歧义的相关界定 8

3.1.1歧义与多义 8

3.1.2歧义与笼统 8

3.1.3歧义与模糊 9

3.1.4歧义与歧解 9

3.2格式真歧义短语与实例真歧义短语 10

3.3消除歧义的对策 11

3.3.1短语自动识别 11

3.3.2汉语意合性与属性特征 11

3.3.3知识本体和语义计算 11

第4章 联合短语的歧义结构类型及消除对策 13

4.1无标记联合短语的歧义结构分析 13

4.1.1 N N类格式的歧义短语分析 13

4.1.2 V V类格式的歧义短语分析 17

4.1.3 ADJ ADJ类格式的歧义短语分析 22

4.2有标记联合短语的歧义结构分析 23

4.2.1 N和 N的 N 23

4.2.2 X (的) N 和 N 23

第5章 结语 25

5.1小结 25

5.2不足之处 25

参考文献 26

致 谢 28

第1章 绪论

1.1研究背景及意义

语言研究始终随着研究对象——语言的发展而不断发展。从历时的角度看,语言的本体内容——语音、词汇、语法逐渐发展,其发展的动因既有语言内部要素的相互作用,还有社会、心理等外在要素的推动。

纵观语言学史,从古老的语文学时期始,学者就把语言的研究与外在的因素相联系。二十世纪的语言学浪潮中,索绪尔创建结构主义语言学,区分了语言的共时研究和历时研究、语言和言语、语言的内部因素和外部因素,意识到言语的重要性,语言与言语相互联系,言语先于语言之前,但因为技术的限制,个人的、具体的、临时的、无限多变的言语难以被记录下来而加以分析。

之后,出现以乔姆斯基为代表的转换生成语言学,该流派批判结构主义、倡导理性主义,明确以人的语言能力为研究对象,而不能仅仅研究言语事实,从而进一步割裂语言和言语的关系。

在这两大学派之中,语料库语言学通过大量的语料文本,用数据统计的实证手段来进行语言研究,根据统计学原理把语言的语料按一定原则抽样存入计算机,包含大量的言语事实,将语言与言语统一起来,并且,随着计算机的发展,语料库的应用又促进其他学科,如词汇学、语法学的发展。近年来,语料库语言学的应用研究成为学界的研究热点之一。

目前,语料库语言学的发展为中文信息处理提供理论及应用层面上的支撑,中文信息处理经过字处理、词处理的阶段,而句处理的发展则有待完善,句处理是对句子的结构分析、语义分析等,其基本规则建立在短语的规则之上。而短语的歧义结构影响句法分析,成为中文信息处理的一大难题。

本文通过归纳总结前人研究的短语歧义结构类型,结合计算机识别和联合短语的特点,借助语料库验证分析联合短语的歧义结构,从而为计算机正确识别联合短语提供一定程度上的理论支撑。

1.2研究综述

国内不少学者对现代汉语歧义进行分析,在本体语言学分析方面,吕叔湘、朱德熙(1952)谈到汉语歧义现象,认为歧义是一句话有两种讲法,属于表达上的毛病,并举出实例来例证,但未对现代汉语的歧义结构进行系统研究。[1]赵元任(1959)探讨了歧义的界定、分类、成因、分化、歧义消解等问题,开始现代汉语歧义结构的系统研究。[2]黄国营(1985)对歧义格式进行了颇为详尽的归纳,通过形式化手段归纳出一百多种现代汉语短语的歧义格式。[3]尽管学者们对现代汉语短语的歧义进行了详细的描写与解释,但仍缺乏基于大量语言实例的短语歧义分析来指导计算机进行句处理,而冯志伟(1996)提出“潜在歧义论”,该理论涉及计算机层面的歧义结构分析,以形式化手段辅助计算机进行歧义短语的自动处理。[4]

虽然学者们针对现代汉语短语的歧义结构分析的成果显著,但目前对联合短语歧义结构的系统研究较少。在本体语言学方面,联合短语的结构分析主要是针对并列短语,如吕叔湘(1999)认为联合短语和并列短语是上下位关系,并列短语具有联合短语的部分特征,并列短语的各部分语法地位平等,在句子里表达同一的语法功能,但只是联合短语内部的逻辑关系之一。[5]关于联合短语的构成,储泽祥(2003)讨论了异类词联合短语和同类词联合短语的构成方式和特点。[6]通过以上学者对联合短语的本体分析,可以为计算机处理提供理论指导。此外,詹卫东(1999)利用中文信息处理为语言研究提供支持,对现代汉语并列短语结构规则的形式化描述,对结构歧义格式的类型分析及排歧策略等方面进行了研究,进一步解决了联合短语自动识别的问题。[7]

1.3研究内容

根据大量文献调研,我们发现针对联合短语的歧义研究更多是关于语言学本体,缺少专门针对现代汉语联合短语歧义结构的研究,尤其缺少关于联合短语在中文信息处理方向上的应用研究。为了应对社会的信息化发展,需要将语言学的本体研究和中文信息处理相结合,对短语进行形式化的描写是本文所要进行的工作。

联合短语作为短语的基本类型之一,是汉语句法分析的一个难点,本文首先通过前人对联合短语的界定,同时从北京语言大学现代汉语语料库中收集适合计算机处理的联合短语,总结现代汉语的联合短语的界定与类型。然后,从语言学本体出发,基于冯志伟先生的“潜在歧义理论”,对联合短语的歧义结构进行分析。最后,通过“优选”与“制约”的手段,提出消除联合短语歧义的方法。[8]

1.4研究方法

1.4.1基于语料库的方法

语料库语言学依赖于自然数据,从本质上说是实证性的,其语言观是经验主义的语言观。根据对语料库的依赖程度不同,语料库语言学大致可分为三种研究方法:一是英国应用语言学家michael mcarthy倡导的语料库指导的方法,二是基于语料库的方法,三是语料库支持的方法。[9]其中基于语料库的方法是一种假设验证法,由研究者提出假设,然后以语料库为数据源对研究者提出的假设进行验证。这种方法通过对数据的缜密检查及特征分析,在客观、详细的描述基础上进行解释,较为折中。因此,本文先提出假设,然后以北京语言大学BCC现代汉语语料库为数据源对提出的假设进行验证。通过对数据的缜密检查及特征分析,在客观详细描述的基础上进行解释。

1.4.2分析与综合的方法

分析与综合是基本的思维过程,所谓分析就是把对象的整体分解为不同的部分,把事物的个别特征或属性分析出来;而综合则是把事物的各个特征、属性联系起来,把各个部分联系成整体。本文根据分析法,从微观角度把联合短语从不同角度进行分类,逐一探讨不同类型的联合短语歧义结构。通过综合法,从宏观角度分析联合短语歧义结构的类型及相应的解决措施。

1.4.3定性与定量的方法

定性是用语言文字对相关对象进行描述,定量则是采用数学方法对相关对象进行描述。定性分析与定量分析相互补充,定性是定量分析的前提,定量使得定性更加客观、准确和科学。本文通过定性分析,对联合短语的歧义结构进行“质”的分析,即对联合短语及其歧义结构进行界定、分类。此外,本文采用定量分析,通过量化手段,利用语料库检索,统计联合短语歧义结构类型。

1.4.4归纳与演绎的方法

归纳与演绎是逻辑思维的两种方式,归纳就是从个别到一般,演绎则是从一般到个别。本文通过归纳法,基于丰富的语料库实例,归纳联合短语及其歧义结构特征;并且采用演绎法,基于“潜在歧义理论”,分析联合短语的歧义结构。

第2章 联合短语的相关界定

2.1联合短语的定义

在汉语传统语法文献中,短语被称作词组,胡裕树将短语定义为“大于词的语言单位,是由两个或两个以上的实词构成而不成为完整句子的语言单位”。[10]根据内部结构,语法学家将短语分为联合、偏正、主谓、动宾、中补五大基本类型。针对联合短语的界定,不同学者亦有不同的分析。黄伯荣、廖序东在《现代汉语》谈及联合短语的定义,指出:联合短语由语法地位平等的两个或几个部分组成,其间是联合关系,可细分为并列、递进、选择等关系。有时用‘和、或、并’等连词表示。[11]朱德熙在《语法讲义》中论及联合结构是由两个或更多的并列成分组成的。并列成分可以迭加在一起,中间没有什么形式上的标记,也可以用停顿隔开,有时在每一项后头加上语气词“啊”或是“啦”。[12]丁声树在《现代汉语语法讲话》认为并列结构的成分是平等的,可以做句子的各种成分。并列结构的成分之间可以有连词,也可以没有连词,成分与成分之间讲究字数匀整。[13]但在语料库中检索到联合短语的成分之间不必字数对称,如“私人企业和工厂,工厂或企业管理委员会”。

综上,根据学者对联合短语的界定,我们可以将联合短语定义为:联合短语是短语的基本类型之一,内部组成成分的语法地位相等,成分之间可以用“和、或、并”等连词或“啊、啦”等语气词连接,词语序列一般受到语法、语义的限制,但成分之间的字数不必相同。

2.2联合短语的类型

将自然语言形式化才能让计算机识别自然语言,而自然语言具有模糊性。汉语是一种孤立语,语序和虚词是最重要的语法手段,由于虚词的描写方式和概括范围较窄,很难以形式方式表示,语序也具有很强的灵活性。不同的语序可以表示相同的语义,如“护照和合同”与“合同和护照”。可见汉语的语序不能完全地形式化和固定化,而是常使用意合手段,可以用不同的语序来表示相同的意义。英语等形合语言一定要有连接词或者标点符号来构成联合短语,而汉语的“意合性”,可以通过语义来连接短语内的各个成分,不需要连接词,造成了汉语联合短语的识别困难。比如英语的“come and go”,在汉语里,可以是“来和去”,也可以是“来去”,“read and write”,用汉语表达为“读和写”,或者“读写”。从人的层面上来看,意合是一种意念上的共同理解,此时的语法手段并不是最重要的,双方的“意会”才起着至关重要的作用。

汉语中的句子是通过合法的语法组合而成,在某个语境中表示某种语义,意合手段是人们在这种语境中通过推理得出的句子语义,在计算机中,意合手段包括句法、语义、语境三个方面,即语言单位构成组合、聚合关系,语言单位具有不同的语义关系,语言单位在不同的语境中具有不同的语义和语用。[14]要让计算机理解汉语的意合手段,最重要的是理解语义,句法和语境起辅助作用。下面根据语言学本体和应用的研究情况,从形式、词性、意义三个方面对汉语联合短语进行分类阐释。

2.2.1 联合短语的形式分类

计算机要理解自然语言则需要形式化的表达手段,要明确联合短语的形式表达,则应兼顾表层与深层。从联合短语的表层分析,联合短语的结构存在有无标记之分,无标记的联合短语是指在语音上没有停顿,在书面上没有停顿标志和连接词。无标记的联合短语以常用的固定短语为主,如“说学逗唱、酸甜苦辣”等。有标记的联合短语在口语中表现为语音停顿,在书面语中表现为表示停顿的顿号或逗号,还有表示“和、或、而且”意义的连接词。这类联合短语是联合短语的主要类型,可以连结两项及两项以上的成分。

有标记的联合短语占联合短语的强式地位,其标记词连接的两个成分受到“接近性原则”的影响,只是一个总体趋向,并不是绝对的。标记词影响联合短语内部的词类组合,词性相同的两个成分构成的联合短语,没有强制使用标志词;而词类不同的两个成分一定需要有标志词来连接,才能在形式距离上比词类不同的两个成分小。标记词的出现同样受到句法和语义的影响,一般来说,书面语中标记词的是否出现较为自由,而口语里要严格一点,如口语中的“老婆孩子”一般不带标记词,而书面语中可以使用“老婆孩子”、“老婆和孩子”。书面语中,状语位置上的联合短语,标记词不出现的可能性大一些(如例1)。

(1)夕阳的光芒,一大片,血红明亮地映在白色的墙上。(史铁生《死国幻记》)

“血红明亮(地)”做状语,没有出现标记词,但如果在“血红”与“明亮”之间出现诸如“而、而又”之类的标记词,仍不影响句子语义。

2.2.2内部成分的词性分类

上文提到联合短语的组合需要有标记词,标记词可以将联合短语的内部各项组成单位结合起来成为一个整体。过去,人们强调联合短语的内部各项组成单位需要词性相同或相近,但在实际中,不同词性的单位也能构成联合短语。根据其内部成分构成的词性,联合短语可分为异类词联合短语和同类词联合短语。

同类词联合短语是联合短语的强式,在同类词二项联合短语中,大部分实词类都可以进行重叠搭配,且较为稳定。常见的有形容词重叠(如例2)、名词重叠(如例3)、动词重叠(如例4) 三种类型,同种词类构成的联合短语不严格要求有无标记词(如例2)。

(2)这时候,在他床前站着的是一个身材细长的成年姑娘,留着带刘海的短头发,尖尖的嘴脸,宽宽的前额,高高的颧骨,又深又大的眼睛,那脖子婀娜多姿地扭动着,露出又秀丽,又热情,又活泼,又有点茫茫然的神态。(欧阳山《柳暗花明》)

(3)关于基因重组的理论和事例,在个体遗传部分已介绍了,这里就不再重讲了。(顾万春《林木遗传育种基础》)

(4)在此基础上,进一步征询各协会以及有关单位的意见,拟定出初步评选方案,最后由文化部审定批准。(《人民日报》1980年04月09日)

异类词联合短语是联合短语的弱式,主要为异类词二项联合短语,常见的为名词(N)、动词(V)、形容词(ADJ)之间的两两搭配,少数的有数量词和代词参与构成联合短语。联合短语的构成方式主要有形容词+动词(如例5)、动词+形容词(如例6)、名词+动词(如例7)、动词+名词(如例8)、名词+形容词(如例9)、形容词+名词(如例10)六类。根据褚泽祥(2003)的研究,异类词联合短语的内部词序列受到该内部成分的语义和配价制约。因为动词和形容词属于谓词内部,所以容易结合,“形容词+动词”的联合短语数量很多;因为谓词和体词的结合限制大,所以“名词+动词”和“名词+形容词”数量就少一些。[15]

(5)和丁文一起在那种又宽又旋转的椅子上坐了下来,打手们熄灭怒火,大家进入了冷静地思考问题的阶段。(陈家桥《克隆人》)

(6)最初,这些黑人学生令那些白人学生感到厌恶和恐慌。(韩垒《希拉里传》)

(7)坚定不移促进世界和平与发展——写在国家主席习近平首次出访之际(《人民日报》 2013年03月22日)

(8)广大学生对照前线战士“亏了我一个,幸福十亿人”的高尚情操,通过演讲、征文、座谈等多种形式,对“人生的价值是什么”、“八十年代的青年应该有什么样的理想和追求 ”等问题进行深入探讨,大大增强了对祖国、对社会的时代责任感。(《人民日报》1985年11月09日)

(9)我们城邦的力量和勇敢像光芒四射。(柏拉图《柏拉图全集》)

(10)这种氛围激动着他,他的幽默和智慧像泉水般地奔涌开来。(《人民日报》1990年01月11日)

2.2.3联合短语的语义分类

根据布龙菲尔德的理论,联合关系属于并列的向心结构,联合短语的功能和它的直接成分的功能基本相同。由于其聚合特征,联合短语可不断扩展其直接成分,并且保持句法功能不变。从短语的意义来分,联合短语可分为并列、递进、选择。并列义的联合短语主要依靠语序和虚词作为语法手段,递进义的联合短语的直接成分多为谓词性成分,选择义的联合短语通常以虚词“或、或者”为连接手段。其中,表示并列的联合短语有时不需要连接词,成分之间一般可互换;表示选择的联合短语必须用连接词,有时不能颠倒次序;表示递进的联合短语内部成分之间一般不能颠倒排列次序,颠倒次序后语义发生变化。

表示并列的联合短语可以是多项联合,常用连词“和”表示并列(如例11)。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图