汉语虚词知识库的建设
作者: 刘云著
出版社:华中师范大学出版社,2009
简介: 本书共分五章。
第一章“面向信息处理的语言研究”主要介绍了中文信息处理的发展与成就、汉语自动分析的难点、计算机背景下的汉语语法研究以及“句管控”与汉语信息处理等内容。我国的中文信息处理经历了“字”处理和“语”处理两个时期,现在集中力量对“句”处理进行攻坚。信息时代对语言学研究提供了新的机遇,同时也提出了新的挑战,由于研究对象、研究目的、研究手段和研究视角的转换,注定了汉语语法研究要面向计算机,为信息处理服务。“句管控”理论对我们的启示是能否改进或改变以往的研究范式,把从小到大的策略与从大到小的策略结合起来。这一部分的内容反映了作者对当前中文信息处理现状的思考,意在既要“埋头拉车”,又要“抬头看路”。
第二章“虚词知识库的建设”主要介绍了虚词与虚词研究概貌、汉语虚词知识库的重要性、虚词知识库建设的难点以及虚词知识库建设的构想等内容。虚词知识在中文信息处理的词法分析、句法分析和具体应用等方面都有重要作用。但由于汉语虚词的个性很强,运用范围很广,使用频率较高,有的还一词多类兼多义,而且汉语虚词使用很灵活且缺省现象比较严重,因此汉语的虚词特别是信息处理用虚词词典的研究有很大难度。本书提出了一个三位一体的虚词知识库建设方案。首先,按照虚词的“用法”填写虚词机器词典;再在虚词词典的基础上标注语料库,同时利用语料库也可以检验虚词词典的填写;最后在虚词词典和标注语料库的基础上提炼出虚词规则库。
第三章“虚词词典的内容”主要介绍了副词机器词典、连词机器词典和介词机器词典等内容。对这几类虚词都给出了字段的设立情况、词表和机器词典的样例。
第四章“复句层次和关系的自动分析”主要介绍了复句自动分析的目标和意义、难点和对策、二重复句的自动分析、复句关系词语的离析度以及关系词语驱动的复句关系和层次自动判定。复句自动分析的目标是用树形图的方式把复句的关系和层次表现出来,复句自动分析对复句的理解与生成、单句句法分析、篇章分析和对语言学成果的检验都有重要的意义。复句分析的难度在于关系词语自身的复杂性、单复句的纠结、复句与篇章的纠结、关系词语的省略、关系词语的复用、关系词语的嵌套、关系词语位置的灵活性、关系词语扩展的自由性和复句关系的复杂性。针对这些难点,提出了一个总的策略是:关系词语驱动;加强预处理;规则与统计结合。从省略能力、扩展能力、嵌套能力、停顿能力、连接能力、对应能力、位置因素和换位能力八个方面具体探讨了关系词语的离析度,并从单双音节、合用位置、关系类型、词性和个体差异的角度探讨了复句关系词语离析度不同的原因。最后,探讨怎样利用关系词语判定复句关系和层次,指出利用复句关系词语自动分析复句最大的困难在于关系词语的灵活多变,主要包括四种情况:复用、单用、虚用、不用,并具体考察了这四种情况。在此基础上,设计了一个汉语复句层次和关系自动分析的流程图,这个流程图的核心是位于中间的复句关系词语知识库。
第五章是全书的结语,主要是对已有研究工作的总结和进一步的研究计划。