简介
本文提出基于词语搭配强度计算的语境计算模RFR_SUM(SUM of
Relative Frequency Ratio),用于处理各类词语级的歧义消解问题。各
章节的顺序大致勾勒出该模型形成和发展的轨迹。提出广义组配理论框架
,并据此建立语境计算模型RFR—SUM,用以处理语言中广泛存在的词语级
歧义现象。将RFR—SUM模型应用于中文信息处理中的组合型切分歧义和交
集型切分歧义的消解、兼类词的消解、多音词的消解以及词义消歧、语料
库精加工、隐喻识别等多项任务中,均取得满意的结果,验证了该理论的
普适性。本书可以作为从事自然语言处理和计算语言学相关研究人员的参
考书。
目录
序一
序二
绪论
1 自然语言处理的根本问题
2 词语搭配问题的研究
3 本书的主要研究内容
第1章 词语组配的研究现状
1.1 汉语词语组配及其性质
1.2 国外词语搭配研究现状
1.3 国内词语搭配研究现状
第2章 词语搭配的自动抽取研究
2.1 词语搭配的抽取方法
2.2 搭配抽取框架的建立
2.3 实验及其结果
第3章 广义组配理论
3.1 广义组配理论的提出
3.2 语境的可计算性
第4章 语境计算模型RFR_SUM
4.1 相对词频比RFR
4.2 基本RFR_SUM模型
第5章 RFR_SUM模型在分词消歧中的应用
5.1 RFR_SUM模型应用于组合型消歧
5.2 RFR_SUM模型应用于交集型消歧
第6章兼类词与多音词的消歧
6.1 RFR_SUM模型在兼类词消解中的应用
6.2 基于RFR_SUM模型的多音词的消歧
第7章词义消歧研究
7.1 RFR_SUM模型在词义消歧中的应用
7.2 无需词性标注语料的词义消歧实验
第8章 词义消歧的二元模型及集成研究
8.1 81_RFR_SUM模型
8.1.1 二元搭配强度和二元相对词频比(B1_RFR)
8.1.2 81_RFR_SUM模型
8.1.3 实验及结果
8.2 UNI_RFR_SUM与BI_RFR_SUM的集成
8.3 多分类问题研究
第9章 超大规模语料精加工技术研究
9.1 问题的提出
9.2 现有标注软件的性能指标的计量研究
9.2.1 ICTCLAS系统标注结果分析
9.2.2 系统改进探讨
9.3 语料精加工的方法
9.3.1 词表校对法
9.3.2 基于简单词语组合特性的方法
9.3.3 基于多元组比对的方法
9.3.4 基于RFR_SUM模型的方法
9.4 初步实验结果
第10章 隐喻识别研究
10.1 隐喻研究现状
10.2 隐喻研究的意义
10.3 隐喻研究的内容和方案
10.4 初步的研究成果
结语
1 本研究完成的主要工作
2 进一步研究计划
主要参考文献
附录1 北京大学汉语文本词性标注集
附录2 组合型切分歧义强弱势比例
附录3 “从小/学”训练用例句
附录4 “应/用于”训练用例句
附录5 “应用于”测试集
附录6 “从小学”测试集
附录7 “科学”词性标注开放测试中标注错误句子
附录8 “黄色”词义消歧中错误句子
附录9 “黄金”词义消歧中错误句子
附录10 经改进后,“黄金”词义消歧中错误句子
附录11 经改进后,“黄色”词义消歧中错误句子
附录12 “黄色”词义开放测试错误句子
附录13 “黄金”词义开放测试错误句子
附录14 “分子”分类错误的句子
附录15 “材料”分类错误的句子
附录16 “着/u”和“着/v”校对出错误的句子
附录17 “本书/r”和“本/q书/n”校对出错误的句子
后记
序二
绪论
1 自然语言处理的根本问题
2 词语搭配问题的研究
3 本书的主要研究内容
第1章 词语组配的研究现状
1.1 汉语词语组配及其性质
1.2 国外词语搭配研究现状
1.3 国内词语搭配研究现状
第2章 词语搭配的自动抽取研究
2.1 词语搭配的抽取方法
2.2 搭配抽取框架的建立
2.3 实验及其结果
第3章 广义组配理论
3.1 广义组配理论的提出
3.2 语境的可计算性
第4章 语境计算模型RFR_SUM
4.1 相对词频比RFR
4.2 基本RFR_SUM模型
第5章 RFR_SUM模型在分词消歧中的应用
5.1 RFR_SUM模型应用于组合型消歧
5.2 RFR_SUM模型应用于交集型消歧
第6章兼类词与多音词的消歧
6.1 RFR_SUM模型在兼类词消解中的应用
6.2 基于RFR_SUM模型的多音词的消歧
第7章词义消歧研究
7.1 RFR_SUM模型在词义消歧中的应用
7.2 无需词性标注语料的词义消歧实验
第8章 词义消歧的二元模型及集成研究
8.1 81_RFR_SUM模型
8.1.1 二元搭配强度和二元相对词频比(B1_RFR)
8.1.2 81_RFR_SUM模型
8.1.3 实验及结果
8.2 UNI_RFR_SUM与BI_RFR_SUM的集成
8.3 多分类问题研究
第9章 超大规模语料精加工技术研究
9.1 问题的提出
9.2 现有标注软件的性能指标的计量研究
9.2.1 ICTCLAS系统标注结果分析
9.2.2 系统改进探讨
9.3 语料精加工的方法
9.3.1 词表校对法
9.3.2 基于简单词语组合特性的方法
9.3.3 基于多元组比对的方法
9.3.4 基于RFR_SUM模型的方法
9.4 初步实验结果
第10章 隐喻识别研究
10.1 隐喻研究现状
10.2 隐喻研究的意义
10.3 隐喻研究的内容和方案
10.4 初步的研究成果
结语
1 本研究完成的主要工作
2 进一步研究计划
主要参考文献
附录1 北京大学汉语文本词性标注集
附录2 组合型切分歧义强弱势比例
附录3 “从小/学”训练用例句
附录4 “应/用于”训练用例句
附录5 “应用于”测试集
附录6 “从小学”测试集
附录7 “科学”词性标注开放测试中标注错误句子
附录8 “黄色”词义消歧中错误句子
附录9 “黄金”词义消歧中错误句子
附录10 经改进后,“黄金”词义消歧中错误句子
附录11 经改进后,“黄色”词义消歧中错误句子
附录12 “黄色”词义开放测试错误句子
附录13 “黄金”词义开放测试错误句子
附录14 “分子”分类错误的句子
附录15 “材料”分类错误的句子
附录16 “着/u”和“着/v”校对出错误的句子
附录17 “本书/r”和“本/q书/n”校对出错误的句子
后记
现代汉语词语级歧义自动消解研究
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×