微信扫一扫,移动浏览光盘
简介
《汉英机器翻译若干关键技术研究》是作者所在的课题组近年来在汉英机器翻译研究方面所取得进展的一个阶段性总结。内容涉及汉英机器翻译的各个主要方面及关键技术,包括对目前国际上机器翻译研究进展的综述,汉语词法分析技术、汉语句法分析技术、汉语词汇语义相似度计算、汉英双语语料库的词语对齐、语料库的结构对齐、基于结构对齐语料库的翻译模板抽取、多引擎机器翻译方法等多方面的研究成果。
《汉英机器翻译若干关键技术研究》可供从事计算语言学、自然语言处理、中文信息处理、机器翻译等领域研究工作的人士参考,也可以作为大学相关专业高年级本科生和研究生课程的参考书
目录
第1章 机器翻译方法综述.1
1.1 机器翻译的范式2
1.2 基于平行语法的机器翻译方法2
1.2.1 Alshawi的基于加权中心词转录机的统计机器翻译方法2
1.2.2 吴德凯的反向转录语法3
1.2.3 Takeda的基于模式的机器翻译上下文无关语法4
1.3 基于实例的机器翻译方法5
1.3.1 起源与发展5
1.3.2 Sato和Nagao的方法6
1.3.3 Kaji的方法7
1.3.4 CMU的泛化的基于实例的机器翻译方法7
1.3.5 基于实例的机器翻译方法的优缺点8
1.4 基于信源信道模型的统计机器翻译方法8
1.4.1 IBM的统计机器翻译方法9
1.4.2 王野翊在卡内基?梅隆大学(CMU)的工作12
1.4.3 约翰?霍普金斯大学(JHU)的统计机器翻译夏季研讨班13
1.4.4 Yamada和Knight的工作——基于句法的统计翻译模型14
1.4.5 Och等的工作14
1.5 基于对数线性模型的统计机器翻译方法15
1.5.1 对数线性模型15
1.5.2 基于短语的统计翻译模型16
1.5.3 基于句法的统计翻译模型17
1.6 多引擎机器翻译方法18
1.6.1 Pangloss系统18
1.6.2 Verbmobil系统19
1.7 机器翻译方法的分类21
1.7.1 按翻译转换的层面进行分类21
1.7.2 按语言知识的表示形式进行分类22
1.8 小结23
第2章 基于层叠隐马尔可夫模型的汉语词法分析25
2.1 汉语分析技术概述25
2.1.1 汉语词法分析的难点25
2.1.2 汉语词法分析的任务和前人的工作26
2.2 汉语词法分析的层叠隐马尔可夫模型28
2.2.1 隐马尔可夫模型简介28
2.2.2 层叠隐马尔可夫模型的结构29
2.2.3 层叠隐马尔可夫模型的核心数据结构——词图30
2.2.4 层叠隐马尔可夫模型的参数训练30
2.3 粗切分:基于一元语法的N最短路径方法31
2.4 未定义词识别:基于角色的隐马尔可夫模型32
2.4.1 模型的定义32
2.4.2 角色的选取32
2.4.3 角色的标注34
2.4.4 未定义词的提取34
2.4.5 参数训练35
2.5 未定义词的概率估计:基于角色的词语生成模型35
2.5.1 问题的由来35
2.5.2 模型的定义36
2.6 细切分:词汇化的隐马尔可夫模型36
2.6.1 模型的定义36
2.6.2 最短路径的求解37
2.6.3 参数估计37
2.7 词性标注:基于词性的隐马尔可夫模型38
2.7.1 基于隐马尔可夫模型的词性标注38
2.7.2 词性标记集的选择与转换38
2.8 实验结果42
2.8.1 各层隐马尔可夫模型的对比实验42
2.8.2 在国家“973”计划评测中的测试结果43
2.8.3
第一届国际分词大赛的评测结果43
2.9 小结45
第3章 融合语义知识和词汇化上下文概率语法的汉语句法分析46
3.1 前言46
3.2 Baseline句法分析器 46
3.3 语义知识集成48
3.3.1 语义类抽取48
3.3.2 构建基于类的选择偏向模型49
3.3.3 实验结果50
3.3.4 性能改进分析51
3.4 基于汉语宾州树库的句法分析相关工作52
3.5 小结53
第4章 汉语词法分析与句法分析融合策略研究54
4.1 引言54
4.2 句法分析系统55
4.2.1 融合语义知识的词汇化概率上下文无关语法模型55
4.2.2 结构上下文模型56
4.2.3 多子模型句法分析器..56
4.3 词法分析系统(ICTCLAS) 57
4.4 融合策略57
4.4.1 切分转换:基于转换的错误驱动学习57
4.4.2 标记转换:条件随机场58
4.4.3 转换实验59
4.5 实验与分析60
4.6 比较62
4.7 小结63
第5章 基于“知网”的词汇语义相似度计算64
5.1 引言64
5.2 词语相似度及其计算的方法64
5.2.1 什么是词语相似度64
5.2.2 词语相似度与词语距离65
5.2.3 词语相似度与词语相关性65
5.2.4 词语相似度的计算方法66
5.3 “知网”简介67
5.3.1 “知网”的结构67
5.3.2 “知网”的知识描述语言69
5.4 基于“知网”的语义相似度计算方法71
5.4.1 词语相似度计算71
5.4.2 义原相似度计算71
5.4.3 虚词概念的相似度的计算72
5.4.4 实词概念的相似度的计算72
5.5 实验及结果75
5.6 小结76
第6章 词语对齐的对数线性模型78
6.1 引言78
6.2 对数线性模型79
6.3 特征函数80
6.3.1 IBM翻译模型80
6.3.2 词性标记转换模型80
6.3.3 双语词典81
6.4 训练81
6.5 搜索82
6.6 实验结果83
6.7 小结87
第7章 一种双语短语结构对齐搜索算法88
7.1 双语对齐技术概述88
7.1.1 各种层次的语言单位上的对齐技术88
7.1.2 短语结构对齐的定义89
7.1.3 短语结构对齐的过程91
7.1.4 短语结构对齐的问题和难点92
7.1.5 现有的短语结构对齐技术93
7.2 一种双语短语结构对齐的搜索算法96
7.2.1 算法简介96
7.2.2 局部对齐97
7.2.3 短语结构对齐的柱形搜索(beam search)算法99
7.2.4 局部对齐的归并99
7.2.5 局部对齐的评分100
7.2.6 搜索算法的时间复杂度分析100
7.3 实验及结果分析100
7.3.1 实验方案100
7.3.2 实验语料来源及规模102
7.3.3 短语结构对齐的实例分析102
7.3.4 实验结果及分析106
7.3.5 实验结果的进一步分析108
7.4 小结109
第8章 短语结构转换模板的提取与应用110
8.1 基于模板的机器翻译概述110
8.2 短语结构转换模板定义111
8.3 短语结构转换模板举例112
8.4 短语结构转换模板的提取112
8.5 短语结构转换模板的应用——基于模板的转换115
8.6 实验结果117
8.6.1 实验语料的来源及规模117
8.6.2 实验结果分析117
8.7 小结124
第9章 微引擎流水线机器翻译系统结构125
9.1 微引擎流水线的基本思想125
9.2 微引擎流水线的系统结构126
9.3 微引擎流水线的公共数据结构127
9.4 各种微引擎的程序接口和功能说明129
9.5 微引擎调度算法130
9.6 面向新闻领域的汉英机器翻译系统131
9.6.1 研究背景131
9.6.2 系统实现方案132
9.7 实验结果及分析134
9.8 小结135
第10章 总结及今后的工作136
附录 汉语词性标记集ICTPOS138
参考文献143
后记
1.1 机器翻译的范式2
1.2 基于平行语法的机器翻译方法2
1.2.1 Alshawi的基于加权中心词转录机的统计机器翻译方法2
1.2.2 吴德凯的反向转录语法3
1.2.3 Takeda的基于模式的机器翻译上下文无关语法4
1.3 基于实例的机器翻译方法5
1.3.1 起源与发展5
1.3.2 Sato和Nagao的方法6
1.3.3 Kaji的方法7
1.3.4 CMU的泛化的基于实例的机器翻译方法7
1.3.5 基于实例的机器翻译方法的优缺点8
1.4 基于信源信道模型的统计机器翻译方法8
1.4.1 IBM的统计机器翻译方法9
1.4.2 王野翊在卡内基?梅隆大学(CMU)的工作12
1.4.3 约翰?霍普金斯大学(JHU)的统计机器翻译夏季研讨班13
1.4.4 Yamada和Knight的工作——基于句法的统计翻译模型14
1.4.5 Och等的工作14
1.5 基于对数线性模型的统计机器翻译方法15
1.5.1 对数线性模型15
1.5.2 基于短语的统计翻译模型16
1.5.3 基于句法的统计翻译模型17
1.6 多引擎机器翻译方法18
1.6.1 Pangloss系统18
1.6.2 Verbmobil系统19
1.7 机器翻译方法的分类21
1.7.1 按翻译转换的层面进行分类21
1.7.2 按语言知识的表示形式进行分类22
1.8 小结23
第2章 基于层叠隐马尔可夫模型的汉语词法分析25
2.1 汉语分析技术概述25
2.1.1 汉语词法分析的难点25
2.1.2 汉语词法分析的任务和前人的工作26
2.2 汉语词法分析的层叠隐马尔可夫模型28
2.2.1 隐马尔可夫模型简介28
2.2.2 层叠隐马尔可夫模型的结构29
2.2.3 层叠隐马尔可夫模型的核心数据结构——词图30
2.2.4 层叠隐马尔可夫模型的参数训练30
2.3 粗切分:基于一元语法的N最短路径方法31
2.4 未定义词识别:基于角色的隐马尔可夫模型32
2.4.1 模型的定义32
2.4.2 角色的选取32
2.4.3 角色的标注34
2.4.4 未定义词的提取34
2.4.5 参数训练35
2.5 未定义词的概率估计:基于角色的词语生成模型35
2.5.1 问题的由来35
2.5.2 模型的定义36
2.6 细切分:词汇化的隐马尔可夫模型36
2.6.1 模型的定义36
2.6.2 最短路径的求解37
2.6.3 参数估计37
2.7 词性标注:基于词性的隐马尔可夫模型38
2.7.1 基于隐马尔可夫模型的词性标注38
2.7.2 词性标记集的选择与转换38
2.8 实验结果42
2.8.1 各层隐马尔可夫模型的对比实验42
2.8.2 在国家“973”计划评测中的测试结果43
2.8.3
第一届国际分词大赛的评测结果43
2.9 小结45
第3章 融合语义知识和词汇化上下文概率语法的汉语句法分析46
3.1 前言46
3.2 Baseline句法分析器 46
3.3 语义知识集成48
3.3.1 语义类抽取48
3.3.2 构建基于类的选择偏向模型49
3.3.3 实验结果50
3.3.4 性能改进分析51
3.4 基于汉语宾州树库的句法分析相关工作52
3.5 小结53
第4章 汉语词法分析与句法分析融合策略研究54
4.1 引言54
4.2 句法分析系统55
4.2.1 融合语义知识的词汇化概率上下文无关语法模型55
4.2.2 结构上下文模型56
4.2.3 多子模型句法分析器..56
4.3 词法分析系统(ICTCLAS) 57
4.4 融合策略57
4.4.1 切分转换:基于转换的错误驱动学习57
4.4.2 标记转换:条件随机场58
4.4.3 转换实验59
4.5 实验与分析60
4.6 比较62
4.7 小结63
第5章 基于“知网”的词汇语义相似度计算64
5.1 引言64
5.2 词语相似度及其计算的方法64
5.2.1 什么是词语相似度64
5.2.2 词语相似度与词语距离65
5.2.3 词语相似度与词语相关性65
5.2.4 词语相似度的计算方法66
5.3 “知网”简介67
5.3.1 “知网”的结构67
5.3.2 “知网”的知识描述语言69
5.4 基于“知网”的语义相似度计算方法71
5.4.1 词语相似度计算71
5.4.2 义原相似度计算71
5.4.3 虚词概念的相似度的计算72
5.4.4 实词概念的相似度的计算72
5.5 实验及结果75
5.6 小结76
第6章 词语对齐的对数线性模型78
6.1 引言78
6.2 对数线性模型79
6.3 特征函数80
6.3.1 IBM翻译模型80
6.3.2 词性标记转换模型80
6.3.3 双语词典81
6.4 训练81
6.5 搜索82
6.6 实验结果83
6.7 小结87
第7章 一种双语短语结构对齐搜索算法88
7.1 双语对齐技术概述88
7.1.1 各种层次的语言单位上的对齐技术88
7.1.2 短语结构对齐的定义89
7.1.3 短语结构对齐的过程91
7.1.4 短语结构对齐的问题和难点92
7.1.5 现有的短语结构对齐技术93
7.2 一种双语短语结构对齐的搜索算法96
7.2.1 算法简介96
7.2.2 局部对齐97
7.2.3 短语结构对齐的柱形搜索(beam search)算法99
7.2.4 局部对齐的归并99
7.2.5 局部对齐的评分100
7.2.6 搜索算法的时间复杂度分析100
7.3 实验及结果分析100
7.3.1 实验方案100
7.3.2 实验语料来源及规模102
7.3.3 短语结构对齐的实例分析102
7.3.4 实验结果及分析106
7.3.5 实验结果的进一步分析108
7.4 小结109
第8章 短语结构转换模板的提取与应用110
8.1 基于模板的机器翻译概述110
8.2 短语结构转换模板定义111
8.3 短语结构转换模板举例112
8.4 短语结构转换模板的提取112
8.5 短语结构转换模板的应用——基于模板的转换115
8.6 实验结果117
8.6.1 实验语料的来源及规模117
8.6.2 实验结果分析117
8.7 小结124
第9章 微引擎流水线机器翻译系统结构125
9.1 微引擎流水线的基本思想125
9.2 微引擎流水线的系统结构126
9.3 微引擎流水线的公共数据结构127
9.4 各种微引擎的程序接口和功能说明129
9.5 微引擎调度算法130
9.6 面向新闻领域的汉英机器翻译系统131
9.6.1 研究背景131
9.6.2 系统实现方案132
9.7 实验结果及分析134
9.8 小结135
第10章 总结及今后的工作136
附录 汉语词性标记集ICTPOS138
参考文献143
后记
汉英机器翻译若干关键技术研究
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×