简介
本书是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。本书全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。
爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。
自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。
其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。
在实现搜索方面,本书用简单的例子介绍了完整的搜索实现过程,覆盖了从索引库的设计和索引库与数据库的同步到搜索用户界面设计与实现。搜索用户界面包括实现布尔逻辑查询、按区间范围查询、搜索结果按日期排序等。本书还进一步介绍了搜索排序的优化方法。
最后以基于Lucene的搜索服务器Solr为例,展示了Lucene的最新应用方法。
目录
第1章 遍历搜索引擎技术 1
1.1 30分钟实现的搜索引擎 1
1.1.1 准备工作环境(10分钟) 1
1.1.2 编写代码(15分钟) 3
1.1.3 发布运行(5分钟) 5
1.2 Google神话 9
1.3 体验搜索引擎 9
1.4 搜索语法 10
1.5 你也可以做搜索引擎 13
1.6 搜索引擎基本技术 14
1.6.1 网络蜘蛛 14
1.6.2 全文索引结构 14
1.6.3 Lucene全文检索引擎 15
1.6.4 Nutch网络搜索软件 16
1.6.5 用户界面 17
1.7 商业搜索引擎技术介绍 19
1.7.1 通用搜索 19
1.7.2 垂直搜索 20
1.7.3 站内搜索 21
1.7.4 桌面搜索 23
1.8 本章小结 24
第2章 获得海量数据 25
2.1 自己的网络蜘蛛 25
2.1.1 抓取网页 25
2.1.2 网络蜘蛛遍历与实现 26
2.1.3 改进网络蜘蛛 30
2.1.4 MP3抓取 34
2.1.5 RSS抓取 36
2.1.6 图片抓取 38
2.1.7 垂直行业抓取 39
2.2 抓取数据库中的内容 42
2.2.1 建立数据视图 42
2.2.2 JDBC数据库连接 43
2.2.3 增量抓取 45
2.3 抓取本地硬盘上的文件 47
2.4 本章小结 49
第3章 提取文档中的文本内容 50
3.1 从HTML文件中提取文本 50
3.1.1 HtmlParser介绍 53
3.1.2 结构化信息提取 63
3.1.3 查看网页的DOM结构 68
3.1.4 正文提取的工具NekoHTML 71
3.1.5 网页去噪 73
3.1.6 网页结构相似度计算 76
3.1.7 网站风格树去除文档噪声 80
3.1.8 正文提取 92
3.2 从非HTML文件中提取文本 98
3.2.1 TEXT文件 98
3.2.2 PDF文件 98
3.2.3 Word文件 105
3.2.4 RTF文件 106
3.2.5 Excel文件 107
3.2.6 PowerPoint文件 108
3.3 流媒体内容提取 109
3.3.1 音频流内容提取 109
3.3.2 视频流内容提取 111
3.4 抓取限制应对方法 113
3.5 本章小结 114
第4章 中文分词 115
4.1 Lucene中的中文分词 115
4.2 Lietu中文分词的使用 116
4.3 中文分词的原理 117
4.4 查找词典算法 118
4.5 最大概率分词方法 123
4.6 新词发现 127
4.7 词性标注 129
4.8 本章小结 139
第5章 自然语言处理 140
5.1 语法解析树 140
5.2 文档排重 141
5.3 中文关键词提取 142
5.3.1 关键词提取的基本方法 142
5.3.2 从网页中提取关键词 145
5.4 相关搜索 145
5.5 拼写检查 148
5.5.1 英文拼写检查 148
5.5.2 中文拼写检查 149
5.6 自动摘要 153
5.6.1 自动摘要技术 153
5.6.2 自动摘要的设计 154
5.6.3 Lucene中的动态摘要 162
5.7 自动分类 163
5.7.1 Classifier4J 164
5.7.2 自动分类的接口定义 165
5.7.3 自动分类的SVM方法实现 166
5.7.4 多级分类 167
5.8 自动聚类 170
5.8.1 聚类的定义 170
5.8.2 K均值聚类方法 170
5.8.3 K均值实现 173
5.9 拼音转换 179
5.10 语义搜索 180
5……
1.1 30分钟实现的搜索引擎 1
1.1.1 准备工作环境(10分钟) 1
1.1.2 编写代码(15分钟) 3
1.1.3 发布运行(5分钟) 5
1.2 Google神话 9
1.3 体验搜索引擎 9
1.4 搜索语法 10
1.5 你也可以做搜索引擎 13
1.6 搜索引擎基本技术 14
1.6.1 网络蜘蛛 14
1.6.2 全文索引结构 14
1.6.3 Lucene全文检索引擎 15
1.6.4 Nutch网络搜索软件 16
1.6.5 用户界面 17
1.7 商业搜索引擎技术介绍 19
1.7.1 通用搜索 19
1.7.2 垂直搜索 20
1.7.3 站内搜索 21
1.7.4 桌面搜索 23
1.8 本章小结 24
第2章 获得海量数据 25
2.1 自己的网络蜘蛛 25
2.1.1 抓取网页 25
2.1.2 网络蜘蛛遍历与实现 26
2.1.3 改进网络蜘蛛 30
2.1.4 MP3抓取 34
2.1.5 RSS抓取 36
2.1.6 图片抓取 38
2.1.7 垂直行业抓取 39
2.2 抓取数据库中的内容 42
2.2.1 建立数据视图 42
2.2.2 JDBC数据库连接 43
2.2.3 增量抓取 45
2.3 抓取本地硬盘上的文件 47
2.4 本章小结 49
第3章 提取文档中的文本内容 50
3.1 从HTML文件中提取文本 50
3.1.1 HtmlParser介绍 53
3.1.2 结构化信息提取 63
3.1.3 查看网页的DOM结构 68
3.1.4 正文提取的工具NekoHTML 71
3.1.5 网页去噪 73
3.1.6 网页结构相似度计算 76
3.1.7 网站风格树去除文档噪声 80
3.1.8 正文提取 92
3.2 从非HTML文件中提取文本 98
3.2.1 TEXT文件 98
3.2.2 PDF文件 98
3.2.3 Word文件 105
3.2.4 RTF文件 106
3.2.5 Excel文件 107
3.2.6 PowerPoint文件 108
3.3 流媒体内容提取 109
3.3.1 音频流内容提取 109
3.3.2 视频流内容提取 111
3.4 抓取限制应对方法 113
3.5 本章小结 114
第4章 中文分词 115
4.1 Lucene中的中文分词 115
4.2 Lietu中文分词的使用 116
4.3 中文分词的原理 117
4.4 查找词典算法 118
4.5 最大概率分词方法 123
4.6 新词发现 127
4.7 词性标注 129
4.8 本章小结 139
第5章 自然语言处理 140
5.1 语法解析树 140
5.2 文档排重 141
5.3 中文关键词提取 142
5.3.1 关键词提取的基本方法 142
5.3.2 从网页中提取关键词 145
5.4 相关搜索 145
5.5 拼写检查 148
5.5.1 英文拼写检查 148
5.5.2 中文拼写检查 149
5.6 自动摘要 153
5.6.1 自动摘要技术 153
5.6.2 自动摘要的设计 154
5.6.3 Lucene中的动态摘要 162
5.7 自动分类 163
5.7.1 Classifier4J 164
5.7.2 自动分类的接口定义 165
5.7.3 自动分类的SVM方法实现 166
5.7.4 多级分类 167
5.8 自动聚类 170
5.8.1 聚类的定义 170
5.8.2 K均值聚类方法 170
5.8.3 K均值实现 173
5.9 拼音转换 179
5.10 语义搜索 180
5……
自己动手写搜索引擎
- 名称
- 类型
- 大小
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×
亲爱的云图用户,
光盘内的文件都可以直接点击浏览哦
无需下载,在线查阅资料!
