副标题:无

作   者:

分类号:

ISBN:9787111359906

微信扫一扫,移动浏览光盘

简介

  《信息检索:实现和评价搜索引擎》从多个视角对信息检索技术进行了深入讲解,内容涵盖了信息检索系统的架构、基础技术、词条和词项、静态和动态倒排索引、查询处理、索引压缩技术、概率模型、语言模型、分类和过滤、融合和元学习、评价方法以及并行信息检索、web检索和xml检索等具体应用。本书以模块化的方式进行组织,理论性强,体系完整,同时强调实践。作者以认真严谨的态度实现了书中绝大部分的主要方法,并详尽地描述了各种方法的适用环境以及取得的效果。    《信息检索:实现和评价搜索引擎》可作为高等院校信息管理与信息系统、计算机科学与技术、情报学、图书馆学以及电子商务等专业的高年级本科生和研究生的教材和参考书,对于从事信息检索与网络分析等实际工作的从业人员也具有较高的参考价值。

目录

《信息检索:实现和评价搜索引擎》

information retrieval: implementing and evaluating search engines

出版者的话

译者序



前言

符号

第一部分基 础 知 识

第1章绪论

1.1什么是信息检索

1.1.1web搜索

1.1.2其他搜索应用

1.1.3其他信息检索应用

1.2信息检索系统

1.2.1信息检索系统基础架构

1.2.2文档及其更新

1.2.3性能评价

1.3使用电子文本

1.3.1文本格式

1.3.2英文文本中的分词

.1.3.3词项分布

1.3.4语言模型

1.4测试集

1.5开源信息检索系统

1.5.1lucene

1.5.2indri

1.5.3wumpus

1.6延伸阅读

1.7练习

1.8参考文献

第2章基础技术

2.1倒排索引

2.1.1延伸例子:词组查找

2.1.2实现倒排索引

2.1.3文档和其他元素

2.2检索与排名

2.2.1向量空间模型

2.2.2邻近度排名

2.2.3布尔检索

2.3评价

2.3.1查全率和查准率

2.3.2排名检索的有效性指标

2.3.3创建测试集

2.3.4效率指标

2.4总结

2.5延伸阅读

2.6练习

2.7参考文献

第3章词条与词项

3.1英语

3.1.1标点与大写

3.1.2词干提取

3.1.3停词

3.2字符

3.3字符n瞘ram

3.4欧洲语言

3.5cjk语言

3.6延伸阅读

3.7练习

3.8参考文献

第二部分索引

第4章静态倒排索引

4.1索引的组成部分和索引的生命周期

4.2词典

4.3位置信息列表

4.4交错词典和位置信息列表

4.5索引的构建

4.5.1基于内存的索引构建法

4.5.2基于排序的索引构建法

4.5.3基于合并的索引构建法

4.6其他索引

4.7总结

4.8延伸阅读

4.9练习

4.10参考文献

第5章查询处理

5.1排名检索的查询处理

5.1.1document瞐t瞐瞭ime查询处理

5.1.2term瞐t瞐瞭ime查询处理

5.1.3预计算得分贡献

5.1.4影响力排序

5.1.5静态索引裁剪

5.2轻量级结构

5.2.1广义索引表

5.2.2操作符

5.2.3例子

5.2.4实现

5.3延伸阅读

5.4练习

5.5参考文献

第6章索引压缩

6.1通用数据压缩

6.2符号数据压缩

6.2.1建模和编码

6.2.2哈夫曼编码

6.2.3算术编码

6.2.4基于符号的文本压缩

6.3压缩位置信息列表

6.3.1无参数间距压缩

6.3.2参数间距压缩

6.3.3上下文感知的压缩方法

6.3.4高查询性能的索引压缩

6.3.5压缩效果

6.3.6解码性能

6.3.7文档重排

6.4压缩词典

6.5总结

6.6延伸阅读

6.7练习

6.8参考文献

第7章动态倒排索引

7.1批量更新

7.2增量式索引更新

7.2.1连续倒排列表

7.2.2非连续倒排列表

7.3文档删除

7.3.1无效列表

7.3.2垃圾回收

7.4文档修改

7.5讨论及延伸阅读

7.6练习

7.7参考文献

第三部分检索和排名

第8章概率检索

8.1相关性建模

8.2二元独立模型

8.3robertson/sp|rck jones权重公式

8.4词频

8.4.1bookstein的双泊松模型

8.4.2双泊松模型的近似

8.4.3查询词频

8.5文档长度:bm25

8.6相关反馈

8.6.1词项选择

8.6.2伪相关反馈

8.7区域权重:bm25f

8.8实验对比

8.9延伸阅读

8.10练习

8.11参考文献

第9章语言模型及其相关方法

9.1从文档中产生查询

9.2语言模型和平滑

9.3使用语言模型排名

9.4kullback瞝eibler距离

9.5随机差异性

9.5.1一个随机模型

9.5.2精华性

9.5.3文档长度规范化

9.6段落检索及排名

9.6.1段落评分

9.6.2实现

9.7实验对比

9.8延伸阅读

9.9练习

9.10参考文献

第10章分类和过滤

10.1详细示例

10.1.1面向主题的批过滤

10.1.2在线过滤

10.1.3从历史样本中学习

10.1.4语言分类

10.1.5在线自适应垃圾邮件过滤系统

10.1.6二元分类的阈值选择

10.2分类

10.2.1比值和比值比

10.2.2构造分类器

10.2.3学习模型

10.2.4特征工程

10.3概率分类器

10.3.1概率估计

10.3.2联合概率估计

10.3.3实际考虑

10.4线性分类器

10.4.1感知器算法

10.4.2支持向量机

10.5基于相似度的分类器

10.5.1rocchio法

10.5.2基于记忆的方法

10.6广义线性模型

10.7信息理论模型

10.7.1模型比较

10.7.2序列压缩模型

10.7.3决策树与树桩

10.8实验对比

10.8.1面向主题的在线过滤器

10.8.2在线自适应垃圾信息过滤

10.9延伸阅读

10.10练习

10.11参考文献

第11章融合和元学习

11.1搜索结果融合

11.1.1固定临界值合成

11.1.2排名和得分合成

11.2叠加自适应过滤器

11.3叠加批分类器

11.3.1holdout验证

11.3.2交叉验证

11.4bagging

11.5boosting

11.6多类排名和分类

11.6.1文档得分与类别得分

11.6.2文档排名融合与类别排名融合

11.6.3多类方法

11.7学习排名

11.7.1什么是学习排名

11.7.2学习排名的方法

11.7.3优化什么

11.7.4分类的学习排名

11.7.5排名检索的学习

11.7.6letor数据集

11.8延伸阅读

11.9练习

11.10参考文献

第四部分评价

第12章度量有效性

12.1传统的有效性指标

12.1.1查全率和查准率

12.1.2前k个文档的查准率(p@k)

12.1.3平均查准率

12.1.4排名倒数

12.1.5算术平均与几何平均

12.1.6用户满意度

12.2trec

12.3在评价中使用统计

12.3.1基础和术语

12.3.2置信区间

12.3.3比较评价

12.3.4被认为有害的假设检验

12.3.5配对和未配对差值

12.3.6显著性检验

12.3.7统计检验的效度和检验力

12.3.8报告指标的查准率

12.3.9元分析

12.4最小化判定工作

12.4.1为判定选择合适的文档

12.4.2对池进行抽样

12.5非传统的有效性指标

12.5.1分级相关性

12.5.2不完整判定和偏差判定

12.5.3新颖性和多样性

12.6延伸阅读

12.7练习

12.8参考文献

第13章度量效率

13.1效率标准

13.1.1吞吐量和延迟

13.1.2汇总统计和用户满意度

13.2排队论

13.2.1肯德尔符号

13.2.2m/m/1排队模型

13.2.3延迟量和平均利用率

13.3查询调度

13.4缓存

13.4.1三级缓存

13.4.2缓存策略

13.4.3预取搜索结果

13.5延伸阅读

13.6练习

13.7参考文献

第五部分应用和扩展

第14章并行信息检索

14.1并行查询处理

14.1.1文档划分

14.1.2词项划分

14.1.3混合方案

14.1.4冗余和容错

14.2mapreduce

14.2.1基本框架

14.2.2合并

14.2.3辅助关键字

14.2.4机器失效

14.3延伸阅读

14.4练习

14.5参考文献

第15章web搜索

15.1web的结构

15.1.1web图

15.1.2静态与动态网页

15.1.3暗网

15.1.4web的规模

15.2查询与用户

15.2.1用户意图

15.2.2点击曲线

15.3静态排名

15.3.1基本pagerank

15.3.2扩展的pagerank

15.3.3pagerank的性质

15.3.4其他链接分析方法:hits和salsa

15.3.5其他静态排名方法

15.4动态排名

15.4.1锚文本

15.4.2新颖性

15.5评价web搜索

15.5.1指定页面发现

15.5.2用户隐式反馈

15.6web爬虫

15.6.1爬虫的组成

15.6.2抓取顺序

15.6.3重复与近似重复

15.7总结

15.8延伸阅读

15.8.1链接分析

15.8.2锚文本

15.8.3隐式反馈

15.8.4web爬虫

15.9练习

15.10参考文献

第16章xml检索

16.1xml的本质

16.1.1文档类型定义

16.1.2xml模式

16.2路径、树和flwor

16.2.1xpath

16.2.2nexi

16.2.3xquery

16.3索引和查询处理

16.4排名检索

16.4.1排名元素

16.4.2重叠元素

16.4.3可检索元素

16.5评价

16.5.1测试集

16.5.2有效性指标

16.6延伸阅读

16.7练习

16.8参考文献

第六部分附录

附录a计算机性能


已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon