微信扫一扫,移动浏览光盘
简介
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地
从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理
和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前
搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。
本书的作者是一位资深的搜索引擎开发人员,书中对数据获取(网络信
息挖掘)与数据检索(搜索引擎)两个方面作了深入的介绍。本书首先提出了
一套“网络数据挖掘”的完整理论,并给出一个实际的智能爬虫系统,通
过理论与实际的完整呈现,使读者能够对“网络数据挖掘”有一个比较具
体的认识,然后介绍了一个专用程序语言IRS,并给出了这个语言的编译器
以及虚拟机的实现方法。本书还通过对多个开源搜索引擎项目抽丝剥茧的
细致分析,引出搜索引擎的一些基本原理与开发方法,并介绍了一个商业
化搜索引擎的实例。本书的最后还结合一个Java框架介绍了一些软件设计
思想。
本书涉及网络数据挖掘、搜索引擎原理、编译原理、数据库原理、正
则表达式、软件工程、设计模式、Ruby语言、HTTP协议等计算机科学与技
术的知识,适合搜索引擎开发人员作为参考,也适合有一定计算机基础的
读者阅读,以扩展视野。
本书的内容中,既有教科书式的理论阐述,也有“七天入门”式的实
例解析,还有《Linux内核情景分析》风格的细致的代码分析,甚至还有一
些英语文献翻译,从初学者到有一定经验的搜索引擎开发人员,各个层次
的读者都能找到一些适合自己阅读的章节。
目录
第1章 网页数据挖掘
1.1 网页数据挖掘定义
1.2 Web数据挖掘面临的问题
1.3 Web数据挖掘的分类
1.4 网页数据的结构与特点
1.4.1 HTML超文本标记语言
1.4.2 WML无线标记语言
1.5 网页数据挖掘的基本方法
1.5.1 预备知识
1.5.2 变量模板匹配方法
1.5.3 树节点直接标识方法
1.5.4 语义规则识别方法
第2章 智能网络爬虫
2.1 智能网络爬虫的定义与特点
2.2 抓取入口定义
2.3 次级页面自动发现
2.4 次级页面地址拼接
2.5 已爬地址处理
2.6 信息采集强度控制
2.7 模拟用户登录
2.8 验证码识别
2.9 代理服务器设置
2.10 JavaScript解析控制
第3章 网页信息挖掘专用程序设计语言IRS
3.1 IRS语言的简介与设计原则
3.2 IRS脚本语法结构
3.2.1 页面配置块
3.2.2 页面名语句
3.2.3 爬虫配置声明语句
3.2.4 入口声明语句
3.2.5 编码配置
3.2.6 步长配置
3.2.7 重试次数配置
3.2.8 正则模式匹配语句
3.2.9 匹配名声明
3.2.10 IEE表达式
3.2.11 模式匹配修饰符
3.2.12 节点模式匹配语句
3.2.13 次级页面入口语句
3.2.14 保存语句
3.2.15 Ruby控制语句
3.2.16 爬虫配置语句
3.2.17 系统配置语句
3.2.18 外部配置文件
3.2.19 执行语句块
3.2.20 IRQL存储语句
3.2.21 IRQL语言中的数据表
3.2.22 IRQL内部函数
3.2.23 实例解析
第4章 IRS虚拟机及编译器实现原理
4.1 Ruby基本语法
4.1.1 字句构造和表达式
4.1.2 字面值
4.1.3 控制结构
4.1.4 类和方法的定义
4.1.5 运算符表达式
4.1.6 变量和常量
4.1.7 方法调用
4.2 Java与JRuby的整合
4.2.1 Java中的Ruby运行库环境
4.2.2 IRSReflectionCallback类实现
4.2.3 在Java中编译执行Ruby脚本
4.2.4 Java内嵌Ruby方法总结
4.3 词法分析和语法分析
4.3.1 定义与简介
4.3.2 SableCC
4.4 IRS语言的语义分析
4.5 IRVM虚拟机主类
4.5.1 generateEntrance()
4.5.2 getContent()
4.5.3 match()
4.5.4 Save()
4.5.5 compileAndRun()
第5章 搜索引擎设计原理
5.1 概述
5.2 Lucene搜索引擎的原理
5.2.1 工作方式
5.2.2 基本概念
5.2.3 包结构
5.2.4 索引操作
5.2.5 搜索
5.2.6 分析器
5.2.7 性能优化
5.2.8 并行集群
5.3 Hadoop搜索引擎的原理
5.3.1 组成结构
5.3.2 开发与使用
5.4 Nutch搜索引擎的原理
5.4.1 简介
5.4.2 插件体系
5.4.3 数据获取与分析
5.5 Compass搜索引擎的原理
5.5.1 功能增强
5.5.2 API简化
5.5.3 编程方式
5.6 Solr搜索引擎的原理
5.6.1 概述
5.6.2 使用Solr
第6章 搜索引擎的商业化实现
6.1 索引
6.1.1 Solr实现
6.1.2 MySE实现
6.1.3 总结
6.2 查询
6.2.1 Solr实现
6.2.2 MySE实现
6.2.3 总结
第7章 Hivemind
7.1 模块(Modules)
7.2 了模块与依赖性(Sub Modules&Dependency)
7.3 服务点(ServicePoints)
7.4 拦截器(Interceptor)
7.5 配置点(ConfigurationPoints)
7.6 符号资源(SymbolSources)
7.7 转换器(Translators)
7.8 对象提供器(0bjectProviders)
7.9 服务模型(serviceModels)
7.10 启动&预加载(Startup&EagerLoad)
7.11 服务构造器
后记与感谢
1.1 网页数据挖掘定义
1.2 Web数据挖掘面临的问题
1.3 Web数据挖掘的分类
1.4 网页数据的结构与特点
1.4.1 HTML超文本标记语言
1.4.2 WML无线标记语言
1.5 网页数据挖掘的基本方法
1.5.1 预备知识
1.5.2 变量模板匹配方法
1.5.3 树节点直接标识方法
1.5.4 语义规则识别方法
第2章 智能网络爬虫
2.1 智能网络爬虫的定义与特点
2.2 抓取入口定义
2.3 次级页面自动发现
2.4 次级页面地址拼接
2.5 已爬地址处理
2.6 信息采集强度控制
2.7 模拟用户登录
2.8 验证码识别
2.9 代理服务器设置
2.10 JavaScript解析控制
第3章 网页信息挖掘专用程序设计语言IRS
3.1 IRS语言的简介与设计原则
3.2 IRS脚本语法结构
3.2.1 页面配置块
3.2.2 页面名语句
3.2.3 爬虫配置声明语句
3.2.4 入口声明语句
3.2.5 编码配置
3.2.6 步长配置
3.2.7 重试次数配置
3.2.8 正则模式匹配语句
3.2.9 匹配名声明
3.2.10 IEE表达式
3.2.11 模式匹配修饰符
3.2.12 节点模式匹配语句
3.2.13 次级页面入口语句
3.2.14 保存语句
3.2.15 Ruby控制语句
3.2.16 爬虫配置语句
3.2.17 系统配置语句
3.2.18 外部配置文件
3.2.19 执行语句块
3.2.20 IRQL存储语句
3.2.21 IRQL语言中的数据表
3.2.22 IRQL内部函数
3.2.23 实例解析
第4章 IRS虚拟机及编译器实现原理
4.1 Ruby基本语法
4.1.1 字句构造和表达式
4.1.2 字面值
4.1.3 控制结构
4.1.4 类和方法的定义
4.1.5 运算符表达式
4.1.6 变量和常量
4.1.7 方法调用
4.2 Java与JRuby的整合
4.2.1 Java中的Ruby运行库环境
4.2.2 IRSReflectionCallback类实现
4.2.3 在Java中编译执行Ruby脚本
4.2.4 Java内嵌Ruby方法总结
4.3 词法分析和语法分析
4.3.1 定义与简介
4.3.2 SableCC
4.4 IRS语言的语义分析
4.5 IRVM虚拟机主类
4.5.1 generateEntrance()
4.5.2 getContent()
4.5.3 match()
4.5.4 Save()
4.5.5 compileAndRun()
第5章 搜索引擎设计原理
5.1 概述
5.2 Lucene搜索引擎的原理
5.2.1 工作方式
5.2.2 基本概念
5.2.3 包结构
5.2.4 索引操作
5.2.5 搜索
5.2.6 分析器
5.2.7 性能优化
5.2.8 并行集群
5.3 Hadoop搜索引擎的原理
5.3.1 组成结构
5.3.2 开发与使用
5.4 Nutch搜索引擎的原理
5.4.1 简介
5.4.2 插件体系
5.4.3 数据获取与分析
5.5 Compass搜索引擎的原理
5.5.1 功能增强
5.5.2 API简化
5.5.3 编程方式
5.6 Solr搜索引擎的原理
5.6.1 概述
5.6.2 使用Solr
第6章 搜索引擎的商业化实现
6.1 索引
6.1.1 Solr实现
6.1.2 MySE实现
6.1.3 总结
6.2 查询
6.2.1 Solr实现
6.2.2 MySE实现
6.2.3 总结
第7章 Hivemind
7.1 模块(Modules)
7.2 了模块与依赖性(Sub Modules&Dependency)
7.3 服务点(ServicePoints)
7.4 拦截器(Interceptor)
7.5 配置点(ConfigurationPoints)
7.6 符号资源(SymbolSources)
7.7 转换器(Translators)
7.8 对象提供器(0bjectProviders)
7.9 服务模型(serviceModels)
7.10 启动&预加载(Startup&EagerLoad)
7.11 服务构造器
后记与感谢
基于Ruby+Java搜索引擎原理与实现
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×