Hadoop实战手册
副标题:无
作 者:(美)Jonathan R.Owens,(美)Jon Lentz,(美)Brian Femiano著;傅杰,赵磊,卢学裕译
分类号:
ISBN:9787115337955
微信扫一扫,移动浏览光盘
简介
超级实用的技术手册,给出有助于快速解决诸多Hadoop相关技术问题的实际解决方案。书中包含丰富的简单、实用的代码示例。
《Hadoop实战手册》特色是:
文字简洁,易于读者理解。
精挑细选,关注最重要的任务和问题。
细心组织,提供高效的问题解决方案。
讲解透彻,清晰解读每个操作步骤。
举一反三,将解决方案应用到其他场景中。
目录
第1章Hadoop分布式文件系统——导入和导出数据
1.1介绍
1.2使用Hadoopshell命令导入和导出数据到HDFS
1.3使用distcp实现集群间数据复制
1.4使用Sqoop从MySQL数据库导入数据到HDFS
1.5使用Sqoop从HDFS导出数据到MySQL
1.6配置Sqoop以支持SQLServer
1.7从HDFS导出数据到MongoDB
1.8从MongoDB导入数据到HDFS
1.9使用Pig从HDFS导出数据到MongoDB
1.10在Greenplum外部表中使用HDFS
1.11利用Flume加载数据到HDFS中
第2章HDFS
2.1介绍
2.2读写HDFS数据
2.3使用LZO压缩数据
2.4读写序列化文件数据
2.5使用Avro序列化数据
2.6使用Thrift序列化数据
2.7使用ProtocolBuffers序列化数据
2.8设置HDFS备份因子
2.9设置HDFS块大小
第3章抽取和转换数据
3.1介绍
3.2使用MapReduce将Apache日志转换为TSV格式
3.3使用ApachePig过滤网络服务器日志中的爬虫访问量
3.4使用ApachePig根据时间戳对网络服务器日志数据排序
3.5使用ApachePig对网络服务器日志进行会话分析
3.6通过Python扩展ApachePig的功能
3.7使用MapReduce及二次排序计算页面访问量
3.8使用Hive和Python清洗、转换地理事件数据
3.9使用Python和HadoopStreaming执行时间序列分析
3.10在MapReduce中利用MultipleOutputs输出多个文件
3.11创建用户自定义的HadoopWritable及InputFormat读取地理事件数据
第4章使用Hive、Pig和MapReduce处理常见的任务
4.1介绍
4.2使用Hive将HDFS中的网络日志数据映射为外部表
4.3使用Hive动态地为网络日志查询结果创建Hive表
4.4利用Hive字符串UDF拼接网络日志数据的各个字段
4.5使用Hive截取网络日志的IP字段并确定其对应的国家
4.6使用MapReduce对新闻档案数据生成n—gram
4.7通过MapReduce使用分布式缓存查找新闻档案数据中包含关键词的行
4.8使用Pig加载一个表并执行包含GROUPBY的SELECT操作
第5章高级连接操作
5.1介绍
5.2使用MapReduce对数据进行连接
5.3使用ApachePig对数据进行复制连接
5.4使用ApachePig对有序数据进行归并连接
5.5使用ApachePig对倾斜数据进行倾斜连接
5.6在ApacheHive中通过map端连接对地理事件进行分析
5.7在ApacheHive通过优化的全外连接分析地理事件数据
5.8使用外部键值存储(Redis)连接数据
第6章大数据分析
6.1介绍
6.2使用MapReduce和Combiner统计网络日志数据集中的独立IP数
6.3运用Hive日期UDF对地理事件数据集中的时间日期进行转换与排序
6.4使用Hive创建基于地理事件数据的每月死亡报告
6.5实现Hive用户自定义UDF用于确认地理事件数据的来源可靠性
6.6使用Hive的map/reduce操作以及Python标记最长的无暴力发生的时间区间
6.7使用Pig计算Audioscrobbler数据集中艺术家之间的余弦相似度
6.8使用Pig以及datafu剔除Audioscrobbler数据集中的离群值
第7章高级大数据分析
7.1介绍
7.2使用ApacheGiraph计算PageRank
7.3使用ApacheGiraph计算单源最短路径
7.4使用ApacheGiraph执行分布式宽度优先搜索
7.5使用ApacheMahout计算协同过滤
7.6使用ApacheMahout进行聚类
7.7使用ApacheMahout进行情感分类
第8章调试
8.1介绍
8.2在MapReduce中使用Counters监测异常记录
8.3使用MRUnit开发和测试MapReduce
8.4本地模式下开发和测试MapReduce
8.5运行MapReduce作业跳过异常记录
8.6在流计算作业中使用Counters
8.7更改任务状态显示调试信息
8.8使用illustrate调试Pig作业
第9章系统管理
9.1介绍
9.2在伪分布模式下启动Hadoop
9.3在分布式模式下启动Hadoop
9.4添加一个新节点
9.5节点安全退役
9.6NameNode故障恢复
9.7使用Ganglia监控集群
9.8MapReduce作业参数调优
第10章使用ApacheAccumulo进行持久化
10.1介绍
10.2在Accumulo中设计行键存储地理事件
10.3使用MapReduce批量导入地理事件数据到Accumulo
10.4设置自定义字段约束Accumulo中的地理事件数据
10.5使用正则过滤器限制查询结果
10.6使用SumCombiner计算同一个键的不同版本的死亡数总和
10.7使用Accumulo实行单元级安全的扫描
10.8使用MapReduce聚集Accumulo中的消息源
1.1介绍
1.2使用Hadoopshell命令导入和导出数据到HDFS
1.3使用distcp实现集群间数据复制
1.4使用Sqoop从MySQL数据库导入数据到HDFS
1.5使用Sqoop从HDFS导出数据到MySQL
1.6配置Sqoop以支持SQLServer
1.7从HDFS导出数据到MongoDB
1.8从MongoDB导入数据到HDFS
1.9使用Pig从HDFS导出数据到MongoDB
1.10在Greenplum外部表中使用HDFS
1.11利用Flume加载数据到HDFS中
第2章HDFS
2.1介绍
2.2读写HDFS数据
2.3使用LZO压缩数据
2.4读写序列化文件数据
2.5使用Avro序列化数据
2.6使用Thrift序列化数据
2.7使用ProtocolBuffers序列化数据
2.8设置HDFS备份因子
2.9设置HDFS块大小
第3章抽取和转换数据
3.1介绍
3.2使用MapReduce将Apache日志转换为TSV格式
3.3使用ApachePig过滤网络服务器日志中的爬虫访问量
3.4使用ApachePig根据时间戳对网络服务器日志数据排序
3.5使用ApachePig对网络服务器日志进行会话分析
3.6通过Python扩展ApachePig的功能
3.7使用MapReduce及二次排序计算页面访问量
3.8使用Hive和Python清洗、转换地理事件数据
3.9使用Python和HadoopStreaming执行时间序列分析
3.10在MapReduce中利用MultipleOutputs输出多个文件
3.11创建用户自定义的HadoopWritable及InputFormat读取地理事件数据
第4章使用Hive、Pig和MapReduce处理常见的任务
4.1介绍
4.2使用Hive将HDFS中的网络日志数据映射为外部表
4.3使用Hive动态地为网络日志查询结果创建Hive表
4.4利用Hive字符串UDF拼接网络日志数据的各个字段
4.5使用Hive截取网络日志的IP字段并确定其对应的国家
4.6使用MapReduce对新闻档案数据生成n—gram
4.7通过MapReduce使用分布式缓存查找新闻档案数据中包含关键词的行
4.8使用Pig加载一个表并执行包含GROUPBY的SELECT操作
第5章高级连接操作
5.1介绍
5.2使用MapReduce对数据进行连接
5.3使用ApachePig对数据进行复制连接
5.4使用ApachePig对有序数据进行归并连接
5.5使用ApachePig对倾斜数据进行倾斜连接
5.6在ApacheHive中通过map端连接对地理事件进行分析
5.7在ApacheHive通过优化的全外连接分析地理事件数据
5.8使用外部键值存储(Redis)连接数据
第6章大数据分析
6.1介绍
6.2使用MapReduce和Combiner统计网络日志数据集中的独立IP数
6.3运用Hive日期UDF对地理事件数据集中的时间日期进行转换与排序
6.4使用Hive创建基于地理事件数据的每月死亡报告
6.5实现Hive用户自定义UDF用于确认地理事件数据的来源可靠性
6.6使用Hive的map/reduce操作以及Python标记最长的无暴力发生的时间区间
6.7使用Pig计算Audioscrobbler数据集中艺术家之间的余弦相似度
6.8使用Pig以及datafu剔除Audioscrobbler数据集中的离群值
第7章高级大数据分析
7.1介绍
7.2使用ApacheGiraph计算PageRank
7.3使用ApacheGiraph计算单源最短路径
7.4使用ApacheGiraph执行分布式宽度优先搜索
7.5使用ApacheMahout计算协同过滤
7.6使用ApacheMahout进行聚类
7.7使用ApacheMahout进行情感分类
第8章调试
8.1介绍
8.2在MapReduce中使用Counters监测异常记录
8.3使用MRUnit开发和测试MapReduce
8.4本地模式下开发和测试MapReduce
8.5运行MapReduce作业跳过异常记录
8.6在流计算作业中使用Counters
8.7更改任务状态显示调试信息
8.8使用illustrate调试Pig作业
第9章系统管理
9.1介绍
9.2在伪分布模式下启动Hadoop
9.3在分布式模式下启动Hadoop
9.4添加一个新节点
9.5节点安全退役
9.6NameNode故障恢复
9.7使用Ganglia监控集群
9.8MapReduce作业参数调优
第10章使用ApacheAccumulo进行持久化
10.1介绍
10.2在Accumulo中设计行键存储地理事件
10.3使用MapReduce批量导入地理事件数据到Accumulo
10.4设置自定义字段约束Accumulo中的地理事件数据
10.5使用正则过滤器限制查询结果
10.6使用SumCombiner计算同一个键的不同版本的死亡数总和
10.7使用Accumulo实行单元级安全的扫描
10.8使用MapReduce聚集Accumulo中的消息源
Hadoop实战手册
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×