简介
Hadoop正在成为数据中心进行大型数据处理的实际标准,但市场中却一直缺少关于它的详细操作说明书。《Hadoop技术详解》作者Eric Sammer系Cloudera公司的首席架构师,全书将从计划、安装、配置Hadoop系统开始讲起,一直深入到系统调试、维护等方面的知识,向读者展示了Hadoop生产运行环境的详细情况。同时,《Hadoop技术详解》并不只是简述所有的操作工序,而是突出示范了关键部署中的关键操作。
《Hadoop技术详解》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。
目录
第1章简介
第2章HDFS
2.1目标和动机
2.2设计
2.3守护进程
2.4读写数据
2.4.1数据读取流程
2.4.2数据写操作流程
2.5管理文件系统元数据
2.6NameNode的高可用性
2.7NameNode联盟
2.8访问与集成
2.8.1命令行工具
2.8.2用户空间文件系统(FUSE)
2.8.3表示状态传输(REST)的支持
第3章MapReduce
3.1MapReduce的若干阶段
3.2HadoopMapReduce简介
3.2.1后台程序
3.2.2出错处理
3.3YARN
第4章规划一个Hadoop集群
4.1挑选Hadoop的发行版本
4.1.1ApacheHadoop
4.1.2Cloudera的ApacheHadoop发行版本
4.1.3版本和功能
4.1.4我应该使用哪个版本
4.2硬件选型
4.2.1主节点硬件的选择
4.2.2工作节点的硬件选择
4.2.3集群的大小
4.2.4刀片服务器、存储区域网络(SAN)和虚拟化
4.3操作系统的选择和准备
4.3.1部署规划
4.3.2软件
4.3.3主机名、DNS和标识
4.3.4用户、组和特权
4.4内核调整
4.4.1vm.swappiness
4.4.2vm.overcommit_memory
4.5磁盘配置
4.5.1选择文件系统
4.5.2挂载选项
4.6网络设计
4.6.1Hadoop中的网络使用:回顾
4.6.21Gb与10Gb网络
4.6.3典型的网络拓扑
第5章安装和配置
5.1安装Hadoop
5.1.1ApacheHadoop
5.1.2CDH
5.2配置概述
5.3环境变量和Shell脚本
5.4日志配置
5.5HDFS
5.5.1识别和定位
5.5.2优化与调整
5.5.3格式化NameNode
5.5.4创建/tmp目录
5.6NameNode的高可靠性
5.6.1隔离(Fencing)选项
5.6.2基本配置
5.6.3自动失效备援配置
5.6.4格式化和引导NameNode启动
5.7NameNode联盟(Federation)
5.8MapReduce
5.8.1识别和定位
5.8.2优化和调整
5.9机架拓扑
5.10安全
第6章用户标识、身份验证和授权
6.1用户标识
6.2Kerberos和Hadoop
6.2.1Kerberos
6.2.2Hadoop上的Kerberos支持
6.3授权
6.3.1HDFS
6.3.2MapReduce
6.3.3其他工具和系统
6.4集成试试
第7章资源管理
7.1何谓资源管理
7.2HDFS配额
7.3MapReduce调度器
7.3.1先进先出(FIFO)调度器
7.3.2公平调度器
7.3.3计算能力调度器(CapacityScheduler)
7.3.4未来发展
第8章集群维护
8.1Hadoop流程管理
8.1.1用初始化脚本管理进程
8.1.2手动管理进程
8.2HDFS维护任务
8.2.1添加一个DataNode
8.2.2卸载DataNode
8.2.3用fsck来检查文件系统的一致性
8.2.4HDFS块数据均衡
8.2.5处理坏磁盘
8.3MapReduce维护任务
8.3.1添加tasktracker
8.3.2卸载tasktracker
8.3.3终结MapReduce作业
8.3.4终结MapReduce任务
8.3.5处理列入黑名单的tasktracker
第9章故障分析与排查
9.1鉴别诊断(DifferentialDiagnosis)
9.2故障和问题
9.2.1人类(自己)
9.2.2配置错误
9.2.3硬件故障
9.2.4资源枯竭
9.2.5主机标识和命名
9.2.6网络分区
9.3“计算机插好了么?”
9.4治疗和护理
9.5实战案例
9.5.1神秘的瓶颈
9.5.2127.0.0.1这个地址不存在
第10章监控
10.1概览
10.2Hadoop度量(Metrics)
10.2.1ApacheHadoop0.20.0和CDH3(metrics1)
10.2.2ApacheHadoop0.20.203及之后的版本、CDH4(metrics2)
10.2.3SNMP
10.3健康监控
10.3.1主机级别的检查
10.3.2所有Hadoop进程
10.3.3HDFS检查
10.3.4MapReduce检查
第11章备份与恢复
11.1数据备份
11.1.1分布式拷贝(distcp)
11.1.2并行提取数据
11.2NameNode元数据
附录弃用的配置属性
第2章HDFS
2.1目标和动机
2.2设计
2.3守护进程
2.4读写数据
2.4.1数据读取流程
2.4.2数据写操作流程
2.5管理文件系统元数据
2.6NameNode的高可用性
2.7NameNode联盟
2.8访问与集成
2.8.1命令行工具
2.8.2用户空间文件系统(FUSE)
2.8.3表示状态传输(REST)的支持
第3章MapReduce
3.1MapReduce的若干阶段
3.2HadoopMapReduce简介
3.2.1后台程序
3.2.2出错处理
3.3YARN
第4章规划一个Hadoop集群
4.1挑选Hadoop的发行版本
4.1.1ApacheHadoop
4.1.2Cloudera的ApacheHadoop发行版本
4.1.3版本和功能
4.1.4我应该使用哪个版本
4.2硬件选型
4.2.1主节点硬件的选择
4.2.2工作节点的硬件选择
4.2.3集群的大小
4.2.4刀片服务器、存储区域网络(SAN)和虚拟化
4.3操作系统的选择和准备
4.3.1部署规划
4.3.2软件
4.3.3主机名、DNS和标识
4.3.4用户、组和特权
4.4内核调整
4.4.1vm.swappiness
4.4.2vm.overcommit_memory
4.5磁盘配置
4.5.1选择文件系统
4.5.2挂载选项
4.6网络设计
4.6.1Hadoop中的网络使用:回顾
4.6.21Gb与10Gb网络
4.6.3典型的网络拓扑
第5章安装和配置
5.1安装Hadoop
5.1.1ApacheHadoop
5.1.2CDH
5.2配置概述
5.3环境变量和Shell脚本
5.4日志配置
5.5HDFS
5.5.1识别和定位
5.5.2优化与调整
5.5.3格式化NameNode
5.5.4创建/tmp目录
5.6NameNode的高可靠性
5.6.1隔离(Fencing)选项
5.6.2基本配置
5.6.3自动失效备援配置
5.6.4格式化和引导NameNode启动
5.7NameNode联盟(Federation)
5.8MapReduce
5.8.1识别和定位
5.8.2优化和调整
5.9机架拓扑
5.10安全
第6章用户标识、身份验证和授权
6.1用户标识
6.2Kerberos和Hadoop
6.2.1Kerberos
6.2.2Hadoop上的Kerberos支持
6.3授权
6.3.1HDFS
6.3.2MapReduce
6.3.3其他工具和系统
6.4集成试试
第7章资源管理
7.1何谓资源管理
7.2HDFS配额
7.3MapReduce调度器
7.3.1先进先出(FIFO)调度器
7.3.2公平调度器
7.3.3计算能力调度器(CapacityScheduler)
7.3.4未来发展
第8章集群维护
8.1Hadoop流程管理
8.1.1用初始化脚本管理进程
8.1.2手动管理进程
8.2HDFS维护任务
8.2.1添加一个DataNode
8.2.2卸载DataNode
8.2.3用fsck来检查文件系统的一致性
8.2.4HDFS块数据均衡
8.2.5处理坏磁盘
8.3MapReduce维护任务
8.3.1添加tasktracker
8.3.2卸载tasktracker
8.3.3终结MapReduce作业
8.3.4终结MapReduce任务
8.3.5处理列入黑名单的tasktracker
第9章故障分析与排查
9.1鉴别诊断(DifferentialDiagnosis)
9.2故障和问题
9.2.1人类(自己)
9.2.2配置错误
9.2.3硬件故障
9.2.4资源枯竭
9.2.5主机标识和命名
9.2.6网络分区
9.3“计算机插好了么?”
9.4治疗和护理
9.5实战案例
9.5.1神秘的瓶颈
9.5.2127.0.0.1这个地址不存在
第10章监控
10.1概览
10.2Hadoop度量(Metrics)
10.2.1ApacheHadoop0.20.0和CDH3(metrics1)
10.2.2ApacheHadoop0.20.203及之后的版本、CDH4(metrics2)
10.2.3SNMP
10.3健康监控
10.3.1主机级别的检查
10.3.2所有Hadoop进程
10.3.3HDFS检查
10.3.4MapReduce检查
第11章备份与恢复
11.1数据备份
11.1.1分布式拷贝(distcp)
11.1.2并行提取数据
11.2NameNode元数据
附录弃用的配置属性
Hadoop operations
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×