大数据分布式计算与案例

副标题：无

作者：李丰

分类号：

ISBN：9787300230276

收录收藏 (0) 评论纠错

微信扫一扫,移动浏览光盘

简介

简介

大数据分布式计算课程是大数据方向应用统计专业硕士学生的专业必修课，通过本课程的学习使学生能够掌握目前大数据挖掘领域常用的并行计算方法，加深学生对统计并行计算的理解，培养学生使用在现代并行架构下利用统计方法深入挖掘大数据中的数据结构并能解决一些实际问题的能力。

目录
第1章统计分析与并行计算
1.1 并行计算与并行计算机
1.2 统计计算的并行原理||以矩阵乘法为例
1.3 基于R 的单机并行计算
1.4 基于Python 的单机并行计算
1.5 大数据背景下的数据采集和存储
1.6 参考文献
第2章 Hadoop 基础
2.1 Hadoop 历史、生态系统
2.2 Hadoop 的分布式文件系统(HDFS)
2.3 MapReduce 工作原理
2.4 Hadoop 上运行MapReduce
2.5 MapReduce 实例: 分层随机抽样
2.6 MapReduce 实例: 聚类分析
2.7 参考文献
第3章基于Hadoop 的分布式算法和模型实现
3.1 R 中实现Hadoop 分布式计算
3.2 Mahout 与大数据机器学习
3.3 利用Mahout 进行数据挖掘
3.4 Mahout 实例: Logistics 回归和随机森林分类算法
3.5 Mahout 实例: 随机森林的分布式实现
3.6 参考文献
第4章统计模型的MapReduce 实现详解
4.1 泊松回归模型: 付费搜索广告分析
4.2 判别分析: 气象因素对雾霾影响分析
4.3 分块Logistics 回归
4.4 文本分类
4.5 朴素贝叶斯模型
4.6 岭回归模型
4.7 推荐系统
4.8 参考文献
第5章分布式文件访问与计算
5.1 Hive 基础
5.2 HiveQL 数据定义(DDL)
5.3 HBase
5.4 Hive 实例: FoodMart 案例
5.5 Hive 实例: Hive Streaming 交互计算
5.6 参考文献
第6章 Spark 与统计模型
6.1 Spark 简介
6.2 Spark 工作原理介绍
6.3 Pyspark 命令介绍
6.4 Spark 实例: 通过Word Count 了解Spark 工作流程
6.5 Spark 实例: 二分类学习
6.6 Spark 实例: 决策树模型
6.7 参考文献
附录A Hadoop 安装运行
A.1 单机伪分布式安装
A.2 全分布式集群
附录B Mahout 安装与运行
附录C Hive 安装运行
C.1 准备
C.2 安装Hive
C.3 配置Hive
附录D HBase 安装运行
D.1 安装配置HBase
D.2 启动HBase

已确认勘误

页码	勘误内容	提交人	修订印次

大数据分布式计算与案例

名称
类型
大小

用户反馈

FAQ

大数据分布式计算与案例

已确认勘误

第次印刷 筛选

第次印刷