简介
(1)本书是国内*本系统介绍数据科学的重要的专著,填补了国内此领域的空白。(2)在结构设计和内容选择上,不仅充分借鉴了国外著名大学设立的相关课程以及全球畅销的英文专著,而且也考虑到了国内相关课程定位与专业人才的培养需求。(3)每章提供了基于R的数据处理例题和领域经典案例,做到理论学习与实践应用相结合。书后附有R语言基本语法,便于教学与学习。(4)读者范围广,可以满足计算机科学与技术类、管理类、统计分析类、图情档类等多个专业人才,尤其是硕士生和博士生的教学与自学需要。(5)每章的首尾配有【导读】、【小结】、【习题】和【参考文献及扩展阅读】,便于教师的教学和学生的自学。习题部分以主动学习型开放题目为主,旨在帮助学生的自学能力。参考文献部分既提供了引用文献,又给出了推荐阅读文献目录。
目录
目录
第1章基础理论
1.1数据
1.1.1数据模型
1.1.2数据维度
1.2大数据
1.2.1内涵与特征
1.2.2大数据时代的新理念
1.2.3大数据时代的新术语
1.3数据科学概述
1.3.1研究目的
1.3.2理论基础
1.3.3研究内容
1.3.4基本流程
1.3.5主要原则
1.3.6典型应用
1.4数据科学家
1.4.1主要任务
1.4.2能力要求
1.4.3常用工具
1.4.4团队工作
1.5数据科学项目
1.5.1角色定义
1.5.2基本流程
1.6应用案例
小结
习题
参考文献及扩展阅读资料
第2章数据预处理
2.1数据质量
2.1.1统计学规律
2.1.2语言学规律
2.1.3数据连续性理论
2.1.4数据鉴别技术
2.1.5探索性数据分析
2.2数据审计
2.2.1预定义审计
2.2.2自定义审计
2.2.3可视化审计
2.3数据清洗
2.3.1缺失数据处理
2.3.2冗余数据处理
2.3.3噪声数据处理
2.4数据变换
2.4.1大小变换
2.4.2类型变换
2.5数据集成
2.5.1基本类型
2.5.2主要问题
2.6其他预处理方法
2.6.1数据脱敏
2.6.2数据归约
2.6.3数据标注
2.7应用案例
小结
习题
参考文献及扩展阅读资料
第3章数据统计
3.1概率分布
3.1.1正态分布
3.1.2卡方分布
3.1.3t分布
3.1.4F分布
3.2参数估计
3.2.1点估计
3.2.2区间估计
3.3假设检验
3.3.1参数检验
3.3.2非参数检验
3.4基本分析方法
3.4.1相关分析
3.4.2回归分析
3.4.3方差分析
3.4.4分类分析
3.4.5聚类分析
3.4.6时间序列分析
3.4.7其他方法
3.5元分析方法
3.5.1加权平均法
3.5.2优化方法
3.6应用案例
小结
习题
参考文献及扩展阅读资料
第4章机器学习
4.1基本概念
4.1.1定义
4.1.2应用
4.2机器学习活动
4.2.1训练经验的选择
4.2.2目标函数的选择
4.2.3目标函数的表示
4.2.4函数逼近算法的选择
4.3机器学习系统
4.3.1执行器
4.3.2评价器
4.3.3泛化器
4.3.4实验生成器
4.4主要类型
4.4.1基于实例学习
4.4.2概念学习
4.4.3决策树学习
4.4.4人工神经网络学习
4.4.5贝叶斯学习
4.4.6遗传算法
4.4.7分析学习
4.4.8增强学习
4.5典型算法
4.5.1KMeans算法
4.5.2KNN算法
4.5.3ID3算法
4.6应用案例
小结
习题
参考文献及扩展阅读资料
第5章数据可视化
5.1主要类型
5.1.1科学可视化
5.1.2信息可视化
5.1.3可视分析学
5.2基本模型
5.2.1顺序模型
5.2.2循环模型
5.2.3分析模型
5.3常用方法
5.3.1视觉编码
5.3.2统计图表
5.3.3图论方法
5.3.4视觉隐喻
5.3.5图形符号学
5.3.6面向领域的方法
5.4视觉编码
5.4.1视觉感知
5.4.2数据类型
5.4.3视觉通道
5.4.4视觉假象
5.5评价与改进
5.5.1测评原则
5.5.2测评流程
5.5.3测评方法
5.6应用案例
小结
习题
参考文献及扩展阅读资料
第6章数据计算
6.1计算模式的演变
6.1.1集中式计算
6.1.2分布式计算
6.1.3网格计算
6.1.4云计算
6.2主流计算框架——MapReduce
6.2.1基本思想
6.2.2实现过程
6.2.3主要特征
6.2.4关键技术
6.5.5下一代MapReduce
6.3主流计算平台——Hadoop MapReduce
6.3.1数据流
6.3.2任务处理
6.3.3技术实现
6.3.4YARN
6.4其他相关计算系统——Hadoop生态系统
6.4.1HDFS
6.4.2Hive
6.4.3Pig
6.4.4Mahout
6.4.5HBase
6.4.6ZooKeeper
6.4.7Flume
6.4.8Sqoop
6.5应用案例
小结
习题
参考文献及扩展阅读资料
第7章数据管理
7.1基本类型
7.1.1关系数据库
7.1.2NoSQL
7.1.3关系云
7.2体系结构
7.2.1MasterSlave结构
7.2.2P2P结构
7.3关键技术
7.3.1数据模型
7.3.2数据分布
7.3.3数据一致性
7.3.4CAP理论与BASE原则
7.3.5视图与物化视图
7.3.6事务与版本戳
7.4典型系统
7.4.1Memcached
7.4.2MongoDB
7.4.3Cassandra
7.4.4HBase
7.5应用案例
小结
习题
参考文献及扩展阅读资料
附录AR语言与R软件
附录B术语索引
第1章基础理论
1.1数据
1.1.1数据模型
1.1.2数据维度
1.2大数据
1.2.1内涵与特征
1.2.2大数据时代的新理念
1.2.3大数据时代的新术语
1.3数据科学概述
1.3.1研究目的
1.3.2理论基础
1.3.3研究内容
1.3.4基本流程
1.3.5主要原则
1.3.6典型应用
1.4数据科学家
1.4.1主要任务
1.4.2能力要求
1.4.3常用工具
1.4.4团队工作
1.5数据科学项目
1.5.1角色定义
1.5.2基本流程
1.6应用案例
小结
习题
参考文献及扩展阅读资料
第2章数据预处理
2.1数据质量
2.1.1统计学规律
2.1.2语言学规律
2.1.3数据连续性理论
2.1.4数据鉴别技术
2.1.5探索性数据分析
2.2数据审计
2.2.1预定义审计
2.2.2自定义审计
2.2.3可视化审计
2.3数据清洗
2.3.1缺失数据处理
2.3.2冗余数据处理
2.3.3噪声数据处理
2.4数据变换
2.4.1大小变换
2.4.2类型变换
2.5数据集成
2.5.1基本类型
2.5.2主要问题
2.6其他预处理方法
2.6.1数据脱敏
2.6.2数据归约
2.6.3数据标注
2.7应用案例
小结
习题
参考文献及扩展阅读资料
第3章数据统计
3.1概率分布
3.1.1正态分布
3.1.2卡方分布
3.1.3t分布
3.1.4F分布
3.2参数估计
3.2.1点估计
3.2.2区间估计
3.3假设检验
3.3.1参数检验
3.3.2非参数检验
3.4基本分析方法
3.4.1相关分析
3.4.2回归分析
3.4.3方差分析
3.4.4分类分析
3.4.5聚类分析
3.4.6时间序列分析
3.4.7其他方法
3.5元分析方法
3.5.1加权平均法
3.5.2优化方法
3.6应用案例
小结
习题
参考文献及扩展阅读资料
第4章机器学习
4.1基本概念
4.1.1定义
4.1.2应用
4.2机器学习活动
4.2.1训练经验的选择
4.2.2目标函数的选择
4.2.3目标函数的表示
4.2.4函数逼近算法的选择
4.3机器学习系统
4.3.1执行器
4.3.2评价器
4.3.3泛化器
4.3.4实验生成器
4.4主要类型
4.4.1基于实例学习
4.4.2概念学习
4.4.3决策树学习
4.4.4人工神经网络学习
4.4.5贝叶斯学习
4.4.6遗传算法
4.4.7分析学习
4.4.8增强学习
4.5典型算法
4.5.1KMeans算法
4.5.2KNN算法
4.5.3ID3算法
4.6应用案例
小结
习题
参考文献及扩展阅读资料
第5章数据可视化
5.1主要类型
5.1.1科学可视化
5.1.2信息可视化
5.1.3可视分析学
5.2基本模型
5.2.1顺序模型
5.2.2循环模型
5.2.3分析模型
5.3常用方法
5.3.1视觉编码
5.3.2统计图表
5.3.3图论方法
5.3.4视觉隐喻
5.3.5图形符号学
5.3.6面向领域的方法
5.4视觉编码
5.4.1视觉感知
5.4.2数据类型
5.4.3视觉通道
5.4.4视觉假象
5.5评价与改进
5.5.1测评原则
5.5.2测评流程
5.5.3测评方法
5.6应用案例
小结
习题
参考文献及扩展阅读资料
第6章数据计算
6.1计算模式的演变
6.1.1集中式计算
6.1.2分布式计算
6.1.3网格计算
6.1.4云计算
6.2主流计算框架——MapReduce
6.2.1基本思想
6.2.2实现过程
6.2.3主要特征
6.2.4关键技术
6.5.5下一代MapReduce
6.3主流计算平台——Hadoop MapReduce
6.3.1数据流
6.3.2任务处理
6.3.3技术实现
6.3.4YARN
6.4其他相关计算系统——Hadoop生态系统
6.4.1HDFS
6.4.2Hive
6.4.3Pig
6.4.4Mahout
6.4.5HBase
6.4.6ZooKeeper
6.4.7Flume
6.4.8Sqoop
6.5应用案例
小结
习题
参考文献及扩展阅读资料
第7章数据管理
7.1基本类型
7.1.1关系数据库
7.1.2NoSQL
7.1.3关系云
7.2体系结构
7.2.1MasterSlave结构
7.2.2P2P结构
7.3关键技术
7.3.1数据模型
7.3.2数据分布
7.3.3数据一致性
7.3.4CAP理论与BASE原则
7.3.5视图与物化视图
7.3.6事务与版本戳
7.4典型系统
7.4.1Memcached
7.4.2MongoDB
7.4.3Cassandra
7.4.4HBase
7.5应用案例
小结
习题
参考文献及扩展阅读资料
附录AR语言与R软件
附录B术语索引
数据科学
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×