Python数据分析与应用:从数据获取到可视化

副标题:无

作   者:黑马程序员

分类号:

ISBN:9787113251451

微信扫一扫,移动浏览光盘

简介


本书采用理论与案例相结合的形式,以Anaconda为主要开发工具,系统、全面地介绍了Python数据分析的相关知识。全书共分为9章,第1章介绍了数据分析的基本概念,以及开发工具的安装和使用;第2~6章介绍了Python数据分析的常用库及其应用,涵盖了科学计算库NumPy、数据分析库Pandas、数据可视化库Matplotlib、Seaborn与Bokeh;第7、8章主要介绍了时间序列和文本数据的分析;第9章结合之前所学的技术开发了一个综合案例,演示如何在项目中运用所学的知识。除了第1章外,其他章节都包含了很多示例和综合案例,通过动手操作和练习,可以帮助读者更好地理解和掌握所学的知识。
本书适合作为高等院校计算机相关专业的大数据技术类课程教材,也可以作为大数据技术爱好者入门用书。

【目录】
第1章 数据分析概述 1
1.1 数据分析的背景 1
1.2 什么是数据分析 2
1.3 数据分析的应用场景 2
1.4 数据分析的流程 3
1.5 为什么选择Python做数据分析 4
1.6 创建新的Python环境——Anaconda 5
1.6.1 Anaconda发行版本概述 5
1.6.2 在Windows系统中安装Anaconda 5
1.6.3 通过Anaconda管理Python包 7
1.7 启用Jupyter Notebook 9
1.7.1 启动Anaconda自带的Jupyter Notebook 9
1.7.2 Jupyter Notebook界面详解 10
1.7.3 Jupyter Notebook的基本使用 13
1.8 常见的数据分析工具 16
小结 17
习题 17
第2章 科学计算库NumPy 19
2.1 认识NumPy数组对象 19
2.2 创建NumPy数组 21
2.3 ndarray对象的数据类型 22
2.3.1 查看数据类型 22
2.3.2 转换数据类型 23
2.4 数组运算 24
2.4.1 矢量化运算 24
2.4.2 数组广播 25
2.4.3 数组与标量间的运算 25
2.5 ndarray的索引和切片 26
2.5.1 整数索引和切片的基本使用 26
2.5.2 花式(数组)索引的基本使用 28
2.5.3 布尔型索引的基本使用 29
2.6 数组的转置和轴对称 30
2.7 NumPy通用函数 32
2.8 利用NumPy数组进行数据处理 34
2.8.1 将条件逻辑转为数组运算 34
2.8.2 数组统计运算 34
2.8.3 数组排序 35
2.8.4 检索数组元素 36
2.8.5 *化及其他集合逻辑 36
2.9 线性代数模块 37
2.10 随机数模块 38
2.11 案例——酒鬼漫步 39
小结 40
习题 40
第3章 数据分析工具Pandas 42
3.1 Pandas的数据结构分析 42
3.1.1 Series 42
3.1.2 DataFrame 44
3.2 Pandas索引操作及高级索引 46
3.2.1 索引对象 46
3.2.2 重置索引 47
3.2.3 索引操作 49
3.3 算术运算与数据对齐 53
3.4 数据排序 54
3.4.1 按索引排序 54
3.4.2 按值排序 55
3.5 统计计算与描述 56
3.5.1 常用的统计计算 57
3.5.2 统计描述 58
3.6 层次化索引 59
3.6.1 认识层次化索引 59
3.6.2 层次化索引的操作 64
3.7 读写数据操作 68
3.7.1 读写文本文件 68
3.7.2 读写Excel文件 70
3.7.3 读取HTML表格数据 72
3.7.4 读写数据库 73
3.8 案例——北京高考分数线统计分析 77
2.8.1 案例需求 77
2.8.2 数据准备 77
2.8.3 功能实现 78
小结 81
习题 81
第4章 数据预处理 83
4.1 数据清洗 83
4.1.1 空值和缺失值的处理 83
4.1.2 重复值的处理 88
4.1.3 异常值的处理 90
4.1.4 更改数据类型 94
4.2 数据合并 96
4.2.1 轴向堆叠数据 96
4.2.2 主键合并数据 99
4.2.3 根据行索引合并数据 103
4.2.4 合并重叠数据 105
4.3 数据重塑 106
4.3.1 重塑层次化索引 106
4.3.2 轴向旋转 109
4.4 数据转换 110
4.4.1 重命名轴索引 110
4.4.2 离散化连续数据 112
4.4.3 哑变量处理类别型数据 113
4.5 案例——预处理部分地区信息 115
4.5.1 案例需求 115
4.5.2 数据准备 115
4.5.3 功能实现 116
小结 123
习题 123
第5章 数据聚合与分组运算 125
5.1 分组与聚合的原理 125
5.2 通过groupby()方法将数据拆分成组 126
5.3 数据聚合 132
5.3.1 使用内置统计方法聚合数据 132
5.3.2 面向列的聚合方法 132
5.4 分组级运算 136
5.4.1 数据转换 136
5.4.2 数据应用 138
5.5 案例——运动员信息的分组与聚合 141
5.5.1 案例需求 141
5.5.2 数据准备 141
5.5.3 功能实现 142
小结 146
习题 147
第6章 数据可视化 149
6.1 数据可视化概述 149
6.1.1 什么是数据可视化 149
6.1.2 常见的图表类型 150
6.1.3 数据可视化的工具 154
6.2 Matplotlib——绘制图表 155
6.2.1 通过figure()函数创建画布 155
6.2.2 通过subplot()函数创建单个子图 157
6.2.3 通过subplots()函数创建多个子图 158
6.2.4 通过add_subplot()方法添加和选中子图 160
6.2.5 添加各类标签 161
6.2.6 绘制常见图表 162
6.2.7 本地保存图形 167
6.3 Seaborn——绘制统计图形 168
6.3.1 可视化数据的分布 168
6.3.2 用分类数据绘图 174
6.4 Bokeh——交互式可视化库 178
6.4.1 认识Bokeh库 178
6.4.2 通过Plotting绘制图形 179
6.5 案例——画图分析某年旅游景点数据 180
6.5.1 案例需求 181
6.5.2 数据准备 181
6.5.3 功能实现 181
小结 185
习题 185
第7章 时间序列分析 187
7.1 时间序列的基本操作 187
7.1.1 创建时间序列 187
7.1.2 通过时间戳索引选取子集 189
7.2 固定频率的时间序列 191
7.2.1 创建固定频率的时间序列 191
7.2.2 时间序列的频率、偏移量 193
7.2.3 时间序列的移动 195
7.3 时间周期及计算 196
7.3.1 创建时期对象 196
7.3.2 时期的频率转换 198
7.4 重采样 198
7.4.1 重采样方法(resample) 199
7.4.2 降采样 200
7.4.3 升采样 201
7.5 数据统计——滑动窗口 203
7.6 时序模型——ARIMA 206
7.7 案例——股票收盘价分析 207
7.7.1 案例需求 207
7.7.2 数据准备 207
7.7.3 功能实现 208
小结 213
习题 214
第8章 文本数据分析 216
8.1 文本数据分析工具 216
8.1.1 NLTK与jieba概述 216

8.1.2 安装NLTK和下载
语料库 217
8.1.3 jieba库的安装 219
8.2 文本预处理 220
8.2.1 预处理的流程 220
8.2.2 分词 221
8.2.3 词性标注 223
8.2.4 词形归一化 224
8.2.5 删除停用词 226
8.3 文本情感分析 227
8.4 文本相似度 229
8.5 文本分类 232
8.6 案例——商品评价分析 235
8.6.1 案例需求 235
8.6.2 数据准备 236
8.6.3 功能实现 236
小结 240
习题 240
第9章 数据分析实战——北京租房数据统计分析 242
9.1 数据来源 242
9.2 数据读取 243
9.3 数据预处理 244
9.3.1 重复值和空值处理 244
9.3.2 数据转换类型 246
9.4 图表分析 247
9.4.1 房源数量、位置分布分析 248
9.4.2 户型数量分析 255
9.4.3 平均租金分析 258
9.4.4 面积区间分析 260
小结 262

目录


第1章 数据分析概述 1
1.1 数据分析的背景 1
1.2 什么是数据分析 2
1.3 数据分析的应用场景 2
1.4 数据分析的流程 3
1.5 为什么选择Python做数据分析 4
1.6 创建新的Python环境——Anaconda 5
1.6.1 Anaconda发行版本概述 5
1.6.2 在Windows系统中安装Anaconda 5
1.6.3 通过Anaconda管理Python包 7
1.7 启用Jupyter Notebook 9
1.7.1 启动Anaconda自带的Jupyter Notebook 9
1.7.2 Jupyter Notebook界面详解 10
1.7.3 Jupyter Notebook的基本使用 13
1.8 常见的数据分析工具 16
小结 17
习题 17
第2章 科学计算库NumPy 19
2.1 认识NumPy数组对象 19
2.2 创建NumPy数组 21
2.3 ndarray对象的数据类型 22
2.3.1 查看数据类型 22
2.3.2 转换数据类型 23
2.4 数组运算 24
2.4.1 矢量化运算 24
2.4.2 数组广播 25
2.4.3 数组与标量间的运算 25
2.5 ndarray的索引和切片 26
2.5.1 整数索引和切片的基本使用 26
2.5.2 花式(数组)索引的基本使用 28
2.5.3 布尔型索引的基本使用 29
2.6 数组的转置和轴对称 30
2.7 NumPy通用函数 32
2.8 利用NumPy数组进行数据处理 34
2.8.1 将条件逻辑转为数组运算 34
2.8.2 数组统计运算 34
2.8.3 数组排序 35
2.8.4 检索数组元素 36
2.8.5 *化及其他集合逻辑 36
2.9 线性代数模块 37
2.10 随机数模块 38
2.11 案例——酒鬼漫步 39
小结 40
习题 40
第3章 数据分析工具Pandas 42
3.1 Pandas的数据结构分析 42
3.1.1 Series 42
3.1.2 DataFrame 44
3.2 Pandas索引操作及高级索引 46
3.2.1 索引对象 46
3.2.2 重置索引 47
3.2.3 索引操作 49
3.3 算术运算与数据对齐 53
3.4 数据排序 54
3.4.1 按索引排序 54
3.4.2 按值排序 55
3.5 统计计算与描述 56
3.5.1 常用的统计计算 57
3.5.2 统计描述 58
3.6 层次化索引 59
3.6.1 认识层次化索引 59
3.6.2 层次化索引的操作 64
3.7 读写数据操作 68
3.7.1 读写文本文件 68
3.7.2 读写Excel文件 70
3.7.3 读取HTML表格数据 72
3.7.4 读写数据库 73
3.8 案例——北京高考分数线统计分析 77
2.8.1 案例需求 77
2.8.2 数据准备 77
2.8.3 功能实现 78
小结 81
习题 81
第4章 数据预处理 83
4.1 数据清洗 83
4.1.1 空值和缺失值的处理 83
4.1.2 重复值的处理 88
4.1.3 异常值的处理 90
4.1.4 更改数据类型 94
4.2 数据合并 96
4.2.1 轴向堆叠数据 96
4.2.2 主键合并数据 99
4.2.3 根据行索引合并数据 103
4.2.4 合并重叠数据 105
4.3 数据重塑 106
4.3.1 重塑层次化索引 106
4.3.2 轴向旋转 109
4.4 数据转换 110
4.4.1 重命名轴索引 110
4.4.2 离散化连续数据 112
4.4.3 哑变量处理类别型数据 113
4.5 案例——预处理部分地区信息 115
4.5.1 案例需求 115
4.5.2 数据准备 115
4.5.3 功能实现 116
小结 123
习题 123
第5章 数据聚合与分组运算 125
5.1 分组与聚合的原理 125
5.2 通过groupby()方法将数据拆分成组 126
5.3 数据聚合 132
5.3.1 使用内置统计方法聚合数据 132
5.3.2 面向列的聚合方法 132
5.4 分组级运算 136
5.4.1 数据转换 136
5.4.2 数据应用 138
5.5 案例——运动员信息的分组与聚合 141
5.5.1 案例需求 141
5.5.2 数据准备 141
5.5.3 功能实现 142
小结 146
习题 147
第6章 数据可视化 149
6.1 数据可视化概述 149
6.1.1 什么是数据可视化 149
6.1.2 常见的图表类型 150
6.1.3 数据可视化的工具 154
6.2 Matplotlib——绘制图表 155
6.2.1 通过figure()函数创建画布 155
6.2.2 通过subplot()函数创建单个子图 157
6.2.3 通过subplots()函数创建多个子图 158
6.2.4 通过add_subplot()方法添加和选中子图 160
6.2.5 添加各类标签 161
6.2.6 绘制常见图表 162
6.2.7 本地保存图形 167
6.3 Seaborn——绘制统计图形 168
6.3.1 可视化数据的分布 168
6.3.2 用分类数据绘图 174
6.4 Bokeh——交互式可视化库 178
6.4.1 认识Bokeh库 178
6.4.2 通过Plotting绘制图形 179
6.5 案例——画图分析某年旅游景点数据 180
6.5.1 案例需求 181
6.5.2 数据准备 181
6.5.3 功能实现 181
小结 185
习题 185
第7章 时间序列分析 187
7.1 时间序列的基本操作 187
7.1.1 创建时间序列 187
7.1.2 通过时间戳索引选取子集 189
7.2 固定频率的时间序列 191
7.2.1 创建固定频率的时间序列 191
7.2.2 时间序列的频率、偏移量 193
7.2.3 时间序列的移动 195
7.3 时间周期及计算 196
7.3.1 创建时期对象 196
7.3.2 时期的频率转换 198
7.4 重采样 198
7.4.1 重采样方法(resample) 199
7.4.2 降采样 200
7.4.3 升采样 201
7.5 数据统计——滑动窗口 203
7.6 时序模型——ARIMA 206
7.7 案例——股票收盘价分析 207
7.7.1 案例需求 207
7.7.2 数据准备 207
7.7.3 功能实现 208
小结 213
习题 214
第8章 文本数据分析 216
8.1 文本数据分析工具 216
8.1.1 NLTK与jieba概述 216

8.1.2 安装NLTK和下载
语料库 217
8.1.3 jieba库的安装 219
8.2 文本预处理 220
8.2.1 预处理的流程 220
8.2.2 分词 221
8.2.3 词性标注 223
8.2.4 词形归一化 224
8.2.5 删除停用词 226
8.3 文本情感分析 227
8.4 文本相似度 229
8.5 文本分类 232
8.6 案例——商品评价分析 235
8.6.1 案例需求 235
8.6.2 数据准备 236
8.6.3 功能实现 236
小结 240
习题 240
第9章 数据分析实战——北京租房数据统计分析 242
9.1 数据来源 242
9.2 数据读取 243
9.3 数据预处理 244
9.3.1 重复值和空值处理 244
9.3.2 数据转换类型 246
9.4 图表分析 247
9.4.1 房源数量、位置分布分析 248
9.4.2 户型数量分析 255
9.4.3 平均租金分析 258
9.4.4 面积区间分析 260
小结 262
【作者简介】
江苏传智播客教育科技股份有限公司(简称传智播客)是一家专门致力于高素质软件开发人才培养的高科技公司。“黑马程序员”是传智播客旗下高端IT教育品牌。

已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

Python数据分析与应用:从数据获取到可视化
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon