微信扫一扫,移动浏览光盘
简介
卓金武,MathWorks中国科学计算业务总监,主要职责是向中国区MATLAB正版用户提供数据挖掘和量化投资解决方案。曾2次获全国大学生数学建模竞赛一等奖 (2003, 2004),1次获全国研究生数学建模竞赛一等奖 (2007);主编三著两部:《MATLAB在数学建模中的应用》(第一版和第二版),《量化投资:数据挖掘技术与实践(MATLAB版)》。周英,中科数据首席数据科学家,曾就职于知名搜索引擎公司6年,主要从事互联网文本挖掘工作的研发工作,目前专注的领域为大数据挖掘技术的工业应用研究和工程应用,曾获美国大学生数学建模竞赛二等奖一项,全国研究生数学建模竞赛二等奖一项,著有《大数据挖掘:系统方法与实例分析》
目录
第一篇 基础篇
第1章 绪论2
1.1 量化投资与数据挖掘的关系2
1.1.1 什么是量化投资2
1.1.2 量化投资的特点3
1.1.3 量化投资的核心——量化模型5
1.1.4 量化模型的主要产生方法——
数据挖掘7
1.2 数据挖掘的概念和原理8
1.2.1 什么是数据挖掘8
1.2.2 数据挖掘的原理10
1.3 数据挖掘在量化投资中的应用11
1.3.1 宏观经济分析11
1.3.2 估价13
1.3.3 量化选股14
1.3.4 量化择时14
1.3.5 算法交易14
1.4 本章小结15
参考文献16
第2章 数据挖掘的内容、过程及
工具17
2.1 数据挖掘的内容17
2.1.1 关联17
2.1.2 回归19
2.1.3 分类20
2.1.4 聚类21
2.1.5 预测22
2.1.6 诊断23
2.2 数据挖掘过程24
2.2.1 数据挖掘过程概述24
2.2.2 挖掘目标的定义25
2.2.3 数据的准备26
2.2.4 数据的探索28
2.2.5 模型的建立29
2.2.6 模型的评估33
2.2.7 模型的部署35
2.3 数据挖掘工具36
2.3.1 MATLAB36
2.3.2 SAS37
2.3.3 SPSS38
2.3.4 WEKA39
2.3.5 R41
2.3.6 工具的比较与选择42
2.4 本章小结43
参考文献43
第3章 MATLAB快速入门44
3.1 MATLAB快速入门44
3.1.1 MATLAB概要44
3.1.2 MATLAB的功能45
3.1.3 快速入门案例46
3.1.4 入门后的提高55
3.2 MATLAB常用技巧55
3.2.1 常用标点的功能55
3.2.2 常用操作指令56
3.2.3 指令编辑操作键56
3.2.4 MATLAB数据类型56
3.3 MATLAB开发模式58
3.3.1 命令行模式58
3.3.2 脚本模式58
3.3.3 面向对象模式58
3.3.4 三种模式的配合58
3.4 小结59
第二篇 技术篇
第4章 数据的准备63
4.1 数据的收集63
4.1.1 认识数据63
4.1.2 数据挖掘的数据源64
4.1.3 数据抽样65
4.1.4 量化投资的数据源67
4.1.5 从雅虎获取交易数据69
4.1.6 从大智慧获取财务数据71
4.1.7 从Wind中获取高质量数据73
4.2 数据质量分析75
4.2.1 数据质量分析的必要性75
4.2.2 数据质量分析的目的75
4.2.3 数据质量分析的内容76
4.2.4 数据质量分析的方法76
4.2.5 数据质量分析的结果及应用82
4.3 数据预处理82
4.3.1 为什么需要数据预处理82
4.3.2 数据预处理的主要任务83
4.3.3 数据清洗84
4.3.4 数据集成88
4.3.5 数据归约89
4.3.6 数据变换90
4.4 本章小结92
参考文献93
第5章 数据的探索94
5.1 衍生变量95
5.1.1 衍生变量的定义95
5.1.2 变量衍生的原则和方法96
5.1.3 常用的股票衍生变量96
5.1.4 评价型衍生变量101
5.1.5 衍生变量数据收集与集成103
5.2 数据的统计104
5.2.1 基本描述性统计105
5.2.2 分布描述性统计106
5.3 数据可视化106
5.3.1 基本可视化方法107
5.3.2 数据分布形状可视化108
5.3.3 数据关联情况可视化110
5.3.4 数据分组可视化111
5.4 样本选择113
5.4.1 样本选择的方法113
5.4.2 样本选择应用实例113
5.5 数据降维116
5.5.1 主成分分析(PCA)基本
原理116
5.5.2 PCA应用案例:企业综合
实力排序118
5.5.3 相关系数降维122
5.6 本章小结123
参考文献123
第6章 关联规则方法124
6.1 关联规则概要124
6.1.1 关联规则的提出背景124
6.1.2 关联规则的基本概念125
6.1.3 关联规则的分类127
6.1.4 关联规则挖掘常用算法128
6.2 Apriori算法128
6.2.1 Apriori算法的基本思想128
6.2.2 Apriori算法的步骤129
6.2.3 Apriori算法的实例129
6.2.4 Apriori算法的程序实现132
6.2.5 Apriori算法的优缺点135
6.3 FP-Growth算法136
6.3.1 FP-Growth算法步骤136
6.3.2 FP-Growth算法实例137
6.3.3 FP-Growth算法的优缺点139
6.4 应用实例:行业关联选股法139
6.5 本章小结141
参考文献142
第7章 数据回归方法143
7.1 一元回归144
7.1.1 一元线性回归144
7.1.2 一元非线性回归148
7.1.3 一元多项式回归153
7.2 多元回归153
7.2.1 多元线性回归153
7.2.2 多元多项式回归157
7.3 逐步归回160
7.3.1 逐步回归的基本思想160
7.3.2 逐步回归步骤161
7.3.3 逐步回归的MATLAB方法162
7.4 Logistic回归164
7.4.1 Logistic模型164
7.4.2 Logistic回归实例165
7.5 应用实例:多因子选股模型
的实现168
7.5.1 多因子模型的基本思想168
7.5.2 多因子模型的实现169
7.6 本章小结172
参考文献172
第8章 分类方法173
8.1 分类方法概要173
8.1.1 分类的概念173
8.1.2 分类的原理174
8.1.3 常用的分类方法175
8.2 K-近邻(KNN)176
8.2.1 K-近邻原理176
8.2.2 K-近邻实例177
8.2.3 K-近邻特点180
8.3 贝叶斯分类181
8.3.1 贝叶斯分类原理181
8.3.2 朴素贝叶斯分类原理182
8.3.3 朴素贝叶斯分类实例184
8.3.4 朴素贝叶斯特点185
8.4 神经网络185
8.4.1 神经网络的原理185
8.4.2 神经网络的实例188
8.4.3 神经网络的特点188
8.5 逻辑斯蒂(Logistic)189
8.5.1 逻辑斯蒂的原理189
8.5.2 逻辑斯蒂的实例189
8.5.3 逻辑斯蒂的特点189
8.6 判别分析190
8.6.1 判别分析的原理190
8.6.2 判别分析的实例191
8.6.3 判别分析的特点191
8.7 支持向量机(SVM)192
8.7.1 SVM的基本思想192
8.7.2 理论基础193
8.7.3 支持向量机的实例196
8.7.4 支持向量机的特点196
8.8 决策树197
8.8.1 决策树的基本概念197
8.8.2 决策树的建构的步骤198
8.8.3 决策树的实例201
8.8.4 决策树的特点202
8.9 分类的评判202
8.9.1 正确率202
8.9.2 ROC曲线204
8.10 应用实例:分类选股法206
8.10.1 案例背景206
8.10.2 实现方法208
8.11 延伸阅读:其他分类方法210
8.12 本章小结211
参考文献211
第9章 聚类方法212
9.1 聚类方法概要212
9.1.1 聚类的概念212
9.1.2 类的度量方法214
9.1.3 聚类方法的应用场景216
9.1.4 聚类方法的分类217
9.2 K-means方法217
9.2.1 K-means的原理和步骤218
9.2.2 K-means实例1:自主编程219
9.2.3 K-means实例2:集成函数221
9.2.4 K-means的特点224
9.3 层次聚类225
9.3.1 层次聚类的原理和步骤225
9.3.2 层次聚类的实例227
9.3.3 层次聚类的特点229
9.4 神经网络聚类229
9.4.1 神经网络聚类的原理和步骤229
9.4.2 神经网络聚类的实例229
9.4.3 神经网络聚类的特点230
9.5 模糊C-均值(FCM)方法230
9.5.1 FCM的原理和步骤230
9.5.2 FCM的应用实例232
9.5.3 FCM算法的特点233
9.6 高斯混合聚类方法233
9.6.1 高斯混合聚类的原理和步骤233
9.6.2 高斯聚类的实例236
9.6.3 高斯聚类的特点236
9.7 类别数的确定方法237
9.7.1 类别的原理237
9.7.2 类别的实例238
9.8 应用实例:股票聚类分池240
9.8.1 聚类目标和数据描述240
9.8.2 实现过程240
9.8.3 结果及分析242
9.9 延伸阅读244
9.9.1 目前聚类分析研究的主要
内容244
9.9.2 SOM智能聚类算法245
9.10 本章小结246
参考文献246
第10章 预测方法247
10.1 预测方法概要247
10.1.1 预测的概念247
10.1.2 预测的基本原理248
10.1.3 量化投资中预测的主要
内容249
10.1.4 预测的准确度评价及影响
因素250
10.1.5 常用的预测方法251
10.2 灰色预测252
10.2.1 灰色预测原理252
10.2.2 灰色预测的实例254
10.3 马尔科夫预测256
10.3.1 马尔科夫预测的原理256
10.3.2 马尔科夫过程的特性257
10.3.3 马尔科夫预测的实例258
10.4 应用实例:大盘走势预测262
10.4.1 数据的选取及模型的建立263
10.4.2 预测过程264
10.4.3 预测结果与分析265
10.5 本章小结265
参考文献267
第11章 诊断方法268
11.1 离群点诊断概要268
11.1.1 离群点诊断的定义268
11.1.2 离群点诊断的作用269
11.1.3 离群点诊断方法分类271
11.2 基于统计的离群点诊断271
11.2.1 理论基础271
11.2.2 应用实例273
11.2.3 优点与缺点275
11.3 基于距离的离群点诊断275
11.3.1 理论基础275
11.3.2 应用实例276
11.3.3 优点与缺点278
11.4 基于密度的离群点挖掘278
11.4.1 理论基础278
11.4.2 应用实例279
11.4.3 优点与缺点281
11.5 基于聚类的离群点挖掘281
11.5.1 理论基础281
11.5.2 应用实例282
11.5.3 优点与缺点284
11.6 应用实例:离群点诊断量化
择时284
11.7 延伸阅读:新兴的离群点
挖掘方法286
11.7.1 基于关联的离群点挖掘286
11.7.2 基于粗糙集的离群点挖掘286
11.7.3 基于人工神经网络的离群点
挖掘287
11.8 本章小结287
参考文献288
第12章 时间序列方法289
12.1 时间序列的基本概念289
12.1.1 时间序列的定义289
12.1.2 时间序列的组成因素290
12.1.3 时间序列的分类291
12.1.4 时间序列分析方法292
12.2 平稳时间序列分析方法292
12.2.1
第1章 绪论2
1.1 量化投资与数据挖掘的关系2
1.1.1 什么是量化投资2
1.1.2 量化投资的特点3
1.1.3 量化投资的核心——量化模型5
1.1.4 量化模型的主要产生方法——
数据挖掘7
1.2 数据挖掘的概念和原理8
1.2.1 什么是数据挖掘8
1.2.2 数据挖掘的原理10
1.3 数据挖掘在量化投资中的应用11
1.3.1 宏观经济分析11
1.3.2 估价13
1.3.3 量化选股14
1.3.4 量化择时14
1.3.5 算法交易14
1.4 本章小结15
参考文献16
第2章 数据挖掘的内容、过程及
工具17
2.1 数据挖掘的内容17
2.1.1 关联17
2.1.2 回归19
2.1.3 分类20
2.1.4 聚类21
2.1.5 预测22
2.1.6 诊断23
2.2 数据挖掘过程24
2.2.1 数据挖掘过程概述24
2.2.2 挖掘目标的定义25
2.2.3 数据的准备26
2.2.4 数据的探索28
2.2.5 模型的建立29
2.2.6 模型的评估33
2.2.7 模型的部署35
2.3 数据挖掘工具36
2.3.1 MATLAB36
2.3.2 SAS37
2.3.3 SPSS38
2.3.4 WEKA39
2.3.5 R41
2.3.6 工具的比较与选择42
2.4 本章小结43
参考文献43
第3章 MATLAB快速入门44
3.1 MATLAB快速入门44
3.1.1 MATLAB概要44
3.1.2 MATLAB的功能45
3.1.3 快速入门案例46
3.1.4 入门后的提高55
3.2 MATLAB常用技巧55
3.2.1 常用标点的功能55
3.2.2 常用操作指令56
3.2.3 指令编辑操作键56
3.2.4 MATLAB数据类型56
3.3 MATLAB开发模式58
3.3.1 命令行模式58
3.3.2 脚本模式58
3.3.3 面向对象模式58
3.3.4 三种模式的配合58
3.4 小结59
第二篇 技术篇
第4章 数据的准备63
4.1 数据的收集63
4.1.1 认识数据63
4.1.2 数据挖掘的数据源64
4.1.3 数据抽样65
4.1.4 量化投资的数据源67
4.1.5 从雅虎获取交易数据69
4.1.6 从大智慧获取财务数据71
4.1.7 从Wind中获取高质量数据73
4.2 数据质量分析75
4.2.1 数据质量分析的必要性75
4.2.2 数据质量分析的目的75
4.2.3 数据质量分析的内容76
4.2.4 数据质量分析的方法76
4.2.5 数据质量分析的结果及应用82
4.3 数据预处理82
4.3.1 为什么需要数据预处理82
4.3.2 数据预处理的主要任务83
4.3.3 数据清洗84
4.3.4 数据集成88
4.3.5 数据归约89
4.3.6 数据变换90
4.4 本章小结92
参考文献93
第5章 数据的探索94
5.1 衍生变量95
5.1.1 衍生变量的定义95
5.1.2 变量衍生的原则和方法96
5.1.3 常用的股票衍生变量96
5.1.4 评价型衍生变量101
5.1.5 衍生变量数据收集与集成103
5.2 数据的统计104
5.2.1 基本描述性统计105
5.2.2 分布描述性统计106
5.3 数据可视化106
5.3.1 基本可视化方法107
5.3.2 数据分布形状可视化108
5.3.3 数据关联情况可视化110
5.3.4 数据分组可视化111
5.4 样本选择113
5.4.1 样本选择的方法113
5.4.2 样本选择应用实例113
5.5 数据降维116
5.5.1 主成分分析(PCA)基本
原理116
5.5.2 PCA应用案例:企业综合
实力排序118
5.5.3 相关系数降维122
5.6 本章小结123
参考文献123
第6章 关联规则方法124
6.1 关联规则概要124
6.1.1 关联规则的提出背景124
6.1.2 关联规则的基本概念125
6.1.3 关联规则的分类127
6.1.4 关联规则挖掘常用算法128
6.2 Apriori算法128
6.2.1 Apriori算法的基本思想128
6.2.2 Apriori算法的步骤129
6.2.3 Apriori算法的实例129
6.2.4 Apriori算法的程序实现132
6.2.5 Apriori算法的优缺点135
6.3 FP-Growth算法136
6.3.1 FP-Growth算法步骤136
6.3.2 FP-Growth算法实例137
6.3.3 FP-Growth算法的优缺点139
6.4 应用实例:行业关联选股法139
6.5 本章小结141
参考文献142
第7章 数据回归方法143
7.1 一元回归144
7.1.1 一元线性回归144
7.1.2 一元非线性回归148
7.1.3 一元多项式回归153
7.2 多元回归153
7.2.1 多元线性回归153
7.2.2 多元多项式回归157
7.3 逐步归回160
7.3.1 逐步回归的基本思想160
7.3.2 逐步回归步骤161
7.3.3 逐步回归的MATLAB方法162
7.4 Logistic回归164
7.4.1 Logistic模型164
7.4.2 Logistic回归实例165
7.5 应用实例:多因子选股模型
的实现168
7.5.1 多因子模型的基本思想168
7.5.2 多因子模型的实现169
7.6 本章小结172
参考文献172
第8章 分类方法173
8.1 分类方法概要173
8.1.1 分类的概念173
8.1.2 分类的原理174
8.1.3 常用的分类方法175
8.2 K-近邻(KNN)176
8.2.1 K-近邻原理176
8.2.2 K-近邻实例177
8.2.3 K-近邻特点180
8.3 贝叶斯分类181
8.3.1 贝叶斯分类原理181
8.3.2 朴素贝叶斯分类原理182
8.3.3 朴素贝叶斯分类实例184
8.3.4 朴素贝叶斯特点185
8.4 神经网络185
8.4.1 神经网络的原理185
8.4.2 神经网络的实例188
8.4.3 神经网络的特点188
8.5 逻辑斯蒂(Logistic)189
8.5.1 逻辑斯蒂的原理189
8.5.2 逻辑斯蒂的实例189
8.5.3 逻辑斯蒂的特点189
8.6 判别分析190
8.6.1 判别分析的原理190
8.6.2 判别分析的实例191
8.6.3 判别分析的特点191
8.7 支持向量机(SVM)192
8.7.1 SVM的基本思想192
8.7.2 理论基础193
8.7.3 支持向量机的实例196
8.7.4 支持向量机的特点196
8.8 决策树197
8.8.1 决策树的基本概念197
8.8.2 决策树的建构的步骤198
8.8.3 决策树的实例201
8.8.4 决策树的特点202
8.9 分类的评判202
8.9.1 正确率202
8.9.2 ROC曲线204
8.10 应用实例:分类选股法206
8.10.1 案例背景206
8.10.2 实现方法208
8.11 延伸阅读:其他分类方法210
8.12 本章小结211
参考文献211
第9章 聚类方法212
9.1 聚类方法概要212
9.1.1 聚类的概念212
9.1.2 类的度量方法214
9.1.3 聚类方法的应用场景216
9.1.4 聚类方法的分类217
9.2 K-means方法217
9.2.1 K-means的原理和步骤218
9.2.2 K-means实例1:自主编程219
9.2.3 K-means实例2:集成函数221
9.2.4 K-means的特点224
9.3 层次聚类225
9.3.1 层次聚类的原理和步骤225
9.3.2 层次聚类的实例227
9.3.3 层次聚类的特点229
9.4 神经网络聚类229
9.4.1 神经网络聚类的原理和步骤229
9.4.2 神经网络聚类的实例229
9.4.3 神经网络聚类的特点230
9.5 模糊C-均值(FCM)方法230
9.5.1 FCM的原理和步骤230
9.5.2 FCM的应用实例232
9.5.3 FCM算法的特点233
9.6 高斯混合聚类方法233
9.6.1 高斯混合聚类的原理和步骤233
9.6.2 高斯聚类的实例236
9.6.3 高斯聚类的特点236
9.7 类别数的确定方法237
9.7.1 类别的原理237
9.7.2 类别的实例238
9.8 应用实例:股票聚类分池240
9.8.1 聚类目标和数据描述240
9.8.2 实现过程240
9.8.3 结果及分析242
9.9 延伸阅读244
9.9.1 目前聚类分析研究的主要
内容244
9.9.2 SOM智能聚类算法245
9.10 本章小结246
参考文献246
第10章 预测方法247
10.1 预测方法概要247
10.1.1 预测的概念247
10.1.2 预测的基本原理248
10.1.3 量化投资中预测的主要
内容249
10.1.4 预测的准确度评价及影响
因素250
10.1.5 常用的预测方法251
10.2 灰色预测252
10.2.1 灰色预测原理252
10.2.2 灰色预测的实例254
10.3 马尔科夫预测256
10.3.1 马尔科夫预测的原理256
10.3.2 马尔科夫过程的特性257
10.3.3 马尔科夫预测的实例258
10.4 应用实例:大盘走势预测262
10.4.1 数据的选取及模型的建立263
10.4.2 预测过程264
10.4.3 预测结果与分析265
10.5 本章小结265
参考文献267
第11章 诊断方法268
11.1 离群点诊断概要268
11.1.1 离群点诊断的定义268
11.1.2 离群点诊断的作用269
11.1.3 离群点诊断方法分类271
11.2 基于统计的离群点诊断271
11.2.1 理论基础271
11.2.2 应用实例273
11.2.3 优点与缺点275
11.3 基于距离的离群点诊断275
11.3.1 理论基础275
11.3.2 应用实例276
11.3.3 优点与缺点278
11.4 基于密度的离群点挖掘278
11.4.1 理论基础278
11.4.2 应用实例279
11.4.3 优点与缺点281
11.5 基于聚类的离群点挖掘281
11.5.1 理论基础281
11.5.2 应用实例282
11.5.3 优点与缺点284
11.6 应用实例:离群点诊断量化
择时284
11.7 延伸阅读:新兴的离群点
挖掘方法286
11.7.1 基于关联的离群点挖掘286
11.7.2 基于粗糙集的离群点挖掘286
11.7.3 基于人工神经网络的离群点
挖掘287
11.8 本章小结287
参考文献288
第12章 时间序列方法289
12.1 时间序列的基本概念289
12.1.1 时间序列的定义289
12.1.2 时间序列的组成因素290
12.1.3 时间序列的分类291
12.1.4 时间序列分析方法292
12.2 平稳时间序列分析方法292
12.2.1
量化投资——MATLAB数据挖掘技术与实践
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×