简介
数据挖掘是当前数据分析领域中最活跃、最前沿的地带。本书以数据挖掘的实践过程为主线,通过生动的应用案例,从数据挖掘实施角度,系统介绍了经典的数据挖掘方法和利用SPSS Modeler实现数据挖掘的全部过程,讲解方法从易到难,说明问题从浅至深。本书力求以最通俗的方式阐述数据挖掘方法的核心思想与基本原理,同时配合SPSS Modeler软件操作的说明,希望读者能够直观了解方法本质,尽快掌握SPSS Modeler软件使用,并应用到数据挖掘实践中。书中所有数据和案例与华信教育资源网上数据资料内容一致。
目录
第1章数据挖掘和Clementine概述1
1.1数据挖掘的产生背景1
1.1.1海量数据的分析需求催生数据挖掘1
1.1.2应用对理论的挑战催生数据挖掘3
1.2什么是数据挖掘6
1.2.1数据挖掘的概念6
1.2.2数据挖掘能做什么8
1.2.3数据挖掘得到的知识形式9
1.2.4数据挖掘的算法分类11
1.3Clementine软件概述14
1.3.1Clementine的窗口14
1.3.2数据流的基本管理和执行17
1.3.3数据流的其他管理19
1.3.4从一个示例看Clementine的使用21
第2章Clementine数据的读入30
2.1变量的类型30
2.1.1从数据挖掘角度看变量类型30
2.1.2从数据存储角度看变量类型31
2.2读入数据31
2.2.1读自由格式的文本文件32
2.2.2读Excel电子表格数据36
2.2.3读SPSS格式文件37
2.2.4读数据库文件38
2.3生成实验方案数据40
2.4合并数据42
2.4.1数据的纵向合并42
2.4.2数据的横向合并44
第3章Clementine变量的管理47
3.1变量说明47
3.1.1取值范围和缺失值的说明48
3.1.2变量取值有效性检查和修正49
3.1.3变量角色的说明50
3.2变量值的重新计算51
3.2.1CLEM表达式52
3.2.2变量值重新计算示例55
3.3变量类别值的调整57
3.4生成新变量58
3.5变量值的离散化处理62
3.5.1常用的分箱方法62
3.5.2变量值的离散化处理示例66
3.6生成样本集分割变量69
3.6.1样本集分割的意义和常见方法69
3.6.2生成样本集分割变量的示例71
第4章Clementine样本的管理73
4.1样本的排序73
4.2样本的条件筛选74
4.3样本的随机抽样75
4.4样本的浓缩处理76
4.5样本的分类汇总77
4.6样本的平衡处理78
4.7样本的其他管理79
4.7.1数据转置79
4.7.2数据的重新组织81
第5章Clementine数据的基本分析83
5.1数据质量的探索84
5.1.1数据的基本描述与质量探索84
5.1.2离群点和极端值的修正87
5.1.3缺失值的替补88
5.1.4数据质量管理的其他功能89
5.2基本描述分析90
5.2.1计算基本描述统计量91
5.2.2绘制散点图93
5.3变量分布的探索94
5.4两分类变量相关性的研究97
5.4.1两分类变量相关性的图形分析97
5.4.2两分类变量相关性的数值分析100
5.5两总体的均值比较105
5.5.1两总体均值比较的图形分析105
5.5.2独立样本的均值检验107
5.5.3配对样本的均值检验111
5.6变量重要性的分析113
5.6.1变量重要性分析的一般方法113
5.6.2变量重要性分析的应用示例116
第6章分类预测:Clementine的决策树119
6.1决策树算法概述119
6.1.1什么是决策树119
6.1.2决策树的几何理解121
6.1.3决策树的核心问题121
6.2Clementine的C5.0算法及应用124
6.2.1信息熵和信息增益124
6.2.2C5.0的决策树生长算法126
6.2.3C5.0的剪枝算法130
6.2.4C5.0的推理规则集132
6.2.5C5.0的基本应用示例136
6.2.6C5.0的损失矩阵和Boosting技术140
6.2.7C5.0的模型评价145
6.2.8C5.0的其他话题:推理规则、交叉验证和未剪枝的决策树147
6.3Clementine的分类回归树及应用148
6.3.1分类回归树的生长过程149
6.3.2分类回归树的剪枝过程151
6.3.3损失矩阵对分类树的影响154
6.3.4分类回归树的基本应用示例155
6.3.5分类回归树的交互建模159
6.3.6分类回归树的模型评价160
6.4Clementine的CHAID算法及应用168
6.4.1CHAID分组变量的预处理和选择策略168
6.4.2ExhaustiveCHAID算法170
6.4.3CHAID的剪枝171
6.4.4CHAID的应用示例171
6.5Clementine的QUEST算法及应用173
6.5.1QUEST算法确定最佳分组变量和分割点的方法174
6.5.2QUEST算法的应用示例176
6.6决策树算法评估的图形比较177
6.6.1不同模型的误差对比177
6.6.2不同模型收益的对比178
第7章分类预测:Clementine的人工神经网络181
7.1人工神经网络算法概述181
7.1.1人工神经网络的概念和种类181
7.1.2人工神经网络中的节点和意义183
7.1.3人工神经网络建立的一般步骤185
7.2Clementine的B—P反向传播网络187
7.2.1感知机模型188
7.2.2B—P反向传播网络的特点190
7.2.3B—P反向传播算法193
7.2.4B—P反向传播网络的其他问题196
7.3Clementine的B—P反向传播网络的应用199
7.3.1基本操作说明200
7.3.2计算结果说明202
7.3.3提高模型预测精度204
7.4Clementine的径向基函数网络及应用204
7.4.1径向基函数网络中的隐节点和输出节点204
7.4.2径向基函数网络的学习过程205
7.4.3径向基函数网络的应用示例207
第8章分类预测:Clementine的统计方法209
8.1Clementine的Logistic回归分析及应用209
8.1.1二项Logistic回归方程210
8.1.2二项Logistic回归方程系数的含义212
8.1.3二项Logistic回归方程的检验214
8.1.4二项Logistic回归分析的应用示例218
8.1.5多项Logistic回归分析的应用示例224
8.2Clementine的判别分析及应用226
8.2.1距离判别法226
8.2.2Fisher判别法228
8.2.3贝叶斯判别法231
8.2.4判别分析的应用示例233
第9章探索内部结构:Clementine的关联分析242
9.1简单关联规则及其有效性242
9.1.1简单关联规则的基本概念243
9.1.2简单关联规则的有效性和实用性245
9.2Clementine的Apriori算法及应用249
9.2.1产生频繁项集249
9.2.2依据频繁项集产生简单关联规则251
9.2.3Apriori算法的应用示例251
9.3Clementine的GRI算法及应用256
9.3.1GRI算法基本思路256
9.3.2GRI算法的具体策略257
9.3.3GRI算法的应用示例259
9.4Clementine的序列关联及应用260
9.4.1序列关联中的基本概念261
9.4.2Sequence算法262
9.4.3序列关联的时间约束266
9.4.4序列关联分析的应用示例266
第10章探索内部结构:Clementine的聚类分析270
10.1聚类分析的一般问题270
10.1.1聚类分析的提出270
10.1.2聚类分析的算法271
10.2Clementine的K—Means聚类及应用271
10.2.1K—Means对“亲疏程度”的测度271
10.2.2K—Means聚类过程272
10.2.3K—Means聚类的应用示例275
10.3Clementine的两步聚类及应用279
10.3.1两步聚类对“亲疏程度”的测度279
10.3.2两步聚类过程281
10.3.3聚类数目的确定282
10.3.4两步聚类的应用示例284
10.4Clementine的Kohonen网络聚类及应用286
10.4.1Kohonen网络的聚类机理286
10.4.2Kohonen网络的聚类过程288
10.4.3Kohonen网络聚类的示例290
10.5基于聚类分析的离群点探索及应用295
10.5.1多维空间基于聚类的诊断方法296
10.5.2多维空间基于聚类的诊断方法应用示例299
参考文献302
1.1数据挖掘的产生背景1
1.1.1海量数据的分析需求催生数据挖掘1
1.1.2应用对理论的挑战催生数据挖掘3
1.2什么是数据挖掘6
1.2.1数据挖掘的概念6
1.2.2数据挖掘能做什么8
1.2.3数据挖掘得到的知识形式9
1.2.4数据挖掘的算法分类11
1.3Clementine软件概述14
1.3.1Clementine的窗口14
1.3.2数据流的基本管理和执行17
1.3.3数据流的其他管理19
1.3.4从一个示例看Clementine的使用21
第2章Clementine数据的读入30
2.1变量的类型30
2.1.1从数据挖掘角度看变量类型30
2.1.2从数据存储角度看变量类型31
2.2读入数据31
2.2.1读自由格式的文本文件32
2.2.2读Excel电子表格数据36
2.2.3读SPSS格式文件37
2.2.4读数据库文件38
2.3生成实验方案数据40
2.4合并数据42
2.4.1数据的纵向合并42
2.4.2数据的横向合并44
第3章Clementine变量的管理47
3.1变量说明47
3.1.1取值范围和缺失值的说明48
3.1.2变量取值有效性检查和修正49
3.1.3变量角色的说明50
3.2变量值的重新计算51
3.2.1CLEM表达式52
3.2.2变量值重新计算示例55
3.3变量类别值的调整57
3.4生成新变量58
3.5变量值的离散化处理62
3.5.1常用的分箱方法62
3.5.2变量值的离散化处理示例66
3.6生成样本集分割变量69
3.6.1样本集分割的意义和常见方法69
3.6.2生成样本集分割变量的示例71
第4章Clementine样本的管理73
4.1样本的排序73
4.2样本的条件筛选74
4.3样本的随机抽样75
4.4样本的浓缩处理76
4.5样本的分类汇总77
4.6样本的平衡处理78
4.7样本的其他管理79
4.7.1数据转置79
4.7.2数据的重新组织81
第5章Clementine数据的基本分析83
5.1数据质量的探索84
5.1.1数据的基本描述与质量探索84
5.1.2离群点和极端值的修正87
5.1.3缺失值的替补88
5.1.4数据质量管理的其他功能89
5.2基本描述分析90
5.2.1计算基本描述统计量91
5.2.2绘制散点图93
5.3变量分布的探索94
5.4两分类变量相关性的研究97
5.4.1两分类变量相关性的图形分析97
5.4.2两分类变量相关性的数值分析100
5.5两总体的均值比较105
5.5.1两总体均值比较的图形分析105
5.5.2独立样本的均值检验107
5.5.3配对样本的均值检验111
5.6变量重要性的分析113
5.6.1变量重要性分析的一般方法113
5.6.2变量重要性分析的应用示例116
第6章分类预测:Clementine的决策树119
6.1决策树算法概述119
6.1.1什么是决策树119
6.1.2决策树的几何理解121
6.1.3决策树的核心问题121
6.2Clementine的C5.0算法及应用124
6.2.1信息熵和信息增益124
6.2.2C5.0的决策树生长算法126
6.2.3C5.0的剪枝算法130
6.2.4C5.0的推理规则集132
6.2.5C5.0的基本应用示例136
6.2.6C5.0的损失矩阵和Boosting技术140
6.2.7C5.0的模型评价145
6.2.8C5.0的其他话题:推理规则、交叉验证和未剪枝的决策树147
6.3Clementine的分类回归树及应用148
6.3.1分类回归树的生长过程149
6.3.2分类回归树的剪枝过程151
6.3.3损失矩阵对分类树的影响154
6.3.4分类回归树的基本应用示例155
6.3.5分类回归树的交互建模159
6.3.6分类回归树的模型评价160
6.4Clementine的CHAID算法及应用168
6.4.1CHAID分组变量的预处理和选择策略168
6.4.2ExhaustiveCHAID算法170
6.4.3CHAID的剪枝171
6.4.4CHAID的应用示例171
6.5Clementine的QUEST算法及应用173
6.5.1QUEST算法确定最佳分组变量和分割点的方法174
6.5.2QUEST算法的应用示例176
6.6决策树算法评估的图形比较177
6.6.1不同模型的误差对比177
6.6.2不同模型收益的对比178
第7章分类预测:Clementine的人工神经网络181
7.1人工神经网络算法概述181
7.1.1人工神经网络的概念和种类181
7.1.2人工神经网络中的节点和意义183
7.1.3人工神经网络建立的一般步骤185
7.2Clementine的B—P反向传播网络187
7.2.1感知机模型188
7.2.2B—P反向传播网络的特点190
7.2.3B—P反向传播算法193
7.2.4B—P反向传播网络的其他问题196
7.3Clementine的B—P反向传播网络的应用199
7.3.1基本操作说明200
7.3.2计算结果说明202
7.3.3提高模型预测精度204
7.4Clementine的径向基函数网络及应用204
7.4.1径向基函数网络中的隐节点和输出节点204
7.4.2径向基函数网络的学习过程205
7.4.3径向基函数网络的应用示例207
第8章分类预测:Clementine的统计方法209
8.1Clementine的Logistic回归分析及应用209
8.1.1二项Logistic回归方程210
8.1.2二项Logistic回归方程系数的含义212
8.1.3二项Logistic回归方程的检验214
8.1.4二项Logistic回归分析的应用示例218
8.1.5多项Logistic回归分析的应用示例224
8.2Clementine的判别分析及应用226
8.2.1距离判别法226
8.2.2Fisher判别法228
8.2.3贝叶斯判别法231
8.2.4判别分析的应用示例233
第9章探索内部结构:Clementine的关联分析242
9.1简单关联规则及其有效性242
9.1.1简单关联规则的基本概念243
9.1.2简单关联规则的有效性和实用性245
9.2Clementine的Apriori算法及应用249
9.2.1产生频繁项集249
9.2.2依据频繁项集产生简单关联规则251
9.2.3Apriori算法的应用示例251
9.3Clementine的GRI算法及应用256
9.3.1GRI算法基本思路256
9.3.2GRI算法的具体策略257
9.3.3GRI算法的应用示例259
9.4Clementine的序列关联及应用260
9.4.1序列关联中的基本概念261
9.4.2Sequence算法262
9.4.3序列关联的时间约束266
9.4.4序列关联分析的应用示例266
第10章探索内部结构:Clementine的聚类分析270
10.1聚类分析的一般问题270
10.1.1聚类分析的提出270
10.1.2聚类分析的算法271
10.2Clementine的K—Means聚类及应用271
10.2.1K—Means对“亲疏程度”的测度271
10.2.2K—Means聚类过程272
10.2.3K—Means聚类的应用示例275
10.3Clementine的两步聚类及应用279
10.3.1两步聚类对“亲疏程度”的测度279
10.3.2两步聚类过程281
10.3.3聚类数目的确定282
10.3.4两步聚类的应用示例284
10.4Clementine的Kohonen网络聚类及应用286
10.4.1Kohonen网络的聚类机理286
10.4.2Kohonen网络的聚类过程288
10.4.3Kohonen网络聚类的示例290
10.5基于聚类分析的离群点探索及应用295
10.5.1多维空间基于聚类的诊断方法296
10.5.2多维空间基于聚类的诊断方法应用示例299
参考文献302
SPSS Modeler 数据挖掘方法及应用
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×