简介
统计学习理论是研究利用经验数据进行机器学习的一种一般理论,属于计算机科学、模式识别和应用统计学相交叉与结合的范畴,其主要创立者是本书作者。统计学习理论基本内容诞生于20世纪60~70年代,到90年代中期发展到比较成熟并受到世界机器学习界的广泛重视,其核心内容反映在Vapnik的两部重要著作中,本书即是其中一部,另一部是《统计学习理论的本质》。 由于较系统地考虑了有限样本的情况,统计学习理论与传统统计学理论相比有更好的实用性,在该理论下发展出的支持向量机方法以其有限样本下良好的推广能力而备受重视。
目录
引论:归纳和统计推理问题.
0.1 统计学中的学习理论体系
0.2 统计推理的两种方法:特殊方法(参数推理)和通用方法(非参数推理)
0.3 参数方法的体系
0.4 参数体系的缺点
0.5 经典体系后的发展
0.6 复兴阶段
0.7 Glivenko-Cantelli-Kolmogorov理论的推广
0.8 结构风险最小化原则
0.9 小样本集推理的主要原则
0.10 本书的要点
第一部分 学习和推广性理论
第1章 处理学习问题的两种方法
1.1 基于实例学习的一般模型
1.2 最小化经验数据风险泛函的问题
1.3 模式识别问题
1.4 回归估计问题
1.5 解释间接测量结果的问题
1.6 密度估计问题(Fisher-Wald表达)
1.7 基于经验数据最小化风险泛函的归纳原则
1.8 解函数估计问题的经典方法
1.9 随机对象的识别:密度和条件密度估计
1.10 解近似确定性积分方程的问题
1.11 Clivenko-Cantelli定理
1.12 不适定问题
1.13 学习理论的结构
第1章附录 解不适定问题的方法
A1.1 解算子方程问题
A1.2 Tikhonov意义下的适定问题
A1.3 正则化方法
第2章 概率测度估计与学习问题
2.1 随机实验的概率模型
2.2 统计学的基本问题
2.3 估计一致收敛于未知概率测度的条件
2.4 部分一致收敛性和Glivenko-Cantelli定理的推广
2.5 在概率测度估计一致收敛的条件下最小化风险泛函
2.6 在概率测度估计部分一致收敛的条件下最小化风险泛函
2.7 关于概率测度估计收敛方式和学习问题表达的评述
第3章 经验风险最小化原则一致性的条件
3.1 一致性的经典定义
3.2 严格(非平凡)一致性的定义
3.3 经验过程
3.4 学习理论的关键定理(关于等价性的定理)
3.5 关键定理的证明
3.6 最大似然方法的严格一致性
3.7 频率一致收敛于概率的充分必要条件
3.8 有界实函数集均值一致收敛于期望的充分必要条件
3.9 无界函数集均值一致收敛于期望的充分必要条件
3.10 Kant的划分问题和Popper的不可证伪学说
3.11 不可证伪性定理
3.12 一致单边收敛性经验风险最小化原则和一致性的条件
3.13 学习理论的三个里程碑
第4章 指示损失函数风险的界
4.1 最简单模型的界:悲观情况
4.2 最简单模型的界:乐观情况
4.3 最简单模型的界:一般情况
4.4 基本不等式:悲观情况
4.5 定理4.1的证明
4.6 基本不等式:一般情况
4.7 定理4.2的证明
4.8 主要的非构造性的界
4.9 VC维
4.10 定理4.3的证明
4.11 不同函数集的VC维的例子
4.12 关于学习机器推广能力的界的评述
4.13 两个等分样本子集上频率差的界
第4章附录 关于ERM原则风险的下界
A4.1 统计推理中的两种策略
A4.2 学习问题的最小最大损失策略
A4.3 经验风险最小化原则的最大损失的上界
A4.4 乐观情形下最小最大损失策略的下界
A4.5 悲观情形下最小最大损失策略的下界
第5章 实损失函数风险的界
5.1 最简单模型的界:悲观情形
5.2 实函数集的容量
5.3 一般模型的界:悲观情形
5.4 基本不等式
5.5 一般模型的界:普遍情形
5.6 一致相对收敛的界
5.7 无界损失函数集中风险最小化问题的先验信息
5.8 无界非负函数集的风险的界
5.9 样本选择与野值问题
5.10 界理论的主要结果
第6章 结构风险最小化原则
6.1 结构风险最小化归纳原则的构架
6.2 最小描述长度和结构风险最小化归纳原则
6.3 结构风险最小化原则的一致性与关于收敛速率的渐近界
6.4 回归估计问题的界
6.5 函数逼近问题
6.6 局部风险最小化问题
第6章 附录 基于间接测量的函数估计
A6.1 估计间接测量结果的问题
A6.2 关于利用间接测量估计函数的定理
A6.3 定理的证明
第7章 随机不适定问题
7.1 随机不适定问题
7.2 解随机不适定问题的正则化方法
7.3 定理的证明
7.4 密度估计方法一致性的条件
7.5 非参数密度估计子:基于经验分布函数逼近分布函数的估计子
7.6 非经典估计子
7.7 光滑密度函数的渐近收敛速率
7.8 定理7.4的证明
7.9 密度估计问题中光滑(正则化)参数值的选取
7.10 两个密度比值的估计
7.11 直线上两个密度比值的估计
7.12 直线上条件概率的估计
第8章 估计给定点上的函数值
8.1 最小化总体风险的方法
8.2 总体风险的结构最小化方法
8.3 关于两个样本子集上频率的一致相对偏差的界
8.4 关于两个样本子集上均值的一致相对偏差的界
8.5 在线性决策规则集中估计指示函数的值
8.6 指示函数值估计的样本选取
8.7 在与参数成线性关系的函数集中估计实函数值
8.8 实函数值估计的样本选取
8.9 估计指示函数值的局部算法
8.10 估计实函数值的局部算法
8.11 在给定样本集中寻找最好点的问题
第二部分 函数的支持向量估计..
第9章 感知器及其推广
9.1 Rosenblatt感知器
9.2 定理的证明
9.3 随机逼近方法和指示函数的Sigmoid逼近方法
9.4 势函数法与径向基函数法
9.5 最优化理论中的三个定理
9.6 神经网络
第10章 估计指示函数的支持向量方法
10.1 最优超平面
10.2 不可分样本集的最优超平面
10.3 最优超平面的统计特性
10.4 定理的证明
10.5 支持向量机的思想
10.6 支持向量方法的另一种构造方式
10.7 利用界选择支持向量机
10.8 模式识别问题的支持向量机的例子
10.9 转导推理的支持向量方法
10.10 多类分类
10.11 关于支持向量方法推广性的评述
第11章 估计实函数的支持向量方法
11.1 不敏感损失函数
11.2 鲁棒估计子的损失函数
11.3 最小化包含ε不敏感损失函数的风险
11.4 函数估计的支持向量机
11.5 构造实函数估计的核
11.6 生成样条的核
11.7 生成Fourier展开的核
11.8 函数逼近和回归估计的支持向量ANOVA分解
11.9 解线性算子方程的支持向量方法
11.10 密度估计的支持向量方法
11.11 条件概率函数和条件密度函数的估计
11.12 支持向量方法与稀疏函数逼近之间的关系
第12章 模式识别的支持向量机
12.1 二次优化问题
12.2 数字识别问题:美国邮政服务数据库
12.3 切距
12.4 数字识别问题:NIST数据库
12.5 将来的竞争
第13章 函数逼近、回归估计和信号处理的支持向量机
13.1 模型选择问题
13.2 正则化线性函数集上的结构
13.3 利用支持向量方法的函数逼近
13.4 回归估计的支持向量机
13.5 求解正电子放射层析成像(PET)问题的支持向量方法
13.6 关于支持向量方法的评述
第三部分 学习理论的统计学基础
第14章 频率一致收敛于概率的充分必要条件
14.1 频率一致收敛于概率
14.2 基本引理
14.3 事件集的熵
14.4 熵的渐近性质
14.5 一致收敛性的充分必要条件:充分性的证明
14.6 一致收敛性的充分必要条件:必要性的证明
14.7 充分必要条件:必要性的证明(续)
第15章 均值一致收敛子期望的充分必要条件
15.1 ε熵
15.2 伪立方体
15.3 集合的ε扩张
15.4 辅助引理
15.5 一致收敛性的充分必要条件:必要性的证明
15.6 一致收敛性的充分必要条件:充分性的证明
15.7 定理15.1的推论
第16章 均值一致单边收敛于期望的充分必要条件
16.1 引言
16.2 最大体积部分
16.3 平均对数定理
16.4 走廊存在性定理
16.5 邻近走廊边界的函数的存在性定理(潜在不可证伪的定理)
16.6 必要条件
16.7 充分必要条件
注释与参考文献评述
参考文献
中英文术语对照表
0.1 统计学中的学习理论体系
0.2 统计推理的两种方法:特殊方法(参数推理)和通用方法(非参数推理)
0.3 参数方法的体系
0.4 参数体系的缺点
0.5 经典体系后的发展
0.6 复兴阶段
0.7 Glivenko-Cantelli-Kolmogorov理论的推广
0.8 结构风险最小化原则
0.9 小样本集推理的主要原则
0.10 本书的要点
第一部分 学习和推广性理论
第1章 处理学习问题的两种方法
1.1 基于实例学习的一般模型
1.2 最小化经验数据风险泛函的问题
1.3 模式识别问题
1.4 回归估计问题
1.5 解释间接测量结果的问题
1.6 密度估计问题(Fisher-Wald表达)
1.7 基于经验数据最小化风险泛函的归纳原则
1.8 解函数估计问题的经典方法
1.9 随机对象的识别:密度和条件密度估计
1.10 解近似确定性积分方程的问题
1.11 Clivenko-Cantelli定理
1.12 不适定问题
1.13 学习理论的结构
第1章附录 解不适定问题的方法
A1.1 解算子方程问题
A1.2 Tikhonov意义下的适定问题
A1.3 正则化方法
第2章 概率测度估计与学习问题
2.1 随机实验的概率模型
2.2 统计学的基本问题
2.3 估计一致收敛于未知概率测度的条件
2.4 部分一致收敛性和Glivenko-Cantelli定理的推广
2.5 在概率测度估计一致收敛的条件下最小化风险泛函
2.6 在概率测度估计部分一致收敛的条件下最小化风险泛函
2.7 关于概率测度估计收敛方式和学习问题表达的评述
第3章 经验风险最小化原则一致性的条件
3.1 一致性的经典定义
3.2 严格(非平凡)一致性的定义
3.3 经验过程
3.4 学习理论的关键定理(关于等价性的定理)
3.5 关键定理的证明
3.6 最大似然方法的严格一致性
3.7 频率一致收敛于概率的充分必要条件
3.8 有界实函数集均值一致收敛于期望的充分必要条件
3.9 无界函数集均值一致收敛于期望的充分必要条件
3.10 Kant的划分问题和Popper的不可证伪学说
3.11 不可证伪性定理
3.12 一致单边收敛性经验风险最小化原则和一致性的条件
3.13 学习理论的三个里程碑
第4章 指示损失函数风险的界
4.1 最简单模型的界:悲观情况
4.2 最简单模型的界:乐观情况
4.3 最简单模型的界:一般情况
4.4 基本不等式:悲观情况
4.5 定理4.1的证明
4.6 基本不等式:一般情况
4.7 定理4.2的证明
4.8 主要的非构造性的界
4.9 VC维
4.10 定理4.3的证明
4.11 不同函数集的VC维的例子
4.12 关于学习机器推广能力的界的评述
4.13 两个等分样本子集上频率差的界
第4章附录 关于ERM原则风险的下界
A4.1 统计推理中的两种策略
A4.2 学习问题的最小最大损失策略
A4.3 经验风险最小化原则的最大损失的上界
A4.4 乐观情形下最小最大损失策略的下界
A4.5 悲观情形下最小最大损失策略的下界
第5章 实损失函数风险的界
5.1 最简单模型的界:悲观情形
5.2 实函数集的容量
5.3 一般模型的界:悲观情形
5.4 基本不等式
5.5 一般模型的界:普遍情形
5.6 一致相对收敛的界
5.7 无界损失函数集中风险最小化问题的先验信息
5.8 无界非负函数集的风险的界
5.9 样本选择与野值问题
5.10 界理论的主要结果
第6章 结构风险最小化原则
6.1 结构风险最小化归纳原则的构架
6.2 最小描述长度和结构风险最小化归纳原则
6.3 结构风险最小化原则的一致性与关于收敛速率的渐近界
6.4 回归估计问题的界
6.5 函数逼近问题
6.6 局部风险最小化问题
第6章 附录 基于间接测量的函数估计
A6.1 估计间接测量结果的问题
A6.2 关于利用间接测量估计函数的定理
A6.3 定理的证明
第7章 随机不适定问题
7.1 随机不适定问题
7.2 解随机不适定问题的正则化方法
7.3 定理的证明
7.4 密度估计方法一致性的条件
7.5 非参数密度估计子:基于经验分布函数逼近分布函数的估计子
7.6 非经典估计子
7.7 光滑密度函数的渐近收敛速率
7.8 定理7.4的证明
7.9 密度估计问题中光滑(正则化)参数值的选取
7.10 两个密度比值的估计
7.11 直线上两个密度比值的估计
7.12 直线上条件概率的估计
第8章 估计给定点上的函数值
8.1 最小化总体风险的方法
8.2 总体风险的结构最小化方法
8.3 关于两个样本子集上频率的一致相对偏差的界
8.4 关于两个样本子集上均值的一致相对偏差的界
8.5 在线性决策规则集中估计指示函数的值
8.6 指示函数值估计的样本选取
8.7 在与参数成线性关系的函数集中估计实函数值
8.8 实函数值估计的样本选取
8.9 估计指示函数值的局部算法
8.10 估计实函数值的局部算法
8.11 在给定样本集中寻找最好点的问题
第二部分 函数的支持向量估计..
第9章 感知器及其推广
9.1 Rosenblatt感知器
9.2 定理的证明
9.3 随机逼近方法和指示函数的Sigmoid逼近方法
9.4 势函数法与径向基函数法
9.5 最优化理论中的三个定理
9.6 神经网络
第10章 估计指示函数的支持向量方法
10.1 最优超平面
10.2 不可分样本集的最优超平面
10.3 最优超平面的统计特性
10.4 定理的证明
10.5 支持向量机的思想
10.6 支持向量方法的另一种构造方式
10.7 利用界选择支持向量机
10.8 模式识别问题的支持向量机的例子
10.9 转导推理的支持向量方法
10.10 多类分类
10.11 关于支持向量方法推广性的评述
第11章 估计实函数的支持向量方法
11.1 不敏感损失函数
11.2 鲁棒估计子的损失函数
11.3 最小化包含ε不敏感损失函数的风险
11.4 函数估计的支持向量机
11.5 构造实函数估计的核
11.6 生成样条的核
11.7 生成Fourier展开的核
11.8 函数逼近和回归估计的支持向量ANOVA分解
11.9 解线性算子方程的支持向量方法
11.10 密度估计的支持向量方法
11.11 条件概率函数和条件密度函数的估计
11.12 支持向量方法与稀疏函数逼近之间的关系
第12章 模式识别的支持向量机
12.1 二次优化问题
12.2 数字识别问题:美国邮政服务数据库
12.3 切距
12.4 数字识别问题:NIST数据库
12.5 将来的竞争
第13章 函数逼近、回归估计和信号处理的支持向量机
13.1 模型选择问题
13.2 正则化线性函数集上的结构
13.3 利用支持向量方法的函数逼近
13.4 回归估计的支持向量机
13.5 求解正电子放射层析成像(PET)问题的支持向量方法
13.6 关于支持向量方法的评述
第三部分 学习理论的统计学基础
第14章 频率一致收敛于概率的充分必要条件
14.1 频率一致收敛于概率
14.2 基本引理
14.3 事件集的熵
14.4 熵的渐近性质
14.5 一致收敛性的充分必要条件:充分性的证明
14.6 一致收敛性的充分必要条件:必要性的证明
14.7 充分必要条件:必要性的证明(续)
第15章 均值一致收敛子期望的充分必要条件
15.1 ε熵
15.2 伪立方体
15.3 集合的ε扩张
15.4 辅助引理
15.5 一致收敛性的充分必要条件:必要性的证明
15.6 一致收敛性的充分必要条件:充分性的证明
15.7 定理15.1的推论
第16章 均值一致单边收敛于期望的充分必要条件
16.1 引言
16.2 最大体积部分
16.3 平均对数定理
16.4 走廊存在性定理
16.5 邻近走廊边界的函数的存在性定理(潜在不可证伪的定理)
16.6 必要条件
16.7 充分必要条件
注释与参考文献评述
参考文献
中英文术语对照表
统计学习理论
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×