缺失数据

副标题:无

作   者:保罗·D.埃里森

分类号:

ISBN:9787543228672

微信扫一扫,移动浏览光盘

简介


本书介绍了针对社会科学研究中经常遇到的样本数据缺失的处理方法。样本数据缺失是指样本中出现各种统计变量的缺失,以往研究者喜欢将这种缺失认定为符合完全随机缺失的特性,但实际上这一假设并不一定能完全符合,往往只能符合随机缺失的特性,在对这种数据缺失进行处理时,往往会出现删除大量数据导致影响统计结果的问题。本书的主要内容在于介绍了在有缺失数据时如何进行*似然估计的方法。除此之外,本书还对插补的EM算法、多重插补法等方法进行了介绍。并讨论了不可忽略的缺失数据。

目录


第1章 导论

第2章 假设

第1节 完全随机缺失的

第2节 随机缺失的

第3节 可忽略的

第4节 不可忽略的

第3章 传统的方法

第1节 成列删除

第2节 成对删除

第3节 虚拟变量调整

第4节 插补

第5节 总结

第4章 *似然

第1节 回顾*似然估计法

第2节 有缺失数据的ML

第3节 列联表数据

第4节 具正态分布数据的线性模型

第5节 EM算法

第6节 EM实例

第7节 直接ML

第8节 直接ML实例

第9节 结论

第5章 多重插补:基本原理

第1节 单一随机插补

第2节 多元随机插补

第3节 在参数估计值中考虑随机变异

第4节 在多变量正态模型下的多重插补

第5节 多变量正态模型的数据扩增法

第6节 在数据扩增法中收敛

第7节 连续的数据扩增法相对平行的数据扩增法

第8节 对非正态或类别数据使用正态模型

第9节 探索分析

第10节 MI实例1

第6章 多重插补:复杂化

第1节 MI中的交互作用和非线性

第2节 插补模型和分析模型之适合性

第3节 插补中因变量所扮演的角色

第4节 在插补过程中使用额外的变量

第5节 多重插补的其他参数方法

第6节 无参数及部分参数方法

第7节 连续的广义回归模型

第8节 线性假设检验和*似然比检验

第9节 MI实例2

第10节 长期的及其他集群数据的MI

第11节 MI实例3

第7章 不可忽略的缺失数据

第1节 两种模型

第2节 Heckman的样本选择误差模型

第3节 形态混合模型的ML估计

第4节 形态混合模型的多重插补

第8章 总结与结论

注释

参考文献

译名对照表


【书摘与插画】

如前所述,成列刪除通过从样本中删除所关注模型中的在任何变量上有缺失值的观察值,并运用传统分析完整数据组的方法而实现。成列刪除有两个明显的优点:(1)它可以用于任何类型的统计分析,从结构方程模型(structural equation modeling)到对数线性分析(log-linear analysis);(2)并不需要特别的运算方法。根据缺失数据机制,成列刪除有一些吸引人的统计特性。明确地说,如果数据为MCAR,则减少的(reduced)样本将会是原样本的一个随机次样本。这意味着,对于任何所关注的参数,如果估计值对于完整的数据组(没有缺失数据)的估计值是无偏误的,那么对于成列刪除的数据组也会是无偏误的。此外,由成列刪除的数据组所获得的标准误及检验统计量也如同它们在完整数据组中的一样适当。

当然,因为所利用的信息较少,标准误在成列刪除的数据组中通常会比较大。它们也会倾向大于(在本书后面叙述的)由*适当的方法所获得的标准误,但至少你不用担心因为缺失数据而导致推论错误——这是大多数常用方法的一个大问题。

另一方面,如果数据不是MCAR,而只是MAR,成列刪除可能产生有偏误的估计值。例如,如果教育缺失数据的概率取决于职业地位,对职业地位进行关于教育的回归将会产生一个有偏误的回归系数估计值。因此,一般而言,成列刪除对于违反MCAR假设的情况并不是稳健的(robust)。但令人意外的是,成列刪除对在回归分析中的自变量间违反MAR时是*稳健的。明确地说,如果任何因变量缺失数据的概率不取决于自变量的值,则使用成列刪除的回归估计值将会是无偏误的(如果所有一般回归模型假设都被满足的话)。

例如,假设我们想估计一个回归模型以预测年储蓄,其中一个自变量为收入,有40%的数据是缺失的。进一步地假设收入缺失数据的概率高度取决于收入和教育年数两者,教育年数为模型中另一个自变量。只要缺失收入的概率不取决于储蓄,回归估计值将会是无偏误的(Little, 1992)。

为什么会这样呢?有一个重要的原因(idea)。对回归模型的自变量做非比例分层化抽样(disporportionate stratified sampling)并不会使系数估计值产生偏误。一个仅与自变量值相关的缺失数据机制在本质上与分层化抽样(stratified sampling)相同,也就是说,个案以基于其它变量值的概率而被选择进入样本中。这个结论不只适用于线性回归模型,也适用logistic回归、Cox回归、泊松回归(Poisson regression)及其它。

事实上,对logistic回归而言,甚至在更广的条件下,成列刪除都能给予有效的推论。如果任何变量缺失数据的概率取决于因变量的值,而不取决于任何其它自变量的值,则用成列刪除的logistic回归会产生一致的斜率系数估计值及其标准误(Vach, 1994)。然而,截距估计值将会是有偏误的。只有在当任何缺失数据的概率同时]取决于因变量和自变量两者时,使用成列刪除的logistic回归才会是有问题的。

总而言之,成列刪除并不是一个差的处理缺失数据的方法。虽然它没有利用所有可得的信息,至少当数据是MCAR时,它给予了有效的推论。正如我们将看到的,这已经几乎比所有其它普遍处理缺失数据的方法好多了。*似然和多元插补方法(于后面章节讨论)在许多情况下潜在地比成列刪除更好,但对于回归分析,违反MAR假设时,成列刪除甚至比这些复杂的方法更加稳健。明确地,当某个特别的自变量缺失数据的概率取决于该变量(而非因变量),成列刪除可能会比*似然和多元插补更好。

对于这些关于回归分析的成列刪除的主张有一个重要的警告(caveat)。即对于样本中的所有个案回归系数都被假设是相同的。如果回归系数在横跨总体的次集合时发生变化,则该样本任何非随机的限制(例如,经过成列刪除)可以导致回归系数向其中一个或另一个次集合倾斜。当然,如果在回归参数中察觉到这样的变化,就应该对不同的次样本做不同的回归,或将适当的交互作用包含在模型中(Winship & Radbill, 1994)。


已确认勘误

次印刷

页码 勘误内容 提交人 修订印次

缺失数据
    • 名称
    • 类型
    • 大小

    光盘服务联系方式: 020-38250260    客服QQ:4006604884

    意见反馈

    14:15

    关闭

    云图客服:

    尊敬的用户,您好!您有任何提议或者建议都可以在此提出来,我们会谦虚地接受任何意见。

    或者您是想咨询:

    用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问

    Video Player
    ×
    Audio Player
    ×
    pdf Player
    ×
    Current View

    看过该图书的还喜欢

    some pictures

    解忧杂货店

    东野圭吾 (作者), 李盈春 (译者)

    loading icon