数字原来会说谎
作者: 扣小米
出版社:化学工业出版社 2018年02月
简介:
在大数据时代,数字被看作是巨大的金矿,变得前所未有地重要。人们可以通过一串串数字刻画整个世界,甚至预测未来。但是数字却永远无法代替真实,现在数字和数据被滥用的现象越来越常见,特别是新技术的运用更是使数据从收集到处理,从可视化到信息表达,每个环节都存在用数字做手脚的机会,让人防不胜防。不过数字永远都是那些数字,说谎的并不是数字本身,而是使用数字的人,是数字使用者把数字变成了“任人打扮的小姑娘”。
本书将用简单易懂的语言分析常见的利用数字说谎的情况,并结合一些常见的例子,对现有的一些“数字陷阱”现象进行解析。
【目录】
目 录
第1章 数字、数据与统计 /1
1.1 数字与统计学 /2
1.1.1 数字不仅仅是算算术 /2
1.1.2 我们为什么需要统计学? /4
1.1.3 生活中统计学无处不在 /8
1.2 大数据时代 /11
1.2.1 大数据对生活的影响 /11
1.2.2 数据过多既是负担,也是隐患 /13
第2章 数字的意义 /17
2.1 预测比赛结果/冠军归属 /18
2.1.1 足球博彩与夺冠赔率 /18
2.1.2 高盛预测2014年世界杯走势 /21
2.1.3 人工智能预测《我是歌手》冠军归属 /24
2.2 数字预测美国大选 /26
2.2.1 美国大选的计票方式 /26
2.2.2 538网站成功预测奥巴马当选 /28
2.2.3 统计数字比政治学家更可靠? /31
2.3 用网络数据帮你赚钱 /34
2.3.1 语意分析——你在网上说过的话都蕴藏商机 /34
2.3.2 Twitter和Google中隐藏的赚钱秘密 /36
2.3.3 利用社交网络数据看股市走势 /40
2.4 数字与量化对学科研究的影响 /45
2.4.1 定性分析与定量分析 /45
2.4.2 社会科学中的量化研究 /46
2.5 媒体也在到处找数据 /50
2.5.1 数字对媒体传播的重要性 /50
2.5.2 数据新闻和数据可视化的崛起 /52
第3章 数据收集既有技巧又有隐患 /57
3.1 从哪里能够获得数据? /58
3.1.1 二手数据 /58
3.1.2 一手数据 /59
3.2 什么样的数据是好数据? /61
3.2.1 好数据的标准 /61
3.2.2 清洗数据也是技术活儿 /62
3.3 你的数据可靠吗 /64
3.3.1 数据来源不可靠 /64
3.3.2 对数字本身做手脚 /65
3.3.3 对数据后期处理过度 /66
3.4 样本选择不完善 /68
3.4.1 样本选择与整体数据 /68
3.4.2 样本选择偏差:失之毫厘,差之千里 /69
3.4.3 幸存者偏差:你经历的不一定就是真的 /72
第4章 相关性与因果性 /79
4.1 相关性与因果性的混淆 /80
4.1.1 相关关系不一定意味着因果关系 /80
4.1.2 购物网站怎么会知道我想读什么书 /81
4.1.3 “神奇的”相关性 /82
4.2 慎用“因为……所以……”造句:因果
关系不可乱用 /85
4.2.1 因果关系需要严密论证 /85
4.2.2 “倒因为果”也是一个严重的问题 /87
第5章 平均数的“挑选技巧” /89
5.1 平均数、中位数与众数的差别 /90
5.2 平均数并不“平均” /92
5.2.1 当地平均工资水平×万元,你被平均了吗? /92
5.2.2 占领华尔街——社会上1%的人掌握了99%的
财富 /95
5.3 缺少平均数的误导性 /98
5.3.1 GDP全球第二,我国是否已经是经济强国? /98
5.3.2 我国是地大物博、资源丰富吗? /100
5.4 辛普森悖论:分类的重要性 /102
5.4.1 到底哪个班的平均分高? /102
5.4.2 辛普森悖论 /104
5.5 补救平均数 /105
5.5.1 全国收入水平分布情况——你处在哪个位置? /105
5.5.2 房价的中位数乘数 /107
第6章 数字图表——有图也不一定有真相 /111
6.1 数字与数据可视化:一图胜千言 /112
6.1.1 数字越详细,人们反而越不愿意看 /112
6.1.2 人类对图形更加敏感 /113
6.1.3 数据可视化的趋势与优势 /115
6.2 可视化的数字也是数据陷阱的
重灾区 /117
6.2.1 图形数据更加直观,但可能会遗漏一些数据
信息 /117
6.2.2 图像更易操纵 /120
6.3 改变坐标轴:数字变得不认识了 /121
6.3.1 截取纵坐标某一段,故意夸大差距 /121
6.3.2 图像的拉长与伸缩 /124
6.3.3 改变时间轴的范围:视角不同,“结果”
就不同 /125
6.3.4 百分号和千分号:单位到底是什么? /129
6.4 魔鬼都藏在细节中 /131
6.4.1 查看数据备注说明信息 /131
6.4.2 注意数据图表的细节 /132
第7章 广告中的数字陷阱 /137
7.1 “降价50%销售”:
真的是降价促销吗? /138
7.1.1 先涨价后降价 /138
7.1.2 先降价后涨价 /139
7.2 买家好评:口碑就是金钱 /141
7.2.1 信息不对称——卖家怎么说都有理? /141
7.2.2 刷单导致偏差 /142
7.2.3 “给好评*物” /143
7.3 夸张宣传误导消费者 /145
7.3.1 一周美白:公开的数字与背后的信息 /145
7.3.2 前提条件不明——隐藏的技巧 /146
7.4 流量为王的时代 /149
7.4.1 能到“10万 ”才算火爆 /149
7.4.2 赚流量也要守规矩 /150
第8章 公司运营中的数字陷阱 /153
8.1 营业收入与利润 /154
8.1.1 卖得越多,赚得越多? /154
8.1.2 所谓“互联网思维”——先烧钱圈地,
再考虑盈利? /156
8.2 增长:环比增长还是同比增长? /161
8.3 企业带动纳税5000亿元 /163
8.4 注水的KPI /164
8.4.1 KPI是用数字量化来考核的方式 /164
8.4.2 只要有数字就可能被操控——虚假业绩的
例子 /165
第9章 网络谣言中的数字陷阱 /167
9.1 为什么谣言比辟谣更受欢迎? /168
9.1.1 人类偏好耸人听闻的故事 /168
9.1.2 带有数字的谣言更可怕 /169
9.1.3 谣言通常比充满科学味的枯燥辟谣文章更具有
可读性 /171
9.2 食物相克的谣言:离开剂量谈毒性都是
耍流氓 /173
9.3 生男孩还是生女孩——酸儿辣女? /174
第10章 美国大选预测遭遇滑铁卢:
特朗普来了 /175
10.1 总统大选,谁家预测得准 /176
10.2 尴尬的媒体和民调预测 /179
10.3 预测正确的媒体 /182
第11章 数字与新技术时代 /185
11.1 人工智能、机器学习、大数据:
数字新时代 /186
11.2 新技术前景 /189
11.3 人类必须要面对的现实:
被机器取代 /191
11.4 安全隐患 /194
第12章 总结 /197