简介
本书内容从逻辑上共分为两大部分,第壹部分是有关数据分析类的主题,第二部分是有关数据化运营的主题。第壹部分的内容包括1/2/3/4章和附录,主要介绍了Python和数据化运营的基本知识、数据来源获取、数据预处理以及数据分析和挖掘的关键经验。第二部分的内容包括5/6/7/8/9章的内容,分别介绍了会员运营、商品运营、流量运营和内容运营四个大主题,以及提升数据化运营价值度的方法。在每个数据化运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个应用案例。
【媒体评论】
本书围绕数据化运营,从数据获取、处理、分析、技巧和案例进行有节奏、步步深入的讲解,辅以Python工具手把手的教你如何进行操作、实现,是实操性非常强的一本图书。
—郑来轶 中国统计网创始人
近几年来,Python以其简洁、易读、可扩展的功能特性,逐渐成为*受欢迎的程序开发语言之一。同时,Python和自身丰富的扩展库可以帮助程序开发者完成各种高级任务。特别是在大数据时代,在对外部数据获取、分析和挖掘、数据化运营的要求越来越普遍的情况下,Python可谓是一把利器,可以很好地协助开发者实现以上需求。本书独辟蹊径,弱化以往的纯工具和代码讲解,提供大量的实际业务场景。这本书不仅告诉读者怎么用Python,更强调什么时候用、在哪里用。理论和实践相结合,学以致用,很值得大家学习。
—梁勇 天善智能联合创始人
2016年后,大数据进入数据应用时代,本书列举大量数据分析应用案例且可落地,很难得,值得借鉴与分享。
—赵良 中国统计网联合创始人
本书从运营数据来源、经验总结、走过的哪些坑,延伸到会员运营、商品运营、流量运营、数据化运营的终极诀窍,全面系统地讲解了数据化运营的方法论,是不可多得的运营参考资料!
—王兴宝 数盟社区创始人
Python作为数据科学家的*程序语言,在数据分析市场有很大的市场份额。该书从数据运营出发,横向打通数据价值周期,包括数据整理、清洗、建模、分析、反馈等,纵向涵盖商品、会员、流量、内容等方面,在模型和实际应用场景的映射层面打开一扇独特的思维窗口,在众多Python读物中脱颖而出,具有非常强的实战指导意义。
—高峡 重庆大数据应用联盟创始人
天龙兄是一线实战派,在电商数据运营方面有很深的造诣,在大数据的应用和实践方面,有这本书作为指导,非常值得期待。其中的会员运营、商品运营、内容运营都是非常一线的作战方案,推荐给大家,感谢天龙兄有此大作。
—王子枫(庖丁的刀) 深圳市上中下网络供应链服务有限公司创始人
随着互联网技术发展的日新月异,信息海量增加,企业要在竞争激烈的商业社会中脱颖而出,需要存储、抓取、分析各种运营数据,Python作为数据分析和挖掘*知名的语言,有极大的优势。宋天龙作为国内拥有多年经验的商业数据分析专家,对Python进行了深入的讲解和剖析,不仅限于工具层面,更在于工具逻辑。希望这本书能够为大家在企业数据分析和运营中拨开数据的迷雾,事半功倍!
—胡力 Netconcepts华南分公司总经理
数据驱动的精细化运营作为企业决策的基石、其精髓在于对数据化运营的深刻理解以及科学应用。本书以数据化运营的基础语言和常用工具入手,对数据的获取、预处理、分析和挖掘给出了完整的处理方案,并且系统地从会员、商品、流量和内容四个维度对数据化运营的具体操作给予了实战方法和实例讲解。本书结尾更是点睛详述了数据报告生成、数据运营扩展和价值提升的奥秘和技巧,*终帮助数据运营者打通从数据获得到决策形成的完整通路。无论是系统学习还是作为工具书随时查阅,本书轻松严谨的笔触能够在潜移默化间帮助数据管理者提升对于数据的敏感性和逻辑处理能力,从而真正实现对数据化运营的从容劝驾。
—凌晨 飞鹤集团电商事业部 VP
数据分析是一门既需要懂数据分析原理,又需要结合实战操作的一门科学。如何更好结合实战学习数据分析,也一直是困扰网站分析入门者和从业者的问题。这本书较系统地对数据分析的方法论、常用工具和业务洞察做了阐述,是数据分析从业者值得参考的一本实战经验的书籍。
—李俊 艺龙网技术部数据平台总监
随着人口红利的逐渐消解,中国的互联网市场已经从粗犷做用户的1.0时代走向精细做运营的2.0时代。当各行各业都已经互联网化的时候,运营的精细化程度成为了产品间的护城河。很高兴可以看到,近些年网络上关于用户激励成长体系、关联销售、RFM用户分层的文章越来越多,但大多停留在理论层面,关于*核心的数值设计部分却鲜有提及。而宋天龙的这本书在大量数据化运营案例的基础上,结合Python语言对具体的数据分析过程进行了详细的讲解,让读者不光可以“知其然”,还可以“知其所以然”,读完有种酣畅淋漓,跃跃欲试的感觉。掩卷遐思,相见恨晚。
—柳晨龙 百度阅读数据运营经理/数据挖掘_PHP博主/资深分析师
目录
目录 Contents
赞誉
前言
第1章 Python和数据化运营1
1.1 用Python做数据化运营1
1.1.1 Python是什么1
1.1.2 数据化运营是什么2
1.1.3 Python用于数据化运营5
1.2 数据化运营所需的Python相关工具和组件6
1.2.1 Python程序6
1.2.2 Python IDE7
1.2.3 Python第三方库8
1.2.4 数据库和客户端16
1.2.5 SSH远程客户端18
1.3 内容延伸:Python的OCR和TensorFlow18
1.3.1 OCR工具:Tesseract-OCR18
1.3.2 机器学习框架—TensorFlow19
1.4 *个用Python实现的数据化运营分析实例—销售预测20
1.4.1 案例概述20
1.4.2 案例过程20
1.4.3 案例小结28
1.5 本章小结28
第2章 数据化运营的数据来源31
2.1 数据化运营的数据来源类型31
2.1.1 数据文件31
2.1.2 数据库32
2.1.3 API33
2.1.4 流式数据34
2.1.5 外部公开数据34
2.1.6 其他35
2.2 使用Python获取运营数据35
2.2.1 从文本文件读取运营数据35
2.2.2 从Excel获取运营数据46
2.2.3 从关系型数据库MySQL读取运营数据48
2.2.4 从非关系型数据库MongoDB读取运营数据56
2.2.5 从API获取运营数据59
2.3 内容延伸:读取非结构化网页、文本、图像、视频、语音64
2.3.1 从网页中爬取运营数据64
2.3.2 读取非结构化文本数据65
2.3.3 读取图像数据65
2.3.4 读取视频数据68
2.3.5 读取语音数据70
2.4 本章小结75
第3章 11条数据化运营不得不知道的数据预处理经验76
3.1 数据清洗:缺失值、异常值和重复值的处理76
3.1.1 数据列缺失的4种处理方法76
3.1.2 不要轻易抛弃异常数据78
3.1.3 数据重复就需要去重吗79
3.1.4 代码实操:Python数据清洗81
3.2 将分类数据和顺序数据转换为标志变量89
3.2.1 分类数据和顺序数据是什么89
3.2.2 运用标志方法处理分类和顺序数据90
3.2.3 代码实操:Python标志转换90
3.3 大数据时代的数据降维94
3.3.1 需要数据降维的情况94
3.3.2 基于特征选择的降维94
3.3.3 基于维度转换的降维96
3.3.4 代码实操:Python数据降维97
3.4 解决样本类别分布不均衡的问题100
3.4.1 哪些运营场景中容易出现样本不均衡100
3.4.2 通过过抽样和欠抽样解决样本不均衡101
3.4.3 通过正负样本的惩罚权重解决样本不均衡101
3.4.4 通过组合/集成方法解决样本不均衡102
3.4.5 通过特征选择解决样本不均衡102
3.4.6 代码实操:Python处理样本不均衡102
3.5 如何解决运营数据源的冲突问题106
3.5.1 为什么会出现多数据源的冲突107
3.5.2 如何应对多数据源的冲突问题109
3.6 数据化运营要抽样还是全量数据109
3.6.1 什么时候需要抽样110
3.6.2 如何进行抽样110
3.6.3 抽样需要注意的几个问题111
3.6.4 代码实操:Python数据抽样113
3.7 解决运营数据的共线性问题116
3.7.1 如何检验共线性117
3.7.2 解决共线性的5种常用方法117
3.7.3 代码实操:Python处理共线性问题118
3.8 有关相关性分析的混沌120
3.8.1 相关和因果是一回事吗120
3.8.2 相关系数低就是不相关吗121
3.8.3 代码实操:Python相关性分析121
3.9 标准化,让运营数据落入相同的范围122
3.9.1 实现中心化和正态分布的Z-Score122
3.9.2 实现归一化的Max-Min123
3.9.3 用于稀疏数据的MaxAbs123
3.9.4 针对离群点的RobustScaler123
3.9.5 代码实操:Python数据标准化处理123
3.10 离散化,对运营数据做逻辑分层126
3.10.1 针对时间数据的离散化127
3.10.2 针对多值离散数据的离散化127
3.10.3 针对连续数据的离散化127
3.10.4 针对连续数据的二值化128
3.10.5 代码实操:Python数据离散化处理128
3.11 数据处理应该考虑哪些运营业务因素133
3.11.1 考虑固定和突发运营周期133
3.11.2 考虑运营需求的有效性134
3.11.3 考虑交付时要贴合运营落地场景134
3.11.4 不要忽视业务专家经验135
3.11.5 考虑业务需求的变动因素136
3.12 内容延伸:非结构化数据的预处理137
3.12.1 网页数据解析137
3.12.2 网络用户日志解析144
3.12.3 图像的基本预处理148
3.12.4 自然语言文本预处理154
3.13 本章小结157
第4章 跳过运营数据分析和挖掘的“大坑”159
4.1 聚类分析159
4.1.1 当心数据异常对聚类结果的影响160
4.1.2 超大数据量时应该放弃K均值算法160
4.1.3 聚类不仅是建模的终点,更是重要的中间预处理过程162
4.1.4 高维数据上无法应用聚类吗163
4.1.5 如何选择聚类分析算法164
4.1.6 代码实操:Python聚类分析164
4.2 回归分析172
4.2.1 注意回归自变量之间的共线性问题172
4.2.2 相关系数、判定系数和回归系数之间到底什么关系172
4.2.3 判定系数是否意味着相应的因果联系173
4.2.4 注意应用回归模型时研究自变量是否产生变化173
4.2.5 如何选择回归分析算法174
4.2.6 代码实操:Python回归分析174
4.3 分类分析183
4.3.1 防止分类模型的过拟合问题183
4.3.2 使用关联算法做分类分析183
4.3.3 用分类分析来提炼规则、提取变量、处理缺失值184
4.3.4 类别划分-分类算法和聚类算法都是好手185
4.3.5 如何选择分类分析算法186
4.3.6 代码实操:Python分类分析187
4.4 关联分析195
4.4.1 频繁规则不一定是有效规则195
4.4.2 不要被啤酒尿布的故事紧固你的思维196
4.4.3 被忽略的“负相关”模式真的毫无用武之地吗197
4.4.4 频繁规则只能打包组合应用吗198
4.4.5 关联规则的序列模式199
4.4.6 代码实操:Python关联分析200
4.5 异常检测分析206
4.5.1 异常检测中的“新奇检测”模式207
4.5.2 将数据异常与业务异常相分离207
4.5.3 面临维度灾难时,异常检测可能会失效208
4.5.4 异常检测的结果能说明异常吗208
4.5.5 代码实操:Python异常检测分析208
4.6 时间序列分析212
4.6.1 如果有自变量,为什么还要用时间序列212
4.6.2 时间序列不适合商业环境复杂的企业213
4.6.3 时间序列预测的整合、横向和纵向模式214
4.6.4 代码实操:Python时间序列分析214
4.7 路径、漏斗、归因和热力图分析234
4.7.1 不要轻易相信用户的页面访问路径237
4.7.2 如何将路径应用于更多用户行为模式的挖掘?237
4.7.3 为什么很多数据都显示多渠道路径的价值很小?238
4.7.4 点击热力图真的反映了用户的点击喜好?239
4.7.5 为什么归因分析主要存在于线上的转化行为240
4.7.6 漏斗分析和路径分析有什么区别240
4.8 其他数据分析和挖掘的忠告241
4.8.1 不要忘记数据质量的验证241
4.8.2 不要忽视数据的落地性242
4.8.3 不要把数据陈列当作数据结论242
4.8.4 数据结论不要产生于单一指标244
4.8.5 数据分析不要预设价值立场244
4.8.6 不要忽视数据与业务的需求冲突问题245
4.9 内容延伸:非结构化数据的分析与挖掘246
4.9.1 词频统计246
4.9.2 词性标注249
4.9.3 关键字提取253
4.9.4 文本聚类255
4.10 本章小结258
第5章 会员数据化运营260
5.1 会员数据化运营概述260
5.2 会员数据化运营关键指标261
5.2.1 会员整体指标261
5.2.2 会员营销指标261
5.2.3 会员活跃度指标263
5.2.4 会员价值度指标265
5.2.5 会员终生价值指标266
5.2.6 会员异动指标266
5.3 会员数据化运营应用场景267
5.3.1 会员营销267
5.3.2 会员关怀267
5.4 会员数据化运营分析模型268
5.4.1 会员细分模型268
5.4.2 会员价值度模型269
5.4.3 会员活跃度模型270
5.4.4 会员流失预测模型271
5.4.5 会员特征分析模型272
5.4.6 营销响应预测模型273
5.5 会员数据化运营分析小技巧274
5.5.1 使用留存分析新用户质量274
5.5.2 使用AARRR做APP用户生命周期分析275
5.5.3 借助动态数据流关注会员状态的轮转276
5.5.4 使用协同过滤算法为新会员分析推送个性化信息277
5.6 会员数据化运营分析的“大实话”279
5.6.1 企业“不差钱”,还有必要做会员精准营销吗279
5.6.2 用户满意度取决于期望和给予的匹配程度280
5.6.3 用户不购买就是流失了吗280
5.6.4 来自调研问卷的用户信息可信吗281
5.6.5 不要盲目相信二八法则283
5.7 案例:基于RFM的用户价值度分析283
5.7.1 案例背景283
5.7.2 案例主要应用技术284
5.7.3 案例数据284
5.7.4 案例过程284
5.7.5 案例数据结论294
5.7.6 案例应用和部署295
5.7.7 案例注意点295
5.7.8 案例引申思考296
5.8 案例:基于AdaBoost的营销响应预测297
5.8.1 案例背景297
5.8.2 案例主要应用技术297
5.8.3 案例数据298
5.8.4 案例过程298
5.8.5 案例数据结论313
5.8.6 案例应用和部署313
5.8.7 案例注意点314
5.8.8 案例引申思考315
5.9 本章小结315
第6章 商品数据化运营317
6.1 商品数据化运营概述317
6.2 商品数据化运营关键指标317
6.2.1 销售类指标317
6.2.2 促销活动指标320
6.2.3 供应链指标321
6.3 商品数据化运营应用场景323
6.3.1 销售预测323
6.3.2 库存分析323
6.3.3 市场分析324
6.3.4 促销分析324
6.4 商品数据化运营分析模型325
6.4.1 商品价格敏感度模型325
6.4.2 新产品市场定位模型326
6.4.3 销售预测模型327
6.4.4 商品关联销售模型327
6.4.5 异常订单检测328
6.4.6 商品规划的*组合328
6.5 商品数据化运营分析小技巧330
6.5.1 使用层次分析法将定量与定性分析结合331
6.5.2 通过假设检验做促销拉动分析333
6.5.3 使用BCG矩阵做商品结构分析334
6.5.4 巧用4P分析建立完善的商品运营分析结构336
6.6 商品数据化运营分析的“大实话”337
6.6.1 为什么很多企业会以低于进价的价格大量销售商品337
6.6.2 促销活动真的是在促进商品销售吗339
6.6.3 用户关注的商品就是要买的商品吗340
6.6.4 提供的选择过多其实不利于商品销售341
6.7 案例:基于超参数优化的Gradient Boosting的销售预测341
6.7.1 案例背景341
6.7.2 案例主要应用技术341
6.7.3 案例数据342
6.7.4 案例过程343
6.7.5 案例数据结论351
6.7.6 案例应用和部署351
6.7.7 案例注意点351
6.7.8 案例引申思考351
6.8 案例:基于LogisticRegression、
RandomForest、Bagging概率投票
组合模型的异常检测352
6.8.1 案例背景352
6.8.2 案例主要应用技术352
6.8.3 案例数据353
6.8.4 案例过程353
6.8.5 案例数据结论364
6.8.6 案例应用和部署364
6.8.7 案例注意点365
6.8.8 案例引申思考365
6.9 本章小结367
第7章 流量数据化运营369
7.1 流量数据化运营概述369
7.2 8大流量分析工具369
7.3 如何选择第三方流量分析工具372
7.4 流量采集分析系统的工作机制375
7.4.1 流量数据采集376
7.4.2 流量数据处理379
7.4.3 流量数据应用380
7.5 流量数据与企业数据的整合381
7.5.1 流量数据整合的意义381
7.5.2 流量数据整合的范畴382
7.5.3 流量数据整合的方法382
7.6 流量数据化运营指标383
7.6.1 站外营销推广指标383
7.6.2 网站流量数量指标385
7.6.3 网站流量质量指标386
7.7 流量数据化运营应用场景389
7.7.1 流量采购389
7.7.2 流量分发391
7.8 流量数据化运营分析模型391
7.8.1 流量波动检测392
7.8.2 渠道特征聚类393
7.8.3 广告整合传播模型393
7.8.4 流量预测模型397
7.9 流量数据化运营分析小技巧398
7.9.1 给老板提供一页纸的流量dashboard398
7.9.2 关注趋势、重要事件和潜在因素是日常报告的核心400
7.9.3 使用从细分到多层下钻数据分析400
7.9.4 通过跨屏追踪解决用户跨设备和浏览器的访问行为401
7.9.5 基于时间序列的用户群体过滤403
7.10 流量数据化运营分析的“大实话”406
7.10.1 流量数据分析的价值其实没那么大406
7.10.2 如何将流量的实时分析价值*化406
7.10.3 营销流量的质量评估是难点工作407
7.10.4 个性化的媒体投放仍然面临很多问题408
7.10.5 传统的网站分析方法到底缺少了什么409
7.11 案例:基于自动节点树的数据异常原因下探分析413
7.11.1 案例背景413
7.11.2 案例主要应用技术414
7.11.3 案例数据415
7.11.4 案例过程416
7.11.5 案例数据结论430
7.11.6 案例应用和部署431
7.11.7 案例注意点432
7.11.8 案例引申思考432
7.12 案例:基于自动K值的KMeans广告效果聚类分析433
7.12.1 案例背景433
7.12.2 案例主要应用技术433
7.12.3 案例数据434
7.12.4 案例过程434
7.12.5 案例数据结论446
7.12.6 案例应用和部署447
7.12.7 案例注意点448
7.12.8 案例引申思考448
7.13 本章小结449
第8章 内容数据化运营451
8.1 内容数据化运营概述451
8.2 内容数据化运营指标452
8.3 内容数据化运营应用场景455
8.4 内容数据化运营分析模型456
8.4.1 情感分析模型456
8.4.2 搜索优化模型 457
8.4.3 文章关键字模型457
8.4.4 主题模型458
8.4.5 垃圾信息检测模型459
8.5 内容数据化运营分析小技巧460
8.5.1 通过AB测试和多变量测试找到*内容版本460
8.5.2 通过屏幕浏览占比了解用户到底看了页面多少内容461
8.5.3 通过数据分析系统与CMS打通实现个性化内容运营462
8.5.4 将个性化推荐从网站应用到APP端466
8.6 内容数据化运营分析的“大实话”467
8.6.1 个性化内容运营不仅是整合CMS和数据系统467
8.6.2 用户在着陆页上不只有跳出和继续两种状态467
8.6.3 “人工组合”的内容运营价值*化并非不能实现468
8.6.4 影响内容点击率的因素不仅有位置469
8.7 案例:基于潜在狄利克雷分配(LDA)的内容主题挖掘470
8.7.1 案例背景470
8.7.2 案例主要应用技术470
8.7.3 案例数据471
8.7.4 案例过程471
8.7.5 案例数据结论480
8.7.6 案例应用和部署481
8.7.7 案例注意点481
8.7.8 案例引申思考481
8.8 案例:基于多项式贝叶斯的增量学习的文本分类482
8.8.1 案例背景482
8.8.2 案例主要应用技术482
8.8.3 案例数据482
8.8.4 案例过程483
8.8.5 案例数据结论491
8.8.6 案例应用和部署491
8.8.7 案例注意点491
8.8.8 案例引申思考492
8.9 本章小结492
第9章 数据化运营分析的终极秘籍495
9.1 撰写出彩的数据分析报告的5个建议495
9.1.1 完整的报告结构495
9.1.2 精致的页面版式496
9.1.3 漂亮的可视化图形498
9.1.4 突出报告的关键信息500
9.1.5 用报告对象习惯的方式撰写报告501
9.2 数据化运营支持的4种扩展方式502
9.2.1 数据API502
9.2.2 数据模型503
9.2.3 数据产品503
9.2.4 运营产品504
9.3 提升数据化运营价值度的5种途径504
9.3.1 数据源:不只有结构化的数据,还有文本、图片、视频、语音504
9.3.2 自动化:建立自动任务,解除重复劳动505
9.3.3 未卜先知:建立智能预警模型,不要让运营先找你505
9.3.4 智能化:向BI-AI的方向走507
9.3.5 场景化:将数据嵌入运营环节之中507
9.4 本章小结508
附录509
附录A 公开数据集509
附录B Python数据工具箱516
Python数据分析与数据化运营
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×