简介
数据作为一种基础性与战略性资源得到了广泛认可,数据服务成为很多组织和机构日常运营中必不可少的重要环节。当下,数据质量在理论越来越受到关注,不仅是制约数据产业发展的关键问题,也是大数据应用研究中绕不开的重大问题。《大数据质量》汇集了国内外数据质量研究的经典理论、技术和方法,以及新的前沿发展趋势;首先介绍了传统数据质量研究的各种代表性成果,并在此基础上,分析大数据时代下数据质量面临的挑战,并详细介绍基于大数据的数据质量相关技术的实现;*后,通过一个实际案例,提出一套完整的大数据质量解决方案。
【作者简介】
蔡莉,副教授,云南大学软件学院系主任,中国计算机学会西南网络与MIS专委会委员,昆明市仪器仪表学会理事。在软件学院工作期间,主持国家自然科学基金、教育部、云南省科技厅和教育厅等多项数据挖掘和数据质量的科研项目;同时,在国内外重要期刊和会议上发表40余篇论文,多篇被SCI和EI检索。出版教材2部,拥有3个软件著作权,并获得过多个教学成果奖励。
朱扬勇,复旦大学教授、博士生导师,数据科学研究中心主任、上海市政府信息化专家委员会专家。致力于数据科学与技术、数据挖掘及其应用等领域。主持过国家自然科学基金、国家863项目、上海市科委重点等多项数据挖掘领域的研究课题。
【作者简介】
蔡莉,副教授,云南大学软件学院系主任,中国计算机学会西南网络与MIS专委会委员,昆明市仪器仪表学会理事。在软件学院工作期间,主持国家自然科学基金、教育部、云南省科技厅和教育厅等多项数据挖掘和数据质量的科研项目;同时,在国内外重要期刊和会议上发表40余篇论文,多篇被SCI和EI检索。出版教材2部,拥有3个软件著作权,并获得过多个教学成果奖励。
朱扬勇,复旦大学教授、博士生导师,数据科学研究中心主任、上海市政府信息化专家委员会专家。致力于数据科学与技术、数据挖掘及其应用等领域。主持过国家自然科学基金、国家863项目、上海市科委重点等多项数据挖掘领域的研究课题。
目录
第1章 理解数据质量·1.1 数据质量问题1.1.1 数据质量带来的影响1.1.2 影响数据质量的因素·1.2 数据质量概述1.2.1 数据质量定义1.2.2 大数据时代数据质量面临的挑战·1.3 数据质量与信息质量1.3.1 从数据质量到信息质量的发展历程1.3.2 数据质量与信息质量的区别与联系参考文献第2章 数据质量标准·2.1 ISO8000国际标准2.1.1 ISO8000的历史与现状2.1.2 ISO/TS8000—100系列概述2.1.3 ISO/TS8000—100主数据质量2.1.4 ISO 22745:2010概述·2.2 地理信息质量标准ISO191002.2.1 地理信息数据质量2.2.2 地理信息数据质量评价·2.3 统计数据质量标准2.3.1 国际统计数据标准概述2.3.2 IMF、的数据公布通用标准(GDDS)2.3.3 IMF的数据公布特殊标准(SDDS)·2.4 科学数据质量标准2.4.1 科学数据标准规范2.4.2 科学数据质量框架参考文献第3章 数据分类及数据模型·3.1 数据类型及分类3.1.1 数据类型3.1.2 数据分类·3.2 结构化数据模型3.2.1 概念模型3.2.2 逻辑模型·3.3 半结构化和非结构化数据模型3.3.1 XML语言3.3.2 半结构化数据模型——数据和数据质量(D2Q)模型3.3.3 非结构化数据模型——四面体模型参考文献第4章 数据质量相关技术·4.1 数据集成4.1.1 数据仓库的基本概念4.1.2 数据仓库的体系架构4.1.3 数据仓库的元数据·4.2 数据剖析4.2.1 数据剖析的方法4.2.2 数据剖析实例·4.3 数据清洁4.3.1 数据清洁概述4.3.2 “脏”数据的来源4.3.3 数据清洁的原理与框架4.3.4 数据清洁工具4.3.5 大数据环境下的数据清洁·4.4 数据溯源4.4.1 数据溯源的基本概念4.4.2 数据溯源的分类4.4.3 数据溯源模型4.4.4 数据溯源的方法4.4.5 数据溯源的应用4.4.6 大数据溯源参考文献第5章 数据质量评估·5.1 数据质量维度5.1.1 数据质量维度定义5.1.2 常用的数据质量维度5.1.3 其他的数据质量维度5.1.4 质量维度度量·5.2 数据质量评估框架5.2.1 DQAF框架5.2.2 AIMQ框架5.2.3 DQA框架·5.3 数据质量评估方法5.3.1 定性评估5.3.2 定量评估5.3.3 综合评估·5.4 数据质量评估案例——媒体信息可信度质量评估5.4.1 背景概述5.4.2 媒体信息可信度评价指标体系5.4.3 媒体信息可信度的综合评价模型5.4.4 实验过程及结果分析参考文献第6章 数据质量管理·6.1 质量管理6.1.1 质量管理发展历程6.1.2 全面质量管理·6.2 数据质量管理概述6.2.I数据质量管理方法6.2.2 数据质量知识库管理6.2.3 MTT全面数据质量管理·6.3 数据质量管理团队建设6.3.1 任命首席数据官6.3.2 建立数据质量管理团队·6.4 质量管理成熟度模型6.4.1 信息质量管理成熟度模型6.4.2 数据质量管理成熟度模型参考文献第7章 位置大数据中的质量研究·7.1 概述7.1.1 位置大数据的来源7.1.2 位置大数据的应用领域·7.2 位置大数据面临的质量问题7.2.1 GPS轨迹数据的质量问题7.2.2 签到数据的质量问题7.2.3 手机定位数据的质量问题7.2.4 智能公交IC卡数据的质量问题7.2.5 OSM地图数据的质量问题·7.3 位置大数据的质量评估模型7.3.1 GPS轨迹数据的质量评估模型7.3.2 签到数据的质量评估模型7.3.3 手机定位数据的质量评估模型7.3.4 OSM地图数据的质量评估模型7.3.5 基于云平台的位置大数据质量评估系统·7.4 位置大数据质量控制7.4.1 位置大数据清洁7.4.2 位置大数据质量控制7.4.3 OSM地图数据质量保证参考文献
【前言】
质量是关于符合性的一种度量,即符合国际/国家标准或者符合使用者需求的程度。ISO 9000系列质量体系是一个公认的国际标准,被全球110多个国家采用,既包括发达国家,也包括发展中国家。这一标准的执行使得市场竞争更加激烈,产品和服务质量得到日益提高。
国际标准化组织制订的国际标准——《质量管理体系基础和术语》(ISO 9000: 2008)中指出:产品质量是指产品的一组固有特性满足要求的程度。与通常的有形产品不同,数据常常被认为是无形的,数据质量的评价要困难很多。1980年以来,学术界、工业界和国际组织针对数据质量的测量、评估和管理提出了许多理论、技术和方法,却缺乏一个广泛认可的标准。ISO正在开发的数据质量国际标准(ISO8000),目前也只有20多个国家接受它。
除了数据是无形的之外,建立数据质量标准的又一难点在于数据具备资源性、产品性和服务性。数据的资源性是指数据类似于矿藏和原矿,强调的是可开采性和可利用性;数据的产品性是指数据经过加工后可以形成数据产品,进入市场流通;数据的服务性是指数据能够以提供服务的方式进入市场,使用者不需要购买和拥有数据,只是使用了数据服务。因此,从这三个大类的性质来看,数据质量的评价体系就存在很大差异,而且每个类别都会面临不同的需求符合性。
数据作为一种基础性资源和一种战略性资源,已经获得广泛认可,数据服务业已广泛开展,各地数据交易所纷纷成立;这时,数据质量就逐渐成为制约数据产业发展的关键问题。此外,由于大数据自身特性,直接采用传统的、面向结构化数据的质量理论和方法来处理质量问题并不合适,数据质量的研究在新环境下面临着更大的挑战。
数据作为一种特殊资源,其质量应当符合真实性、合法性和可用性的基本要求。本书主要从数据的资源性来阐述数据质量,在传统数据质量研究的基础上,结合大数据的特性,阐述基于大数据的数据质量相关技术的实现,并通过一个实际案例,提出一套完整的大数据质量解决方案。
本书共7章。第1章叙述数据质量的概况,列举出数据质量的影响和产生因素、数据质量的定义及面临的挑战,以及数据质量与信息质量的关系。第2章介绍了与数据质量有关的各种国际标准和行业标准。第3章讨论了数据分类和数据模型,并针对半结构化和非结构化数据,给出了一些数据模型和质量模型。第4章详细阐述数据质量的相关技术,包括:数据集成、数据剖析、数据清洁和数据溯源,并给出它们在大数据环境下的实现技术和方案。第5章详细论述了数据质量评估维度的选取,质量维度的测量和评估方法,同时每一种常用的评估方法都给出具体的评估案例。第6章描述数据质量的管理方法和质量管理成熟度模型。第7章以位置大数据为例,详细分析了位置大数据的来源、质量问题,评估模型和质量控制,给出确实可行的数据质量解决方法。
本书可作为高等院校相关专业高年级学生和研究生的数据质量课程教材,以及从事数据质量研究和应用的科技工作者的技术参考。
特别感谢国内外数据质量专著、教材和许多高水平论文报告的作者们,他们是黄伟、刁兴春、曹建军、黎建辉、樊文飞、Richard Y.Wang、Yang W. Lee、Elizabeth M. Pierce、Danette McGilvray、JohnTalburt、Carlo Batini、MonicaScannapieca等教授。在本书中引用了他们的部分成果,使本书较全面地反映数据质量各个研究领域的最新进展。感谢李英姿、李永轩和周怡帆三位硕士研究生提供的支持。
本书由朱扬勇教授和蔡莉副教授共同策划并拟定框架内容,并由蔡莉副教授执笔,朱扬勇教授审阅修订。限于作者学术水平,错误之处难免,恳请读者不吝指教。任何意见和建议,请发至电子邮件: caili@ynu.edu.cn。对此,我们将深为感激。
- 书名大数据质量
- ISBN9787547833742
- 作者蔡莉 朱扬勇 编著
- 出版社上海科学技术出版社
- 出版时间2017-01-01
- 印刷时间2017-01-01
- 版次1
- 开本16开
- 纸张胶版纸
- 包装平装-胶订
- 是否套装否
大数据质量
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×