Research on data mining technology for very large databases
作者: 刘君强著
出版社:浙江工商大学出版社,2010
简介: 随着信息技术特别是网络技术的飞速发展,人们收集、存贮、传输数
据的能力不断提高。数据出现了爆炸性增长,与此形成鲜明对比的是:对
决策有价值的知识却非常匮乏。知识发现与数据挖掘技术正是在这一背景
下诞生的一门新学科。数据挖掘要在实际应用中发挥作用,高性能挖掘算
法和数据挖掘软件平台是重要的技术基础。本书以数据挖掘最基本问题、
频繁模式与关联规则挖掘为切入点,研究高时间效率、高空间可伸缩性的
挖掘算法和分布,异质、海量数据的协同挖掘软件模型,并探讨了数据挖
掘过程中的隐私保护问题。
本书首先发现了基于树表示形式的虚拟投影方法,用于按深度优先挖
掘密集型数据集;提出了稀疏型数据集表示形式及非过滤投影方法;进_步
提出了基于伺机投影的思想,设计并实现了基于伺机投影的全新算法
OpportuneProject,对比实验表明,该算法挖掘各种规模与特性数据库的
效率与可伸缩性都是最佳的。
由于其内在的计算复杂性,挖掘密集型数据的频繁模式完全集非常困
难,解决办法是挖掘频繁模式的闭合集或最大集。本书提出了一种组织闭
合模式集的复合型频繁模式树,支持搜索空间的高效剪裁,有效地平衡了
树生成与树剪裁的代价,实现了闭合模式集挖掘算法CROP,其效率与可伸
缩性大大优于CHARM等算法。在此基础上,本书提出了闭合性剪裁和一般性
剪裁相结合,并能适时前窥的最大模式挖掘算法MOP,大大优于MaxMiner和
MAFIA等算法。
本书进一步提出了逆字典树剪裁、层次标记等新技术,以及根据信息
熵自动生成与人机交互相结合来确定数值型与类别型属性概念层次的新方
法,不仅支持逐层挖掘,而且能进行跨层挖掘,并实现了多支持率剪裁,
将所提出的挖掘频繁模式完全集、闭合集的新算法推广到无冗余关联规则
、多维多层多数据类型关联规则、多支持率分类规则的挖掘问题。
本书在所取得的数据挖掘算法研究成果基础上,对数据挖掘软件模型
作了深入研究。首先提出了数据挖掘作业描述语言MDL和挖掘任务模型脚本
语言,设计并实现了一个集成数据仓库管理功能、挖掘引擎具有一定智能
、体系结构可扩展的数据挖掘工具。
本书在研究分布式问题求解技术和分析移动型智能代理技术的基础上
,提出了从网络海量数据中发现有用知识的协同挖掘模型。首先定义了黑
板和知识源的描述语言以及知识交换格式,设计和实现了支持互联网上分
布式问题求解的黑板系统,提出了分布式网络海量数据挖掘系统
DistributedMiner。接着在分析移动式智能代理技术的基础上,设计了一
种移动式智能代理服务器,通过重构基础结构,提出了移动式网络海量数
据挖掘系统模型MobileMiner。
最后,本书研究了挖掘事务型数据过程中的隐私保护问题。由于事务
型数据的极度稀疏性,任何单一技术难以有效发挥作用,或是导致过高的
信息损失,或是处理结果难以解释,或是技术自身性能有缺陷。本书提出
了集成概化技术与消隐技术来降低信息损失。然而,从技术上讲,集成并
非易事。本书提出了一种新颖的方法来解决效率与可伸缩性的问题。采用
此方法处理过的数据能够应用标准的数据挖掘工具进行分析。