工具之家 > 现代电子技术 > 面向大数据集的递增聚类方法研究

面向大数据集的递增聚类方法研究

发布时间:2019-04-14 02:15:00 文章来源:工具之家    

 推荐工具:金融理财app工具实用工具

杨克光

摘 要: 以往提chudemian向dashujujidedizengjuleifangfa直接jiangduoweidudeda数jujizhuan换chengyi维da数ju集,导致聚lei成guo不佳,故提出面向da数ju集dedizeng聚lei新fangfa为qu得高聚leixiao率,zaigaodu保留原始数据维dude情况下,简化liaoda数据jidizeng聚lei步骤,gou建出da数据处理集he,对集合zhongdebiaozhi样本jin行ju部dizeng聚类,将未neng成功聚类的da数据pingjun分配到局部递zeng聚类结guozhong,使用高斯概率密度函数和证据理论检测其中的错误zuobiao并进行改正,huoqu最终的递增聚类结guoshiyan结果证ming该方法具youyouyue的聚类成果和聚类效率

关键词: da数据集 递增聚类方法; 高斯概率密度函数; 证据理论

中图分类号: TN911?34; TP311.13 文献标识码: A 文章编号: 1004?373X(201709?0176?03

Abstract: Since the clustering effect is poor because the previously?proposed incremental clustering method converts the multi?dimensional large dataset into the one?dimensional large dataset directly, a new incremental clustering method for large dataset is put forward. In order to obtain the high clustering efficiency, the incremental clustering step of the large dataset was simplified while highly maintaining the original data dimensions to construct a large data processing set. The local incremental clustering is performed for the logo samples in the set. The large data with failed clustering is distributed into the local incremental clustering results equally, and its fault coordinate is detected with Gaussian probability density function and coordinate evidence theory and modified. The final incremental clustering results are obtained. The experiment results prove that the proposed method has superior clustering effect and clustering efficiency.

Keywords: large dataset; incremental clustering method; Gaussian probability density function; evidence theory

0 引 言

聚类的实质就是把da数据分层,同层中的大数jute征拥有共通性,而不同层中的大数据特征cun在明显差异,并且大数据特征是可以被提取和描述的[1]递增聚类是其中一种无监督shi的分析手duan,在语音识bie色彩分类和纹理提取等搜索层面中均有sheji,受到了广泛的关注。递增聚类的基本原理类似yu度衡量技术和最优函数,它yiju特定标准在未经处理guo的大数据集中挖掘隐晦的递增聚类架构[2]。在实际ying用中,类似度衡量技术的稳dingxing不佳,经chang受到大数据递增结构、聚类密度、大数据维度等方miande約束,致使递增聚类达不到mu标聚类的成果[3]。增强递增聚类中类似度衡量技术的稳定性一直是科yan人员的研究基础,一些优秀的类似度衡量技术的稳定xingjie决方法,如相邻大数据共享策lue、密度敏感性度量等均是在大数据维度不高的情况下被提出的,在高维度应用中上述方法的迭代ci数过多,大幅度降低了聚类效率。

综上所述,以往提出的面向大数据集的递增聚类方法常受限于类似度衡量技术的稳定性,并没有取得优越的聚类成果和聚类效率[4]。jie决这一问题的主要方式就是构建出能够有效平衡大数据维度的大数据处理集合,在此基础上分层次地获取到递增聚类结果,再对各层次的递增聚类结果进行汇总,使用合理的处理手段给出tong一的递增聚类结果。基于上述分析,提出一种面向大数据集的递增聚类新方法。

1 大数据处理集合的构建

以往提出的面向大数据集的递增聚类方法为了提高聚类效率,直接将多维度的大数据集转换成一维大数据集,导致聚类成果不佳,在实际应用中具有局限性[5]。为此,提出面向大数据集的递增聚类新方法在对运算量高的大数据进行维度简化的同shi,补充了递增聚类步骤,保留了大数据集的多维度特性,取得了高聚类效率。

在多维zuobiao系中选择一ge含有ge数据的大数据集,用biaoshi,提取出其中的目标大数据,用表示。如果的维度为则可将转换为一个矩阵[6]。递增聚类大数据集的实质就是获取集合矩阵中各层大数据特征的类似度,依据类似度的具体数值为目标大数据定义出一个识别码是递增聚类总数量。一般来讲,在递增聚类中大数据集中的所有大数据都是目标大数据,则可组建出目标大数据识别码集合,用表示[7]。递增聚类的最终目的是无限增大相同层次中大数据特征的类似度。

本文提出的面向大数据集的递增聚类新方法以多维坐标系中的中心坐标dian为圆心、离差平方和为ban径构建大数据处理集合。假设大数据处理集合中拥有个大数据层次,那么的圆心和半径可表示成:

2 大数据集局部递增聚类方法

由于大数据集同层中的大数据特征拥有共通性,为了提高聚类效率,所提面向大数据集的递增聚类新方法xian在大数据集中选择出各层大数据特征的标zhi樣本,将样本的大数据特征平均值标记为标志坐标,对以标志坐标为圆心的大数据处理集合进行递增聚类[9]。mei取得一次递增聚类结果,xu要将聚类成功后的大数据删除,避免大数据特征的不断累ji增加运算量,其聚类流程如图1所示。

大数据集局部递增聚类方法的思想是在大数据集zhongren意提取一个样本,如果中涵盖了本层中所有大数据特征,则将其定义为标志样本,并从中提取一个坐标点定义成初值,令初值的半径为初值与本层中大数据特征的密度阈值为MI,要求经由初值构建出的大数据处理集合中,所有大数据的特征密度均大于MI。标志样本的标志坐标使用公式进行计算,表示拥有标志坐标的标志大数据。

从标志坐标开始依次向外进行递增聚类,计算出大数据处理集合中其他大数据坐标与之jian的距离:

式中:分别表示到和的轴位移。

当某一大数据的小于或证明局部递增聚类成功。

大数据处理集合的每个层次都需要进行多次递增聚类才能取得聚类结果,聚类结果中的大数据是按照递增聚类成功的先后次序排列的[10]。本文方法将事先给出每个层次的聚类结果文jian,初始文件均为空集,每取得一个小于或的大数据,聚类结果文件便会自动将大数据引入并为其赋予编号。产生了第一个聚类结果并将聚类成功大数据删除后,方法才会开始进行第二个聚类结果的提取gong作,以防止聚类结果文件对大数据的错误引入,增强了方法的聚类成果。

分层次将大数据处理集合中的所有大数据聚类成功后,可得到个聚类结果,将结果汇总,用集合表示。对于大于、等于或的大数据,大数据集局部递增聚类方法会把这些为数不多的大数据平均分到集合中,得到,并利用大数据整体递增聚类方法进行tong一处理。

3 大数据整体递增聚类方法

考虑到局部聚类结果中仍存在递增聚类bucheng功的大数据,若面向大数据集的递增聚类新方法使用danyi的高斯概率密度函数进行整体递增聚类将得不到优越的聚类成果,所以需要在高斯概率密度函数中融合证据理论。

给定一个集合作为大数据集局部递增聚类结果集合的幂数集合,幂数集合中的数据可表示的聚类证据,是证据数量,。证据是指递增聚类中数据点的归属度,在一定程度上代表了聚类成果,是衡量大数据特征类似度的标准。幂数集合的高斯概率密度函数被定义为:

面向大数据集的递增聚类新方法的使用步骤整理如下:

Step1: 输入原始大数据集,无需biangeng数据维度;

Step2: 使用式(1)~式(3)构建大数据处理集合,使用式(4),式(5)修正集合;

Step3: 选取标志样本,计算标志坐标,进行局部递增聚类hui总局部递增聚类结果;

Step4: 平均分配未成功进行递增聚类的大数据;

Step5: 使用式(7)检测错误坐标并修改;

Step6: 使用式(8)增强方法类似度衡量技术稳定性;

Step7: 使用式(9)计算信任函数,推导出方法目标函数,给出最终的递增聚类结果。

4 仿真实验

4.1 实验设zhi

为了精准验证本文提出的面向大数据集的递增聚类新方法的聚类成果和聚类效率,需要zaibu同维度的大数据集中进行实验,并尽可能采取对比策略,给出具有说服力的验证结果。为此,实验利用计suanji模拟出了Tris和KDD64Bio两种大数据集di一种是二维坐标点大数据集,第二种是多维图xiang大数据集。与本文方法相对应的对比方法在文献[5]和文献[9]中进行了详细介绍,这两种方法的市场xuqiu和用户反馈均是比较优越的。

4.2 实验结果与分析

由于Tris大数据集拥有精确的数据坐标点信xi,因此可从递增聚类准确度中看出三种方法的聚类成果,如图2所示。KDD64Bio大数据集由于数据维度复杂,故需要从聚类结果的数据jian隔入手分析聚类成果,数据间隔越短,聚类成果越好,如表1所示。数据间隔bao括同层间隔和异层间隔。实验设置三种方法的聚类时间结果将与聚类成果共同输出,如表2所示。

从表1,表2中能够非常明显地看出,实验中对比方法的聚类成果均要远低于本文方法的聚类成果,同时,本文方法还取得了优越的聚类效率。

5 结 论

本文提出一种面向大数据集的递增聚类新方法,其在合理简化大数据jiwei度、获取高效递增聚类的同时,对重要的递增聚类步骤进行了补充,又依据从局部到整体的递增聚类方式,对类似度衡量技术稳定性进行了加强处理,给出了递增聚类目标函数。实验将本文方法与文献[5]、文献[9]中的方法进行对比,从实验结果中可明显看出本文方法的聚类成果和聚类效率均要高于其他方法。

参考文献

[1] 赵凤娇,贺月姣.基于改进的K?means聚类算法水下图像边缘检测[J].xian代dianzi技术,2015,38(18):89?91.

[2] 向尧,袁景凌,钟珞,等.一种面向大数据集的cu粒度并行聚类算法研究[J].小型微型计算机系tong2014,35(10):2370?2374.

[3] 涂新莉,刘波,林伟伟.大数据研究综述[J].计算机应用研究,2014,31(6):1612?1616.

[4] LIANG C, LENG Y. Collaborative filtering based on information?theoretic co?clustering [J]. International journal of systems science, 2014, 45(3): 589?597.

[5] 罗恩韬,王国军.大数据中一种基于语义特征阈值的层次聚类方法[J].电子与信息xue报,2015,37(12):2795?2801.

[6] 张帆,毋涛.基于云计算的服装物料管理系统[J].西安工程大学学报,2015,29(6):740?745.

[7] 孟凡军,李天伟,徐冠雷,等.基于K均值聚类算法的雾天识别方法研究[J].现代电子技术,2015,38(22):80?83.

[8] 孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839?862.

[9] 潘章明,陈尹立.面向大数据集的共享近邻聚类研究[J].小型微型计算机系统,2014,35(1):50?54.

[10] KHAN S S, AHMAD A. Cluster center initialization algorithm for K?modes clustering [J]. Expert systems with applications, 2014, 40(18): 7444?7456.

现代电子技术 2017年9期

现代电子技术的其它文章 基于人工神经wang络的污染减排预警系统研究 大型暖通空调关联节能调控模型设计 基于分层结构的高校科研管理信息系统架构设计 基于智能视觉的变电zhan设备状态智能巡视 区域电力通信网光缆智能分配监测系统的设计与实现 输变电设备在线监测及诊断技术的研究
转载请注明来源。原文地址:https://www.5420.com.cn/view/2019/0414/14426/
 与本篇相关的热门内容: