基于聚类的PaaS平台流量监控的迁移研究*
董琪,徐军
(中移(苏州)软件技术有限公司/中国移动苏州研发中心,苏州 215163)
摘 要 为了满足Web应用的快速部署,自动维护和自动扩容的需求,从而产生了PaaS平台。但随之而来的问题是如何实时监控PaaS的流量。为了能够实现流量的实现监控, 研究人员提出了利用聚类算法来实现自动分类,但数据在传送很容易受到外界因素的影响,从而导致采集的流量是失真的,因此根据这样的数据来聚类分析后的结果是不准确的。针对此问题,以模糊C均值算法为基础,借鉴知识利用的思想,提出了一种具有迁移学习能力的聚类算法。并将其应用到PaaS平台的流量实现监控中,从而能够快速识别流量,从而能够从极大的保证系统的稳定安全的运行。关键词 PaaS平台;流量的实现监控;极大熵聚类;迁移学习中图分类号 TN929.5 文献标识码 A 文章编号 1008-5599(2017)07-0005-051 引言
近几年来,随着移动互联网的迅猛发展,涌现出各式各样的 PaaS (Platform as a Service,平台即服务)平台,随着PaaS系统的出现以及发展,在为Web应用开发提供巨大便利的同时,其系统本身、以及其中部署的应用和服务的监控任务也开始面临巨大的挑战,如何实时监控PaaS平台的流量成为一项很重要的课题。为了解决流量实时监控的问题,相关研究人员提出利用无监督的聚类算法来实现流量的实时监控,聚类大致可以分为硬划分聚类和软划分聚类。硬划分的代表性算法是C均值算法[1]。软划分聚类是依据模糊集理论[2,3],可以将一个对象按照模糊集理论的不确定性,将同一个对象划分到不同的类簇。传统的聚类算法要想取得较好的识别效果,用于分析的数据必须是大量且未失真传统的。但流量在传送过程中很容易受到外界环境的干扰从而导致数据的丢失或者失真,因此利用传统的聚类算法对此类数据进行分析,不会得到令人满意的效果的,从而也就起不到流量实时识别监控的效果。针对流量信息容易丢失与失真,传统模糊划分聚类算法无法获取准确的聚类结果,借鉴知识利用的思想,通过有效利用对历史采集的流量信息来解决上述问题,并进一步将这思想融入到极大熵聚类算法中,提出一种SMEC (Self Learning Algorithm Based on MEC Clustering,具有迁移学习能力的聚类算法)[4,5]。本文算法工作在两个相近但又有区别的数据集上,如历史域类中心与当前域数据集,前一个数据集是通过对PaaS平台上已有的大量的数据流量信息进行传统的聚类分析获取得到。当前数据集就是先阶段通过PaaS平台的流量信息。然后利用总结得到的历史类中心来指导当前域聚类任务,这样不仅可以较大的提高聚类效果,而且历史域类中心利用并不暴露历史流量数据,因此本文所提的SMEC算法能在不暴露历史收稿日期:2017-06-21* 中国移动集团级一类科技创新成果,原成果名称为《大云数据中心操作系统(BC-DCOS)》。5
2017年7月 第 7 期(第30卷 总第238期)月刊
电信工程技术与标准化 中国移动优秀科技创新成果专栏数据的情况下有效解决上述问题,更好地应对流量数据的复杂性与多变性。特别地,在当前信息化高速发展的背景下,该算法具备广泛的实际应用价值。2017年 第7期表示欧几里德距离,μij表示第j个样本是第i个类的隶RN×C,vi为第 属度,U是由μij构成的隶属度矩阵U∈i类的类中心, v是由vi组成的类中心矩阵。2.2.2 具有迁移学习能力的聚类算法目标函数根据2.1节所分析的算法思想,最终构造了具有迁移学习能力的聚类算法算法即SMEC算法,它的目标函2 具有迁移学习能力的聚类算法
2.1 SMEC算法的基本思想虽然传统的MEC算法在面对各具特色的单一数据集时均有良好的聚类效果,但该模糊划分聚类算法良好的鲁棒性是建立在大量待分析数据和丰富信息的基础上。在少量数据或有噪声干扰等场景下,传统的MEC算法往往无法获取较好的聚类效果。为了解决上述问题。本文将历史域类中心知识融入到传统的MEC算法中,最终得到了跨领域模糊划分聚类算法。SMEC总体思想如图1所示。数为: (2)∈其中,β是平衡参数且β(0, +∞), 为历史数据集的第i个类中心,其余参数参见上节。从目标函数中可以看出,当β→0本文算法将退化为经典的MEC算法,从而确保算法的性能永不差于经典的MEC算法。2.3 SMEC算法的推导及证明SMEC算法的目标函数J取极小值的必要条件是J对U和V的偏导数全取0。具体的推导过程如下:2.3.1 类中心vi的迭代公式令 则图1 SFC算法总体思想
2.2 改进的目标函数2.2.1 传统极大熵聚类算法的目标函数近年来针对MEC算法的改进有很多,虽然描述各不相同, 但具体思想是一致的。本文参照文献[6]中提到的极大熵聚类算法的目标函数,具体如下: (3)即类中心迭代公式为: (4) (1) N表示样其中, C表示所需聚类样本的类别总数,(0, +∞), ‖xi-vi‖2本的总数, γ是平衡参数且γ∈表示第j个样本与第i个类中心之间的距离,这里‖·‖2.3.2 隶属度uij的迭代公式令 则6
2017年7月 第 7 期(第30卷 总第238期)月刊2017年 第7期中国移动优秀科技创新成果专栏 电信工程技术与标准化表1 基于历史类中心利用的MEC算法的步骤
算法: 具有迁移学习能力的聚类算法
输入输出
当前域数据集Data,聚类类目数C,最大迭代次数
^和平衡maxiter,迭代结束值ε,历史域类中心V参数β类中心V和隶属度U(5)得: (6)获取历史域类中心知识Setp 1
对历史流量数据集用典型的MEC算法进行聚类分
^ (如果已经获得历史域类析,得出历史域类中心V中心可以跳过此步骤)
跨域利用历史域类中心知识
因为 则Step 3Step 4
初始化隶属度矩阵U(0),将迭代次数置为1根据最新的隶属度、历史域知识和(4)式计算出最新的类中心V(n+1)
根据最新的类中心、历史域知识和(9)式更新隶属度U(n+1)
若‖U(n+1)-U(n)‖F<ε或迭代次数n达到
maxiter时迭代结束,否则n=n+1),并返回Step 4输出当前域数据集最优类中心V和隶属度U(7)即: Step 5Step 6
的部分配置信息,如应用和服务的绑定信息、应用和域名的绑定信息等。通过只读的方式访问这些数据表,可以快速直观的得到这些原始数据。通过这些原始数据集(8)我们从中抽取出端口、访问量、CPU使用率、用户IP、访问时间。在对这些数据集进行分类时,需要确定流量识别的类别数,因为任何聚类算法都需要先确定数据集的具体类别数,因此如何确定流量识别的类别数是比较 (9)关键的,根据安文娟提出的方法,网络流量类别大致可以分为六类,分别为自然的流量、黑链流量、外链流量、网站关键词流量、友情链接的流量,站群流量。然后对这些数通过传统的MEC算法进行分析得到每个类别的将(8)式带入到(6)式,得到隶属度迭代公式为:根据迭代公式(7)式和(13)式,最终可求得当前数据集的最优类中心V和隶属度U。基于历史类中心利用的MEC算法可以总结为如表1所示的以下6步骤。类中心,然后利用此历史知识类辅导当前PaaS平台流量的实时监控。根据PaaS平台采集的流量,我们在将聚类个数设置为6的情况下,这6个网络流量的识别率如表2(a)、(b)所示。3 PaaS平台流量数据的采集
PaaS系统中的一些关键数据都是持久化到数据库中,这部分数据主要包括应用开发者信息,应用和服务通过表2可以看出,SMEC从整体上来说,是优于其他两个算法的。其中,SMEC算法在外链流量的识别率是最高的,其识别率明显高于其他两个对比算法。但是,SMEC算法在站群流量的是被上,效果略差于MEC算法。7
2017年7月 第 7 期(第30卷 总第238期)月刊
电信工程技术与标准化 中国移动优秀科技创新成果专栏表2 (a) 算法对各类流量的识别情况对比
自然流量
算法
识别率
FCMMECSMEC
.30%90.50%91.80%
误识别率7.1%6.8%6.5%
漏识别率3.60%2.70%1.70%
识别率87.60%.70%90.70%
误识别率7.80%8.30%7.60%
漏识别率4.60%2.00%1.70%
识别率90.70%83.20%93.20%
黑链流量
2017年 第7期外链流量误识别率7.90%6.40%5.20%
漏识别率1.40%10.40%1.60%
表2 (b) 算法对各类流量的识别情况对比
网站关键词流量
算法FCMMECSMEC
识别率86.50%90.10%90.10%
误识别率9.50%8.40%7.70%
漏识别率4.00%1.50%2.20%
识别率88.10%87.40%.20%
友情链接流量误识别率7.20%7.80%8.40%
漏识别率4.70%4.80%2.40%
识别率92.30%90.40%91.90%
站群流量误识别率5.60%5.50%5.10%
漏识别率2.10%4.10%3.00%
针对网站关键词流量,我们将3种聚类的聚类个数分别取6、12、18、24、30、36,分别查看其3种算法对网站关键词流量的识别率。其结果如图2所示。算法无法达到理想的聚类效果的问题,通过利用历史域知识来指导当前聚类任务的完成,从而得到具备迁移学习能力的聚类算法。然而,对于本文算法而言今后还有很多工作值得进一步研究和探讨,例如参数寻优范围的选取。此外,由于过多的人工预设参数的存在,在一定程度上增加了算法的学习负担影响了时间效率。因此,今后我们将考虑更为有效地的参数选择策略。参考文献[1] Pal N R, Pal K, Bezdek J C. A mixed c-means clustering model
1997[C].Fuzzy Systems, 1997., Proceedings of the Sixth IEEE International Conference on. IEEE, 1997,1:11-21.
[2] Miyamoto S. Fuzzy c-means as a regularization and maximum entropy
approach[J]. Proc. of IFSA'97, June 25-30, 1997, Prague, Chech, 1997:86-92.
[3] Li R P, Mukaidono M. Gaussian clustering method based on
maximum-fuzzy-entropy interpretation[J]. Fuzzy Sets and Systems, 1999,102(2): 253-258.
[4] 张敏, 于剑. 基于划分的模糊聚类算法[J]. 软件学报,
2004,15(06):858-868.
[5] 蒋亦樟, 邓赵红, 王骏, 等. 基于知识利用的迁移学习
一般化增强模糊划分聚类算法[J]. 模式识别与人工智能, 2013,26(10):975-984.
[6] Karayiannis N B. MECA: Maximum entropy clustering algorithm[C]//
Fuzzy Systems, 1994. IEEE World Congress on Computational Intelligence., Proceedings of the Third IEEE Conference on. IEEE, 1994: 630-635.
图2 算法在不同聚类个数下的网站关键词流量识别率
通过图2可以发现,随着聚类个数的升高,SMEC算法的关键词流量识别率提升明显。说明,在添加了前期的迁移学习的先验知识后,对SMEC算法的提升有着明显的优势。4 总结
本文通过分析已有的聚类算法在PaaS平台上的流量实时监控的问题后,发现传统聚类算法在流量失真或丢失的情况下获取不到很好的监控作用,即传统MEC8
2017年7月 第 7 期(第30卷 总第238期)月刊2017年 第7期中国移动优秀科技创新成果专栏 电信工程技术与标准化News中国移动、上汽集团、华为签署合作协议发力下一代车联网
6月28日,世界移动大会·上海期间(MWC上海),中国移动通信集团公司、上海汽车集团股份有限公司、华为技术有限公司签署了《共同推进智能出行服务暨下一代车联网合作框架协议》。中国移动总裁李跃、上汽集团董事长陈虹、华为轮值CEO出席签字仪式,中国移动副总裁李正茂、上汽集团总裁陈志鑫、华为副总裁兼中国区总裁彭中阳代表三方签约,中国移动副总裁沙跃家主持签约仪式。
作为世界500强中信息通信行业、汽车行业的领军企业,中国移动、上汽集团、华为积极推进创新转型,充分发挥技术、产业、市场优势,共同构建以C-V2X技术(Cellular based Vehicle to Everything,基于移动蜂窝网络的车与车、车与人以及车与万物互联的技术总称))为核心的下一代车联网智能出行服务系统,深挖大数据服务潜力,丰富人工智能出行服务应用,加速技术成熟,推进应用创新,构建产业生态。C-V2X包含现阶段的LTE-V2X和未来的5G-V2X技术,有望为自动驾驶、出行安全、智能交通带来根本变革,形成万亿级的智能出行服务市场。
作为全球5G汽车联盟(5GAA, 5G Automotive Association)成员,中国移动、上汽集团和华为公期以来致力于推动下一代车联网发展。2016年G20期间,三方在杭州云溪小镇合作建成了当时全球最大规模的LTE-V2X技术试验场,进行了智能网联汽车的示范展示。此次签署合作框架协议,将三方在下一代车联网领域的合作大幅向前推进。
本次MWC上海大会期间,三方举办了公众开放日活动,邀请公众体验了近距/超车告警、前车透视、十字路口预警、红绿灯车速引导、行人告警,以及远程遥控自动驾驶等下一代车联网典型应用,让公众更好地感受新技术带来的安全性能提升和驾驶体验变化。
(来源:中国移动通信集团公司)
Transfer learning of PaaS platform traffic monitoring via clustering
DONG Qi, XU Jun
(China Mobile (Suzhou) Software Technology Co., Ltd./China Mobile Suzhou R & D Center, Suzhou 215163, China)Abstract The PaaS platform isstructured to realize the Web’srapid deploymentand to satisfythe need of Web’s maintain and dilatationautomatically. But, there is a urgent problem that how to monitor the flow of PaaS platformat any time.In order to be able to implement traffic monitoring related researchers using the clustering algorithm is presented to realize automatic classifi cation, but the data in transmission is easily affected by external factors, which leads to acquisition of fl ow is distorted, so according to the data to the results of cluster analysis is not accurate.To solve this problems, a new clusteralgorithm, based on FCM algorithmand transfer learning thought, is introduced. This new cluster algorithm is used to PaaS platform and tomonitor the fl ow of PaaS platform at any time, so that can recognition fl ow quickly and can make platform run softly and stably.Keywords PaaS platform; traffi c monitoring; maximum entropy clustering; transfer learning9
2017年7月 第 7 期(第30卷 总第238期)月刊
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- stra.cn 版权所有 赣ICP备2024042791号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务