・28・(总282)数据挖掘在网格中的应用2008年文章编号:1003一5850(2008)04一0028一03数据挖掘在网格中的应用 APPl icationofDataMiningintheGrid崔晓红肖继海 (太原理工大学轻纺工程与美术学院晋中市03060)【摘要】网格计算是分布计算的一个新的重要的分支,它主要是实现了大规模资源的共享,并且达到了高性能。在许多应用中,需要对大量的数据集进行分析,而这些数据通常是地理上分布的大规模的数据,并且复杂度不断在增加。对于以上的这些应用,网格技术提供了有效的支持,介绍了网格的基础设施以及分布式数据挖掘。【关键词】网格计算,数据挖振,分布式数据挖掘中圈分类号:TP3n.13文献标识码:AABSTRACTGridcomputinghasemergedasanimportantnewbranchofdistributedcomputingfcousedonlarge一scaleresourcesharingandhigh一perofrnranceorientation.Inmanyapplicationsitisnecessarytoperformanalysisofverylargedatasets.Thedataareoftenlarge,geographicallydistributedanditscomplexityisincreasing.Thegridtechnologiesprovideefefctivecomputationalsupportfortheapplications.Thispaperintroducesinfrastructureofthegridanddistributeddatamining.KEYWORDSgridcomputing,datamining,distributeddatamining 网格就是采用新型技术通过高速网络连接并集成的资源。地理上分布的、异构的各种高性能计算机系统、软件系统、大型数据存储系统、数字化仪器设备、控制系统、甚1网格的演变至是人等各种资源,并将它们转化成一种随处可得的、 网格技术出现于20世纪90年代,它的目的是想可靠的、标准的、同时还是经济的计算能力,实现跨地利用高速互联网把分布于不同地理位置的计算机、数域的、分布式的高性能联合、协同计算,为用户提供一据库、存储器和软件等资源连成整体,就像一台超级计体化的高性能计算服务、信息处理服务和决策支持服算机一样,为用户提供一体化信息服务,其核心思想务,充分发挥网络资源的综合效能。简而言之,网格就是:“整个因特网就是一台计算机!"是一个集成的计算与资源环境,或者说是一个计算资1 一WAY是第一个网格模型,在1995年,1一WAY源池。项目开始进入试验阶段,将大量的高性能的计算机和 网格一词最早出现在1990年,网格(Grid)是一种先进的设备环境连接起来形成高性能的网络。在1-新技术,因此具有新技术的两个特征:其一,不同的群WAY中,17个站点通过网络连接起来,提出和部署了体用不同的名词来称谓它;其二,网格的精确含义和内06种应用,并且网格基础设施提供了通路安全和共享容还没有固定,而是在不断变化。因此,什么是网格,都资源。1一WAY之所以重要是因为它是Globus[J1项目没有一个准确统一的说法。简单地说,网格是把整个因的先驱,目前,Globus项目是发展网格应用的标准。1-特网整合成一台巨大的超级计算机,实现计算资源、存WAY项目连接了许多美国国家超级计算机站点,但储资源、数据资源、信息资源、知识资源、专家资源的全是,现在网格基础设施允许连接许多特殊的超级计算面共享。不过,网格并不一定非要这么大,也可以构造机中心,现在网格无处不在。地区性的网格,如中关村科技园区网格、企事业内部网在1990年后期,网格研究者组织了一个网格论 格、局域网网格、甚至家庭网格和个人网格。事实上,网坛,随后扩展为全球网格论坛,他们主要研究未来网格格的根本特征是资源共享而不是它的规模。的标准。网络是网格中最主要的一部分,通过网络将地理 1.1开放式网格服务体系结构(OGSA)上分布的资源连起来,并且通过网络可以实现资源的OGsA[ j2被称为下一代网格体系结构。它是一种共享。在网络中,通过网络连接的最主要的资源是具有基于网格服务的分布式交互和计算体系结构,用来确数据存储能力的计算机。其中一些网格节点是高效的保异构系统间的互操作性,使不同类型的系统可以相计算机,这些节点为仿真、分析、数据挖掘提供了大量互通信、共享信息。OGSA是在Gfobu,基础上、结合2007一11一15收到, 2008一02一25改回,,崔晓红,女,198。年生,硕士研究生,助教,2。。6年毕业于太原理工大学,研究方向:数据库与智能信息处理,多媒体技术。万方数据第21卷第4期电脑开发与应用(总283)・29・最新的Webservie技术提出来的。它利用WebcerSvices定义TWSDL(WebservicesDefinition时也博得了各国政府的支持。loG bus与Linux最大的相似之处在于,它们都是开放源代码软件,推广、使用开源软件已成为众多政府官员、专家、企业与用户的共识。目前,Globus和LinuxLanguage),wSDL定义了服务访问的参数及其类型。所有的服务都遵循指定巨口}定向上层服务}【二口的网格服务接口和行为,网格服务的标准接口包区互旦星」厂门}夔鳗巫叁}} ・核心服务!含多重绑定和实现。所有}开放网砰塞础男构(的网格服务都是用}wbe段而端息安全等}msl)}GlobusToolkit构建的,图10G翻结构图 所以,OGSA的基本思想=网格结构十Webservice+工具包。OGSA的结构如图1所示。1.2开放式网格服务基础设施(OGSDOGSA的基础是OGSI(OPenGr idservicesInfrastructure,开放网格服务基础设施)。所谓OGSI是一套对网格服务所要遵守的规范和所要实现的接口的详细说明文档。OGSI使用WSDL语言来定义这些规范和接口。OGSI主要内容包括三部分:①如何命名和引用网格服务的实例; ②定义所有网格服务所共有的接口和行为; ③如何制定一个附加的接口、行为,以及它们的扩 展。 OGSI规定所有网格服务都要实现包括服务发现、动态服务的建立、生存期的管理、通告、可操控性等方面的预定义接口。1.3GlobusToolkit[3〕 由全球网格论坛(GGF)下属GIobus项目组成员联合开发的GlobusToolikt标准工具包,已被公认为当前建立网格系统和开发网格软件事实的参考标准。Gl obusTookit工具包来源于Globus项目,Globus项目是国际上最有影响力的与网格计算相关的项目之一,是由来自世界各地关注网格技术的研究人员和开发人员共同努力的成果。lGobusTookit是一个开放源码的网格基础平台,基于开放结构、开放服务资源和软件库,并支持网格和网格应用,目的是为构建网格应用提供中间件服务和程序库。Gf obusT。。kit具有较为统一的国际标准,有利于整合现有资源,也易于维护和升级换代。现在,一些重要的公司,包括IBM和微软等都公开宣布支持GfobusToolikt。目前大多数网格项目都是采用基于GlobusTookit所提供的协议及服务建设的。lG obus现在的发展势头正可谓与Linux有异曲同工之处。作为免费的操作系统,iLnux正以势如破竹之势发展着。从世界范围来看,开放源代码软件(055)是软件业发展的大趋势,iLnux更是055的重头戏,不仅深得IBM、惠普和Sun等国际IT巨头的厚爱,同万方数据都非常注重标准的制定,通过采用统一的标准,使各个公司企业同一个方向上发展,加快它们的普及。所以我们可以形象地将GIobus称作网格世界的Linux。随着时代的发展和进步, Globus随着体系结构的变化也经历了几次飞跃,它现在变得越来越完善。2网格数据挖掘 数据库中的知识发现是一个从数据集中发现新的、未知的信息的过程。数据挖掘是知识发现的一个步骤,它是由用户控制的,因此,用户必须知道如何通过设置参数来控制数据挖掘整个过程。2.1网格数据挖掘的体系结构} 用户图形界面!图2网格数据挖掘系统的体系结构 网格的重要特点是分布性和动态性。网格的各种 资源不是集中在一起的,而是分布在地理位置互不相同的各个地方,各种资源也是动态变化的。正是网格的这些特点及其分布式环境,使得网格的数据挖掘系统不再局限于传统的集中式数据挖掘系统,而是和网格一样具有分布性、动态性和自适应性。网格的数据挖掘系统采用分布式的组件架构和自适应的分布技术,由一系列的组件集成,组件之间可以实现互相通信和数据交换。这种基于分布式组件技术的体系结构允许更大的弹性,包括集成不同的协议、应用程序接口、应用程序、操作系统和硬件,能够提供多级的抽象能力、高可靠性、可扩充性和安全性。其体系结构如图2所示。.22网格数据挖掘的基本过程根据上述网格数据挖掘的体系结构,网格数据挖 掘的基本过程如下所述:①数据的处理。数据的处理阶段主要完成从数据 网格环境中收集广域分布的数据和计算资源,并对原始数据进行归档处理,更正校对,过滤清理和数据的转换、合并。最后再对经过处理后的数据进行归档。这阶段由于数据的归档处理,存在相对静止的索引数据,数据的处理功能比较稳定,而且对归档的数据进行周期性的数据再处理。(下转第32页)・32.(总286)一种基于思维进化算法的神经网络求解机器人逆运动学问题2008年组数据分别训练网络。经过14次和303次迭代学习后,网络的均方误差约为9.gl6xlo一‘和9.95x10一毛。网络训练成功后, 将表2中的10组数据分别送人两个网络,进行神经网络计算。计算结果如表2所示,仿真结果及与期望值的对比如图2所示。裹2苍于MEA的神经网络计算结果 61(0)氏(’)序号Mx(m们Q)y(rn.。)期望值计算值期望值计算值1253.2301.84040。18452020.35612233.2315.14242.11692322.50023206。5330。54544,76522625.34684176。2345.84948.42232827.94105137。8359。05352.36943232.38246105。9369。65857.49093232.14857100。0373,26059。689030299883891,2379。76463.95912524.4469968。2386。76969.22782221.97131068。4387.97070.08202019.7864〔。划挤)毅N国图261与氏期望输出与仿真翰出曲线 表3是分别采用BP神经网络、遗传算法优化神经网络权值和本文算法求解SCARA机器人运动学逆解结果的比较。衰3三种算法求解结果比较迭代次数误差精度鬓型、1U伍 。。%口1氏61几BP>1000>200017141。878GA一NN3179491.4091。792MEA一NN143030.55371。178 从表3可以看出,用遗传算法优化神经网络求解运动学逆解,其收敛速度和求解精度要优于BP算法。而用思维进化算法优化神经网络求解运动学逆解,不论在收敛速度还是在求解精度方面,在三者中都是最优的,进一步证明了,本文提出的算法在求解运动学逆解方面是有效的。4结论 理论分析和数值计算结果表明:本文提出的利用思维进化算法优化神经网络权值,求解机器人运动学万方数据反解的算法是实用可行的,它不仅为求解机器人逆运动学问题提供了一种新的方法,同时也为求解机器人逆动力学问题,特别是同时求解机器人逆运动学和逆动力学问题提供了一种新的思路。参考文献[1〕PaulRP,ShimannoBE,MayerG.KinematicsControlEquationsforSimpleManipulator口].IEEEETransSMC,1981,11(6):449一455.[2]PaulRP,RobotManipulator,Mathematics,ProgrammingsandControl[M〕.Cambridge:MITPress,1988.[3〕孙承意,谢克明,程明琦.基于思维进化机器学习的框架及新进展〔]J.太原理工大学学报,199,30(5):453-457.[4〕孙承意,孙岩,谢克明.思维进化计算与应用〔G」・中国合肥:第三届全球智能控制与自动化大会论文集,2000:112一117‘、声.己,留心.,碑,之,r已,之,德代r巴气r已唱尸‘,尸‘,产各弓产‘勺心口,趁切‘,洲几,d嘴户乞,已,‘写产‘,产匕(上接第29页) ②数据的分析与挖掘。这阶段主要完成对处理后的数据进行分析、概括和挖掘,生成关联的规则,发现新的数据关系等,并归档概括出来的数据。③模式的评价。这阶段对处理后的数据和归纳后 的数据再次进行分析,得出一些数据模式,并评价数据挖掘结果的有效性和可靠性,提交得出的结论或新的关系和趋势。3总结 本文介绍了网格的数据挖掘。在结合网格计算、网格数据库管理等技术下,提出了网格数据挖掘的体系结构和基本过程。目前,网格计算、网格数据库服务和网格数据挖掘技术还不成熟,随着研究的深入,数据挖掘的工具及其算法也必须在分布性、并行性和灵活性方面得到进一步发展和提高。随着网格和数据挖掘的技术不断提高,网格的数据挖掘将得到广泛的应用。今考文献[1]IFoster,CKesselman.Globus:AmetaComputinginfrastructuretoolkit.InternationaljournalofsuperoCmPuterAPPlications,1997.-.八-L乙.J都志辉.网格计算〔M〕.北京:清华大学出版社,2002.lse口l.J口JGlobusAlliance.GlobusToolkit.http://www.globus・org八oolkit,2007一10一18・