摘 要:我们现今正处于大数据时代当中,同高性能计算系统相似,大数据系统在数据储存以及计算方面一般为基于机群实现的。为了能够在大数据环境中使数据能够同计算间获得更好的协调,在文章中,将就大数据技术中计算与数据的协作机制进行一定的研究。
关键词:大数据技术;计算与数据;协作机制
引言
在现今信息技术发展中,数据同计算可以说是信息技术发展过程中的两个重要主题,在这两个主题的基础上,信息技术也逐渐出现了大数据技术概念。从严格意义来说,所谓大数据技术,即是针对于海量数据的分析、存储以及发布技术。对于这部分海量数据来说,我们很难直接对其进行应用,在获得数据之后,需要在经过一定处理后才能够获得有用的数据,如何能够实现大数据时代下数据同计算的科学协作、并能够将其形成一种机制,则成为了目前非常重要的一项问题。
1 计算同数据协作机制对比
对于面对数据系统来说,其一般为分布式系统类型,即通过将计算向数据进行迁移对系统中数据传递代价进行降低,可以说是一种通过计算对数据进行寻找的方式。要想对数据进行计算,实现数据的定位可以说是一项重要的前提,而数据切分以及存储方式情况也将对计算的模式以及处理效率产生影响。对此,要想对数据同计算间的科学协作进行实现,就需要对数据在分布式文件系统中的存储方式进行研究。而由于在分布式系统当中,需要对数据冗余、节点失效以及备份等问题进行解决,就对数据同计算协作价值的研究带来了较大的挑战。在两者协作机制研究中,数据同计算的一致性可以说是研究重点,需要首先从该方面进行讨论与解决。
1.1 位置一致性映射模型
对于分布式系统中数据同计算的一致性问题,我们可以将其理解为将两者在同一节点位置映射,即在数据存储区域发起计算。以网格计算系统为例,其到达客户节点的数据是计算先于数据,并根据客户端请求将数据映射到客户端中进行处理。对于Hadoop系统来说,就是先将数据存储到系统的一个节点当中,当系统发起计算时,再对元数据进行查询后对数据存储位置进行获得,并将计算任务映射到节点当中进行处理。根据此种情况,我们可以将计算同数据间的映射比作是数据到节点的映射过程,在该过程中,数据片同计算程序在按照一定规则到节点进行定位之后将两者注入到节点当中,而到该节点失效时,数据片则会按照相应的规则进行数据备份以及迁移,并重新按照规则实现到节点的对应。
在上述模型中,我们可以将计算视作是一种具有特殊特征的数据类型,这是因为对于计算而言,其自身就是程序语言设计的可执行程序片,在系统映射过程中,可以将其同数据进行同等的看待,且在程序中一般也将包括相关数据的逻辑位置信息。在分布式文件中,其中的定位算法也正是数据同节点间的映射功能,即要想对两者的一致性位置进行实现,就离不开分布式文件系统的支持。同时,由于在分布式系统中计算迁移、存储迁移以及数据冗余问题的存在,在具体功能实现时,也将对存储冗余以及均衡调度等技术进行结合性的应用,以此对两者科学协作、且具有稳定健壮特征的系统进行实现。映射方式方面,则有哈希映射以及元数据映射等。
1.2 元数据映射算法
对于该类算法来说,其可以说是最为基础的对存储位置同计算一致性进行实现的方法,在实际应用中,该方式通过数据块存储位置的查找使该位置能够同指定的存储节点进行映射,在其对计算同数据的定位实现中,同网络路由表原理较为类似,即两者通过对有路由的查询保证数据能够同计算被分配到同一个节点当中。对于应用该方式的系统来说,其一般为主从结构类型,如果其中出现单点失效情况,则将对整个系统产生较大的影响。对于HDFS以及GFS结构来说,就是以该数据方式构建的。在实际对数据进行存储时,其一般会根据节点目前存储负载情况进行判断,而为了避免结构对失效情况具有过高的敏感性,也有学者通过对元数据进行复制的方式提升系统可用性。
通过该方式的应用,则能够以较为便利的方式对机群系统目前状态进行利用,在以其为依据的基础上对系统的负载均衡进行实现。此时,系统主节点则会通过一定调度算法的应用对数据计算以及存储进行分配,在对系统负载均衡进行实现的同将分配信息作为元数据进行保存。目前,很多针对集群负载均衡算法都能够在元数据方法中进行应用、并将其作为对柱节点资源进行分配的依据。在实际应用中,虽然该方式在网络信息搜索以及大量复杂均衡算法的应用方面具有较好的表现,但当系统具有较多数量小文件时,则需要对路由数据进行大量的维护,并因此对数据的查询效果产生影响。
1.3 哈希映射算法
哈希算法是一种从稀疏到紧密值的映射方式,在计算以及存储定位时,可以将其视作路由算法的一种,通过该方式的应用,则能够将目标定位到节点位置。对于传统的哈希算法,其在扩展性以及容错性方面的表现都一般,并不能够较为有效的对面向数据系统节点的动态变化相适应,1997年,学者David Karger提出了使用一致性哈希算法对数据进行定位,并在后续的改进中逐渐使其成为了分布式存储中的标准技术类型。当系统对该方式进行应用之后,则不需要对中心节点元数据进行维护,可以说对普通元数据服务器性能瓶颈以及单点失效问题进行了较好的解决,其实现过程为:首先通过Key值的应用将MD5算法变换成一个32位长度的16进制数值,在以该数值进行232取模后将其映射到环状哈希空间,并以相同的方式将节点映射到环状哈希空间当中,此时Key则会在哈希空间中寻找到节点值作为路由值。
2 计算同数据的流式拓朴协作机制
2.1 Storm系统
流水线技术是对高性能数据进行处理的重要技术类型,其主要技术思想即将一个任务分解成多个具有前后关系的子任务,在流水线模式中,各个子任务的启动同之前顺序任务的完成情况具有依赖,对具有先后相关性数据分析方面具有较好的实用性特征。目前,以分布式系统以及流式技术为协作的框架机制已经在应用中表现出了较好的生命力以及灵活性,在本研究中,将以Storm系统为例进行简单的介绍。
Storm是由Twitter所推出的一种流式分布式系统,在该集群中,由多个工作节点以及一个主节点组成,其中,主节点可以说是系统的核心,具有任务布置、代码分配以及故障检测等作用。在该系统中,当其要对实时计算任务进行完成时,需要对一个Topology进行建立,并由该模块对数据处理进行规划。在Storm系统中,元组是基本的数据流单位,可以将其看作是一个被封装的数据结构类型,在Storm系统中,Topology可以说是最高级别的执行单元,其是由很多个节点所组成的拓扑,在拓扑中,由不同节点对相应的计算逻辑进行完成。在该系统中,Spout是系统的数据流生成器,而Bolt则为不同的处理位置。对于数据流来说,由于Spout为数据源头,在实际运行中,其在对数据进行读取之后则会实现向Bolt的传送,其不仅能够对多个输入流进行接收,且能够较好的对数据进行特定处理。在Storm系统对Topology进行应用之后,其则具有了更为强大以及更为灵活的数据处理能力,节点在根据Topology逻辑对任务进行分配之后将任务分配到相应物理节点之上。而从整个架构情况看来,在数据以及计算协作处理方面,系统主要是通过Topology进行分配,并在按照其描述之后由对应的节点程序进行处理,并由主节点将根据一个逻辑实现物理节点的映射。
2.2 流式拓朴映射模型
在Storm系统中,其通过Topology结构的应用,则能够对较为复杂的分布式数据处理任务进行实现,在整个过程中,对于不同计算任务,Topology好比是逻辑规划,并没有对相应的物理节点进行对应,在系统主节点中,可能具有数量较多的该种结构,而对于每一个结构都可以将其视作为对特殊问题进行处理的逻辑规划,可以说,通过Topology结构的应用,则能够对大多数问题的处理方式进行描述。其整个过程可以抽象如图1所示。
在图1中,每一个操作就可以将其是作为Bolt,而数据发生器则为Spout,在该系统中,同样由主节点对很多个处理节点进行管理与监控,对于每个任务的逻辑规划,主节点都会在一定策略的基础上对物理节点进行分配,以此对相关的计算恩物进行完成。如上图中,主节点为操作1分配物理节点1,为操作2分配物理节点2,为操作3分配物理节点3,为操作4分配物理节点1,在以该种方式进行分配之后,Topology则能够被映射为集群物理结构,并能够对相应的计算任务进行完成。而作为编程人员,在工作当中仅仅需要对Topology的逻辑结构进行定义即可,其后续相关工作则完全由系统进行维护,作为设计人员,在整个操作过程中也不需要对失效问题进行担心,这是因为当某个节点出现失效情况时,主节点将根据对应操作将其对一个好的物理节点进行重新的映射,以此保证整个规划能够得到顺利的实现。
通过上述的分析可以了解到,通过流式拓朴映射方法的应用,则能够使系统根据Topology描述的情况对不同的集群计算结构进行自动组合,以此以更为灵活的方式对复杂问题进行处理。在整个过程中,系统的主节点具有数据路由以及计算的作用,并通过Topology的描述对协作机制的跟踪定位进行实现。
在此,我们以MPS对Topology到物理的映射过程进行模拟,在节点间,将通过Mpi_Send()函数的应用将流数据元组注入到节点当中,并在该节点上对相关操作进行发起,之后,通过MPI_Recv()函数的应用对前端数据进行接收,以此对节点间通讯进行实现。对于该种方式来说,其能够对不同数据系统仅仅能够进行非实时数据批处理的问题进行了较好的避免,具有较好的应用效果。
3 结束语
在现今大数据时代背景下,数据同计算间的协作具有了更为重要的意义。在上文章,我们对大数据技术中计算与数据的协作机制进行了一定的研究,需要能够联系实际进行系统模式的选择与应用,以此更好的对数据处理任务进行实现。
参考文献
[1]罗象宏,舒继武.存储系统中的纠删码研究综述[J].计算机研究与发展,2012(1):77-79.
[2]郭本俊,王鹏,陈高云,等.基于MPI的云计算模型[J].计算机工程,2009(24):166-167.
[3]杨东日,胡然.再谈云计算及其产业发展的态势与建议[J].通信管理与技术,2014(6):88-89.
(www.fabiaoba.com),是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
本站提供如何投稿辅导、发表期刊,寻求论文刊登合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级论文刊登/国家级论文刊登/
CSSCI核心/医学投稿辅导/职称投稿辅导。
投稿邮箱:fabiaoba365@126.com
在线咨询:
275774677、
1003180928
在线咨询:
610071587、
1003160816
联系电话:18796993035
期刊简介: 《文化产业》杂志以关注文化、关注产业为创刊宗旨,坚持用财经理性融合文...
期刊介绍: 《吉林广播电视大学学报》是由吉林省教育厅主管、吉林广播电视大学主办的...
主管单位:中华全国总工会 主办单位:中国工人报刊协会 出版地:北京 国际标准刊号:I...
主管单位:集美大学 主办单位:集美大学 国内统一刊号:35-1189/G8 国际标准刊号:100...
主管单位:湖北省教育厅 主办单位:湖北第二师范学院 出版地:湖北省武汉市 国际标准...
主管单位:山西出版集团 主办单位:山西出版集团 出版地:山西省太原市 国际标准刊号...
近来发现有些作者论文投稿存在大量剽窃、抄袭行为,“发表吧”对此类存在大量剽窃、抄袭的论文已经停止编辑、推荐。同时我们也提醒您,当您向“发表吧”投稿时请您一定要保证论文的原创性、唯一性,这既是对您自己负责,更是对他人的尊敬。
此类投稿的论文如果发表之后,对您今后的人生和事业将造成很大的麻烦,后果不堪设想,请您一定要慎重,三思而后行。
如因版权问题引起争议或任何其他原因,“发表吧”不承担任何法律责任,侵权法律责任概由剽窃、抄袭者本人承担。