多核处理器中改进的动态缓存优化技术(2)

时间:2015-10-22 09:18 来源:www.fabiaoba.com 作者:田进华，魏长宝点击: 次

　　利用阈值凡和来计算为每个作业分配的缓存区数量。如果作业的^大于9%时，则为其分配4个缓存区。否则，为每个作业保留1个分区。9%是根据缓存区从1个增加到4个时的阈值确定得到的。然后，如果满足如下3个条件,则不断增加缓存区数量：（1)凡>t;(2)作业还没有达到最大缓存区数量；(3)凡>p。分配4个缓存区的作业最大缓存区数量为7,而分配1个缓存区的作业最大缓存区数量为4。如果^<t,则将作业恢复到先前缓存区状态。如果到达最大缓存区数量，则保留获得当前缓存的作业。只有作业o/,和为同一缓存展开竞争时才检查最后_个条件。

　　图5给出了一个缓存分配示例，其中_个作业对中的-个作业被分配了1个缓存区，而另-个作业被分配了4个缓存区，#PA及表示缓存区数量。在步骤（1)中，2个作业的性能提升大于阈值，同时为Coret和Core:增加1个缓存区，如步骤（2)所示。由于用完最后的可用缓存区，将缓存区分配给性能提升幅度较大的作业（Core」。可见,应用本文提出的缓存共享策略能够提高三维多核系统的能效，根据应用的缓存需求度分配缓存资源，实现缓存资源利用率的最大化。利用Gem5模拟器M构建本文目标系统的性能模拟基础设施，同时使用Gem5中的系统调用仿真模式和X86指令集结构。在多种L2缓存尺寸条件下进行Gem5单核仿真。通过将单核情景下的内存总线宽度设置为四核系统总线宽度的1/4,估计支持缓存资源共享的四核三维系统的性能结果。将单核仿真结果估计与Gem5模拟器上的四核仿真结果进行比较，发现IPC平均误差不高于1.7%。对每个基准利用2X107条指令进行快进式热身，对具体的无序CPU运行1x107条指令。使用文献[14]中的45nm线程McPAT0.7建模框架获得内核的动态功率。使用文献15]中的CACTI5.3计算L2缓存功率，应用L2缓存访问速率来调整动态功率。利用公开的IntelSCC和AMD功率数值来校准McPAT动态内核功率。采用文献16]中的指数公式模拟温度对泄漏功率的影响。通过把缓存渴求型应用与表2中列出的非缓存渴求型应用相结合，进_步获得具有4个线程的10组多程序负载集合。

　　表2工作负载构成

　　工作负载基准

　　无缓存渴求型1bwavesgamesslibquantumzeusmp

　　无缓存渴求型2calculixmilenamdleslie3d

　　低度缓存渴求型1leslie3dlibquantumgamessomnetpp

　　低度缓存渴求型2zeusmphmmernamdbzip2

　　中等缓存渴求型1astarh264refsoplexmcf

　　中等缓存渴求型2bzip2cactusADMhmmeromnetpp

　　高等缓存渴求型1gromacsbzip2omnetppsoplex

　　高等缓存渴求型2h264refbzip2omnetppsoplex

　　完全缓存渴求型1soplexsoplexomnetppbzip2

　　完全缓存渴求型2soplexbzip2soplexbzip2

　　在本文缓存资源共享三维多核结构（3D~CRP)中，每个内核有一个1MB私有L2缓存。使用带有同质层的2个三维系统作为基准系统，在这2个基准系统上的每个内核分别有1MB和2MB静态私有L2缓存。

　　图6(a)给出了低功耗系统的3D~CRP能效提升情况。可以发现，对所有工作负载,3D~CRP的EDP

　　4更大规模的三维多核系统作业分配

　　当三维多核系统一层内有多个内核时，将三维结构内垂直堆栈的所有内核称为_列。此时，在作业排序后增加_个步骤，通过负载均衡策略实现各列间的缓存渴求度的均衡。例如，在4层16核三维系统中有4个列，称为C1,C2,C3,C4。列C1和C4分别有4个和3个缓存渴求型作业，而列C2和C3只有1个缓存渴求型作业。在作业列间重新分配之后,C1中的2个作业与C2和C3间的2个作业交换，进而实现缓存渴求度的均衡。通过上述列间的作业分配，实现缓存需求均衡，提高了缓存资源的使用效率。

　　为在工作负载发生变化时提升三维系统能效,每隔100ms重复运行一次本文策略。为应用对重新分配缓存区，每当重新分配时清洗缓存区。在最坏情况下，将一个作业的缓存区数量从4个降低到1个，于是缓存区需要被清洗3次。性能开销来自于作业分配阶段的作业迁移以及缓存资源共享阶段的缓存区，而且主要由缓存的冷启动效应决定。按照先前研究的估计，类似一个SPEC基准组的冷启动效应不大于1ms。因此，基于本文策略的额外性能开销可以忽略不计。

　　5仿真实验与结果分析

　　利用具有4个~16个内核的高性能、低功耗三维多核系统评估本文方法。低功耗系统的内核结构以文献12]中的IntelSCC内核为基础。对于高性能系统，根据AMDMagny-Cours处理器使用的AMD系列10h微体系结构来模拟内核结构。表1给出了内核结构参数。

　　要低于1MB基准。对完全缓存渴求型工作负载,1MB基准的缓存尺寸较大，所以EDP最优。本文结果表明，与1MB基准相比，3D~CRP的EDP下降36.9%。因为模具成本与面积的4次方成正比，所以面积是评估三维系统性能的重要指标。使用能量延迟面积乘积（EnergyDelayAreaProduct,EDAP)作为评估能量面积效率的指标。如图6(b)所示,3D~CRP在所有工作负载集合中的性能均优于1MB基准系统,EDAP比1MB基准低57.2%。

　　无低皮中度W度完全J：作负找求度(a>iE规化后的EDP

　　无低皮中度卨度完全工作负栽级ft渴求度<bliE规化后的EDAP

　　图6低功耗三维多核系统与1MB基准系统对比

　　基于高性能三维系统评估了本文3D~CRP的设计和在线策略。图7给出了支持缓存资源共享的高性能三维系统与基于1MB静态缓存的三维基准系统的EDP和EDAP结果。可以看出，使用缓存资源共享和本文在线策略后，EDP和EDAP下降幅度低于低功耗系统。与1MB基准系统相比,3D~CRP的EDP和EDAP分别下降6.1%和21.3%。为研究本文策略的可拓展性，在十六核低功耗3D~CRP系统上评估了本文在线策略的性能。十六核三维系统有4层，每层有4个内核，每个内核有1MB私有L2缓存。

　　缓存和内核结构与四核3D~CRP系统相同。将16个SPEC基准融合为一个缓存渴求度较低的工作负载,并用其来评估十六核低功耗3D~CRP系统的EDP和EDAP。可以发现，运行本文在线策略的低功耗3D~CRP系统的EDP和EDAP与1MB相比分别下降19.7%和43.5%。

　　本文按照文献[11]方法，研究了支持微体系结

　　构资源共早（MicroarchitectureResourcePartake,MRP)的三维系统。为评估MPR性能提升情况，本文运行的程序尺寸是性能敏感型组件默认尺寸的4倍，并将IPC结果与默认设置下的结果相比较。对运行于单核上的应用，本文实验结果表明，MRP使性能平均提升10.4%,与只使用MRP时相比，将MRP和CRP相结合可使性能进一步提升8.7%。

　　6结束语

　　为支持资源池共享的三维系统需要设计一种能够感知应用程序缓存需求的策略，因此，本文提出一种基于缓存资源池的三维堆栈系统能效提升策略，考虑性能和能量间的相互作用，并根据系统运行负载的特点管理共享资源。通过设计的在线应用感知作业分配和缓存共享策略，实现三维系统能效的最大化。实验结果表明，只需对三维多维结构做少量变动，同时利用智能管理策略和缓存资源池共享技术即可实现系统能效提升。下一步工作将对多核系统节能问题进行研究，重点关注如何在满足时间约束条件下降低系统能耗。

　　参考文献

　　[1]LohGH.3D-stackedMemoryArchitecturesforMulti-coreProcessors[C]//Proceedingsofthe35thInternationalSymposiumonComputerArchitecture.WashingtonD.C.,USA:IEEEComputerSociety,2008:453-164.

　　[2]CoskunAK,AyalaJL,AtienzaD,etal.DynamicThermalManagementin3DMulticoreArchitecturesC]//ProceedingsofDesign,Automation&TestinEuropeConference&Exhibition.WashingtonD.C.,USA:IEEEPress,2009:14104415.

　　[3]ZhuravlevS,BlagodurovS,FedorovaA.AddressingSharedResourceContentioninMulticoreProcessorsviaSchedulingJ].ACMSIGARCHComputerArchitectureNews,2010,38(1):129442.

　　[4]MartinezJF,IpekE.DynamicMulticoreResourceManagementIAMachineLearningApproachJ].IEEEMicro,2009,29(5)：8^7.

　　[5]汪玲，黄炎，袁光辉.重用感知的非一致缓存迁移策略研究J].计算机工程,2014,40(2):81-85.

　　[6]周本海,乔建忠，林树宽.基于多核处理器的动态共享缓存分配算法J.东北大学学报：自然科学版,2011,

　　32(1):131438.

　　[7]VaradarajanK,NandySK,ShardaV,etal.MolecularCaches:ACachingStructureforDynamicCreationofApplication-specificHeterogeneousCacheRegions[C]丨丨Proceedingsofthe39thAnnualIEEE/ACMInternationalSymposiumonMicroarchitecture.WashingtonD.C.,USAIIEEEComputerSociety,2006:433-42.

　　[8]QureshiMK,PattYN.Utility-basedCachePartitioningIA

　　Low-overhead,High-performance,RuntimeMechanismtoPartitionSharedCachesC]//Proceedingsofthe39thAnnualIEEE/ACMInternationalSymposiumonMicroarchitecture.WashingtonD.C.,USA:IEEEComputerSociety,2006:423-132.

　　[9]KumarR,ZyubanV,TullsenDM.InterconnectionsinMulti-coreArchitectures:UnderstandingMechanisms,OverheadsandScaling[C]//Proceedingsofthe32ndInternationalSymposiumonComputerArchitecture.WashingtonD.C./USA：IEEEPress,2005：408-119.

　　[10]HijazF,ShiQ,KhanO.Low-latencyMechanismsforNear-thresholdOperationofPrivateCachesinSharedMemoryMulticoresC]//Proceedingsofthe45thAnnualIEEE/ACMInternationalSymposiumonMicroarchitectureWorkshops.WashingtonD.C.,USA：IEEEComputerSociety,2012:68-73.

　　[11]HomayounH,KontorinisV,ShayanA,etal.DynamicallyHeterogeneousCoresThrough3DResourcePoolingC]//Proceedingsofthe18thInternationalSymposiumonHighPerformanceComputerArchitec-ture.WashingtonD.C.,USA:IEEEPress,2012:142.

　　[12]HowardJ,DigheS,HoskoteY,etal.A48-coreIA^32Message-passingProcessorwithDVFSin45nmCMOSC]//Proceedingsof2010IEEEInternationalSolid-StateCircuitsConferenceDigestofTechnicalPapers.WashingtonD.C.,USA:IEEEPress,2010:108409.

　　[13]BinkertNL,DreslinskiRG,HsuLR,etal.TheM5SimulatorIModelingNetworkedSystemsJ].IEEEMicro,2006,26(4)：52-60.

　　[14]LiS,AhnJH,StrongRD,etal.McPAT:AnIntegratedPower,Area,andTimingModelingFrameworkforMulticoreandManycoreArchitecturesC]//Proceed-ingsofthe42ndAnnualIEEE/ACMInternationalSymposiumonMicroarchitecture.NewYork,USA:ACMPress,2009:469-480.

　　[15]ThoziyoorS,MuralimanoharN,AhnJH,etal.CACTI5.1

　　J].HPLaboratories,2008,2(11):111417.

　　[16]SrinivasanJ,AdveSV,BoseP,etal.TheCaseforLife-timeReliability-awareMicroprocessorsJ].ACMSIGARCHComputerArchitectureNews,2004,32(2)1276^83.

（www.fabiaoba.com），是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
　　本站提供如何投稿辅导、发表期刊，寻求论文刊登合作，快速投稿辅导，投稿辅导格式指导等解决方案：省级论文刊登/国家级论文刊登/ CSSCI核心/医学投稿辅导/职称投稿辅导。

投稿邮箱：fabiaoba365@126.com
　在线咨询： 275774677、 1003180928
　在线咨询： 610071587、 1003160816
　联系电话：18796993035