聚焦IDF:英特尔CTO首度披露80核芯片技术

  DoSERV原创  崔昊 ◎ 2007-04-19 服务器在线

导读:      作为近期发布的内含80内核的具有万亿次浮点运算能力的研究用芯片的后续,贾斯汀介绍了“堆栈式”内存解决方案值得期待的结果,同时还首次演示了在可编程单硅片上达到2万亿次浮点运算的能力。同时,在于清华大学教授杨志强介绍了清华大学和英特尔长久的合作,其合作的领域实际上涉及嵌入式?

关键词:IDFIntel

      作为近期发布的内含80内核的具有万亿次浮点运算能力的研究用芯片的后续,贾斯汀介绍了“堆栈式”内存解决方案值得期待的结果,同时还首次演示了在可编程单硅片上达到2万亿次浮点运算的能力。同时,在于清华大学教授杨志强介绍了清华大学和英特尔长久的合作,其合作的领域实际上涉及嵌入式系统、多媒体技术,包括多核技术的编程,并在最近几年以来英特尔在清华建立了很多的联合实验室和联合的实验机构。 并特别为来宾介绍了清华计算机系在多媒体视频处理方面和英特尔合作的一个项目。
  
      杨志强表示,视频是多媒体信息里面最复杂的一种数据,它的处理实际上需要非常强有力的、强大的计算能力,所以现在单个的CPU已经不能支撑这样一个多媒体处理的情况下,我们就需要有非常强大的多核处理器来支持我们的视频处理。所以,这次做的项目就是对于体育视频,从里面进行自动的分析,找出精采片断,进行自动的浏览,自动的检索。
  
      此次介绍的系统是一个足球视频自动分析系统,他做的主要目的是要找到比赛中的精采的片断,首先里面用到的技术是队员的跟踪,可以把两个队自动的分开,还可以进行足球的跟踪,找到球门在什么地方。然后把进球、射门这样的动作划分为四种动作,可以自动把这些动作分开,想要找什么样的过程就可以随时找到。

      杨志强教授表示,如果用多核处理器和单核处理器比较一下,就会发现这个过程在单个CPU上做是不现实的。在现场,杨志强教授进行了在一个核和八个核的情况下面进行性能比较的演示,先用一个核跑一跑,然后再用八个核跑一跑这样一个过程,其结果相差很大,八个核可以跑的很快,一个核跑的比较慢。当然这背后背后有非常复杂的处理,包括运动员的跟踪,运动员自动的检测,其现在做的就是一个性能的比较。实际上,在一个核的情况下,实际上每一帧每一秒钟,一个核只可以处理三帧,八核基本上可以实时了,达到20帧,所以多核的处理是必然的一个需求。
  
      但是,杨志强教授也表示,再多的核这个性能不一定会更高。用一个通道处理多个通道,或者是多个运动员的跟踪,这个处理更加复杂,所以需要多核。在32个CPU的SMP的结构的情况下做的比较发现,由于内带宽的问题,实际上并不能得到一个很好的解决。
  
     针对杨志强教授的疑问,贾斯汀先生表示,杨志强教授的研究领域是和英特尔的万亿级研究相切合的。最近英特尔在万亿次计算研究上取得了重大成果,特别是已经发布了研究用芯片。贾斯汀先生在演讲中为大家解释了,这款处理器中采用的技术,怎么解决杨教授提出的问题,比如运动视频的应用,如何向上扩展,让用户用到更多的处理器,更多的核。尤其是介绍了“堆栈式”内存解决方案值得期待的结果。他还首次演示了在可编程单硅片上达到2万亿次浮点运算的能力,称英特尔正不断推进万亿次浮点运算的研究。据英特尔相关人士表示,这是英特尔公司首次公开演示2万亿次浮点运算研究。“作为今年全球首场IDF,本次IDF展出与演示的很多技术都是全新的。”上述英特尔人士表示。据透露,2万亿次浮点运算目前还只处于演示研究阶段,实验室尚无实物出来。
  
      贾斯汀先生谈到,现在的万亿级计算的研究用芯片,是一个一个单个处理器放在一起,现在还不是IA架构的英特尔处理器,今后会是IA架构的英特尔处理器。但是,这个架构和现在的架构不同,其应用是很广泛的。比如一段视频的分析 ,会有运动员识别,足球识别,视频图象效果增强,视频编码,精采回访和及时回播等多种需求,而实际上在芯片中英特尔已经融入了各种独特的功能,并且做了核的集群,就是在整个万亿级处理器中做了很多核的集群。
  
      我们知道,当处理器的内核越来越多之后,有两个问题是不得不不面临的,第一个是不可能无限增大的处理器面积,而核心面积也不可能做的太小;另一个就是每一个核心都要与内存进行通讯,如果核越多,电路设计也就越复杂。针对这两个问题,英特尔运用了通过铜点相连,实现芯片连接,以及堆栈式内存解决方案。尤其是在万亿次处理器中,英特尔引入了路由器的原理,很好的解决了这些问题。
  
  
     现有的芯片设计将数亿个晶体管唯一地进行排列,与之不同的是,此次芯片设计包括80层8×10块阵列的晶体管。每一层均包括一个微小的核心或者计算单元,以一个简单的指令集处理浮点数据,但不兼容英特尔架构。每层也包括一个路由,将核心连接到一个片上网络,该网络将所有核心连接在一起,使他们可以读写内存。  

  
  


      同时,一个20M字节的SRAM内存芯片与处理器硅晶片堆叠并连接在一起。与硅片堆叠使得两者之间的数千个相互连接成为可能,在存储器和处理核心之间提供超过每秒万亿字节的带宽。 

  
      作为万亿次处理器中的全新组件,路由元件是非常重要的,它是一个小的硬件,使得不同的核之间能够进行通信,也能够和芯片用的资源进行通信。当处理器的核越来越多的时候,内存带宽是一个大的挑战,而英特尔现在开发的一个技术是想让内存更加的贴近处理器,这实际上是两个堆栈式的解决方案,英特尔采用了把电器信号放到最上面,接到最上面的芯片上,上面有一些铜的突起,用这个作为连接,我们将万亿级处理器放在已有的阵列之上。即两个芯片通过这个铜点结合在一起,这样就形成了一个直接的电流的通导。 
  

  
  

 
  
      同时,两个芯片的铜点是一一对接的,实现了两个芯片之间的连接。一旦对接工作做好之后,信号可以从下一个核被传输到上一个核中?D?D只要给这个芯片通上电。同时,在存储部分和处理部分过去是分开的,但是在这个研究当中是连接在一起的。要想在核当中实现数据的输入,除了在I/O方面要提高之外,还可以增加像网络处理器这样的通信层,实际上,这也是英特尔的万亿级计算的解决方案,也就是硅芯片光学研究的一个组成部分。

      在这个芯片上可以放其他的一些处理器单元,既可以包括英特尔架构IA的处理器,也包括其他专用的处理器放到这个片中。贾斯汀先生给来宾展示了堆栈的工作状况,最上面是英特尔的万亿级计算的处理器,在这个铜点之上,就是英特尔的存储芯片FREYA,这是一种高性能的连接,和其他的项目相比,这种连接性能是最高的,然后在下一个芯片当中是一个70微米的厚度。

 

   贾斯汀先生表示,万亿级计算是目前英特尔的一个主攻方向,通过铜点的接触,实现两个片的连接,以及堆栈内存的方案,硅芯片光子通信负责系统内外的I/O,未来的产品既可以包括intelIA构架内核也可以包括其它的内核,把多内核万亿次构架性能推进到一个新的高度。

相关文章

发表评论

网友评论

暂时没有评论!
今日排行
热点新闻
宽频互动
企业产品
商业资源
新供应商
专题列表