打印本文 打印本文  关闭窗口 关闭窗口  
AMD透露产品技术规划:2011年是融聚元年
作者:转载  文章来源:转载  点击数  更新时间:2010/3/12 7:09:19  文章录入:陈鹏  责任编辑:陈鹏

CPU性能发展的三个阶段

AMD高级副总裁兼技术事业部总经理Chekib Akrout先生近日专程来华,介绍了AMD未来一两年内的产品与技术发展规划,而这其中的重点就是AMD一直所在推崇的融聚技术(Fusion)以及新一代的x86核心,相较而言,2010年的多核产品线并不是Chekib Akrout介绍的重点,由此可以看出AMD对于2011年的重视,并也预示着2010年将是多核与GPU/CPU核心异构混合的分水岭,意义重大。

AMD高级副总裁兼技术事业部总经理Chekib Akrout先生

在AMD看来,CPU性能的发展正在进入第三个阶段,即异构系统时代,前两个阶段分别是单核心与多核心时代

对于CPU的三个发展阶段,Chekib Akrout表示,第一个时代我们称之为单核时代,一切重点都是放在主频频率,希望它越来越快,性能越来越强。但随着功耗和复杂性要求越来越高,它已处于饱和状态。为了进一步解决增加性能的问题,我们进入到一个多核时代,在多核时代,我们希望可以增加很多内核,这样每个核就可以给我们带来更多性能的提升。但由于复杂性不断提高,这个时代也慢慢饱和。比如一个四核处理器,一般情况下有时候只是第一第二核工作时间多,第三、第四核并不工作。

而现在AMD所在做的事情,就是进入第三阶段,异构系统时代。Chekib Akrout指出,在这个时代我们增加了很多不同的计算单元,希望能够提高性能,希望获得很多数据并行,但它需要很多的计算单位,编程成为最大的制约因素。在这个新时代中,AMD处于曲线开端,因此(有很大的发展空间)今后将会给我们带来更多提高性能的机会。

AMD的融聚产品规划与优势

在介绍完CPU的发展阶段后,我们可以再从工作量上看看CPU与GPU的应用。纵观当前的客户应用形态,在视频、图形计算工作的负载方面,视频用得比较多。举个例子,现在视频已经占了整个互联网用户三分之一的流量。AMD如何通过自己的融聚技术满足目前大家所需要的现代工作负载要求呢?首先我们有x86技术,还有GPU技术。我们知道x86技术现在已经非常成熟,用于CPU的软件产品也非常成熟。所有的编程人员都知道如何根据它进行编程,同时有非常好的程序序列。从GPU来讲,也非常出色,负载优化,两者结合才使我们迎来了融聚时代。

AMD的APU战略构想,以CPU为基础,融合进GPU巨大的并行计算能力,从而满足未来的紧凑、小巧、低功耗、高性能的用户需求

那么,有了CPU和GPU,如何结合起来打造融聚技术呢?GPU是针对固定功能,主要是图形处理。但随着技术不断发展,也越来越有可编程性。CPU本身就具有很高的可编程性,随着演变发展,也可以承担一些GPU的工作。当我们的GPU编程性越来越高,当CPU密度越来越大,就有可能把两者结合起来,Chekib Akrout强调,这就是去年年底AMD为什么宣布了第一款融聚技术,我们称之为LIano。有了这种集成能力,我认为CPU、GPU不断密切配合,就可以获得更大的计算密度。有了非常好的计算密度,我们就可以搞出非常好的编程模型,让开发人员开发出新的应用,充分利用我们的架构。

AMD的APU未来规划,简而言之,APU就是集成了CPU与GPU优势的产物

现在有了异构计算环境,那么如何打造融聚计划呢?我们知道CPU越来越定制化,GPU的密度非常大。目前GPU开发速度一般比CPU开发速度快一些,GPU有时候一年可以推出新产品,而CPU通常要一、两年的时间。Chekib Akrout再次强调——为了进一步向前推进我们的融聚技术和APU技术,必须有最好的CPU和GPU技术,目前只有AMD才兼有这两种技术。对于这一点,并不难理解,笔者也基本认同。英特尔的CPU实力很强,但GPU方面还没有拿得出手的高性能产品。NVIDIA在GPU方面很强,其CUDA核心与编程架构,在HPC(高性能计算)领域还是很出名的,不过由于没有CPU产品线,NVIDIA的方案也必须建立在英特尔或是AMD的CPU平台上,毕竟GPU现在还不能当CPU使,运行操作系统。而且,在DX11时代,NVIDIA的进度也明显落后于AMD。所以,现在如果要拿出最好的CPU与GPU核心进行整合,也只有AMD能做到了。

AMD融聚技术产品设计方法,在设计之初就将CPU的IP核与GPU的IP核进行统一的考虑,并通过新一代的统一融聚内存控制器来满足具体的数据请求带宽,并设计出最终的APU

说到这,可能有些读者会问,英特尔不是已经有了这种所谓的CPU+GPU的整合产品了吗?那么AMD的APU的优势又体现在哪里呢?其实,只要看看两者的架构,就能明显看出其中的不同。

英特尔目前已经推出了集成GPU的32nm的Clarkdale处理器(隶属Westmere家族),它通过MCP(多芯片封装)技术,将CPU单元与GPU单元封装在一起,但并不是在一块晶圆上原本设计的,而从内部的结构来看,内存控制器移到了GPU单元上,GPU与CPU采用MCP接口相连,显然这与AMD的APU设计理念完全不同,这种设计虽然保证了GPU的效率,但对于CPU的性能将会产生较大的影响,这也就是“非原生”设计的一大弊病,并不能充分发挥CPU与GPU整合的威力。英特尔推出这款产品的本意其实更注重于平台成本的节省,而不是性能的提升

AMD的APU设计,从整合上看就是一体的,GPU与CPU在这里可以看做是不同的处理单元,而对外的接口,包括内存以及I/O则是统一的,这就意味着GPU与CPU核心可以共享内存和I/O地址空间,这对于编程和系统优化来讲,是非常诱人的。即使是数据传输效率,也提升明显。比如在以往的架构中(左上角),GPU要访问主内存中的数据,需要走PCI-E总线经北桥与CPU沟通,CPU再把内存数据发送给GPU,这样的操作效率可想而知,而在APU中,CPU与GPU单元的寻址可以在APU内部进行调度,效率明显提高。相比之下,英特尔的Clarkdale处理器虽然也集成了GPU芯片,但从寻址方式上仍然是传统的,效率方面不可同日而语

不过,GPU与CPU的融合有一个巨大的挑战就是能耗的管理和散热设计,对此Chekib Akrout表示认同,这也是AMD目前的研发重点,而大体的做法和CPU的能耗管理方法差不多,即不用的核心与功能单元就休眠,要用到时才重新打开,不过这涉及到对GPU多核心的精细调整与控制。

在介绍完CPU和GPU架构融合之后,现在要看看软件编程。我们知道有了CPU、GPU,就可以根据不同的线程决定去向,如果按序列进行就往CPU走,如果需要并行就往GPU走。实际上OpenCL和DirectX Compute都是旨在CPU和GPU的并行开发,这也是支持融聚技术发展的第一步。

AMD的融聚产品在软件编程方面,主导两个标准,即OpenCL与DirectX Compute,在这两者中,AMD都是积极的标准制作的参与和贡献者,而AMD自己的Stream SDK也将向业界标准靠拢

现在我们看看软件堆栈,最底下的是硬件,再上面是OpenCL和DirectXCompute,可以让设计人员充分利用我们的架构做工作。再上面的堆栈是所谓的中间件、编译器、调试器、剖面仪等等,可以让技术人员在不需要了解我们技术特性的情况下,继续开发新的内容。有了软件堆栈后我们就要对负载进行非常好的平衡。Chekib Akrout表示,从目前来看,只有AMD公司才有最佳的CPU、GPU软件堆栈和硬件,并帮我们把CPU和GPU的负载平衡起来。

AMD所设想的异构计算的软件生态系统,可以看出基础的硬件核心就是AMD的融聚产品,那当然也包括独立的CPU与GPU所组成的系统,再往上就是标准化的OpenCL与DirectX Compute通用编程环境,在此基础上开发者来开发面向用户的最终应用,而这些应用也将具备CPU与GPU负载均衡的能力

在介绍中,我们能感觉到AMD对于OpenCL和DirectXCompute的看重,而自己的Stream SDK已经放到相对次要的位置,这与NVIDIA大力宣传自己的CUDA编程架构有了明显不同。因此Chekib Akrout一直在强调在编程环境方面的开放性,在他看来,CUDA虽然很强大,但是一个封闭的环境,而开放的环境则对于用户更为友好,因此AMD也积极的加入到这两个标准的开发中。这么说其实并不难理解,毕竟OpenCL和DirectX Compute其实已经是APU能否成功的一大关键所在。

新一代的x86核心 高端与APU模块两手抓

在介绍完APU的理念与未来的设计构想之后,Chekib Akrout又介绍了AMD推出的两款最新的x86核心。一个是Bobcat主要是低功耗、低成本,瞄准低端市场的产品。另一个则是Bulldozer,它针对的是高性能、可扩展性比较高的市场,主要面向主流客户和服务器市场。

下面为大家介绍一下Bobcat,Bobcat这种核心非常小巧、高效,而且功耗非常低,能够在低于一瓦的情况下工作。Bobcat以不到目前处理器核心一半的面积实现了当前主流处理器90%的性能。这款核心将在2011年随着我们代号为Brazos的笔记本APU问世而同时问世。它的设计非常灵活,高度可合成,可重新组合CPU使用。

Bobcat核心示意图,采用极低功耗设计是它的重点,并且是面向APU的CPU架构设计,便于模块化的融合,而它的第一个应用场合就是面向笔记本电脑市场的APU——Brazos平台

而另一款高端处理器核心Bulldozer,而是面向高性能应用市场。通过紧密相连的两个核心共享资源,从而极大的提高了效率。Bulldozer每条并行的线程独享一个专用的整数核心,具有可独享或共享的浮点单元,并共享缓存。另外,在处理器的生产技术中采用了高K金属栅级的32纳米SOI技术,2011年上市,在台式机和服务器上使用。Bulldozer有两个执行单元,但可以共享一个浮点的调度程序,使它可以更好地对资源进行优化。

我们可以从以上两张图上能看出AMD APU的发力点,2011年将在高端桌面市场推出基于Bulldozer核心的Scorplus平台,届时的CPU成品代号Zambezi,而在主流桌面市场将推出Lynx平台,采用的就是LIano处理器,而在高端的笔记本电脑市场,将推出Sabine平台,采用的也是LIano APU,在超轻薄与上网本市场上则推出Brazos平台,采用的也是APU,代号为Ontario,CPU核心就是Bobcat。不过我们还不清楚LIano所采用的CPU核心(共4个核心)还不知道具体的版本,很可能是现有的Phenom核心的演进版

从AMD的未来规划中,我们也能发现,在面向高端应用场合,仍然是以纯CPU为主导,APU更多的是面向消费类市场。这是因为,消费类市场的应用与APU的优势相吻合,比如视频、动画、3D等多媒体应用是消费类市场的主流,在这里APU肯定就有大量的用武之地,而现在的OpenCL与DirectX Compute也主要是面对这一市场,在企业级市场上,传统的企业级应用,如ERP、CRM、E-Mail、Web服务、数据库等等,由于不是大规模的并行应用,所以APU的加速功能可能还不如更多核心的纯CPU快。所以这也是为什么AMD对于企业级市场和高端桌面市场先推出基于Bulldozer核心的纯CPU的原因,而Chekib Akrout也表示,再往后,AMD肯定会推出以Bulldozer核心为基础的企业级APU,当然届时的企业级应用的APU生态环境也必然相对的成熟很多。

不过,Chekib Akrout强调,LIano也将会有企业级产品,它将面向云计算,因为云计算所涉及到的数据处理内容也包罗万象,而多媒体也将是云计算中重要的内容类别,而这正是APU的强项,所以APU在企业级方面最先的发力点将是云计算。

Chekib Akrout最后总结到,AMD为现代的工作负载提供合适的产品,包括视频、图形处理。AMD在APU方面具有影响深远的远见,因为我们认为APU就是未来计算的代表。融聚技术和异构计算环境,不仅仅只关乎硬件,其中还涉及软件。我们不仅有非常好的GPU路线图可以不断推向市场,同时还有最好的x86内核技术!

打印本文 打印本文  关闭窗口 关闭窗口