新一代内核延续Tensilica可配置处理器技术领导地位_DSP/FPGA技术

新一代内核延续Tensilica可配置处理器技术领导地位

点击数：7196 次录入时间：03-04 11:44:59 整理：http://www.55dianzi.com DSP/FPGA技术

在降低系统功耗的漫漫征途中，ARM公司已经携手与我们跨过了许多阻拦，不过消费者对系统，特别是移动终端性能的追求，显然远比业界想象的更加迫切。内核供应商必须实现更快速的突破，即在更小功耗下实现更高的性能。借助灵活的可配置处理器内核技术，TenSILICa公司已经初步确立并继续努力保持着这一优势。在2006年上半年宣布进入标准处理器内核市场后，该公司又在不久前发布了其最新一代的可配置内核产品Xtensa LX2和Xtensa 7，这是自1999年第一代Xtensa处理器问世以来，Tensilica公司推出的第七代可配置处理器产品。此外，4款用于视频处理标准处理器内核也同时面世，从而将该公司的标准处理器内核阵营一举扩大到10款之多。

“最高性能功耗比”的可配置处理器

即使算上存储器的功耗，新的Xtensa LX2和Xtensa 7可配置处理器内核在功耗上方面也比它的上一代节省近30%。这源于三方面的改进：可配置的主系统存储器接口、本地数据存储器接口和指令存储器接口等接口的宽度；减少了的数据存储器使能和存取执行判断操作(可令数据高速缓存和本地数据存储器在长时间不被访问的情况下处于断电状态)；更多的取指令缓冲区。尽管具体节电效果由代码长度决定，但该公司提供的资料称，扩展了的取指令缓冲区可以缩小指令读取时间以及随之带来的功耗，最高可降低75%。

“新一代可配置处理器内核拥有业界最低的功耗和最高的性能。”Tensilica公司移动多媒体方案市场总监Larry Przywara称。
在由他出示的一组比较数据中，没有设计工程师定义的指令扩展的Xtensa 7最小配置内核与ARM7TDMI相当，但却具有更低的功耗和更高的性能。此外，基于Xtensa LX2架构的标准处理器内核Diamond 570T，面积和功耗也都小于ARM1136J-S的一半。

两款新内核还是第一批内建了高速错误校验码(ECC)功能的可授权可配置处理器内核，Tensilica也因此成为第一家拥有此项技术的处理器内核供应商。据悉，在存储器、网络、汽车电子和事务处理等对可靠性和精确性敏感的应用中，ECC具有非常重要的作用。Tensilica的可配置Xtensa处理器内核为设计工程师提供了在本地紧耦合的存储器中选择校验位或者ECC保护的功能。在高速数据缓存阵列、高速缓存标记阵列或者本地存储器(指令/数据存储器)中检测到一个单比特软错误时，校验位产生一个异常。ECC能够检测并纠正单比特错误，同时也可检测双比特错误。

其他新增的功能包括：一个新增的微处理器接口(PIF)，一个快速本地指令/数据存储器的宽接口和一个系统总线的窄系统接口。设计师可以利用前者对缓冲区进行微调，并降低SoC设计中不影响性能的关键路径功耗。同时采用后两个选项，在降低设计复杂度、减小面积和功耗的同时，可以快速地以高带宽访问本地存储器。此外，改进后的Tensilica指令扩展(TIE)语言基础架构，为大型开发团队和公司共享已有的TIE指令模块库提供了更好的机制，可以对多个TIE文件进行操作。

特别地，除了拥有Xtensa 7中的全部功能外，Xtensa LX2还具有3项其他处理器内核都不具备的功能：更加快速的数据I/O，设计师可以添加自定义的GPIO TIE指令端口和FIFO TIE指令阵列以进行直接数据存取；可变长度指令扩展(FLIX)技术——Xtensa编译器能够从C/C++代码中自动抽取指令层和循环层中的并行运算，将其打包进FLIX指令集，通过将多条指令封装进一个32位或64位的指令字，设计师能够在嵌入式应用中加速更多的应用性能瓶颈；7级高性能流水线，据称，90nm GT工艺下的Xtensa LX2即便在最差的运行条件下也能以超过650MHz的频率运行。

面向便携式设备的视频处理引擎

面向移动手机和个人移动多媒体播放器等对功耗和芯片面积敏感的手持式应用，Tensilica还同时推出了四款能够支持所有流行VGA和D1格式(包括H.264 Main Profile、VC-1 Main Profile、MPEG-1 ASP和MPEG-2 Main Profile)视频CODEC的钻石系列标准处理器内核Diamond Standard 38X VDO引擎。

设计一款视频解码器，传统的方法主要有两种。分别是“RISC CPU+硬连线RTL加速器”，以及“RISC CPU+媒体DSP引擎+RTL加速器”。Przywara指出，由于采用了任务分解的方法来完成视频解码，采用这两种架构的方案会导致主处理器同解码器之间的过多通信，这使得系统能耗居高不下。“特别是某些错误和高级功能，比如3：2下拉。”他举例说。

F2：Tensilica的钻石系列标准处理器内核，可以支持多标准多分辨率视频模块。

此外，当出现新的视频标准时，采用传统方法又会加大设计师的工作负荷。“如果是硬连线的RTL电路，为了增加新的硬件模块，必须重新设计芯片。”Przywara说，“如果是基于媒体DSP引擎的方案，除了需要修改软件外，新算法还会影响到硬件RTL模块，你可能需要重新流片。”另外，由于新增算法会增加处理器和RTL模块间的总线传输，设计师还将面临系统功耗加大的挑战，这对手持设备市场来说无疑是致命的。

完全基于处理器的视频编解码结构似乎是个不错的选择。此次推出的4款Diamond VDO引擎属于此类方案。它能够完成从读取编码码流到向帧存储器写出的全部视频处理任务。由于将熵编解码、帧内检测、运动补偿、去块滤波器等以往由特定RTL电路或通用媒体DSP来完成的复杂任务交给微处理器内核进行，采用了“特殊指令+处理器”的完全软件处理的方式能够大大降低能耗。“我们是第一家在处理器数据路径中采用纯软件方案来实现CABAC的视频解决方案提供商。”Przywara说。此外，即使出现新的视频标准，硬件方面也无需进行任何改动，只需要从Tensilica得到修改后的软件即可。“这是Diamond VDO引擎最大的优势。”他介绍。

“传统方案中并包括了一个CPU和一个硬件加速器，当数据通过系统总线在CPU和加速器之间进行传输时会产生大量的功耗。”Przywara强调，“一般情况下，其他方案中并没有计算这部分功耗，他们所宣称的硬件加速器模块功耗因此可以很低。”

由于针对移动应用进行了优化，Diamond VDO系列比竞争方案拥有更小的尺寸和更低的功耗。据悉，包括处理器逻辑和内部存储器在内，130nm工艺下其面积仅有8mm².

而降低功耗的措施则包括：Xtensa处理器中的细粒度门控时钟技术、降低负载时视频处理功耗的可编程电源管理指令、DMA引擎和流处理器同像素处理器之间的接口实现。

目前，Tensilica提供Baseline Profile(Diamond 381/383 VDO)和Main Profile(Diamond 385/388 VDO)两种解决方案的Diamond VDO引擎。前者与大多数其他SoC视频解决方案类似，后者则能提供更佳的数据压缩率和视频质量，面向高端手机/PMP应用中的D1或更高分辨率的编解码需求。其中，Diamond 383/388 VDO两款还支持MPEG4 ASP@D1 、6mbps、30FPs的编码器功能。

除了提供硬核RTL电路外，Tensilica同时也推出了软件形式提供的RTL解决方案。Przywara表示，由于有利于使用自己的各种制程并在选择代工厂时具有更多选择，中国市场上90%的客户都倾向于使用后一类方案。此外，该公司表示，由于从标清向高清转变时需要克服许多困难，目前还没有涉足高清领域。“我们仍在探讨当中。”Przywara说，“如果内容提供商在手机上提供高清信号，Tensilica会考虑进入这个市场。”

本文关键字：技术处理器 DSP/FPGA技术，单片机-工控设备 - DSP/FPGA技术