ARM内核全解析，从ARM7,ARM9到Cortex-A7,A8,A9,A12,A15到Cortex-A53,A57

当前所在位置: 主页 > 常识 >

ARM内核全解析，从ARM7,ARM9到Cortex-A7,A8,A9,A12,A15到Cortex-A53,A57

发布时间：2024-08-02 20:57 作者：[db:作者] 点击：【字体：大中小】

前不久ARM正式宣布推出新款ARMv8架构的Cortex-A50处理器系列产品，以此来扩大ARM在高性能与低功耗领域的领先地位，进一步抢占移动终端市场份额。Cortex-A50是继Cortex-A15之后的又一重量级产品，将会直接影响到主流PC市场的占有率。围绕该话题，我们今天不妨总结一下近几年来***端较为主流的ARM处理器。

以由高到低的方式来看，ARM处理器大体上可以排序为：Cortex-A57处理器、Cortex-A53处理器、Cortex-A15处理器、Cortex-A12处理器、Cortex-A9处理器、Cortex-A8处理器、Cortex-A7处理器、Cortex-A5处理器、ARM11处理器、ARM9处理器、ARM7处理器，再往低的部分***产品中基本已经不再使用，这里就不再介绍。

ARM 处理器架构发展

● Cortex-A57、A53处理器

Cortex-A53、Cortex-A57两款处理器属于Cortex-A50系列，首次采用64位ARMv8架构，意义重大，这也是ARM最近刚刚发布的两款产品。

Cortex-A57是ARM最先进、性能最高的应用处理器，号称可在同样的功耗水平下达到当今顶级智能***性能的三倍；而Cortex-A53是世界上能效最高、面积最小的64位处理器，同等性能下能效是当今高端智能***的三倍。这两款处理器还可整合为ARMbig.LITTLE（大小核心伴侣）处理器架构，根据运算需求在两者间进行切换，以结合高性能与高功耗效率的特点，两个处理器是独立运作的。

应用案例：预计于2014年推出。

●Cortex-A15处理器架构解析

ARM Cortex-A15处理器隶属于Cortex-A系列，基于ARMv7-A架构，是业界迄今为止性能最高且可授予许可的处理器。

Cortex-A15MPCore处理器具有无序超标量管道，带有紧密耦合的低延迟2级高速缓存，该高速缓存的大小最高可达4MB。浮点和NEON媒体性能方面的其他改进使设备能够为消费者提供下一代用户体验，并为基础结构应用提供高性能计算。Cortex-A15处理器可以应用在智能***、平板电脑、移动计算、高端数字家电、服务器和无线基础结构等设备上。

理论上，Cortex-A15MPCore处理器的移动配置所能提供的性能是当前的高级智能***性能的五倍还多。在高级基础结构应用中，Cortex-A15的运行速度最高可达2.5GHz，这将支持在不断降低功耗、散热和成本预算方面实现高度可伸缩的解决方案。

应用案例：三星Exynos 5250。三星Exynos5250芯片是首款A15芯片，应用在了最近发布的Chromebook和Nexus 10平板电脑上面。Exynos5250的频率是1.7GHz，采用32纳米的HKMG工艺，配备了Mali-604 GPU，性能强大。另外据传三星下一代GalaxyS4将会搭载四核版的Exynos 5450芯片组，同样应用Cortex-A15内核。另外NVIDIA Tegra 4会采用A15内核。

●Cortex-A12处理器架构解析

2013中旬，ARM发布了全新的Cortex-A12处理器，在相同功耗下，Cortex-A12的性能上比Cortex-A9提升了40%，同时尺寸上也同样减小了30%。Cortex-A12也同样能够支持big.LITTLE技术，可以搭配Cortex-A7处理器进一步提升处理器的效能。

Cortex-A12架构图

ARM表示Cortex-A12处理器未来将应用于大量的智能***以及平板产品，但更加侧重于中端产品。同时ARM也预计在2015年，这些中端产品在数量上将远超过旗舰级别的智能***及与平板。

搭载Cortex-A12处理器的中端机在未来也将是非常有特点的产品，因为Cortex-A12能够支持虚拟化、AMDTrustZone技术，以及最大1TB的机身存储。这也就意味着未来搭载这一处理器的智能***完全可以作为所谓的BYOD（Bring YourOwn Device）设备使用，换句话说就是在作为自用***的同时，还可以用作商务***存储商务内容。

Mali-V500架构图

同时Cortex-A12也搭载了全新的Mali-T622绘图芯片与Mali-V500视频编解码IP解决方案，同样也是以节能为目标。这样看来，定位中端市场，低功耗小尺寸，Cortex-A12最终必然会取代Cortex-A9。据悉，Cortex-A12将于2014年投放市场，到时候我们也许会迎来中端市场的一次改变。

应用案例：2014年发布。

●Cortex-A9处理器架构解析

ARM Cortex-A9处理器隶属于Cortex-A系列，基于ARMv7-A架构，目前我们能见到的四核处理器大多都是属于Cortex-A9系列。

Cortex-A9 处理器的设计旨在打造最先进的、高效率的、长度动态可变的、多指令执行超标量体系结构，提供采用乱序猜测方式执行的 8阶段管道处理器，凭借范围广泛的消费类、网络、企业和移动应用中的前沿产品所需的功能，它可以提供史无前例的高性能和高能效。

Cortex-A9 微体系结构既可用于可伸缩的多核处理器（Cortex-A9MPCore多核处理器），也可用于更传统的处理器（Cortex-A9单核处理器）。可伸缩的多核处理器和单核处理器支持 16、32 或 64KB 4路关联的 L1 高速缓存配置，对于可选的 L2 高速缓存控制器，最多支持 8MB 的 L2高速缓存配置，它们具有极高的灵活性，均适用于特定应用领域和市场。

应用案例：德州仪器OMAP 4430/4460、Tegra 2、Tegra3、新岸线NS115、瑞芯微RK3066、联发科MT6577、三星Exynos4210、4412、华为K3V2等。另外高通APQ8064、MSM8960、苹果A6、A6X等都可以看做是在A9架构基础上的改良版本。

●Cortex-A8处理器架构解析

ARM Cortex-A8处理器隶属于Cortex-A系列，基于ARMv7-A架构，是我们目前使用的单核***中最为常见的产品。

ARMCortex-A8处理器是首款基于ARMv7体系结构的产品，能够将速度从600MHz提高到1GHz以上。Cortex-A8处理器可以满足需要在300mW以下运行的移动设备的功率优化要求；以及需要2000Dhrystone MIPS的消费类应用领域的性能优化要求。

Cortex-A8 高性能处理器目前已经非常成熟，从高端特色***到上网本、DTV、打印机和汽车信息娱乐，Cortex-A8处理器都提供了可靠的高性能解决方案。

应用案例：MYS-S5PV210开发板、TI OMAP3系列、苹果A4处理器（iPhone 4）、三星S5PC110（三星I9000）、瑞芯微RK2918、联发科MT6575等。另外，高通的MSM8255、MSM7230等也可看做是A8的衍生版本。

●Cortex-A7处理器架构解析

ARM Cortex-A7处理器隶属于Cortex-A系列，基于ARMv7-A架构，它的特点是在保证性能的基础上提供了出色的低功耗表现。

Cortex-A7处理器的体系结构和功能集与Cortex-A15 处理器完全相同，不同这处在于，Cortex-A7处理器的微体系结构侧重于提供最佳能效，因此这两种处理器可在big.LITTLE（大小核大小核心伴侣结构）配置中协同工作，从而提供高性能与超低功耗的终极组合。单个Cortex-A7处理器的能源效率是ARMCortex-A8处理器的5倍，性能提升50%，而尺寸仅为后者的五分之一。

作为独立处理器，Cortex-A7可以使2013-2014年期间低于100美元价格点的入门级智能***与2010 年500美元的高端智能***相媲美。这些入门级智能***在发展中世界将重新定义连接和Internet使用。

应用案例：全志Cortex-A7四核平板芯片，联发科刚刚发布的MT6589。

●Cortex-A5处理器架构解析

ARM Cortex-A5处理器隶属于Cortex-A系列，基于ARMv7-A架构，它是能效最高、成本最低的处理器。

Cortex-A5处理器可为现有ARM9和ARM11处理器设计提供很有价值的迁移途径，它可以获得比ARM1176JZ-S更好的性能，比ARM926EJ-S更好的功效和能效。另外，Cortex-A5处理器不仅在指令以及功能方面与更高性能的Cortex-A8、Cortex-A9和Cortex-A15处理器完全兼容，同时还保持与经典ARM处理器（包括ARM926EJ-S、ARM1176JZ-S和ARM7TDMI）的向后应用程序兼容性。

应用案例：高通MSM7227A/7627A（新渴望V、摩托罗拉XT615、诺基亚610、中兴V889D、摩托罗拉DEFYXT等）、高通MSM8225/8625（小辣椒双核版、华为U8825D、天语 W806+、innos D9、酷派7266等）、米尔MYD-SAMA5D3X系列开发板（MYD-SAMA5D31、MYD-SAMA5D33、MYD-SAMA5D34、MYD-SAMA5D35）。

MYD-SAMA5D3X开发板

●ARM11系列处理器架构解析

ARM11系列包括了ARM11MPCore处理器、ARM1176处理器、ARM1156处理器、ARM1136处理器，它们是基于ARMv6架构，分别针对不同应用领(脱机使用打印机是什么意思：当电脑上显示出“脱机使用打印机”时，就表示电脑和打印机的连接已经断开，需要重新连接才能使用。)域。ARM1156处理器主要应用在高可靠性和实时嵌入式应用领域，与***关联不大，此处略去介绍。

ARM11 MPCore使用多核处理器结构，可实现从1个内核到4个内核的多核可扩展性，从而使具有单个宏的简单系统设计可以集成高达单个内核的4倍的性能。Cortex-A5处理器是ARM11MPCore的相关后续产品。

ARM1176处理器主要应用在智能***、数字电视和电子阅读器中，在这些领域得到广泛部署，它可提供媒体和浏览器功能、安全计算环境，在低成本设计的情况下性能高达1GHz。

ARM1136处理器包含带媒体扩展的ARMv6指令集、Thumb代码压缩技术以及可选的浮点协处理器。ARM1136是一个成熟的内核，作为一种应用处理器广泛部署在***和消费类应用场合中。在采用90G工艺时性能可达到600MHz以上，在面积为2平方毫米且采用65纳米工艺时可达到1GHz。

应用案例：高通MSM7225（HTCG8）、MSM7227（HTCG6、三星S5830、索尼爱立信X8等）、Tegra APX2500、博通BCM2727（诺基亚N8）、博通BCM2763（诺基亚PureView 808）、 Telechip 8902（平板电脑）。

●ARM9系列和ARM7系列处理器架构解析

ARM9系列处理器系列包括ARM926EJ-S、ARM946E-S和 ARM968E-S处理器。其中前两者主要针对嵌入式实时应用，我们这里就主要针对ARM926EJ-S进行介绍。

ARM926EJ-S基于ARMv5TE架构，作为入门级处理器，它支持各种操作系统，如Linux、Windows CE和Symbian。ARM926EJ-S 处理器已授权于全球100多家硅片供应商，并不断在众多产品和应用中得到成功部署，应用广泛。

应用案例：TI OMAP 1710。诺基亚N73、诺基亚E65、三星SGH-i600等***采用的都是该处理器，以及包括米尔科技的MYS-SAM9X5系列工控开发板。

ARM9 开发板

●ARM7系列处理器

ARM7系列处理器系列包括ARM7TDMI-S（ARMv4T架构）和ARM7EJ-S（ARMv5TEJ架构），最早在1994推出，相对上面产品来说已经显旧。虽然现在ARM7处理器系列仍用于某些简单的32位设备，但是更新的嵌入式设计正在越来越多地使用最新的ARM处理器，这些处理器在技术上比ARM7系列有了显著改进。

作为目前较旧的一个系列，ARM7处理器已经不建议继续在新品中使用。它究竟有多老呢？上面的Apple eMate 300使用的就是一款25MHz的ARM7处理器，够古老了吧？

●相关文章

ARM最新开发工具DS-5到底是什么？有什么用？

ARM处理器体系架构详细说明

ARM 开发工具 DS-5 RVDS MDK-ARM 比较区别和选择

本文来自米尔科技，原文地址：http://www.myir-tech.com/resource/448.asp，转载请注明出处。

ARM 9 的 ARM946E-S曹纪乾于 2010-11-23 17:19:00 发布阅读量4.4k分类专栏：嵌入式开发文章标签：performancecacheinterfacedebugging存储嵌入式嵌入式开发专栏收录该内容164 篇文章

ARM9 处理器家族架构

架构有两个：ARMv5TE 和 ARMv5TEJ。ARM的架构从v1到v2是26位地址空间。v3实现了32位地址空间。v4的时候，增加了半字指令的读写操作，增加了处理器模式有了T变种-V4T，出现了Thumb状态，这状态下支持16位的Thumb指令集。v5架构提升了 ARM 和 Thumb两种指令集的交换工作能力，同时还有了DSP指令 -V5E结构，还有Java指令-V5J结构。举例：ARM9E，ARM9E-S（ARM9E可综合版本），ARM946（ARM9E核的处理器）ARM9 处理器家族有单核处理器解决方案，用于微控制器， DSP，还有Java应用。可以节约芯片面积和复杂度，节约能耗，节约上市时间。ARM9 DSP-加强处理器非常适合DSP和MCU协调工作的应用。（例如NDS）ARM9 处理器家族包括三个处理器ARM926EJ-S?,ARM946E-S?和ARM968E-S?处理器。特定性，高性能，柔性。用于成本敏感的嵌入式应用。富DSP扩展指令使得SoC设计可能去掉DSP的需要。In addition, the PPA is ideally suitedto a wide range of applications. 产品类型应用

Consumer消费电子

Smartphones, PDA, Set top box, PMP, Electronic toys, Digital still cameras, Digital video cameras etc

Networking网络

Wireless LAN, 802.11, Bluetooth, Firewire, SCSI, 2.5G/3G Basebandetc

Automotive汽车

Power train, ABS, Body systems, Navigation, Infotainment etc

Embedded嵌入式

USB controllers,bluetooth controllers, medical scanners etc

Storage存储

HDD controllers, solid state drives etcCost Effective成本效率从一个单一的设计到永久的所有权处理器可以通过几种形式授权可以是按每次使用，按多年，或者永久授权也可以作为 hard-macros减少上市时间和设计风险Robust roadmap 健壮的路线图

为将来打算

ARM9有健壮的路线图链接到最新的 Cortex 处理器Cortex-A和Cortex-R家族提供有力的，富功能选择，为简单的把ARM9设计迁移到下一代Ecosystem 生态系统

多余650 成员在Connected Community支持 ARM9 处理器

最广的生态系统编译，出错，和RTOS业界工具有足够的设计伙伴辅助设计任务大量的第三方IP可以集成与处理器一起对于我自己举例要介绍的这款处理器ARM946E-S 可以发现在ARM官方网站的处理器选择器里对它的描述是：（还有和ARM968E-S的对比）ARM946E-SARM968E-SMulticore 多核否否Architecture 架构ARMv5TEARMv5TEARM 指令集√√DSP 指令扩展√√Floating Point 浮点X√Jazelle 指令集√XThumb 指令集√√L1 Cache (Max) 缓存1MBXTCM (Max) 紧致内存4KB
Memory Controller 内存控制MPUXBus Interface 总线接口AHBAHBProcess Geometry 工艺尺寸TSMC 65LPTSMC 90GProcess LibrariesARM SC10TARM SC12TPerformance (Total DMIPS)409636Performance (DMIPS/MHz)1.21.2Max Frequency 最大时钟频率341MHz530MHzArea With Cache (mm2)0.488XArea No Cache (mm2)0.260.42Power With Cache (mW/MHz)0.142XPower No Cache (mW/MHz)0.0950.11

CPU性能评估采用合成测试程序，较流行的有Whetstone 和 Dhrystone 两种。Dhrystone主要用于测整数计算能力，计算单位就是DMIPS。采用Whetstone 主要用于测浮点计算能力，计算单位就是MFLOPS。
MIPS（MillionInstructionsPerSecond）是CPU处理能力的一个指标，它的字面意思是每秒种执行指令的平均条数。
这个指标缺少了一个重要的评估标准，哪就是CPU的时钟是多少？同样的CPU，只要在允许的范围内，使用的系统时钟频率越高，当然MIPS也越高。
所以更能体现指标应该是MIPS/MKHz，也就是系统时钟（CPU的工作时钟）为1M时，平均能够执行的指令数。
ARM946E-S

DSP 加强带缓存处理器附有 MPU 用于实时应用运行 RTOS

A 面向实时的处理器，可选的缓存接口，加上全内存保护单元。使用于代码全部待在主存里的应用，在需要时加载到缓存中，同时关键的溢出处理代码和数据可以维护在本地的紧致内存中。

ARM9家族的技术特点：

ARM9 Family Technical FeaturesBased on ARMv5TE architectureEfficient 5-stage pipeline for faster throughput and system performanceFetch/Decode/Execute/Memory/WritebackSupports bothARMandThumb?instruction setsEfficient ARM-Thumb interworking allows optimal mix of performance and code densityHarvard architecture - Separate Instruction Data memory interfacesIncreased available memory bandwidthSimultaneous access to I D memoryImproved performance31 x 32-bit registers32-bit ALU barrel shifterEnhanced 32-bit MAC block

CoreSight? ETM9interface for enhanced debugging and trace

StandardAMBA?AHB? interfaceCoprocessor InterfaceMemory ControllerMemory operations are controlled by the MMU or MPUMMU providesVirtual memory supportFast Context Switching Extensions (FCSE)MPU enablesMemory protection and boundingsand-boxing of applicationsWrite buffersDecouple the internal processor from external memoryCan store 16 words at 4 independent addressesCast out write buffer for dirty line evictionsFlexible Cache DesignHarvard cache architectureSizes can be 4 KB to 128 KB increasing in powers of 2I D Caches can have independent sizesLine length fixed at 8 wordsFixed 4 way set associationZero wait state accessesCritical word first cache line fillNon blockingVirtually addressedFlexible TCM designHarvard organizationSizes can be 0 KB, or 4 KB to 1 MB increasing in powers of twoCan have independent sizesCan be RAM or ROMWait states permittedDual banked TCM onARM968Physically addressed1 cycle of penalty for non-sequential accesses to allow address translationDSP EnhancementsSingle cycle 32x16 multiplier implementationSpeeds up all multiply instructionsPipelined design allows one 16x16 or 32x16 to start each cycleNew 32x16 and 16x16 multiply instructionsAllow independent access to 16-bit halves of registersGives efficient use of 32-bit bandwidth for packed 16-bit operandsARM ISA provides 32x32 multiply instructionsEfficient fractional saturating arithmeticQADD, QSUB, QDADD, QDSUBCount leading zeros instructionCLZ for faster normalisation and division

ARM9系列的技术特点

基于ARMv5TE架构
高效率的5级流水线实现更快的吞吐量和系统的性能
获取/解码/执行/内存/写回
同时支持ARM和Thumb？指令集
高效的ARM - Thumb交互允许性能和代码密度的最佳组合
哈佛结构 - 独立的指令和数据存储器接口
增加可用内存带宽
同时访问我研发的记忆
改进的性能
31 × 32位寄存器
32位ALU和桶形移位寄存器
增强的32位MAC块
的CoreSight？ETM9接口，增强的调试和跟踪
标准的AMBA？AHB的？接口
协处理器接口
内存控制器

内存操作都是由MMU的或MPU
MMU的规定
虚拟内存的支持
快速上下文切换扩展（FCSE）
微控制器可
内存保护和边界
沙拳击应用
写入缓冲区
从外部存储器脱钩内部处理器
可存储4个独立地址的16个字
赶出写脏缓冲区线搬迁
灵活的高速缓存设计

哈佛缓存架构
大小可以是4 KB到128 KB的权力，增加2
本人研发可以有独立的高速缓存大小
线路长度在8个字固定
固定的4路集关联
零等待状态的访问
关键单词的第一个高速缓存行填写
非阻塞
虚拟地址
中医灵活设计

哈佛组织
大小可以是0 KB或4 KB到1 MB的两个权力增加
可以有独立的大小
可RAM或ROM
允许等待状态
中药对ARM968双库存
物理寻址
一对不连续的周期，以允许访问刑罚地址转换
DSP增强

执行单周期32x16乘法器
加快所有乘法指令
流水线设计允许一个16x16或32x16每个周期开始
新32x16和16x16乘法指令
允许独立访问寄存器的16位半
给予有效的包装16位操作数的32位带宽的使用
ARM公司的ISA提供32x32乘法指令
高效分数饱和算法
QADD，使用qsub，QDADD，QDSUB
前导零计数指令
CLZ型更快的正常化和分工