http://www.51kaifa.com/jswz/read.php?ID=2234
摘要 :主要介绍了在ARM处理器中,ARM/Thumb状态切换的原因和方法。在基于ARM处理器的嵌入式开发 中,为了增强系统的灵活性以及提高系统的整体性能经常需要使用16位的Thumb指令,所以需要在ARM和Thumb状态之间来切换 (Interworking)微处理器状态,这部分内容也是实际项目设计中需要重点考虑的内容。
关键字 :Interworking,ARM/THUMB,Venee
引言
近年来,32位RISC芯片性价比快速提高,使得基于32位处理器(特别是ARM)的嵌入式应用迅猛地上升。在32位控制器领域,ARM架构的芯片 占据了60%--70%的市场。在ARM体系中有一些特定功能称为ARM体系的变种( variant),其中支持Thumb指令集,称为T变种。这样ARM微处理器就有两种工作状态ARM/Thumb,并可在两种状态之间切换。只要遵循 ATPCS调用规则,Thumb子程序和ARM子程序就可以互相调用。在这种嵌入式系统软件开发中,为了增强系统的灵活性以及提高系统的整体性能经常需要 使用16位的Thumb指令。如何有效、准确地使用ARM/Thumb状态切换(Interworking)是关系到整个系统成败的关键环节,也是在具体 项目开发过程中相对比较难掌握的内容。本文主要介绍ARM体系结构中的ARM/Thumb状态切换(Interworking)。
1. ARM/Thumb 指令的性能比较
在ARM处理器中,内核同时支持32位的ARM指令和16位的Thumb令。对于ARM指令来说,所有的指令长度都是32位,并且执行周期大多为单周期,指令都是有条件执行的。而THUMB指令的特点如下:
- 指令执行条件经常不会使用;
- 源寄存器与目标寄存器经常是相同的;
- 使用的寄存器数量比较少;
- 常数的值比较小;
- 内核中的桶式移位器(barrel shifter)经常是不使用的;
也就是说16位的Thumb指令一般可以完成和32位ARM相同的任务。当用户使用C程序来处理应用时,如果编译为Thumb指令,那么它的目标代 码大小只有编译为ARM指令时的65%左右,这样就增加了指令密度。从另一方面来看,处理器在这两种状态下的性能是依赖于指令执行的存储器的宽度的。下面 的图一具体说明二者的性能比较。可以看出,在存储器是32位的情况下,ARM性能较好,这时因为同样的代码编译的结果Thumb指令将会比ARM 多,Thumb指令仍旧花费指令周期来从32-bit块内存预取。在16-bit内存上,即使有比ARM多的代码,这时Thumb性能也较好,因为 Thumb每一条指令预取需要一个周期而每条ARM指令需要两个周期。 另外在16-bit内存上,Thumb的性能降低了;这是因为数据去操作和特殊的堆 栈操作,即使在Thumb下,堆栈操作仍是32-bit操作,导致低的性能在16-bit内存架构上。一个改进的方法是提供32-bit的内存来放置堆 栈。在这种情况下的性能提高到了32-bit内存架构的水平。主要的差别是因为使用的整型的(32-bit)全局数据将仍被存储在16-bit内存上。
另外,与ARM代码相比较,使用Thumb代码,存储器的功耗会降低约30%。
图一
显然,ARM指令集和Thumb指令集各有其优点,若对系统的执行效率有较高的要求,应使用32位的存储系统和ARM指令集,若对系统的成本及功耗 有较高的要求,则应使用16为的存储系统和Thumb指令集。当然,若两者结合使用,充分发挥其各自的优点,会取得更好的效果。
2.切换(Interwoking)的基本概念及切换时的子函数调用
在我们的实际系统应用中,因为ARM/Thumb指令具有不同的特点,所以不同的场合开发人员会有不同的选择。Thumb指令低密度及在窄存储器时性能高的特点使得它在大多数基于C代码的系统中有非常广泛的应用,但是有些场合中系统只能使用ARM指令 ,比如:
- 如果对于速度有比较高的要求,ARM指令在宽存储器中会提供更高的性能;
- 某些功能只能由ARM指令来实现 ,比如:访问CPSR寄存器来使能/禁止中断或者改变处理器工作模式;访问协处理器CP15;执行C代码不支持的DSP算术指令;
- 异常中断(Exception)处理。在进入异常中断后,内核自动切换到ARM状态。 即在异常中断处理程序入口的一些指令是ARM指令,然后根据需要程序可以切换到Thumb状态,在异常中断处理程序返回前,程序再切换到ARM状态。
- ARM处理器总是从ARM状态开始执行 。 因而,如果要在调试器中运行Thumb程序,必须为该Thumb程序添加一个ARM程序头,然后再切换到Thumb状态,调用该Thumb程序。
所以在实际系统中,内核状态需要经常的切换(Interworking)来满足系统性能需求。具体的切换是通过Branch Exchange—即BX 指令 来实现的。指令格式为:
Thumb状态 BX Rn
ARM状态 BX<condition> Rn
其中Rn可以是寄存器R0—R15中的任意一个。指令可以通过将寄存器Rn的内容
拷贝到程序计数器PC来完成在4Gbyte地址空间中的绝对跳转,而状态切换是由寄存器Rn的最低位来指定的,如果操作数寄存器的状态位Bit0=0,则进入ARM状态,如果Bit0=1,则进入Thumb状态, 图二给出了具体得切换过程。
图二
下面是某系统中使用的程序切换实例。

CODE32 //ARM状态下的代码
LDR R0, =Into_Thumb+1
//产生跳转地址并且设置最低位
BX R0
//Branch Exchange 进入Thumb状态
…
CODE16 //Thumb状态下的子函数
…
LDR R3, =Back_to_ARM
//产生字对齐的跳转地址,最低位被清除
BX R3
//Branch Exchange 返回到ARM状态
CODE32 //ARM状态下的子函数
Bach_to_ARM
…
在上面的程序中,CODE16/CODE32伪指令告诉汇编编译器后面的指令序列分别为Thumb/ARM指令。
在非Interworking函数调用中,调用函数使用BL(Branch with Link)指令, 即将返回地址保存在连接寄存器LR中,同时跳转到被调用的子函数程序入口。从子函数返回时执行指令 MOV PC, LR(当然也可能是其他形式的指令,如出栈指令)将LR值直接放入PC中,从而返回到调用函数中的下一条指令的地址,然后继续执行程序。
在Interworking函数的调用中,需要在编译时对此函数所在的源程序指定编译开关选项:-apcs / interwork ,即保证程序遵守ARM/Thumb程序混合使用的ATPCS规则。一般来说,这时生成的目标代码会增加2%左右。这样在编译器(compiler)处理 这个函数时就会用BX 指令取代MOV PC,LR指令,而且连接器(linker)会自动的产生一小段代码(veneers)来改变处理器状态(ARM/Thumb),具体过程如图3所示。
|
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/71746.html