ARM 浮点运算

转载：

http://www.embedu.org/Column/Column821.htm

http://blog.sina.com.cn/s/blog_602f87700100r5xe.html

作者：程老师,华清远见嵌入式学院讲师。

很多时候我们要处理的数据，不仅仅是整数和字符串，还有浮点数即小数。在多媒体数据处理方面表现的更多。是不是所有的CPU都支持，浮点运算呢?答案:不是。

我们常常听到赢浮点和软浮点，这些到底说的是什么呢?下面我们就来一探究竟吧。在这里我们说的是ARM核浮点运算。

(1)硬浮点(hard-float)

编译器将代码直接编译成硬件浮点协处理器(浮点运算单元FPU)能识别的指令，这些指令在执行的时候ARM核直接把它转给协处理器执行。FPU 通常有一套额外的寄存器来完成浮点参数传递和运算。使用实际的硬件浮点运算单元(FPU)会带来性能的提升。

(2)软浮点(soft-float)

编译器把浮点运算转成浮点运算的函数调用和库函数调用，没有FPU的指令调用，也没有浮点寄存器的参数传递。浮点参数的传递也是通过ARM寄存器或者堆栈完成。现在的Linux系统默认编译选择使用hard-float,如果系统没有任何浮点处理器单元，这就会产生非法指令和异常。因而一般的系统镜像都采用软浮点以兼容没有VFP的处理器。

用一句话总结，软浮点是通过浮点库去实现浮点运算的，效率低；硬浮点是通过浮点运算单元(FPU)来完成的，效率高。

一、使用浮点库实现浮点运算(soft-float)

例如:我想实现两个浮点数相加，代码如下:

使用GNU ARM编译器翻译成的部分汇编代码如下:

从图中我们可以知道，默认情况下，编译器使用的是软浮点，图中__aeabi_fadd这个函数是在浮点库中实现。如果想让代码能正常的运行，还需要在连接的时候静态连接一下浮点库。

在这里我们以一个完成的案例来说明一下，软浮点库的使用方法。

start.S:
        .global _start
        #define USER_MODE 0x10
        _start:
        @设置CPU为user模式
        mov r0,#USER_MODE
        msr cpsr_c,r0
        @跳到main函数
        ldr sp,=0x34000
        bl main
        stop:
        b stop
        main.c:
        int main()
        {
                float f1,f2,f3;
                f1 = 1.24;
                f2 = 1.22;
                f3 = f1 + f2;
                return 0;
        }
        Makefile:
        LD=arm-none-eabi-ld
        OBJDUMP=arm-none-eabi-objdump
        RM=rm -rf
        CFLAG= -g -c
        ASFLAG=-g -c
        OBJ=start.o main.o
        LDFLAGS= -static -L\
        #指定浮点库所在的路径
        "C:\Program Files\yagarto\lib\gcc\arm-none-eabi\4.6.2" -lgcc
        #设置编译模式
        %.o:%.S
        $(CC) $(ASFLAG) $< -o $@

        %.o:%.c
        $(CC) $(CFLAG) $< -o $@
        all:$(OBJ)
        $(LD) -Ttext=0x20000 $^ -o arm.elf $(LDFLAGS)
        $(OBJDUMP) -D arm.elf > arm.dis
        clean:
        $(RM) *.o arm.dis arm.elf

使用硬件浮点实现浮点运算(hard-float)

使用硬件浮点的时候，我们需要给编译器传递一些参数，让编译器编译出硬件浮点单元处理器能识别的指令。

(1)-mfpu=name

参数-mfpu就是用来指定要产生那种硬件浮点运算指令,常用的右vfp和neon等。

浮点协处理器指令:

ARM10 and ARM9:
        -mfpu=vfp(or vfpv1 or vfpv2)
        Cortex-A8:
        -mfpu=neon

(2) -mfloat-abi=value

-mfloat-abi=soft 使用这个参数时，其将调用软浮点库(softfloat lib)来支持对浮点的运算，GCC编译器已经有这个库了，一般在libgcc里面。这时根本不会使用任何浮点指令，而是采用常用的指令来模拟浮点运算。但使用的ARM芯片不支持硬浮点时，可以考虑使用这个参数。在使用这个参数时，连接时一般会出现下面的提示：

undefined reference to `__aeabi_fdiv'

或者类似的提示，主要因为一般情况下连接器没有去主动寻找软浮点库，这时使用将libgcc库加入即可。

-mfloat-abi=softfp

-mfloat-abi=hard

这两个参数都用来产生硬浮点指令，至于产生哪里类型的硬浮点指令，需要由

-mfpu=xxx参数来指令。这两个参数不同的地方是：

-mfloat-abi=softfp生成的代码采用兼容软浮点调用接口(即使用-mfloat- abi=soft时的调用接口)，这样带来的好处是：兼容性和灵活性。库可以采用-mfloat-abi=soft编译，而关键的应用程序可以采用 -mfloat-abi=softfp来编译。特别是在库由第三方发布的情况下。

-mfloat-abi=hard生成的代码采用硬浮点(FPU)调用接口。这样要求所有库和应用程序必须采用这同一个参数来编译，否则连接时会出现接口不兼容错误。

我们对main.c文件使用硬件浮点重新编译:

翻译成的汇编代码如下:

start.s:
        .global _start
        #define USER_MODE 0x10
        _start:
        @ 设置为所有模式都可以访问协处理器,cortex-A8手册 3.2.27
        mov r0, #0xfffffff
        mcr p15, 0, r0, c1, c0, 2
        @ 使能NEON and VFP协处理器,NEON and VFP enable bit.
        @ 设置fpexc的30位为1去使能NEON and VFP,cortex-A8 手册 13.4.3
        ldr r0, =1<<30
        fmxr fpexc, r0
        @设置CPU为user模式
        mov r0,#USER_MODE
        msr cpsr_c,r0
        @跳到main函数
        ldr sp,=0x34000
        bl main
        stop:
        b stop
        main.c:
        int main()
        {
                float f1,f2,f3;
                f1 = 1.24;
                f2 = 1.22;
                f3 = f1 + f2;
                return 0;
        }
        Makefile:
        CC=arm-none-eabi-gcc
        AS=arm-none-eabi-as
        LD=arm-none-eabi-ld
        OBJDUMP=arm-none-eabi-objdump
        RM=rm -rf
        CFLAG=-g -c -mfpu=neon -mfloat-abi=softfp
        ASFLAG=-g -c -mfpu=neon -mfloat-abi=softfp
        OBJ=start.o main.o
        #设置编译模式
        %.o:%.S
        $(CC) $(ASFLAG) $< -o $@
        %.o:%.c
        $(CC) $(CFLAG) $< -o $@
        all:$(OBJ)
        $(LD) -Ttext=0x20000 $^ -o arm.elf
        $(OBJDUMP) -D arm.elf > arm.dis
        clean:
        $(RM) *.o arm.dis arm.elf

一：早期ARM上的浮点模拟器：

早期的ARM没有协处理器，所以浮点运算是由CPU来模拟的，即所需浮点运算均在浮点运算模拟器（float math emulation）上进行，需要的浮点运算，常要耗费数千个循环才能执行完毕，因此特别缓慢。

直到今天，在ARM Kernel配置时，都有如下选项：

Floating point emulation --->

[ ] NWFPE math emulation

[ ] FastFPE math emulation (EXPERIMENTAL)

在这里，可以配置ARM 浮点模拟器。

浮点模拟器模拟浮点是利用了undefined instrction handler，这么做带来的后果是带来极频繁的exception，大大增加中断延迟，降低系统实时性。

二：软浮点技术：

软浮点支持是由交叉工具链提供的功能，与Linux内核无关。当使用软浮点工具链编译浮点操作时，编译器会用内联的浮点库替换掉浮点操作，使得生成的机器码完全不含浮点指令，但是又能够完成正确的浮点操作。

三：浮点协处理器：

在较新版本的ARM中，可以添加协处理器。一些ARM CPU为了更好的处理浮点计算的需要，添加了浮点协处理器。

并定义了浮点指令集。如果不存在实际的硬件，则这些指令被截获并由浮点模拟器模块(FPEmulator)来执行。

四: 硬件浮点协处理器以及对应指令集的使用:

这里Sam是这样理解的：

想要使用硬件浮点协处理器来帮助运算Application中的浮点运算。需要以下几个前提条件：

1. Kernel中设置支持硬件协处理器。

2. 编译器支持将浮点运算翻译成硬件浮点运算指令。

1. Kernle的支持：

如果Kernel不支持浮点协处理器，则因为协处理器寄存器等使用权限等问题，协处理器对应指令无法运行。

网络上有位高手指出：

CP15 c1 协处理器访问控制寄存器，这个寄存器规定了用户模式和特权对协处理器的访问权限。我们要使用VFP当然要运行用户模式访问CP10和CP11。
另外一个寄存器是VFP的FPEXC Bit30这是VFP功能的使用位。
其实操作系统在做了这两件事情之后，用户程序就可以使用VFP了。当然，Kernel 除了这2件事外，还处理了其他一些事情。

Sam看了看Kernel中对应代码，发现是汇编后就放弃继续研究了。

Floating point emulation --->
[*] VFP-format floating point maths

Include VFP support code in the kernel. This is needed IF your hardware includes a VFP unit.

2. 编译器指定浮点指令：

编译器可以显式指定将浮点运算翻译成何种浮点指令。

如果编译器支持软浮点，则其可能会将浮点运算翻译成编译器中自带的浮点库。则不会有真正的浮点运算。

否则，可以翻译成FPA(Floating Point Accelerator)指令。 FPA指令再去查看是否有浮点模拟器。

还可以将浮点运算指定为VFP（vector floating point）指令。

五. 编译器指定编译硬浮点指令:

Sam有个测试程序，测试CPU浮点性能。例如：浮点加减乘除等运算的时间长度：

float src_mem_32[1024] = {1.024};

float dst_mem_32[1024] = {0.933};

for(j = 0; j < 1024; j++)
{
     for(i = 0; i < 1024; i++)
     {
          src_32 = src_mem_32[i] + dst_mem_32[i];
     }
}

通过printf 计算前后毫秒数的差值来看计算能力。

编译：

arm-hisiv200-linux-gcc -c -Wall fcpu.c -o fcpu.o

arm-hisiv200-linux-gcc fcpu.o -o FCPU -L./

运行，则得到32位浮点数加1024次所需要时间。

如果要使用VFP呢？

arm-hisiv200-linux-gcc -c -Wall -mfpu=vfp -mfloat-abi=softfp fcpu.c -o fcpu.o

arm-hisiv200-linux-gcc -Wall -mfpu=vfp -mfloat-abi=softfp fcpu.o -o FCPU -L./

则运行后发现，所需要时间几乎减小了一半。说明还是非常有效果的。

关于-mfpu -mfloat-abi讲解：见附录2。

另外，如何才能在直观的检查出是否使用VFP呢？

可以通过察看编译出的ASM程序得到结论。

#arm-hisiv200-linux-objdump -d fcpu.o

00000000 <test_F32bit_addition>:
   0:   e52db004        push    {fp}            ; (str fp, [sp, #-4]!)
   4:   e28db000        add     fp, sp, #0
   8:   e24dd00c        sub     sp, sp, #12
   c:   e3a03000        mov     r3, #0
10:   e50b300c        str     r3, [fp, #-12]
14:   e3a03000        mov     r3, #0
18:   e50b3008        str     r3, [fp, #-8]
1c:   e3a03000        mov     r3, #0
20:   e50b3008        str     r3, [fp, #-8]
24:   ea000017        b       88 <test_F32bit_addition+0x88>
28:   e3a03000        mov     r3, #0
2c:   e50b300c        str     r3, [fp, #-12]
30:   ea00000d        b       6c <test_F32bit_addition+0x6c>
34:   e51b200c        ldr     r2, [fp, #-12]
38:   e59f3064        ldr     r3, [pc, #100] ; a4 <test_F32bit_addition+0xa4>
3c:   e0831102        add     r1, r3, r2, lsl #2
40:   ed917a00        vldr    s14, [r1]
44:   e51b200c        ldr     r2, [fp, #-12]
48:   e59f3058        ldr     r3, [pc, #88]   ; a8 <test_F32bit_addition+0xa8>
4c:   e0831102        add     r1, r3, r2, lsl #2
50:   edd17a00        vldr    s15, [r1]
54:   ee777a27        vadd.f32        s15, s14, s15
58:   e59f304c        ldr     r3, [pc, #76]   ; ac <test_F32bit_addition+0xac>
5c:   edc37a00        vstr    s15, [r3]
60:   e51b300c        ldr     r3, [fp, #-12]
64:   e2833001        add     r3, r3, #1
68:   e50b300c        str     r3, [fp, #-12]
6c:   e51b200c        ldr     r2, [fp, #-12]
70:   e59f3038        ldr     r3, [pc, #56]   ; b0 <test_F32bit_addition+0xb0>
74:   e1520003        cmp     r2, r3
78:   daffffed        ble     34 <test_F32bit_addition+0x34>
7c:   e51b3008        ldr     r3, [fp, #-8]
80:   e2833001        add     r3, r3, #1
84:   e50b3008        str     r3, [fp, #-8]
88:   e51b2008        ldr     r2, [fp, #-8]
8c:   e59f301c        ldr     r3, [pc, #28]   ; b0 <test_F32bit_addition+0xb0>
90:   e1520003        cmp     r2, r3
94:   daffffe3        ble     28 <test_F32bit_addition+0x28>
98:   e28bd000        add     sp, fp, #0
9c:   e49db004        pop     {fp}            ; (ldr fp, [sp], #4)
a0:   e12fff1e        bx      lr

这里明显包含vfp指令。所以是使用vfp指令的：

arm-hisiv200-linux-gcc -c -Wall -mfpu=vfp -mfloat-abi=softfp fcpu.c -o fcpu.o

注意：VFP 指令指令在附录1中。

如果使用：

arm-hisiv200-linux-gcc -c -Wall fcpu.c -o fcpu.o

#arm-hisiv200-linux-objdump -d fcpu.o

00000000 <test_F32bit_addition>:
   0:   e92d4800        push    {fp, lr}
   4:   e28db004        add     fp, sp, #4
   8:   e24dd008        sub     sp, sp, #8
   c:   e3a03000        mov     r3, #0
10:   e50b300c        str     r3, [fp, #-12]
14:   e3a03000        mov     r3, #0
18:   e50b3008        str     r3, [fp, #-8]
1c:   e3a03000        mov     r3, #0
20:   e50b3008        str     r3, [fp, #-8]
24:   ea000019        b       90 <test_F32bit_addition+0x90>
28:   e3a03000        mov     r3, #0
2c:   e50b300c        str     r3, [fp, #-12]
30:   ea00000f        b       74 <test_F32bit_addition+0x74>
34:   e51b200c        ldr     r2, [fp, #-12]
38:   e59f3068        ldr     r3, [pc, #104] ; a8 <test_F32bit_addition+0xa8>
3c:   e7932102        ldr     r2, [r3, r2, lsl #2]
40:   e51b100c        ldr     r1, [fp, #-12]
44:   e59f3060        ldr     r3, [pc, #96]   ; ac <test_F32bit_addition+0xac>
48:   e7933101        ldr     r3, [r3, r1, lsl #2]
4c:   e1a00002        mov     r0, r2
50:   e1a01003        mov     r1, r3
54:   ebfffffe        bl      0 <__aeabi_fadd>
58:   e1a03000        mov     r3, r0
5c:   e1a02003        mov     r2, r3
60:   e59f3048        ldr     r3, [pc, #72]   ; b0 <test_F32bit_addition+0xb0>
64:   e5832000        str     r2, [r3]
68:   e51b300c        ldr     r3, [fp, #-12]
6c:   e2833001        add     r3, r3, #1
70:   e50b300c        str     r3, [fp, #-12]
74:   e51b200c        ldr     r2, [fp, #-12]
78:   e59f3034        ldr     r3, [pc, #52]   ; b4 <test_F32bit_addition+0xb4>
7c:   e1520003        cmp     r2, r3
80:   daffffeb        ble     34 <test_F32bit_addition+0x34>
84:   e51b3008        ldr     r3, [fp, #-8]
88:   e2833001        add     r3, r3, #1
8c:   e50b3008        str     r3, [fp, #-8]
90:   e51b2008        ldr     r2, [fp, #-8]
94:   e59f3018        ldr     r3, [pc, #24]   ; b4 <test_F32bit_addition+0xb4>
98:   e1520003        cmp     r2, r3
9c:   daffffe1        ble     28 <test_F32bit_addition+0x28>
a0:   e24bd004        sub     sp, fp, #4
a4:   e8bd8800        pop     {fp, pc}

则不包含VFP指令。

且去调用 __aeabi_fadd

六：新一代ARM 浮点引擎---Neon：

Neon是ARM核心附带的浮点SIMD引擎，可以把它当一个DSP用。

如果不使用Neon，就只能有CPU自带的VFP进行浮点运算。标准A8的VFP没有管线化，速度是比较低的。A9的VFP管线化后，效能有明显提升，但还是不如Neon。

Neon支持与VFP类似，都需要编译器和Kernel双方支持才可以。

Kernel配置中：

Floating point emulation --->

[*] VFP-format floating point maths
[ ] Advanced SIMD (NEON) Extension support

需要选中。

编译器支持分析如下：

ARM的GCC 编译选项：

http://gcc.gnu.org/onlinedocs/gcc-4.1.1/gcc/ARM-Options.html#ARM-Options

七: ARM浮点相关编译选项：

1。 -mfloat-abi=name:

Specifies which floating-point ABI to use.指定浮点应用程序二进制接口

可选值：soft，softfp，hard

soft: 编译器将浮点操作编译成调用输出库....(没吃透，也许是调用编译器中的软浮点实现？？)

softfp: 编译器生成硬件浮点指令（汇编语句见附录1）。但继续使用软浮点调用规则。

hard:编译器生成硬件浮点指令（汇编语句见附录1）。使用FPU指定的调用规则。

-mhard-float: Equivalent to -mfloat-abi=hard.
-msoft-float: Equivalent to -mfloat-abi=soft.

-mfpu=name

指定在此平台上，何种硬件浮点设备或者硬件浮点模拟器可用。

可用参数：fpa，fpe2，fpe3，maverick，vfp，vfpv3，vfpv3-fp16，vfpv3-d16，vfpv3-d16-fp16，vfpv3xd，vfpv3xd-fp16，neon，neon-fp16，vfpv4，vfpv4-d16，fpv4-sp-d16，neon-vfpv4

vfp: 之前已经详细谈过。

neon:前面也谈过。但neon并不完全支持 IEEE 754。

-mfpe=number
-mfp=number

-mfpe=X -mfp=X 等同于-mfpu=fpeX 其中X为fpe后面的数字。为了与老版本GCC统一。

附录1 ：VFP 指令

VABS、VNEG 和 VSQRT

浮点绝对值、求反和平方根。
VADD、VSUB 和 VDIV

浮点加法、减法和除法。
VMUL、VMLA、VMLS、VNMUL、VNMLA 和 VNMLS

浮点乘法和乘加，包含可选求反。
VCMP

浮点数比较。
VCVT（在单精度数和双精度数之间）

在单精度数和双精度数之间转换。
VCVT（在浮点数和整数之间）

在浮点数和整数之间转换。
VCVT（在浮点数和定点数之间）

在浮点数和定点数之间转换。
VCVTB，VCVTT（半精度扩展）

在半精度和单精度浮点数之间转换。
VMOV

将浮点常数插入单精度或双精度寄存器。

附录2：

       -mfpu=name
       -mfpe=number
       -mfp=number
           This specifies what floating point hardware (or hardware emulation) is available on the target. Permissible names are: fpa, fpe2, fpe3, maverick, vfp. -mfp and -mfpe are synonyms for -mfpu=fpenumber, for compatibility with older versions of GCC.

-mfloat-abi=name
Specifies which ABI to use for floating point values. Permissible values are: soft, softfp and hard.

soft and hard are equivalent to -msoft-float and -mhard-float respectively. softfp allows the generation of floating point instructions, but still uses the soft-float calling conventions.

Sam不明白为什么 hard不能使用。只好使用softfp

附录3：

RVCT 简介:

ARM公司提供的一套编译器。RVCT(RealView Compilation Tools)业内公认的能够支持所有ARM处理器，并提供最好的执行性能的编译器。

RVDS 4.0中使用的编译器即为RVCT. 优化程度让人惊讶。

附录4:

其它与浮点有关的编译选项：

-ffast-math：

-fno-signed-zeros：高版本GCC才有的优化选项。与浮点里面的正负0 有关。

附录5：GNU GCC, LD 官方文档：

www.gnu.org

点选 Documentation : http://www.gnu.org/doc/doc.html

点选 GNU manuals: http://www.gnu.org/manual/manual.html

从list中选中GCC. : http://www.gnu.org/software/gcc/

从中选中Documentation->Manual

此处就是GNU GCC 所有document.

http://gcc.gnu.org/onlinedocs/

Sam需要看得是: GCC 4.6.0 Manual

http://gcc.gnu.org/onlinedocs/gcc-4.6.0/gcc/

LD:

LD则在list中选择：Binutils (as bfd binutils gprof ld)

http://sourceware.org/binutils/docs/ld/

Hi3716C:

Sam在Hi3716C 平台通常使用如下选项：

-mcpu=cortex-a9

-mfpu=vfp

-mfloat-abi=softfp

-march=armv7

-fsigned-char

-mcpu:
指出目标代码运行于何种ARM processor(ARM处理器)
可用的name 有：arm2, arm250, arm3, arm6, arm60, arm600, arm610,arm620, arm7, arm7m, arm7d, arm7dm, arm7di, arm7dmi, arm70, arm700, arm700i, arm710, arm710c, arm7100, arm720,arm7500, arm7500fe, arm7tdmi, arm7tdmi-s, arm710t, arm720t, arm740t, strongarm, strongarm110, strongarm1100,strongarm1110, arm8, arm810, arm9, arm9e, arm920, arm920t, arm922t, arm946e-s, arm966e-s, arm968e-s, arm926ej-s,arm940t, arm9tdmi, arm10tdmi, arm1020t, arm1026ej-s, arm10e, arm1020e, arm1022e, arm1136j-s, arm1136jf-s, mpcore, mpcorenovfp, arm1156t2-s, arm1156t2f-s, arm1176jz-s, arm1176jzf-s, cortex-a5, cortex-a8, cortex-a9, cortex-a15,cortex-r4, cortex-r4f, cortex-m4, cortex-m3, cortex-m1, cortex-m0, xscale, iwmmxt, iwmmxt2, ep9312

-march=armv7
-march 指出目标ARM architecture(ARM指令集)。
可以使用的为：armv2, armv2a, armv3, armv3m, armv4, armv4t, armv5, armv5t, armv5e, armv5te, armv6, armv6j,armv6t2, armv6z, armv6zk, armv6-m, armv7, armv7-a, armv7-r, armv7-m, iwmmxt, iwmmxt2, ep9312

posted @ 2014-05-14 13:58 dolinux 阅读(3318) 评论(0) 收藏举报

刷新页面返回顶部

dolinux

Linux内核工程师，计算机底层技术爱好者

ARM 浮点运算

公告