8-bit FFT for CPU architectures?(用于CPU架构的8位FFT?)
问题描述
我正在寻找一个FFT引擎,可以处理8位实数到复数的转换(大小为65K)。需要这样做是为了加快实时信号处理引擎的速度。它目前受到8位->fp32和fp32->8位转换的限制,以及实际的FFT受到内存带宽的限制(我们目前使用FFTW)。
我以为螺旋项目可能能够做到这一点http://spiral.net,但他们的网页上似乎只有一次或两次转换的代码。
有人知道有什么C或C++库可以做到这一点吗?
推荐答案
有时我遇到了同样的问题。我的数据帧的FFTW在14毫秒(向前、一些计算和向后)内执行,而直接的字节(或短)到浮点数组的转换需要12-19毫秒。所以我制作了SSE函数来将字节转换为浮点数(每个周期4个元素),并获得了显著的速度增益-现在转换在2.2-5ms内完成。
如果您的编译器可以使用自动矢量化,请先尝试。
如果没有,请编写带有内部函数的简单转换函数。
我用过内联汇编程序(MOVD、PUNPCKLBW、PUNPCKLWD、CVTDQ2PS、MOVAPS命令序列)。
procedure BytesToSingles(Src, Dst: Pointer; Count: Integer);
asm
//EAX = Src pointer to byte array
//EDX = Dst pointer to float array !!! 16 byte-aligned !!!
//ECX = Count (multiple of four)
SHR ECX, 2 // 4 elements per cycle
JZ @@Exit
PXOR XMM7, XMM7 // zeros
@@Cycle:
MOVD XMM1, [EAX] // load 4 bytes
PUNPCKLBW XMM1, XMM7 // unpack to words
PUNPCKLWD XMM1, XMM7 // words to int32
CVTDQ2PS XMM0, XMM1 // convert integers to 4 floats
MOVAPS [EDX], XMM0 // store 4 floats to destination array
ADD EAX, 4 // move array pointers
ADD EDX, 16
LOOP @@Cycle
@@Exit:
end;
请注意,如Paul R在评论中所写,在8位数据上实现FFT将会受到数值错误问题的影响。
这篇关于用于CPU架构的8位FFT?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:用于CPU架构的8位FFT?
基础教程推荐
- 我应该对 C++ 中的成员变量和函数参数使用相同的名称吗? 2021-01-01
- 为什么派生模板类不能访问基模板类的标识符? 2021-01-01
- 初始化列表*参数*评估顺序 2021-01-01
- GDB 显示调用堆栈上函数地址的当前编译二进制文 2022-09-05
- 为什么 typeid.name() 使用 GCC 返回奇怪的字符以及如 2022-09-16
- 为什么 RegOpenKeyEx() 在 Vista 64 位上返回错误代码 2021-01-01
- 非静态 const 成员,不能使用默认赋值运算符 2022-10-09
- 如果我为无符号变量分配负值会发生什么? 2022-01-01
- CString 到 char* 2021-01-01
- 通过引用传递 C++ 迭代器有什么问题? 2022-01-01
