基于FPGA的快速傅立叶变换_DSP/FPGA技术

基于FPGA的快速傅立叶变换

点击数：7816 次录入时间：03-04 11:41:11 整理：http://www.55dianzi.com DSP/FPGA技术

摘要：在对FFT（快速傅立叶变换）算法进行研究的基础上，描述了用FPGA实现FFT的方法，并对其中的整体结构、蝶形单元及性能等进行了分析。

关键词：FPGA FFT

傅立叶变换是数字信号处理中的基本操作，广泛应用于表述及分析离散时域信号领域。但由于其运算量与变换点数Ｎ的平方成正比关系，因此，在Ｎ较大时，直接应用ＤＦＴ算法进行谱变换是不切合实际的。然而，快速傅立叶变换技术的出现使情况发生了根本性的变化。本文主要描述了采用ＦＰＧＡ来实现２ｋ／４ｋ／８ｋ点ＦＦＴ的设计方法。

１　整体结构

一般情况下，Ｎ点的傅立叶变换对为：

其中，ＷＮ＝ｅｘｐ(－２ｐｉ／Ｎ)。Ｘ(ｋ)和ｘ(ｎ)都为复数。与之相对的快速傅立叶变换有很多种,如ＤＩＴ(时域抽取法)、ＤＩＦ（频域抽取法）、Ｃｏｏｌｅｙ－Ｔｕｋｅｙ和Ｗｉｎｏｇｒａｄ等。对于２ｎ傅立叶变换，Ｃｏｏｌｅｙ－Ｔｕｋｅｙ算法可导出ＤＩＴ和ＤＩＦ算法。本文运用的基本思想是Ｃｏｏｌｅｙ－Ｔｕｋｅｙ算法，即将高点数的傅立叶变换通过多重低点数傅立叶变换来实现。虽然ＤＩＴ与ＤＩＦ有差别，但由于它们在本质上都是一种基于标号分解的算法，故在运算量和算法复杂性等方面完全一样，而没有性能上的优劣之分，所以可以根据需要任取其中一种，本文主要以ＤＩＴ方法为对象来讨论。

Ｎ＝８１９２点ＤＦＴ的运算表达式为：

式中，ｍ＝(４ｎ１＋ｎ２)(２０４８ｋ１＋ｋ２)(ｎ＝４ｎ１＋ｎ２，ｋ＝２０４８ｋ１＋ｋ２)其中ｎ１和ｋ２可取０,１,．．．,２０４７,ｋ１和ｎ２可取０,１,２,３。

由式（３）可知，８ｋ傅立叶变换可由４×２ｋ的傅立叶变换构成。同理，４ｋ傅立叶变换可由２×２ｋ的傅立叶变换构成。而２ｋ傅立叶变换可由１２８×１６的傅立叶变换构成。１２８的傅立叶变换可进一步由１６×８的傅立叶变换构成，归根结底，整个傅立叶变换可由基２、基４的傅立叶变换构成。２ｋ的ＦＦＴ可以通过５个基４和１个基２变换来实现；４ｋ的ＦＦＴ变换可通过６个基４变换来实现；８ｋ的ＦＦＴ可以通过６个基４和１个基２变换来实现。也就是说：ＦＦＴ的基本结构可由基２／４模块、复数乘法器、存储单元和存储器控制模块构成，其整体结构如图１所示。

图１中，ＲＡＭ用来存储输入数据、运算过程中的中间结果以及运算完成后的数据，ＲＯＭ用来存储旋转因子表。蝶形运算单元即为基２／４模块，控制模块可用于产生控制时序及地址信号，以控制中间运算过程及最后输出结果。

２　蝶形运算器的实现

基４和基２的信号流如图２所示。图中，若Ａ＝ｒ０＋ｊ＊ｉ０，Ｂ＝ｒ１＋ｊ＊ｉ１，Ｃ＝ｒ２＋ｊ＊ｉ２，Ｄ＝ｒ３＋ｊ＊ｉ３是要进行变换的信号，Ｗｋ０＝ｃ０＋ｊ＊ｓ０＝１，Ｗｋ１＝ｃ１＋ｊ＊ｓ１，Ｗｋ２＝ｃ２＋ｊ＊ｓ２，Ｗｋ３＝ｃ３＋ｊ＊ｓ３为旋转因子，将其分别代入图２中的基４蝶形运算单元，则有：

Ａ′＝[ｒ０＋(ｒ１×ｃ１－ｉ１×ｓ１)＋(ｒ２×ｃ２－ｉ２×ｓ２)＋(ｒ３×ｃ３－ｉ３×ｓ３)]＋ｊ[ｉ０＋(ｉ１×ｃ１＋ｒ１×ｓ１)＋(ｉ２×ｃ２＋ｒ２×ｓ２)＋(ｉ３×ｃ３＋ｒ３×ｓ３)]? 　（４）

Ｂ′＝[ｒ０＋(ｉ１×ｃ１＋ｒ１×ｓ１)－(ｒ２×ｃ２－ｉ２×ｓ２)－(ｉ３×ｃ３＋ｒ３×ｓ３)]＋ｊ[ｉ０－(ｒ１×ｃ１－ｉ１×ｓ１)－(ｉ２×ｃ２＋ｒ２×ｓ２)＋(ｒ３×ｃ３－ｉ３×ｓ３)] 　(５）

Ｃ′＝[ｒ０－(ｒ１×ｃ１－ｉ１×ｓ１)＋(ｒ２×ｃ２－ｉ２×ｓ２)－(ｒ３×ｃ３－ｉ３×ｓ３)]＋ｊ[ｉ０－(ｉ１×ｃ１＋ｒ１×ｓ１)＋(ｉ２×ｃ２＋ｒ２×ｓ２)－(ｉ３×ｃ３＋ｒ３×ｓ３)] （６）

Ｄ′＝[ｒ０－(ｉ１×ｃ１＋ｒ１×ｓ１)－(ｒ２×ｃ２－ｉ２×ｓ２)＋(ｉ３×ｃ３＋ｒ３×ｓ３)]＋ｊ[ｉ０＋(ｒ１×ｃ１－ｉ１×ｓ１)－(ｉ２×ｃ２＋ｒ２×ｓ２)－(ｒ３×ｃ３－ｉ３×ｓ３)]? （７）

而在基２蝶形中，Ｗｋ０和Ｗｋ２的值均为１，这样，将Ａ，Ｂ，Ｃ和Ｄ的表达式代入图２中的基２运算的四个等式中，则有：

Ａ′＝ｒ０＋(ｒ１×ｃ１－ｉ１×ｓ１)＋ｊ[ｉ０＋(ｉ１×ｃ１＋ｒ１×ｓ１)]? （８）

Ｂ′＝ｒ０－ (ｒ１×ｃ１－ｉ１×ｓ１)＋ｊ[ｉ０－(ｉ１×ｃ１＋ｒ１×ｓ１)] 　（９）

Ｃ′＝ｒ２＋(ｒ３×ｃ３－ｉ３×ｓ３)＋ｊ[ｉ０＋(ｉ３×ｃ３＋ｒ３×ｓ３)]? （１０）

Ｄ′＝ｒ２－(ｒ３×ｃ３－ｉ３×ｓ３)＋ｊ[ｉ０－(ｉ３×ｃ３＋ｒ３×ｓ３)]? （１１）

在上述式（４）～（１１）中有很多类同项，如ｉ１×ｃ１＋ｒ１×ｓ１和ｒ１×ｃ１－ｉ１×ｓ１等，它们仅仅是加减号的不同，其结构和运算均类似，这就为简化电路提供了可能。同时，在蝶形运算中，复数乘法可以由实数乘法以一定的格式来表示，这也为设计复数乘法器提供了一种实现的途径。

以基４为例，在其运算单元中，实际上只需做三个复数乘法运算，即只须计算ＢＷｋ１、ＣＷｋ２和ＤＷｋ３的值即可，这样在一个基４蝶形单元里面，最多只需要３个复数乘法器就可以了。在实际过程中，在不提高时钟频率下，只要将时序控制好?便可利用流水线（Ｐｉｐｅｌｉｎｅ）技术并只用一个复数乘法器就可完成这三个复数乘法，大大节省了硬件资源。

图2 基2和基4蝶形算法的信号流图

３　ＦＦＴ的地址

ＦＦＴ变换后输出的结果通常为一特定的倒序,因此，几级变换后对地址的控制必须准确无误。

倒序的规律是和分解的方式密切相关的，以基８为例，其基本倒序规则如下：

基８可以用２×２×２三级基２变换来表示，则其输入顺序则可用二进制序列（ｎ１ｎ２ｎ３）来表示，变换结束后，其顺序将变为（ｎ３ｎ２ｎ１），如：Ｘ?０１１?→ ｘ?１１０?，即输入顺序为３，输出时顺序变为６。

更进一步，对于基１６的变换，可由２×２×２×２，４×４，４×２×２等形式来构成，相对于不同的分解形式，往往会有不同的倒序方式。以４×４为例，其输入顺序可以用二进制序列（ｎ１ｎ２ｎ３ｎ４）来表示变换结束后，其顺序可变为（（ｎ３ｎ４）（ｎ１ｎ２）），如：Ｘ?０１１１?→ ｘ?１１０１?。即输入顺序为７，输出时顺序变为１３。

在２ｋ／４ｋ／８ｋ的傅立叶变换中，由于要经过多次的基４和基２运算，因此，从每次运算完成后到进入下一次运算前，应对运算的结果进行倒序，以保证运算的正确性。

４　旋转因子

Ｎ点傅立叶变换的旋转因子有着明显的周期性和对称性。其周期性表现为：

FFT之所以可使运算效率得到提高，就是利用

ＦＦＴ之所以可使运算效率得到提高，就是利用了对称性和周期性把长序列的ＤＦＴ逐级分解成几个序列的ＤＦＴ，并最终以短点数变换来实现长点数变换。

根据旋转因子的对称性和周期性，在利用ＲＯＭ存储旋转因子时，可以只存储旋转因子表的一部分，而在读出时增加读出地址及符号的控制，这样可以正确实现ＦＦＴ。因此,充分利用旋转因子的性质，可节省７０％以上存储单元。

实际上，由于旋转因子可分解为正、余弦函数的组合，故ＲＯＭ中存的值为正、余弦函数值的组合。对２ｋ／４ｋ／８ｋ的傅立叶变换来说，只是对一个周期进行不同的分割。由于８ｋ变换的旋转因子包括了２ｋ／４ｋ的所有因子，因此，实现时只要对读ＲＯＭ的地址进行控制，即可实现２ｋ／４ｋ／８ｋ变换的通用。

[1] [2] 下一页