英伟达创新FFN融合技术:突破Transformer瓶颈,提速大型语言模型推理

AI2个月前发布 小强
4 00

芯片领军企业近日推出“”(FFN Fusion)架构优化。该技术专注于 突破中的串行计算限制,大幅提高(LLMs)的推理效率,为高性能应用的广泛部署提供了强有力的支持。

近年来,大型语言模型在自然语言处理、科学研究、对话代理等多个领域展现出了卓越的性能。然而,随着模型规模和复杂性的持续增长,推理过程所需的计算资源急剧增加,形成了显著的效率瓶颈。作为LLM的核心基础,Transformer架构的交替注意力机制和前馈网络(FFNs)层需要 顺序处理输入数据。这种固有的串行结构在模型规模扩大时,会显著增加计算负载和GPU通信成本,降低效率并推高部署成本。特别是在需要快速生成多个token的场景(如实时)中,这一问题尤为突出。

为应对这一挑战,英伟达研究人员提出了FFN融合技术。该技术的核心在于 将模型中连续且依赖性较低的FFN层合并为一个更宽的FFN。研究发现,在移除注意力层后,LLM中通常会出现较长的连续FFN序列。通过分析这些序列,研究人员确认这些FFN层之间的依赖性极小,因此可以 并行执行

FFN融合的数学原理在于 将多个串联FFN的权重进行拼接,形成一个等效的、可并行计算的单一模块。例如,三个顺序堆叠的FFN,每个FFN的输出作为下一个的输入,FFN融合则消除了这种依赖关系,使这三个FFN能够同时处理相同的输入,并聚合输出。理论分析表明,融合后的FFN 保留了与原始FFN相同的表示能力

Ultra-253B-Base:性能与效率的双重突破

英伟达研究人员将FFN融合技术应用于-3.1-405B-Instruct模型,通过剪枝和重构开发出名为Ultra-253B-Base的新模型。实验结果显示,该模型在推理速度和资源效率方面实现了显著提升。具体而言,在批量大小为32时, 推理延迟缩短了1.71倍,每个token的计算成本减少了35倍

更值得注意的是,效率的提升并未以牺牲模型性能为代价。Ultra-253B-Base在多个权威评测基准上取得了卓越成绩,例如: MMLU85.17%,MMLU-Pro72.25%,HumanEval86.58%,Arena Hard84.92%,MT-Bench9.19。这些结果通常与原始的4050亿参数模型相当甚至更优,而Ultra-253B-Base仅包含2530亿参数。此外,得益于kv-cache的优化,该模型的 内存使用量也减少了一半

研究人员通过 余弦距离分析FFN层输出,识别低相互依赖性的区域,这些区域成为融合的理想选择。FFN融合技术已在不同规模的模型(包括490亿、700亿和2530亿参数)上得到验证,证明了其 广泛的适用性

这项研究表明,通过深入分析和巧妙的架构设计,可以显著提升LLM的效率。FFN融合为设计更并行化、更适应硬件的LLM奠定了基础。尽管完全Transformer模块的并行化因更强的层间依赖性而面临更多挑战,但FFN融合的成功无疑为未来LLM的效率优化提供了重要的方向指引。

论文链接:https://arxiv.org/abs/2503.18908

© 版权声明

相关文章

暂无评论

none
暂无评论...