Hugging Facehighconfig v22

NVIDIA 开源双塔架构扩散语言模型，推理速度提升 2.42 倍

摘要与判断

NVIDIA 正式开源基于双塔架构的扩散语言模型 Nemotron-Labs-TwoTower，通过将 30B 模型拆分为上下文解析与并行生成两个独立模块，打破了传统自回归模型的效率瓶颈。该模型在保留基线 98.7% 生成质量的同时，将推理速度显著提升 2.42 倍。这一创新为开发者提供了兼顾高质量与高吞吐量的大规模文本生成新方案，并已开放权重允许商业二次开发。

Topics

大模型公司新进展AI 开发者生态变化

引用和原文

We took a 30B model and split it in two to write tokens in parallel instead of one at a ti
原文链接

Trace

Raw Item: raw_ce887fc0dd2242cd
Processed Item: processed_a4c4b17d9f784895
Source: source_x_huggingface
LLM Logs: llm_431d8817237d4277, llm_6436db00e9fa4040, llm_114271784285424d
Coze Loop: 275c52cbd69ef50adc7f23a12222a707