机器之心 JIQIZHIXINmediumconfig v22

快手与中科院大学开源长上下文RL训练方案GoLongRL

摘要与判断

快手科技与中科院大学联合开源长上下文强化学习训练方案 GoLongRL，使用 23K 样本覆盖 9 类真实任务。该方案通过多任务对齐机制提升长文本处理能力，其模型在相关基准测试中追平 DeepSeek-R1 等头部模型，为开发者提供了新的长文本模型训练参考。

Topics

大模型公司新进展AI 开发者生态变化

引用和原文

Trace

Raw Item: raw_b5f6d27fcbf5480e
Processed Item: processed_e4f351ec86904276
Source: source_x_jiqizhixin
LLM Logs: llm_2db2a264deac4f8a, llm_a5b39fdd90764c12
Coze Loop: 276045212dff53193713b7c3f11268b1