机器之心 JIQIZHIXINmediumconfig v22

华为推出AI助手基准测试Claw-Anything,GPT-5.5得分仅34.5%

摘要与判断

华为及合作伙伴推出针对常驻个人AI助手的基准测试Claw-Anything,涵盖数月活动历史、多后端服务与跨设备交互,GPT-5.5在此测试中得分仅为34.5%。该基准暴露了当前顶级模型在处理长期复杂上下文时的局限,表明AI智能体距离实现真正的全天候主动协助仍有较大差距。

Topics

AI 开发者生态变化大模型公司新进展

引用和原文

Trace

Raw Item
raw_1b7a0e869b3d438c
Processed Item
processed_913943fa4b174580
Source
source_x_jiqizhixin
LLM Logs
llm_4ba41f50d62d4b69, llm_d02ca4278e884bd3
Coze Loop
7a5e7279f3f74d1ff337902182434eb4