Hugging Facemediumconfig v22

DeepSeek V4 Pro 经优化在法律基准测试追平 Sonnet 4.6，成本降至 1/7

摘要与判断

研究人员发布博客称，通过自动 harness 优化，成功将 DeepSeek V4 Pro 在复杂法律基准测试 LAB 上的全通过率从 0% 提升至 5%。这一优化不仅使其在法律任务上的表现追平了 Sonnet 4.6，还将成本大幅降低至后者的七分之一，为开发者在垂直领域提升模型性价比提供了新思路。

Topics

AI 开发者生态变化大模型公司新进展

引用和原文

New blog post on harness optimization. We hit Sonnet 4.6 performance with a 7x cost improv
原文链接

Trace

Raw Item: raw_c890b10ca87043e3
Processed Item: processed_48e36274baca4c84
Source: source_x_huggingface
LLM Logs: llm_45e226f732714e96, llm_799af62ead7a4504
Coze Loop: 76bf286b3a0a0f8a4b9b8c0cabd56b39