Hugging Facemediumconfig v22
DeepSeek V4 Pro 经优化在法律基准测试追平 Sonnet 4.6,成本降至 1/7
摘要与判断
研究人员发布博客称,通过自动 harness 优化,成功将 DeepSeek V4 Pro 在复杂法律基准测试 LAB 上的全通过率从 0% 提升至 5%。这一优化不仅使其在法律任务上的表现追平了 Sonnet 4.6,还将成本大幅降低至后者的七分之一,为开发者在垂直领域提升模型性价比提供了新思路。
Topics
AI 开发者生态变化大模型公司新进展
引用和原文
Trace
- Raw Item
- raw_c890b10ca87043e3
- Processed Item
- processed_48e36274baca4c84
- Source
- source_x_huggingface
- LLM Logs
- llm_45e226f732714e96, llm_799af62ead7a4504
- Coze Loop
- 76bf286b3a0a0f8a4b9b8c0cabd56b39