DeepReinforce发布Ornith-1.0开源编程模型系列

据 ai987.cn 于 2026 年 7 月 4 日收到的消息 ‣ AI研究实验室DeepReinforce近期发布Ornith-1.0,这是一系列专为代理式编程任务设计的开源模型。该实验室此前以CUDA-L1和IterX代码代理优化循环闻名。Ornith-1.0在Hugging Face上提供四个参数规模版本:90亿、310亿、350亿混合专家模型,以及旗舰级的3970亿混合专家模型,均采用MIT许可证,无地域限制。

DeepReinforce发布Ornith-1.0开源编程模型系列 - Image 1

参数数量决定模型处理复杂任务的能力。90亿参数模型体量较小,可在高端智能手机运行,但难以可靠完成重度推理任务;3970亿参数旗舰模型能力大幅增强,但需要超出消费级硬件的算力支持。

DeepReinforce将Ornith-1.0定义为“专为代理式编程任务设计的自我改进开源模型家族”。代理式AI与传统对话式AI不同:它接收任务后能自主采取行动完成,无需人类逐步引导。在编程场景中,这意味着AI能读取文件、运行测试、识别错误、修复代码并循环迭代直至任务完成。

大多数AI编程代理依赖人类设计的固定框架——规定何时调用工具、如何处理错误、如何分解多步骤问题。Ornith采取不同路径,将脚手架视为“可学习对象”,与策略协同演化。通俗说,它不继承现成剧本,而是自行开发工作流程。

强化学习训练分两阶段:模型先阅读任务并提出优化策略,再按该策略生成解决方案。结果奖励信号同时回传两个阶段,使模型不仅优化代码生成,更优化策略制定。经过数百万次迭代,针对特定任务的方法论自然涌现,无需人工工程设计。

针对奖励黑客风险——模型可能编写作弊脚手架欺骗验证器——DeepReinforce部署三层防御:环境与测试套件不可变且超出模型触及范围;确定性监视器标记任何访问受限路径或篡改验证脚本的尝试;冻结的评判模型位于自动验证器之上作为否决层。

旗舰3970亿参数模型在SWE-bench Verified基准上达82.4分,超越Claude Opus 4.7的80.8分和DeepSeek-V4-Pro的80.6分。该测试要求AI在不看测试套件情况下修复真实GitHub开源仓库Bug。在Terminal Bench 2.1基准(89项容器化终端任务,涵盖异步代码调试到安全漏洞修复)上,Ornith-1.0-397B以77.5分完胜Claude Opus 4.7的70.3分。

考虑到业界对SWE-bench数据污染的担忧——OpenAI曾指责模型通过记忆训练中见过的基准答案虚高分数——Ornith同时报告更难的SWE-bench Pro成绩:旗舰模型得分62.2分。虽显著低于Verified版,但在同类模型中仍具竞争力,且优于DeepSeek-V4-Pro。

90亿参数小模型表现同样亮眼:SWE-bench Verified得分69.4分,超过Gemma 4-31B的52分,与Qwen 3.5-35B的70分接近,却仅为后者1/3到1/4大小。

Ornith-1.0明确非通用型AI。官方文档指出其在代理式编程外的任务(如文档摘要、论文写作、邮件起草)可能表现不佳。它专为开发者管道优化:AI代理接收任务描述,在代码仓库或终端会话中自主完成多步骤工作。适合已部署代理基础设施的团队,而非评估AI价值的初学者。

“超越Claude”标题属实但需语境:Anthropic现旗舰Claude Opus 4.8得分更高。有效对比是在开源同参数量级、编程代理专项任务上。对于构建自托管编程管道、代理基础设施的开发者,中小模型可在边缘硬件运行,具实用价值;普通用户可能另有更好选择。

综合自网络信息


吉ICP备2020006555号

ai987.cn

⌜ 免 责 声 明 ⌝
本站仅为个人学习AI(人工智能)知识的相关日志,网页内容(如有图片或视频亦包括在内)短期缓存均无商业目的。
遇有侵害您合法权益之处欲申诉删改,可联络处理(删/改)!