ai987.cn

智哥的个人AI技能学习日志

DeepReinforce发布Ornith-1.0开源编程模型系列

2026-07-04

Written by

据 ai987.cn 于 2026 年 7 月 4 日收到的消息 ‣ AI研究实验室DeepReinforce近期发布Ornith-1.0，这是一系列专为代理式编程任务设计的开源模型。该实验室此前以CUDA-L1和IterX代码代理优化循环闻名。Ornith-1.0在Hugging Face上提供四个参数规模版本：90亿、310亿、350亿混合专家模型，以及旗舰级的3970亿混合专家模型，均采用MIT许可证，无地域限制。

DeepReinforce发布Ornith-1.0开源编程模型系列 - Image 1

参数数量决定模型处理复杂任务的能力。90亿参数模型体量较小，可在高端智能手机运行，但难以可靠完成重度推理任务；3970亿参数旗舰模型能力大幅增强，但需要超出消费级硬件的算力支持。

DeepReinforce将Ornith-1.0定义为“专为代理式编程任务设计的自我改进开源模型家族”。代理式AI与传统对话式AI不同：它接收任务后能自主采取行动完成，无需人类逐步引导。在编程场景中，这意味着AI能读取文件、运行测试、识别错误、修复代码并循环迭代直至任务完成。

大多数AI编程代理依赖人类设计的固定框架——规定何时调用工具、如何处理错误、如何分解多步骤问题。Ornith采取不同路径，将脚手架视为“可学习对象”，与策略协同演化。通俗说，它不继承现成剧本，而是自行开发工作流程。

强化学习训练分两阶段：模型先阅读任务并提出优化策略，再按该策略生成解决方案。结果奖励信号同时回传两个阶段，使模型不仅优化代码生成，更优化策略制定。经过数百万次迭代，针对特定任务的方法论自然涌现，无需人工工程设计。

针对奖励黑客风险——模型可能编写作弊脚手架欺骗验证器——DeepReinforce部署三层防御：环境与测试套件不可变且超出模型触及范围；确定性监视器标记任何访问受限路径或篡改验证脚本的尝试；冻结的评判模型位于自动验证器之上作为否决层。

旗舰3970亿参数模型在SWE-bench Verified基准上达82.4分，超越Claude Opus 4.7的80.8分和DeepSeek-V4-Pro的80.6分。该测试要求AI在不看测试套件情况下修复真实GitHub开源仓库Bug。在Terminal Bench 2.1基准（89项容器化终端任务，涵盖异步代码调试到安全漏洞修复）上，Ornith-1.0-397B以77.5分完胜Claude Opus 4.7的70.3分。

考虑到业界对SWE-bench数据污染的担忧——OpenAI曾指责模型通过记忆训练中见过的基准答案虚高分数——Ornith同时报告更难的SWE-bench Pro成绩：旗舰模型得分62.2分。虽显著低于Verified版，但在同类模型中仍具竞争力，且优于DeepSeek-V4-Pro。

90亿参数小模型表现同样亮眼：SWE-bench Verified得分69.4分，超过Gemma 4-31B的52分，与Qwen 3.5-35B的70分接近，却仅为后者1/3到1/4大小。

Ornith-1.0明确非通用型AI。官方文档指出其在代理式编程外的任务（如文档摘要、论文写作、邮件起草）可能表现不佳。它专为开发者管道优化：AI代理接收任务描述，在代码仓库或终端会话中自主完成多步骤工作。适合已部署代理基础设施的团队，而非评估AI价值的初学者。

“超越Claude”标题属实但需语境：Anthropic现旗舰Claude Opus 4.8得分更高。有效对比是在开源同参数量级、编程代理专项任务上。对于构建自托管编程管道、代理基础设施的开发者，中小模型可在边缘硬件运行，具实用价值；普通用户可能另有更好选择。

综合自网络信息

⌜ 免责声明 ⌝
本站仅为个人学习AI（人工智能）知识的相关日志，网页内容（如有图片或视频亦包括在内）短期缓存均无商业目的。
遇有侵害您合法权益之处欲申诉删改，可联络处理（删/改）！

DeepReinforce发布Ornith-1.0开源编程模型系列

More posts

AI工具赋能创业变现 多元策略助力盈利增长

DeepReinforce发布Ornith-1.0开源编程模型系列

多家科技巨头发布新一代专用AI模型 聚焦多模态与智能体应用

2025年全球AI初创融资达2020亿美元 人形机器人与基础模型成热点

AI工具赋能创业变现多元策略助力盈利增长

多家科技巨头发布新一代专用AI模型聚焦多模态与智能体应用

2025年全球AI初创融资达2020亿美元人形机器人与基础模型成热点