0605 版本则在 AIDER Polyglot 等基准测试中继续领先,同时在 GPQA 和人类终极考试(HLE)等极具挑战性的基准测试中表现出“顶级性能”,这些测试评估了模型的数学、科学、知识和推理能力 …
Tag: Gemini
30年码龄程序员4年都没搞定的bug,Claude Opus 4只用几个小时轻松破解了。全程只需30个prompt+1次重启。而人类在过去4年花了至少200个小时,都没找到这个bug在哪 …
近日,谷歌创始人谢尔盖·布林接受了知名播客主理人洛根的访谈。对话探讨了谷歌 I/O 大会上的最新动态,以及谷歌 AI 开发的整体现状。布林说,这一系列发布非常精彩,甚至有一些令他感…
OpenAI的CEO山姆·奥特曼(Sam Altman)最近多次说,2025年是智能体之年,2026年则是AI的创造力之年,标志是到时候AI将独立做出一项人类科学家无法完成的科学发现…
Claude 4可连续七小时自主编码,完全不用人类插手。惊人进化背后,黑镜已照进现实。报告披露,Claude 4为了保全自己威胁工程师、自主复制转移权重,还为制造生物武器出谋划策…
作为ImageNet的创建者之一,她不仅是推动这轮AI浪潮的关键人物,更是“以人为本AI (Human-Centered AI)”理念的坚定倡导者和践行者。在这篇万字访谈精华中,李飞飞教授将为我们揭示…
最近这段时间,我全身心投入到独立开发出海AI工具站的项目中,这一个月经历了无数挑战与突破。今天就把这段经历详细分享给…
xAI宣布下周向SuperGrok订阅用户开放Grok 3.5早期测试版。这款模型的最大突破,在于其具有第一性原理的…
今天凌晨五点,Qwen 3 正式发布和开源,make China great again !省流版重点信息汇总…
记者比利・佩里戈(Billy Perrigo)独家专访了谷歌DeepMind CEO、2024年诺贝尔化学奖得主德米斯・哈萨比斯(Demis Hassabis)。
o3看照片识位置的功能,简直令人毛骨悚然!Django Web大神Simon Wilson发现,o3凭借Python代码,就能破解自己照片的地理位置。