0605 版本则在 AIDER Polyglot 等基准测试中继续领先,同时在 GPQA 和人类终极考试(HLE)等极具挑战性的基准测试中表现出“顶级性能”,这些测试评估了模型的数学、科学、知识和推理能力 …
Tag: Claude
AI coding 这条 AI 行业今年的主线,在最近这段时间愈发清晰。除了上周刷屏的编程新王 Claude Opus 4 ,新版 DeepSeek R1 也把更新重点也放在了代码能力 …
30年码龄程序员4年都没搞定的bug,Claude Opus 4只用几个小时轻松破解了。全程只需30个prompt+1次重启。而人类在过去4年花了至少200个小时,都没找到这个bug在哪 …
Claude 4可连续七小时自主编码,完全不用人类插手。惊人进化背后,黑镜已照进现实。报告披露,Claude 4为了保全自己威胁工程师、自主复制转移权重,还为制造生物武器出谋划策…
人工智能公司 Anthropic 本周四正式推出 Claude 4 大模型,其连续工作时长可达7小时,接近人类完整的工作班次。该模型分两个版本——Claude Opus 4和Claude Sonnet …
当地时间5月19日,微软在西雅图举办的年度软件开发者Build大会上宣布,将在该公司自有数据中心提供包括xAI、Meta以及Mistral等公司开发的全新人工智能模型。当天,微软还发布了一款能…
最近这段时间,我全身心投入到独立开发出海AI工具站的项目中,这一个月经历了无数挑战与突破。今天就把这段经历详细分享给…
今天凌晨五点,Qwen 3 正式发布和开源,make China great again !省流版重点信息汇总…
o3看照片识位置的功能,简直令人毛骨悚然!Django Web大神Simon Wilson发现,o3凭借Python代码,就能破解自己照片的地理位置。