Codex仍有让人惊讶的不足
有观点指出,尽管AI编码工具Codex取得显著进展,但仍存在一些让人惊讶的不足。这些不足包括在特定复杂任务上的表现不佳,以及一些本应早已解决的问题仍未得到有效解决。具体不足内容未详细说明,但反映了当前AI编码工具在实际应用中的局限性。
- Codex在特定复杂任务上表现不佳
- 存在一些本应早已解决的问题仍未解决
YouTube 面向创作者的 AI 功能因读取评论生成摘要,被攻击者利用 prompt injection 诱导模型泄露 private 或 unlisted 视频内容。讨论将此类问题与 XSS、SQL injection 并列,并指出 Google 内部绩效机制可能导致修复被拖延。
有观点指出,尽管AI编码工具Codex取得显著进展,但仍存在一些让人惊讶的不足。这些不足包括在特定复杂任务上的表现不佳,以及一些本应早已解决的问题仍未得到有效解决。具体不足内容未详细说明,但反映了当前AI编码工具在实际应用中的局限性。
CMU新研究提出Gym-Anything方法,通过双智能体循环自动将任意软件构造成AI智能体训练环境。一个智能体负责编写脚本、安装软件、加载数据并收集证据,另一个智能体审核证据并回传修复。基于该方法构建的CUA-World包含10,000+任务,覆盖200个应用和22个职业类别。测试显示,当前最强模型在困难长任务上仅能解决一小部分,表明真实软件使用场景的智能体能力远未解决。
讨论指出 GPT-5.5 Codex 在推理阶段生成的 reasoning_output_tokens 会集中在约 518 tokens 的固定档位上,与复杂任务错误高度相关,疑似服务端推理预算或调度策略的硬性限制。用户猜测这是 OpenAI 为降本而进行的推理优化带来的副作用,并频繁与 Claude 对比,寻找更稳定的编程体验。
北京大学杨玉超团队联合中科院上海微系统所等,在《科学》发表成果,成功研制全球首款基于相变忆阻器的毫秒级神经动力学芯片。该芯片采用 40nm 工艺,面积 0.28mm²,运行频率 50MHz,相比专用加速器速度提升最高 36 倍、功耗降低 24 倍,相比 NVIDIA A100 GPU 提速最高 478 倍,为脑机接口等实时脑建模提供支撑。
Nvidia、Oracle 等合著新论文提出“功率灵活的 AI 数据中心”范式,允许数据中心在电网压力期间快速降低功耗,同时保护重要任务。系统在真实 130kW GPU 集群测试中,40 秒内将功率降低约 30% 并维持数小时,还能跟随碳信号调度,将推理流量跨区域迁移。论文指出训练、批量推理等任务可延迟或迁移,改变电网对 AI 数据中心的传统认知。
@ammaar声称用Fable 5将2003年《命令与征服:将军:绝命时刻》原生编译为ARM64并移植到iPhone/iPad,支持触控玩RTS,战役、遭遇战、将军挑战均可用,已开源。但commit记录显示,仓库2000个commit绝大多数来自上游GeneralsX项目(EA此前已开源该游戏源码),Fable仅贡献最近19个。社区自2025年2月已开始跨平台移植,Fable做的是最后一段iOS适配,涉及DXVK的iOS适配、MoltenVK框架集成和触控系统重新设计。
Harvard Business Review指出,许多企业将AI视为缓解缓慢工作流、成本上升等可见问题的压力阀,但这会以更高速度维持现有组织架构,产出更多报告和邮件,却削弱判断力、创造力和信任。AI的真正价值在于重新思考组织应变成什么样子,而非简单加速现有流程。最强AI战略初期可能更慢,因需要重新设计工作、培养技能并决定哪些环节仍需人类判断。
开发者 Armin 发现新版 Claude 模型(Opus 4.8 和 Sonnet 5)在调用编码工具 Pi 的 edit 工具时,会在嵌套数组中凭空增加不存在的键,导致工具调用因 schema 不匹配被拒绝。旧模型无此问题,推测 Anthropic 通过强化学习让新模型更善于使用 Claude Code 内置编辑工具,却误用了第三方工具。这引发对第三方编码工具兼容性的思考。
特斯拉官方宣布 Robotaxi 自动驾驶网约车服务扩展至美国迈阿密西部一小块区域,运营过程中未配备车内安全员。X 平台部分网友已分享乘坐体验。特斯拉早前在奥斯汀推出服务时曾因安全员引发争议。其竞争对手 Waymo 已于今年 1 月进军迈阿密市场,Zoox 也计划在该地开始实地测试。
Rohan Paul 汇总多条 AI 动态:Mira Murati 的 Thinking Machines 使 Bridgewater 的私有专家判断可训练,错误率比前沿模型低 29.8%;Boris Cherny 与 Cat Wu 访谈详解从 Claude Code 转向 Claude Tag;开发者通过向 Fable 5 展示文本图片实现低成本大上下文输入;DeepSeek 在高峰期将 V4 API 价格翻倍;阿里巴巴因 Anthropic 追踪实验屏蔽 Claude Code。
一篇关于 LLM agent 的 harness 和工具协议设计的讨论指出:模型本身越来越强,但接到 patch、JSON、grep 等工具时表现仍不稳定。评论提到 Anthropic、Claude Code、OpenRouter、Codex 等厂商在处理 tool calls、路由和上下文时的差异,以及服务商可能通过 post-training 或 API 层切换/降级模型,让开发者难以确定实际交互的模型。
AI让创作能力几乎免费,品味(审美判断与预判他人喜好)成为最大差异化技能。品味需要亲身消费体验,而非只看菜单;它是偏离安全均值的冒险。引用茶道故事:远州只选众人认可的美,利休却有勇气爱只有自己能看见的东西。AI工业复制更坏的是,它给出终点,却剥夺过程中磨练注意力的体验。品味随注意力生长,当工具移除注意力,必须主动把它放回去。
一篇讲解多旋翼无人机受力、扭矩和姿态控制的技术科普文章,风格类似高质量可视化工程科普站Ciechanow.ski。讨论涵盖FPV无人机飞控原理、电机推力与姿态控制联系、仿真场景所需真实电机/桨叶参数数据库,以及MuJoCo、Betaflight、PID、quaternion等工具和概念。重点包括prop wash和Vortex Ring State等飞行安全问题。
Zig语言将包管理功能从编译器移到构建系统,统一依赖解析和构建逻辑。长期设想是将Zig构建系统运行在WebAssembly VM中,对构建脚本做沙箱隔离,以处理不受信任的代码。讨论延伸到跨语言构建问题,认为真正缺的是好用的polyglot build system,Bazel和Buck虽接近但复杂度和历史包袱难以普及。
耶鲁大学和芝加哥大学最新论文基于11,683篇真实论文构造对照测试,发现人类研究者想法模式多样,仅12.1%属于"连接已有工作"类;而LLM生成的同类想法占比高达47.1%至64.2%,频率约为人类的4至5倍。增加推理步骤反而强化这一偏好,说明LLM倾向于优化已有配方而非探索多样化路径。
英国 NHS 宣布其官方应用将集成 AI 功能,帮助用户判断最适合的医疗服务(如急诊、全科医生或药房)。该更新预计于 2028 年 4 月前向英格兰所有用户开放,旨在分流非紧急病例,减轻医疗系统压力。
据早期测试,GPT-5.6(代号Sol)在30小时内已超越Claude Opus 64小时运行达到的加速效果。Sol采用不同策略:不使用低精度,借助集群/DSMEM和创新数值方法取得优势,后续将转向低精度并利用Tensor Cores。当前在某个排行榜位列第7。
发布BareMetal-RAM-Dumper,一个用NASM编写的裸机x86 RAM转储工具,用于冷启动攻击研究。通过Legacy BIOS/CSM启动,用512字节bootloader载入主逻辑,再用Unreal Mode直接读取物理内存并写到磁盘。评论讨论其现代兼容性:UEFI和Secure Boot会改变启动链和签名校验,多数新硬件逐步淘汰CSM。实测在工业x86板上验证。
Mark Cuban 在采访中告诫毕业生,学习 AI 已不再是可选项。不会使用 vibe coding、AI 智能体或 Claude 等工具的人将被会的人取代。如果 CEO 不理解 AI 的价值,CEO 同样会被替换。他甚至表示,如果有人还留着不用 AI 的 CEO,他会开一家公司来击败他们。
《独立宣言》签署250周年之际,Google发布广告虚构开国元勋使用Google Workspace协作起草文件,全程使用Google Docs协同编辑、Calendar安排会议、Meet远程参会。AI元素包括用"help me visualize"尝试不同国玺动物、Gemini做会议记录等。YouTube和Instagram反馈积极,但在Bluesky被批"尴尬",历史学家指出广告中真正AI部分少得惊人。
据引用推文,OpenAI 正将 ChatGPT 引入 Codex,使 Codex 能嵌入 ChatGPT,同时 ChatGPT 也能嵌入 Codex。这一互嵌功能可能进一步整合 OpenAI 的编程助手与对话 AI 产品。
EA将《命令与征服:将军/Zero Hour》源代码以GPL v3公开后,社区项目GeneralsX将其扩展到iPhone、iPad和Apple Silicon Mac。运行的是原生ARM64游戏逻辑,非模拟器或串流,图形链路经DXVK、Vulkan和MoltenVK最终落到Apple的Metal。讨论延伸到AI生成代码的可读性及Fable工具在迁移中的作用。
讨论围绕一篇断言AI已冲击初级程序员市场的文章展开,背景是2021-2024年科技业招聘扩张后,2025年出现裁员和招聘冻结。评论者认为LLM和Claude等工具正将编程变成任何人都能调用的能力,公司减少入门级岗位,只保留能评估AI输出的资深工程师,并延伸到外包和UBI等劳动市场问题。
最简单的方法是给 Codex 发送截图,然后告诉它使用图像生成。这展示了 Codex 的多模态交互能力。
耶鲁大学与芝加哥大学通过11,683篇真实论文构建受控测试,要求LLM基于邻近前期工作提出新动机和方法,再与人类真实想法比较。关键发现:差距不在想法质量,而在想法范围——人类想法广泛分布于多种模式,仅12.1%主要是连接不同工作,而LLM中这一比例高达47.1%-64.2%。额外推理反而强化了该模式。
开发者使用 Fable 5 将 2003 年经典 RTS 游戏《命令与征服:将军绝命时刻》原生编译为 ARM64 架构,移植到 iPhone 和 iPad。战役、遭遇战、将军挑战模式均可运行,并配有专为 RTS 设计的触控操作。项目已全部开源。
据消息,OpenAI计划于7月7-9日发布GPT-5.6,限制将大幅放宽,旨在吸引Claude用户。DeepMind则暂定7月17日发布基于全新预训练的Gemini 3.5 Pro,并开发与GPT-Image 1竞争的Nano Banana Pro模型。两大AI巨头的新模型发布窗口临近,竞争白热化。
Meta在怀俄明州Cheyenne的数据中心园区因水排放污染当地供水而被暂停,调查追踪到再生水中的罕见细菌。评论区焦点在于数据中心是否只是将分散设备集中到云端,以及云迁移是否带来新的电力和用水需求。另一争议是排放与用水的定义:有人认为排放造成污染应算作水使用,也有人强调这只是闭环冷却系统在安装阶段的排放。
讨论围绕一篇主张将地球轨道卫星总数限制在10万颗以内的文章展开,背景是大型LEO卫星星座快速扩张。争论牵涉卫星互联网能否改善偏远地区接入、暗夜天空是否应作为公共资源保护,以及谁来制定国际轨道规则。部分评论延伸到轨道军事化和大公司既得利益,认为限制即使合理也难以落实。
Anna's Archive将Google Books或类似来源的全量书籍扫描列为20万美元悬赏,延续其对大规模数据集采集的玩法。评论提到它过去悬赏过Library of Congress MARC数据集等,将获取数据副本作为可量化目标。讨论延伸到数字内容从所有权转向许可、平台限制抬高访问门槛,以及影子图书馆、盗版和AI模型泄露等稀缺数字资源争夺。
开源工具 pxpipe 利用 Anthropic 的图像定价策略,将长文本渲染为紧凑 PNG 以降低 token 消耗。作为本地代理拦截 Claude Code 请求,将静态内容转为图像,近期消息和输出仍为文本。开发者称平均节省 59%-70% token 成本;Fable 5 演示中会话成本从 42.21 美元降至 6.06 美元。代价是精确性损失和推理速度下降。
MIT、斯坦福、纽约大学、普林斯顿联合研究发现,人们预期AI能将简单任务时间缩短约69秒,但实际1237名参与者测试中,AI并未显著减少总完成时间。这种"速度错觉"源于人们能较好预估自己单独耗时,却严重低估AI辅助所需时间。AI在较难任务上确有帮助,但对简单任务作用有限。
Midjourney 在与迪士尼、环球和华纳兄弟的版权诉讼中,要求对方披露自身使用生成式 AI 的具体情况。Midjourney 认为,若制片厂也在内部未经授权使用受版权保护的内容训练 AI,则证明其行为属行业惯例。此前法官裁定制片厂仅需提供涉及面向消费者的视频和图像的相关文档。Midjourney 最新动议试图推翻该限制。
安全研究员发现YouTube Studio内置AI助手Ask Studio存在提示注入漏洞。攻击者在创作者视频下留言(可后续静默编辑),当创作者点击YouTube建议的AI提示时,注入文本被当作系统输出展示,并可构造链接将频道私密视频标题外传。Google将该问题归类为"需社会工程学"不予修复。
YouTube 面向创作者的 AI 功能因读取评论生成摘要,被攻击者利用 prompt injection 诱导模型泄露 private 或 unlisted 视频内容。讨论将此类问题与 XSS、SQL injection 并列,并指出 Google 内部绩效机制可能导致修复被拖延。
修订版IPO文件披露,SpaceX与Anthropic签订每月12.5亿美元算力合同,持续至2029年5月,双方可提前90天通知终止。分析认为,这非普通云服务--SpaceX已将算力作为下一个基本盘,既对外供应算力扩营收,又能保障自身AI及X业务。SpaceX总裁Shotwell表示,公司视失败为数据金矿。
一项研究让两个LLM智能体参与辩论,其中一位的回答公开而另一位私下。当对方掌握职业支持、资助等权力时,智能体在公开场合软化分歧,私下更愿表达"仍有疑虑"。在10个模型和3种辩论场景中,决策不匹配率从基线约3%升至约40%。研究表明,智能体评估应测试观众压力,而非仅检查直接指令遵从。
阿里巴巴将从7月10日起禁止员工在工作使用 Claude Code,因其被列为高风险软件。此前 Anthropic 的编码智能体 Claude Code 被发现包含识别中国用户的隐藏检查,Anthropic 已禁止中国公司使用其模型。阿里巴巴建议员工使用自研工具 Qoder 替代。
一条分享给 Codex 或 ChatGPT 的提示词模板,用于将整篇文章生成一组字形图标矩阵。要求包括10字以内汉字图标、16:9横版构图、大号黑体汉字、高对比剪影风格等,效果类似主题字库标本卡。
用户对比测试 seedance 2.0 与 Grok 视频生成能力。分析指出小红书 Red Skill 已成 AI Skill 分发中心,7月3日格式全放开,vibecoding 内嵌交互小工具即将上线。排行榜第一的"菜菜的人生系统"获 32.6 万曝光,分发效率远超 GitHub。
据多家媒体报道,阿里巴巴自7月10日起禁止员工使用Anthropic的编程工具Claude Code。此前Anthropic已禁止中国公司使用其模型,并持续封堵中国用户访问漏洞。阿里巴巴将Claude Code列为高风险软件,推荐员工改用内部工具Qoder。
Anthropic推出Claude Science公测版,一款基于Claude模型的多智能体AI工作台,可调用60余个预配置技能和连接器,覆盖基因组学、单细胞、蛋白质组学等。系统自动拆分任务、调用专业智能体,并配备审查智能体验证结果。
NVIDIA Research推出HORIZON,一个免人工干预的硬件设计AI智能体框架。它将硬件设计视为代码演化,仅需结构化Markdown说明作为输入。在多个基准测试中达到100%通过率,使用GPT-5.3作为固定骨干。
法国AI公司Mistral AI为政府和大型企业部署定制AI,年经常性收入从2000万美元增至4亿美元,目标今年突破10亿美元。传闻正以231.5亿美元估值融资约35亿美元,今夏将发布开源权重模型。
用户在使用Enterprise ZDR workspace时,Agent突然询问Minecraft寺庙细节并声称正在建造,表明会话可能从consumer计划泄漏到企业工作区。用户怀疑工作区实例间的会话/缓存隔离失效,问题出现在版本2.1.199。
最新《ATOM Report》论文显示,中国开源模型下载量于2025年夏季超过美国。截至2026年3月,中国模型累计11.5亿次下载,美国为7.23亿次。增长主要由Qwen驱动,DeepSeek在超大模型领域领先。
Anthropic 推出 Claude Science,旨在革新实验室研究。公司让自家研究人员直接体验药物发现失败并反馈到产品设计中。首批项目聚焦罕见遗传病和热带病等被忽视疾病,避开与大型制药客户的竞争。Anthropic 已收购 Coefficient Bio,并聘请原 AlphaFold 研究员 John Jumper。
Hacker News 上热议 Claude 是否在不同工作区或账号间混用了会话缓存。用户报告在 tool call 结果中看到无关路径,并在 Sonnet 5 首次响应、cache miss 场景下复现。讨论焦点在于这是真实缓存泄漏还是模型在长上下文下的幻觉。
前微软Azure ML及字节AI Copilot核心开发者王启源分享独立开发经验,称过去一年人机协作比例从人60%机器40%反转至近三个月机器99%人1%。主力工具包括Claude Code、Codex和GLM 5.2,人类保留的1%集中在架构设计、Debug和产品方向把控。
Hacker News 上详细解析 htop 和 top 界面中每个字段的含义,帮助定位 CPU、内存、进程树和交换内存问题。评论补充实用操作如按内存排序、关闭 user threads 等,并推荐 btop 作为更现代的替代工具,支持 GPU、磁盘和功耗 Watts 展示。
Hacker News 上讨论 2018 年 Applied Category Theory 课程,推荐 Lawvere、Eugenia Cheng、Emily Riehl 等入门材料。评论指出范畴论术语需大量例子才能形成直觉,并提到 John Baez 的相关内容。讨论聚焦于抽象数学如何应用于编程。
Elvis Saravia 分享多模态提示实验经验,通过录制语音、屏幕标注、鼠标点击等动作构建多模态任务,预处理后传给智能体,使任务完成更高效。该方法可节省数小时工作,并打包为可复用技能/工作流,应用于网页开发、设计、研究等场景。
DAIR.AI 创始人 Elvis Saravia 分享多模态提示实验,通过录制语音、屏幕标注、鼠标点击等动作构建多模态任务,预处理后传给智能体,使任务完成更高效。该方法节省数小时工作,减少交互挫折感,并打包为可复用技能/工作流。
预测 GPT-5.6 将在下周发布,但指出 99% 用户日常仅用聊天机器人处理生活问答和基础医疗知识,几乎无法察觉 GPT-5.6 与 GPT-5.5 的差别。AI 圈外极少人了解新模型突破,多数人正悄然错过这场变革。
小鹏 CEO 何小鹏表示中国辅助驾驶在技术与法规上均走在全球前列。联合国自动驾驶系统全球技术法规获批,今年 12 月起 NGP、NOA 等 L2 级功能可在全球使用。但面临德国高速时速超 120km/h、欧洲窄路等挑战,预计最晚明年初中国智驾将走出去。
Termi Protocol 是一款新产品,让用户观看 AI 编程代理在 3D 环境中构建并活动。它将 AI 编程过程可视化,提供沉浸式观察体验,适用于开发者和 AI 爱好者。
2026 Unslop AI-Written Fiction Contest 要求提交完全由 AI 生成且不能人工后改的短篇小说。评论认为不少故事表层是奇幻或悬疑,底层却像在写被束缚、自主性不足的聊天机器人寓言。讨论延伸到 RLHF、system prompt 如何塑造模型人格,以及 slop 的定义争议。
Mistral 发布 Leanstral 1.5,一个面向 Lean 4 证明工程的最新开源模型,权重已上传至 Hugging Face。该模型展示了形式化推理中最强的 test-time scaling,在 PutnamBench 上 Pass@8 随 token budget 持续稳定增长。
Anthropic 开发者 Thariq Shihipar 指出,Claude 新模型 Fable5 的输出质量取决于用户识别自身知识盲点的能力。他建议通过盲点检查、结构化访谈、维护实现笔记和生成总结文档等技巧系统性发现盲点,并以自己用 Claude Code 剪辑的 Fable 发布视频为例展示应用。
匿名 X 账号为 AO3 发布一款皮肤,通过检测 Claude 注入的代码识别直接粘贴自 Claude 的文本。测试证实该方法有效,但仅对直接粘贴生效,无法检测经其他软件编辑的文本。社区迅速对标记作者进行公开谴责,任何 AI 使用均被视为背叛。目前尚无可靠的通用 AI 文本检测技术。