AI DAILY BRIEF · EVENT NOTES · 2026.05.29 for AI era builders

EDITORIAL BRIEF

AI 行业简报 2026-05-29

今天筛出 9 个事件:大厂动态 5 条,技术进展 4 条,行业观点 0 条;另读 Hugging Face Papers 5 篇。

A

大厂动态

AI 公司动态 · 模型发布 · 新业务 · 融资投资 · 人员变动

01
DeepSeek 模型/产品发布 36Kr AI

DeepSeek:科氪

科氪。这是中国模型厂商的有效信号,关键是能力变化能否进入稳定产品体验。

打开原文
B

技术进展

Hugging Face · 技术报告 · 论文 · Benchmark · RL 研究

HF PAPERS

Hugging Face Papers 速读

查看当天论文

逐篇读取当天 paper 页面,由 qwen3.6-plus 生成中文摘要。

01

基于修正策略梯度估计的主动推荐强化学习 (ProRL)

提出ProRL框架,通过逐步奖励中心化与位置特定优势估计,修正主动推荐中策略梯度的偏差与高方差问题。

提升推荐系统通过中间路径引导用户偏好的长期优化能力,为序列决策任务提供更稳定的强化学习基线。

推荐系统强化学习策略梯度
02

从像素到词语:迈向原生单视觉大模型 (NEO-ov)

提出NEO-ov原生视觉语言模型,摒弃外部编码器与适配器,实现端到端跨帧与像素-词对应学习。

打破多模态模型模块化拼接瓶颈,为视频理解与细粒度视觉感知提供统一且可扩展的原生架构范式。

多模态大模型原生架构视频理解
03

基于双向进化搜索的自改进语言模型

提出双向进化搜索框架,结合前向轨迹重组与后向目标分解,生成高质量候选解以突破传统搜索限制。

为模型推理与智能体系统提供密集反馈与更广探索空间,显著提升复杂任务的自我优化能力。

搜索算法自改进模型智能体推理
04

ResearchMath-14k:基于智能体扩展前沿数学研究

构建1.4万道前沿数学题与22万条推理轨迹,经智能体过滤微调后显著提升模型解题表现。

填补科研级数学数据空白,证明未完全正确的开放问题尝试仍可作为有效监督信号推动模型进化。

数学推理数据集构建智能体流水线
05

DenoiseRL:引导推理模型从噪声前缀中恢复

提出DenoiseRL框架,将弱模型的错误推理轨迹转化为优化信号,无需强监督即可提升大模型推理与训练效率。

降低对昂贵数据与强教师模型的依赖,为大规模提升LLM推理与自我纠错能力提供高效可扩展路径。

强化学习大语言模型推理优化
04
AI Agent/开发者基础设施 TechCrunch AI

The internet is being rebuilt for machines

The internet is being rebuilt for machines。它说明 Agent 能力正在向工程化落地推进,真正的门槛会落在权限、评测和错误恢复上。

打开原文
C

行业观点

X 大 V · YouTube / Podcast · Builder 观察 · 开发者讨论

今天没有足够明确的入选事件,先空着。