每日 AI 资讯 · 2026-05-18

#1 论文研究 HuggingFace Daily Papers · 2026-05-17 👍 144

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

该论文提出一种简单统一的扩展方法，使大语言模型在奥数级别推理任务中达到金牌水平。通过精心设计的训练策略和推理时扩展，模型在多个数学竞赛基准上取得突破性成绩，证明了无需复杂架构即可实现顶尖推理能力。

查看原文 → 全文留痕

#2 论文研究 HuggingFace Daily Papers · 2026-05-17 👍 85

本文提出Causal Forcing++，一种可扩展的少步自回归扩散蒸馏方法，用于实时交互式视频生成。该方法在保持高质量的同时大幅减少推理步骤，使实时视频生成成为可能，为游戏、虚拟现实等交互式应用开辟新路径。

查看原文 → 全文留痕

#3 论文研究 HuggingFace Daily Papers · 2026-05-17 👍 84

本文提出自蒸馏智能体强化学习框架，让智能体通过自我对弈和知识蒸馏提升决策能力。该方法无需外部监督即可持续改进，在复杂任务中展现出超越传统RL的性能，为自主智能体训练提供了新范式。

查看原文 → 全文留痕

#4 论文研究 HuggingFace Daily Papers · 2026-05-17 👍 70

SANA-WM提出一种高效的分钟级世界模型，采用混合线性扩散Transformer架构。该模型能在分钟级时间尺度上预测环境演变，为机器人规划和自动驾驶等需要长期预测的任务提供了强大工具。

查看原文 → 全文留痕

#5 论文研究 HuggingFace Daily Papers · 2026-05-17 👍 69

MemLens是一个针对大型视觉语言模型的多模态长期记忆基准测试。它系统评估模型在长对话、跨会话任务中的记忆能力，揭示了当前模型在长期记忆方面的不足，为改进多模态AI的持久记忆提供了重要参考。

查看原文 → 全文留痕

#6 论文研究 HuggingFace Daily Papers · 2026-05-17 👍 55

MemEye提出一个以视觉为中心的多模态智能体记忆评估框架。通过设计需要视觉记忆的任务，该框架全面测试智能体对视觉信息的存储和检索能力，为构建更可靠的视觉AI系统提供了评估标准。

查看原文 → 全文留痕

#7 论文研究 HuggingFace Daily Papers · 2026-05-17 👍 50

Darwin Family提出一种基于MRI信任权重的进化合并方法，无需额外训练即可扩展语言模型的推理能力。通过智能合并多个模型权重，该方法在多个推理基准上取得显著提升，为模型集成提供了高效新思路。

查看原文 → 全文留痕

#8 论文研究 HuggingFace Daily Papers · 2026-05-17 👍 44

本文全面综述了基于LLM的多智能体系统中的协作、失败归因和自进化机制。系统梳理了当前研究进展，分析了智能体间协作模式、错误诊断方法以及自我改进策略，为该领域未来研究提供了清晰路线图。

查看原文 → 全文留痕

#9 论文研究 HuggingFace Daily Papers · 2026-05-17 👍 41

WildClawBench是一个面向真实世界长周期智能体评估的基准。它包含需要长时间规划和多步交互的复杂任务，填补了现有基准在评估智能体持久性和适应性方面的空白，对推动实用智能体发展具有重要意义。

查看原文 → 全文留痕

#10 论文研究 HuggingFace Daily Papers · 2026-05-17 👍 39

STALE研究LLM智能体如何感知其记忆已失效的问题。通过设计需要检测信息过时的任务，该论文揭示了当前智能体在动态环境中维护记忆准确性的挑战，为构建更鲁棒的智能体记忆系统提供了洞见。

查看原文 → 全文留痕