Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling
该论文提出一种简单统一的扩展方法,使大语言模型在奥数级别推理任务中达到金牌水平。通过精心设计的训练策略和推理时扩展,模型在多个数学竞赛基准上取得突破性成绩,证明了无需复杂架构即可实现顶尖推理能力。
该论文提出一种简单统一的扩展方法,使大语言模型在奥数级别推理任务中达到金牌水平。通过精心设计的训练策略和推理时扩展,模型在多个数学竞赛基准上取得突破性成绩,证明了无需复杂架构即可实现顶尖推理能力。
本文提出Causal Forcing++,一种可扩展的少步自回归扩散蒸馏方法,用于实时交互式视频生成。该方法在保持高质量的同时大幅减少推理步骤,使实时视频生成成为可能,为游戏、虚拟现实等交互式应用开辟新路径。
本文提出自蒸馏智能体强化学习框架,让智能体通过自我对弈和知识蒸馏提升决策能力。该方法无需外部监督即可持续改进,在复杂任务中展现出超越传统RL的性能,为自主智能体训练提供了新范式。
SANA-WM提出一种高效的分钟级世界模型,采用混合线性扩散Transformer架构。该模型能在分钟级时间尺度上预测环境演变,为机器人规划和自动驾驶等需要长期预测的任务提供了强大工具。
MemLens是一个针对大型视觉语言模型的多模态长期记忆基准测试。它系统评估模型在长对话、跨会话任务中的记忆能力,揭示了当前模型在长期记忆方面的不足,为改进多模态AI的持久记忆提供了重要参考。
MemEye提出一个以视觉为中心的多模态智能体记忆评估框架。通过设计需要视觉记忆的任务,该框架全面测试智能体对视觉信息的存储和检索能力,为构建更可靠的视觉AI系统提供了评估标准。
Darwin Family提出一种基于MRI信任权重的进化合并方法,无需额外训练即可扩展语言模型的推理能力。通过智能合并多个模型权重,该方法在多个推理基准上取得显著提升,为模型集成提供了高效新思路。
本文全面综述了基于LLM的多智能体系统中的协作、失败归因和自进化机制。系统梳理了当前研究进展,分析了智能体间协作模式、错误诊断方法以及自我改进策略,为该领域未来研究提供了清晰路线图。
WildClawBench是一个面向真实世界长周期智能体评估的基准。它包含需要长时间规划和多步交互的复杂任务,填补了现有基准在评估智能体持久性和适应性方面的空白,对推动实用智能体发展具有重要意义。
STALE研究LLM智能体如何感知其记忆已失效的问题。通过设计需要检测信息过时的任务,该论文揭示了当前智能体在动态环境中维护记忆准确性的挑战,为构建更鲁棒的智能体记忆系统提供了洞见。