每日 AI 资讯

2026-05-18
#3 论文研究 HuggingFace Daily Papers · 2026-05-17 👍 84

Self-Distilled Agentic Reinforcement Learning

本文提出自蒸馏智能体强化学习框架,让智能体通过自我对弈和知识蒸馏提升决策能力。该方法无需外部监督即可持续改进,在复杂任务中展现出超越传统RL的性能,为自主智能体训练提供了新范式。