2024年图灵奖获得者Richard S. Sutton教授做客第278期大师讲坛

2025.12.12 229

11月30日下午，闵行校区陈瑞球楼100号报告厅座无虚席，2024年图灵奖获得者Richard S. Sutton教授做客第278期大师讲坛，带来以《The Future of AI: The Era of Experience and the Age of Design》为题的报告。本次讲座由欧宝app官方网站下载研究生院主办，人工智能学院、计算机学院协办。

讲座由计算机学院特聘教授俞凯主持。

Sutton围绕强化学习的核心理念、挑战、应用展示及未来发展进行交流，他剖析了强化学习“互动探索、追长期累计奖励”的核心逻辑，对比监督学习的局限，详解延迟反馈等三大挑战与标杆案例，后深挖智能本质，呼吁理论研究者聚焦核心、深耕本源。他强调，研究者应保持长期、开放和宏大的视野，思考真正重要的问题，探索人工智能的根本能力。

讲座伊始，Sutton教授回到最本质的问题：为什么需要强化学习？他指出，与监督学习依赖静态标注数据不同，强化学习旨在解决真实世界中的难题，通过与环境互动、基于奖励信号不断调整策略，进而主动探索世界。Sutton教授强调，强化学习的核心目标，是学习一个从状态到动作的最优策略，使长期累积奖励最大化。

在讲述强化学习的优势与难点时，他特别指出三个长期存在的挑战：延迟反馈、探索与利用的平衡，以及环境的非平稳性。比如，一个智能体可能需要经历大量失败与试错才能收获一次奖励，而学习算法如何理解和归因这“间接成功”仍然是开放性问题。正是这种困难，凸显了强化学习在真实世界决策问题中的独特价值。相比大量依赖人工标注的监督学习，强化学习允许系统通过自身经验不断更新策略，从而在人类难以全面描述的复杂场景中展现强大适应性。这是强化学习独有的特征。随后，Sutton教授给予了几个生动的示例来演示强化学习：TD-Gammon、AlphaZero、AlphaGO、AlphaStar，这些里程碑展现了强化学习在博弈类场景中的巨大潜力。

讲座的后半部分，Sutton教授展开对“智能是什么”的哲学式反思。同时，Sutton教授提到了，作为RL的理论研究者，应该将目光放在“理解智能是什么”上，不应该被其他的例如应用等研究分心，这才是纯粹的理论研究者。

在提问环节中，Sutton教授使用幽默诙谐的方式对部分问题进行回答。他传达出“专注于理论研究”的理念，对部分相关度低的问题也耐心作出了解答和回应；同时也深入地讨论了有关于Intelligence的理念和观点。

讲座最后，俞凯代表交大师生向Sutton教授赠送了“大师讲坛|汇智大讲坛”纪念品，对Sutton教授的到访与精彩分享表示衷心感谢。

返回列表