2024年图灵奖获得者Richard S. Sutton教授做客第278期大师讲坛

2025.12.12 229

11月30日下午,闵行校区陈瑞球楼100号报告厅座无虚席,2024年图灵奖获得者Richard S. Sutton教授做客第278期大师讲坛,带来以《The Future of AI: The Era of Experience and the Age of Design》为题的报告。本次讲座由欧宝app官方网站下载研究生院主办,人工智能学院、计算机学院协办。

讲座由计算机学院特聘教授俞凯主持。

Sutton围绕强化学习的核心理念、挑战、应用展示及未来发展进行交流,他剖析了强化学习“互动探索、追长期累计奖励”的核心逻辑,对比监督学习的局限,详解延迟反馈等三大挑战与标杆案例,后深挖智能本质,呼吁理论研究者聚焦核心、深耕本源。他强调,研究者应保持长期、开放和宏大的视野,思考真正重要的问题,探索人工智能的根本能力。

讲座伊始,Sutton教授回到最本质的问题:为什么需要强化学习?他指出,与监督学习依赖静态标注数据不同,强化学习旨在解决真实世界中的难题,通过与环境互动、基于奖励信号不断调整策略,进而主动探索世界。Sutton教授强调,强化学习的核心目标,是学习一个从状态到动作的最优策略,使长期累积奖励最大化。

在讲述强化学习的优势与难点时,他特别指出三个长期存在的挑战:延迟反馈、探索与利用的平衡,以及环境的非平稳性。比如,一个智能体可能需要经历大量失败与试错才能收获一次奖励,而学习算法如何理解和归因这“间接成功”仍然是开放性问题。正是这种困难,凸显了强化学习在真实世界决策问题中的独特价值。相比大量依赖人工标注的监督学习,强化学习允许系统通过自身经验不断更新策略,从而在人类难以全面描述的复杂场景中展现强大适应性。这是强化学习独有的特征。随后,Sutton教授给予了几个生动的示例来演示强化学习:TD-Gammon、AlphaZero、AlphaGO、AlphaStar,这些里程碑展现了强化学习在博弈类场景中的巨大潜力。

讲座的后半部分,Sutton教授展开对“智能是什么”的哲学式反思。同时,Sutton教授提到了,作为RL的理论研究者,应该将目光放在“理解智能是什么”上,不应该被其他的例如应用等研究分心,这才是纯粹的理论研究者。

在提问环节中,Sutton教授使用幽默诙谐的方式对部分问题进行回答。他传达出“专注于理论研究”的理念,对部分相关度低的问题也耐心作出了解答和回应;同时也深入地讨论了有关于Intelligence的理念和观点。

讲座最后,俞凯代表交大师生向Sutton教授赠送了“大师讲坛|汇智大讲坛”纪念品,对Sutton教授的到访与精彩分享表示衷心感谢。

Baidu
map