您的位置 : 首页 >> 电子书推荐分享

深度学习:智能时代的核心驱动力量(人工智能大牛作者,文科生都能读懂的人工智能)

下载方式

深度学习智能时代的核心驱动力量人工智能大牛作者,文科生都能读懂的人工智能)
本书作者:特伦斯·谢诺夫斯基 (作者), 姜悦兵 (译者)

本书读后感及个人笔记分享· · · · · ·

机器如何学会下棋


点赞、分享、投币,素质三连哦

游戏的好处就在于,其规则都有明确的定义,玩家对棋盘十分熟悉,决策也不像现实世界中那样复杂,但又不失挑战性。1959年,在商业数字计算机发展的早期,IBM的机器学习先驱亚瑟·塞缪尔(Arthur Samuel)编写了一个擅长玩国际跳棋的程序,在宣布其诞生的当天,IBM的股票就获得了巨大的收益。西洋跳棋则相对容易。塞缪尔的程序利用了代价函数来评估对局中不同布阵的优劣情况,这一点跟以前的游戏程序很相似。该程序是在IBM第一款真空管商用计算机IBM 701上运行的,它在一个方面的创新令人印象深刻:通过跟自己对弈,学会了下棋。

在转到位于纽约约克敦海茨的IBM托马斯·J. 沃森研究中心之前,杰拉德·特索罗在位于伊利诺伊大学香槟分校的复杂系统研究中心,与我一起训练神经网络玩西洋双陆棋(见图10–1)。[2]我们的方法是,使用专家监督来训练反向传播网络,以评估当前的布局和可能的摆法。这种方法的缺陷在于,该程序永远比不过专家,而专家的水平并未达到世界冠军的级别。然而通过自我对局,网络可能会有更出色的表现。当时自我对局面临的问题是,在比赛结束时,唯一的学习信号就是赢或输。但是当一方获胜时,应该归功于之前若干步骤中的哪些步骤呢?这被称为“时域贡献度分配问题”(temporal credit assignment problem)。

深度学习:智能时代的核心驱动力量图10-1 西洋双陆棋棋板。西洋双陆棋是一种通过朝着终点按步走棋来分出胜负的游戏,红色棋子和黑色棋子的移动方向相反(如箭头所示)。图中标注了游戏的起始位置。同时掷出两个骰子,得到的两个数字表示两个棋子可以向前移动的距离。

有一种可以解决这种时域贡献度分配问题的学习算法,是由理查德·萨顿(Richard Sutton)于 1988年发明的。[3]他当时正在与他的博士生导师、马萨诸塞大学阿姆赫斯特分校的安德鲁·巴托(Andrew Barto),共同解决强化学习领域中的问题。强化学习(reinforcement learning)是受动物实验中的关联学习(associative learning)所启发衍生出的一个机器学习研究分支领域(见图10–2)。深度学习的唯一工作是将输入转换为输出。强化网络与之不同,它会与环境进行闭环交互,接收传感器输入,做出决定并采取行动。强化学习的基础,是观察动物怎样通过探索环境中的各种选择并从结果中学习,从而在不确定的条件中解决难题。随着学习能力的提高,探索过程逐渐减少,最终会直接利用学习过程中发现的最佳策略。

图10-2 强化学习场景。智能体(agent)通过采取行动(actions)和进行观察(observation)来积极探索环境。如果行动成功,执行器将得到奖励(rewards)。该过程的目标,是通过学习怎样采取行动来最大化可能获得的奖励。

假设你必须做出一系列决定才能达成目标。如果你已经知道所有潜在的选择和它们各自可能带来的奖励,你就可以使用搜索算法——具体来说,也就是理查德·贝尔曼(Richard Bellman)的动态规划算法(algorithm for dynamic programming),[4]即找出能最大化未来奖励的选择集。但是随着可能的选择越来越多,问题的规模也呈指数级增长,这被称为“维数灾难”(curse of dimensionality),本章的开头已经对其进行了说明。但是,如果在选择前没有获得关于选择结果的所有信息,你就要学会即时做出最好的选择。这就是所谓的“在线学习”(online learning)。

理查德·萨顿(见图10–3)的在线学习算法依赖于期望奖励和实际奖励之间的差异(见方框10.1)。在时间差分学习(temporal difference learning)中,你需要估计出在当前状态下做出行动有可能带来的长期奖励(基于已得到的奖励而得出的较好估计),以及下一个状态中潜在的长期奖励,并将二者相比较。当前状态得到了实际奖励,因此估计会更准确。通过让之前的估计更接近改进后的估计,你做出的决定也会越来越好。存在一个价值网络,能够估算出棋盘每个位置上的未来奖励,对该网络进行的更新则被用于决定下一步的行动。在你有足够的时间来探索不同的可能性后,时间差分算法会收敛于最佳规则,指导如何在给定状态下做出决策。维数灾难是可以避免的,因为事实上,在棋盘所有可能的位置中有一小部分会被访问,但这足以为新对局中类似的棋盘位置制定出好的策略。

图10-3 2006年在加拿大埃德蒙顿阿尔伯塔大学的理查德·萨顿。他教会了我们获取未来奖励的学习方法。理查德是一位癌症幸存者,他在强化学习方面一直是领军人物,并在持续不断地开发创新型的算法。他总是很慷慨地和别人交流,分享自己的见解,同领域的每个人对此都非常赞赏。他和安德鲁·巴托合著的书《强化学习导论》(Reinforcement Learning: An Introduction)是该领域的经典著作之一。此书的第二版在互联网上可以免费获取。图片来源:理查德·萨顿。

杰拉德·特索罗的程序名为“TD-Gammon”,内建了西洋双陆棋棋盘和规则的重要特征,但它并不知道怎么下好每一步棋。在学习的初始阶段,这些棋步是随机的,但最终某一方会赢,并得到最终奖励。西洋双陆棋的赢家是第一个将其所有棋子从棋盘上“剔除”出来的玩家。

注:本站不存储任何书籍,PDF电子版收集于网络,仅供学习交流使用,请于24小时后自觉删除。

深度学习:智能时代的核心驱动力量(人工智能大牛作者,文科生都能读懂的人工智能)


↓下载地址1 百度网盘↓下载地址2 蓝奏网盘
↓下载地址3 城通网盘 ↓下载地址4 本地下载
本文版权归原作者所有,请支持正版。此处仅提供个人读书笔记 https://yigefanyi.com/shenduxuexizhinengshidaidehexinqudongliliangrengongzhinengdaniuzuozhewenkeshengdounengdudongai/
返回顶部