游戏娱乐
技术思想及原理分析
自动化处理领域所用到的技术主要是强化学习Reinforcement Learning(RL),强化学习的原理是给定一个目标,指定规格和奖励方式,然后让模型以蒙特卡洛树的方法去搜索学习,其实就是“试错”学习,通过大量的尝试学习,来区分对与错,模型对正确的选择会进行奖励,而错误的选择会受到惩罚。这样模型在一个较好的奖励机制下,将会学到如何获取更多的奖励,也就是让模型更好的理解当前的环境。在游戏方面就是对游戏者进行指定规则以及奖励方式,让游戏者在游戏环境中去尝试学习,使其能够在当前游戏环境中掌握游戏的规律,从而达到可以“玩”游戏的目的。
应用场景及商业价值
自动化处理在游戏方面的应用比较广泛,大众较为熟悉的就是AlphaGo大战李世石的那场围棋比赛。结果阿尔法围棋(AlphaGo)成为了第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能。在这之后,基于深度强化学习的模型出现了很多游戏和娱乐方面的应用,比如专业打星际争霸的AlphaStar,同样以较高的得分击败了人类职业选手。