什么是强化学习?
强化学习是机器学习的一个分支,处理顺序决策的问题。
强化学习是机器学习的一个分支,处理顺序决策的问题。
在其最一般的形式中,它研究了一个代理人的问题,该代理人通过在每一步采取行动与外部世界(即环境)进行互动。行动的选择将产生后果:首先,它导致代理的一个新状态;其次,代理从环境中收到一个奖励信号,告诉它这个行动是好是坏。代理人的目标是弄清楚如何行事,也就是说,在每个状态下的最佳行动是什么,以便从长远来看,它可以获得尽可能多的奖励。
这里的关键词是 "长期":导致立即满足的行动不一定对长期成功有好处。这是RL学习算法试图解决的复杂性的一部分:最初,代理不知道一个行动是好是坏(例如,他们将产生多少即时奖励),以及他们将产生什么下一个状态。代理人必须以平衡的方式探索行动空间,体验每个行动的效果,同时找出导致最高可能的长期奖励的最佳行动策略。利用这些代理经验的训练集找出最佳行动策略的过程是强化学习的最终目标。
例如,想想一辆自驾车:在驾驶过程中,每时每刻它都需要知道要采取什么行动(我是否应该停车?我应该向右转吗?我应该继续直线行驶吗?为什么不直接加速?)。)为了开始,我们需要定义一个奖励值来告诉我们每个行动的好坏(我是否更接近目的地?我够安全吗?我在停车时有没有避开路边?)。)RL算法有能力教汽车如何通过采取最佳行动(也就是如何驾驶)来实现其长期回报的最大化。
强化学习作为计算机科学和机器学习的一个分支有着悠久的历史。它的核心思想是在过去30年里发展起来的,但鉴于其复杂性,它只能应用于具有相当小的状态和行动空间的问题。
将深度学习纳入强化学习,为用强化学习解决现实世界的问题打开了大门,在那里,状态和行动空间可能非常大。
DeepMind是第一个展示Deep RL力量的团体,2016年,他们训练的游戏代理在围棋比赛中击败了世界冠军。RL在各个行业也有大量的使用案例,如金融、医疗保健和数字广告。
实时竞价(RTB)是一种连接广告商和网络出版商的机制。出版商的目标是使他们产生的内容货币化。广告商的目标是以最佳方式使用他们的预算,从而达到一些预先指定的目标。如何分配广告预算的过程是在一个高度细化的水平上确定的,逐个印象,每天发生数十亿次的实时拍卖过程。
一个广告活动的竞价策略实时决定了为向任何特定用户展示广告商的信息出价多少。这个出价必须根据广告机会的各种特征来确定,例如:什么是网页或应用程序?地理位置是什么?一天中的什么时间或一周中的什么日子?
如果这不是一个足够复杂的问题,竞价策略还应该提供预先定义的关键绩效指标(KPI)目标(想想总预算,或用CPA、CPC等表示的绩效目标),这是为广告商设定的。
我们在Xaxis的Copilot小组使用机器学习/人工智能作为我们竞价策略的核心:它帮助我们从历史数据线索中学习如何设定竞价价值。我们的愿景是,最佳竞价策略的目标应该是尽可能地接近广告商预先设定的目标。要做到这一点,我们需要动态地调整竞价策略的参数,使其不断地将关键绩效指标推向正确的方向。
事实证明,RL是解决动态管理广告活动这一挑战的理想工具。这个问题的核心是一个连续的决策问题:如何最好地调整广告活动的属性--连续的--以便实现全部KPI交付的目标?
一个动态调整竞价策略的粗略设置,作为一个RL问题,看起来像这样。
我们Xaxis的Copilot团队正在积极研究和测试Deep RL在培训活动中的应用。我们将在接下来的文章中介绍进一步的结果。