强化学习是一种机器学习方法,其目的是让一个智能体通过与环境交互来学习如何做出最优的决策。强化学习的核心思想是通过奖励信号来引导智能体学习,使其在不断尝试和失败的过程中逐步提高自己的决策能力。强化学习涉及到许多重要的理论,如价值函数、策略优化、状态空间搜索、探索与利用等,这些理论都是为了让智能体在不确定的环境中做出最佳的决策。
一、分类
按照强化物的性质来分
据强化物的性质,可以分为积极强化(positive reinforcement)和消极强化(negative rein-forcement),也可以叫做阳性强化和阴性强化或正强化和负强化。
积极强化是指由于一刺激物在个体作出某种反应(行为)后出现从而增强了该行为(反应)发生的概率,该刺激物称为积极强化物。
消极强化是指由于一刺激物在个体作出某种反应(行为)后而予以排除从而增强了该行为发生的概率,该刺激物称为消极强化物。
不论积极强化还是消极强化,其结果都是一样的,即都可以增强该行为(反应)再次出现的可能性,使该行为得到增强。
人类行为受强化影响的程度
根据人类行为受强化影响的程度,把强化分为一级强化和二级强化。
一级强化是指满足人和动物生存、繁衍等基本生理需要的强化。一级强化物如食物、水、安全、温暖、性等。
二级强化是指任何一个中性刺激如果与一级强化物反复联合,它就能获得自身的强化性质。二级强化物如金钱、学历、关注、赞同等。
值得注意的是二级强化物起初并不具有强化的作用,而是由于它们同诸如食物、性欲之类的一级强化物相匹配而具有了强化的作用。
根据行为和强化间间隔时间来分
根据行为发生与强化物出现间隔的时间,把强化分为连续式强化(也称即时强化)和间隔式强化(也称延缓强化)。
连续式强化是指对每一次或每一阶段的正确反应予以强化,就是说当个体作出一次或一段时间的正确反应后,强化物即时到来或撤去。
间隔式强化是指行为发生与强化物的出现或撤去之间有一定的时间间隔或按比率出现或撤去。间隔式强化分为时间式和比率式。时间式又分为定时距式强化和变时距式强化。比率式又分为定比率式强化和变比率式强化。定时距式强化就是每次过一定时间间隔之后给予强化;变时距式强化就是指每次强化的时间间隔不等;定比率强化是指强化与反应次数之间呈一固定比例;变比率式强化是指强化与反应次数之间的比例是变化的。
二、强化在行为中的作用
在他的理论体系中,强化贯穿其中,他认为行为之所以发生变化就是因为强化的作用,对强化的控制就是对行为的控制。
操作性行为的建立
斯金纳利用斯金纳箱对白鼠的操作性行为进行研究,从中得出操作性行为建立的规律,即“如果一个操作行为发生后,接着给予一个强化刺激,那么其强度就增加”。行为的关键在于操作及其强化依随。
比如:孩子偶尔叫一声“妈”,妈妈便报以微笑和爱抚,于是孩子学会了叫“妈妈”。
操作性行为的维持
维持就是行为的保持。操作性条件作用形成后,为了永久保持所获得的行为,应当逐渐减少强化的频次,或者使强化变得不可预测。
比如:一个学生每次解答完数学题,老师都给予表扬。根据维持原则,如果逐渐增加解答题数才给予表扬,并且以随机的时间间隔给予表扬,那么他就可能在老师没有给予强化或给以很小的强化的情况下,仍能够长时间解答数学题。
操作性行为的消退
如果一个已经通过条件化而增强的操作性行为发生之后,没有强化刺激物出现,它的力量就会减弱。行为消退的关键也在于强化。
比如:学生某一良好的反应未能受到老师充分关注和表扬,学生最终便会放弃做出良好反应的努力。
操作性行为的分化
分化是指通过安排强化动物条件反应的某个特征,如速度、持续时间等,动物可逐渐形成有选择性的反应。分化的关键因素也是强化。
比如:斯金纳在训练白鼠的压杆力量实验中,先是强化动物任何理量的压杆行为,然后制定一个较低的力量标准,只有超过这一标准的反应才予以强化,低于这一标准便遵从消退原理而消退。此后逐步提高压杆力量标准,分别予以强化和不强化,如此可以训练动物以较强的理量做出压杆反应。