『毒害』的讯号:为何不能混用响片和处罚?
(The Poisoned Cue: Positive and Negative Discriminative Stimuli)
原文出处:http://www.clickertraining.com/node/164
作者:别毙了那只狗作者凯伦.布莱尔,推广响片训练至训犬的第一人
译者:黄薇菁(Vicki)
行为分析学家把引发操作制约行为的习得讯号称为「区辨刺激」(discriminative stimulus)。据我所知,行为专家并不区分哪类区辨刺激透过正增强训练而成,哪些透过负增强训练而成。
不过实际上,两者之间存在一个显着差异。
响片训练(利用标定讯号的操作制约训练)会让动物先发展出行为,让它成为动物依自由意志出现的操作制约行为,藉以获得正增强,然後再以某个区辨刺激与这个行为产生连结,於是这个区辨刺激的出现代表此时是个获得增强的机会,每个区辨刺激讯号都是一个表现某项(或某些)特定行为即可获得增强的机会。
这类区辨刺激以正面方式训练而成,它永远为正增强「开启大门」,如果行为没有出现,结果只是不会获得增强而已,而如果行为发生,我们向动物保证绝对会增强牠们(我们响片训练师有时称此类刺激为讯号〔cue〕,以与传统所称的指令〔command〕有所区分。)
当动物一旦理解这类讯号(正向区辨讯号)的意义时,它们本身如同响片一样,即成为制约正增强物,於是这类讯号可以用来作为增强其他行为的增强物。例如:你可以拿一个动物熟知的正向讯号塑形另一个行为,或者拿它增强连锁行为中的前一项行为;这类讯号如同响片,也可作为标定讯号,尤其可以拿来标定另一项行为当中表现很好的特点,我们已知响片可以连带引起一些我们乐见的情绪反应,这类正向制约刺激出现时似乎也有同样的反应。
以处罚(纠错)训练而来的行为也有相关的区辨刺激,告诉动物何时应该出现特定行为,然而,这些区辨讯号(或指令)不一定会带来正增强,当动物没有出现行为或把这行为做得不对,这些刺激即可能带来处罚(通常称为「纠错」),现在这种负向区辨刺激(通常称为指令)便成了制约负增强物,代表此时是个避免受罚的机会。
甚至行为完全以正增强训练而成,如果你从现在开始,在给予区辨刺激(讯号或指令)之後,当动物出现正确行为即按下响片,而出现不对行为即给予负面处罚(猛扯项圈、口头斥责等),这个区辨刺激将很快丧失作为正增强物的效果,就破坏力最低的程度来看,它将使动物混淆,不知它将带来哪种增强。它不再像响片,不再自动引发制约正增强物连带而来的正面情绪,在连锁行为里它也不一定具有增强前项行为的作用。
即使在训练(或表演)当中或结束後提供大量的初级增强物(primary reinforcers,如称赞、玩具和零食),这些区辨刺激本身已经同时成了「威胁」与「承诺」。
有趣的是,在这些意义矛盾的区辨刺激之前或之後所发生的行为很容易变糟:
之前的行为──因为缺少制约正增强物(positive conditioned reinforcer,此时区辨刺激已含负面意味),所以它可能开始消失
之後的行为──动物可能因为这个行为受罚,所以牠们较会避免出现这个行为。
从学习者的态度上看得到显着转变──从 专心热切 转为 迟疑拖拉 ,而且常看得出来牠们出现紧迫的徵兆。虽然动物对区辨刺激出现成功反应时获得了奖励,可是出错时仍会受罚,你使得这些区辨刺激变得意义矛盾、亦善亦恶,动物无法预料它将带来何种後果,它们已不再「安全」--你已经「毒害」了这些讯号。