制約
古典制約是什麼?他是如何發生的?
古典制約學習(classical conditioning,Pavlovian conditioning)
非制約刺激(unconditioned stimulus,US):不需經過學習就能引起反應的刺激。
非制約反應(unconditioned response,UR):不需經過學習就能對非制約刺激起的反應。
制約刺激(conditioned stimulus,CS):本為中性刺激,與非制約刺激連結,能引起反應的刺激。
制約反應(conditioned response,UR):由制約刺激所引起的反應。
Ivan Pavlov與他的狗的實驗(Figure 7-2):歷史上有兩隻狗,是大家耳熟能詳的,一隻是靈犬萊西(Lassi),另一隻便是 Pavlov 的狗了。
制約的獲得(Figure 7-3) ;
以 Pavlov 的狗實驗為例,Pavlov 穿著實驗用的白衣進入動物房把狗罐頭(不知道當年有沒有寶路)倒進餐盤中,餐盤中的狗食對狗而言就是非制約的刺激(US),因為不需制約的程序,就可以引發狗流口水的反應,因此流口水此種因US而起的反應就是非制約反應(UR),可是有一天,Pavlov 忘了買寶路了,當他同樣穿著實驗白衣進入動物房時,他發現狗仍然有流口水的反應,於是 Pavlov 發現古典制約(classical conditioning)的形成,因為狗學到的是實驗的白衣(一個中性的刺激,S)會出現在狗食(US)之前,經過幾次配對之後,S 與 US 產生連結,變成制約刺激(CS),因此當 CS 出現時,CS 會連結到 US,US 會引發 UR,但是因為此時刺激由 CS 開始,因此此時的反應稱為 CR。(請看以下的簡圖)
各種形式的制約:
延宕制約(delay conditioning):CS 出現後,隔短暫時間US出現,兩者同時停止。
遺跡制約(trace conditioning):CS 出現就停,再出現US。CS 和 US 出現的時機距離越長,效果越小。
時間制約(temporal conditioning):制約刺激不出現,只有非制約刺激每隔一段時間出現一次,到後來,時間變成刺激,稱為時間制約。
同時制約(simultaneous conditioning):US 與 CS 同時出現,效果不大。
逆向制約(backward conditioning):US 出現,再出現 CS,無效果。
古典制約的階段(phase)
行為獲得(acquisition)
消弱(extinction):當制約反應產生後,CS不再與US伴隨出現,制約反應將逐漸減弱,甚至完全消失。
自發恢復(spontaneous recovery):消弱現象出現後,過一段時間,再單獨呈現CS,仍會引發CR。
行為保存(saving):CS與US再次伴隨出現,時間雖不常,CR可以回到最初獲得的狀態,saving指的是此時所需要的配對次數較原先習得時配對次數少,減少的配對次數就是所謂的saving,也就是省下一些力氣的意思。
刺激特徵 :類化與區辨
刺激類化(stimulus generalization):與CS性質相似的其他刺激,不必經過制約學習,也會引起制約反應。也就是因為該刺激的某些特性與CS極為類似,所以也具有引發CR的能力。
刺激區辨(stimulus discrimination):刺激與CS的相似程度越來越大,CR出現的頻率也隨之提高,但因作業要求刺激辨別,因此個體所需學習的是在兩個極相似的刺激中去找出那個才是真正的CS。若對CS正確反應是給予獎賞,則個體會對越相像CS的刺激反應程度越高,越不像CS的刺激反應程度越低;弱沒對CS正確反應則給予懲罰,則對越相似的刺激,個體會因辨別難度的提高而焦慮,當年Ivan Pavlov即利用此種動物模式研究實驗性精神官能症(experimental neurosis)。
制約層次
高層制約(higher order conditioning):CS引起CR後,CS可當作US與另一CS(CS2)配對,形成另一層次的制約。
例:開快車被交通警察(CS1)開罰單(US),產生焦慮(CR)。由於交通警察(CS1)與警車(CS2)幾乎同時出現,所以CS2會連結到CS1,CS1會連結到US,US接著引發CR/UR,所以開快車的人也對警車的出現產生焦慮。
為什麼制約學習會發生?
何謂連續性(continuity)與關連性(contingency)?兩者的差別為何?
連續性指的是兩個刺激連續出現,這兩個刺激可能具有關係,也可能恰巧在同一時空出現,譬如說curler每天下午都會到校園散步,某系的漂亮妹妹michele也有同樣的習慣,五分鐘後她也會到同一地點散步,兩個人的出現具有連續性,但是未必具有關連性。又譬如,curler認識校園內復文書城的櫃檯小姐,每次當curler走進復文的時候,櫃檯小姐就會跟curler打招呼,curler進入復文與櫃檯小姐打招呼的動作這兩件事就有關連性,因為只有當curler表現出走進復文的動作,復文的櫃檯小姐才會表現跟curler打招呼的動作。
--------------------------------------------------------------------------------
操作制約
操作制約是什麼?他是如何發生的?
操作制約(operant conditioning)又稱工具性制約(instrumental conditioning)
立論者:E.L. Thorndike, B.F. Skinner
Thordike:
trial-and-error (請自行舉例說明)
law of effect (效果論,請自行舉例說明)
Skinner:(見p.242圖,Skinner box,或是Sniffy程式)
experimental analysis of behavior
schedules of reinforcement
增強物(reinforcer):
符合個體需求的刺激物,作為個體有正確反應時之獎賞用。 增強指的是行為發生的頻率增高了,所以不管正增強或是負增強看到的行為頻率都是增加的,只是正增強是因為增強物的出現,負增強是因為增強物的移除。
正增強(positive reinforcement):行為表現後得到酬賞,行為也因之強化,此酬賞為正增強。例:索取統一發票(行為)中大獎(正增強),以後每次購物皆會要統一發票。
負增強(negative reinforcement):行為表現後即終止所厭惡的刺激,行為得到強化,此厭惡的刺激為負增強。例:戴太陽眼鏡後(行為),陽光不再刺眼(厭惡的刺激),一出門及戴上太陽眼鏡。
處罰(punishment):給個體厭惡的刺激(正處罰)或取消酬賞物(負處罰),以削弱行為。例:男頭綁紅絲帶被取笑(處罰),不再綁紅絲帶(行為消失)。
**棒下出孝子?不打不成器?
處罰可能帶出避開處罰的行為。
迴避學習(avoidance learning):在經歷厭惡刺激的痛苦後,個體學到在厭惡刺激出現之前逃離現場,以免遭打擊。
Premack原則:增強物要給的適當,否則預期行為不易產生。
較喜歡的活動是較不喜歡活動的增強。
在階層結構是上較高層次的較為容易激起制約學習。
增強物的類別
原增強物(primary reinforcer)直接滿足個體需求的刺激,如:食物。
次增強物(secondary reinforcer)經學習而間接使個體滿足的刺激物,如獎狀、金錢、地位、代幣(token)。
增強物出現的時間
立即增強,行為會重複。行為與增強之間的時間越長,增強效果越差。
為塑造(shaping)
將現有行為和欲達成目標行為間分解成幾個步驟,對每一個步驟施予操作制約。例:馬戲團以連續漸進式(successive approximation)方式訓練動物表演。
增強安排方式 (Schedules of Reinforcement)
可分成連續增強、部分增強、比率增強與時距增強幾類。以下說明幾種常見的增強方式:
固定比率方式(fixed-ratio, FR)
個體固定做出幾次反應之後,給予增強。譬如FR5指的是動物必須壓桿五下才可以得到一次增強物,所以反應與增強物的比例為五。
不定比率方式(variable-ratio, VR)
不定比率方式會使個體猜測哪一次會得增強物,因而不斷做反應。例如:大家樂。更詳細地說,譬如VR5的程序指的是動物平均壓五下會得到一次增強物,但是可能動物遇到的第一個程序是FR9,第二個程序是FR1,第三個程序是FR8,第四個程序是FR2,以此類推,總之平均而言動物壓五下桿會得到一次增強物。
固定時距方式(fixed-interval, FI)
個體必須在固定時間之後壓桿才會得到增強物。譬如,FI10"(10"表示10秒)的程序要求動物在十秒之後做出反應才會得到增強物,動物在十秒之前不會得到任何增強物,所以動物的反應型態是得到增強物後會休息一段時間不做反應,等到時間快到的時候,才開始做反應,最顯明的例子是學生的讀書行為,學生平常不讀書,等到考試快接近的時候就開始用功的讀書,一考完試,又開始不讀書。(請比較FT與DRL兩種程序)
不固定時距方式(variable-interval, VI)
這個程序與FI的差別就如同FR與VR的差別,譬如VI10"強調的是平均10"動物做出反應會得到增強物。所以動物的反應型態是不斷做反應。(請比較VT程序)
Fixed Time, FT
這個程序指的是當動物做出反應之後,會經過一段固定的時間後才會出現增強物,請注意它和FI的差別。
Variable Time, VT
這個程序指的是當動物做出反應之後,平均而言會經過一段固定的時間後才會出現增強物。
Differential Reinforcement of Low rate, DRL
基本程序與FI差不多,但動物在時間內做出反應,時間會重新計算,因此動物必須等到時間過後才會反應,所以反應率相當低。
Differential Reinforcement of Other behavior, DRO
這個程序是除了某個行為外,其他的行為都會受到增強,因此實驗者的目的是將某個行為消去,譬如小孩子講髒話,父母除了懲罰的方法之外,也可以增強講髒話以外的行為,藉以消除講髒話的行為。
