お客様の声はこちら

犬の学習・行動原理 強化の原理・オペラント条件付け

こんにちは。フントフントの清峰です。
今回は、行動の基本原理である「強化」について、ちょっと詳しく説明してみようと思います。

行動原理 強化とは

強化とは、「ある行動が、その行動の生起に後続する即時の結果事象によって強められる」プロセスです。

行動が強められるというのは、その行動が将来同じような場面で生起しやすくなるということです。

強化の原理についての実験オペラント条件付け

ソーンダイクの実験|効果の法則

最も早く強化について明らかにしたのは、1911年のエドワード・ロバーツ・ソーンダイクの実験だと言われています。

ソーンダイクは空腹のネコを檻に入れ、檻の外にエサを置きました。そのエサは、檻の中にいるネコから見えるところに置かれ、檻の扉は猫の前足がテコを押すと開くようになっていました。

ネコは、格子をひっかいたり、身をよじったり、格子の間から前足を出したりしました。やがてネコは偶然前足がテコを押し、扉が開き、檻から出られてエサを食べられるという経験をします。

実験を繰り返すと、ネコがテコを押して扉を開けるまでの所要時間が短縮されていきました。

最終的に、ネコは檻に入れられるとすぐにテコを押して扉を開けるようになりました。

ソーンダイクはこの現象を「効果の法則」と名付けました。

この実験では、空腹のネコがテコを押すと檻から抜け出てエサを手に入れることができる。つまり、エサを手に入れることは、前足でテコを押すネコの行動を強化したと言えます。

スキナーの実験|オペラント条件付け

現在のドッグトレーニングで使われるオペラント条件付けを確立したのが1938年から行われたバラス・フレデリック・スキナーの実験でした。

スキナーは実験箱にラットを入れ、ラッチがその箱の隅にあるレバーを押すごとにエサが出るようにしました。

ラッチは箱の中をぐるぐる歩き回ったり、匂いを嗅いだり、後ろ足で立ってよじ登ろうとします。そして、前足が偶然レバーを押したとき、壁の一部が開いてエサが出てくるという経験をしました。

空腹のラットはレバーを押すたびにエサを手に入れるようになり、最終的には箱の中に入れられるとすぐにレバーを押すようになりました。

レバーを押すという行動は、その行動に後続してエサが即時に出てくることによって強められたのです。その結果、箱の中に入れられたラットが示す他の行動と比べ、レバーを押す行動の頻度だけが増加しました。

強化の定義

行動が、好ましい結果をもたらすとき、その行動は同じような場面で前よりも繰り返し起きやすくなる。

好ましい結果とは=犬の快状態や生存に寄与するもの

  1. ある行動が生起し
  2. 即時の結果事象が後続し、
  3. その結果、その行動が強められる(将来再びその行動をしやすくなる)

強化によって強められる行動は、オペラント行動と呼ばれます。オペラント行動は環境に対してある結果を生み出し、その即時の結果事象によって将来再び起こりやすくなります。

オペラント行動を強める結果事象を強化子と呼びます。

正の強化と負の強化|行動を強化する2つのプロセス

正の強化と負の強化、どちらも行動を強めるプロセスです。どちらも、その行動が将来生起する可能性を高めます。正の強化と負の強化の違いは、行動に後続する結果事象の性質がことなることです。

正の強化

  1. ある行動が生起し、
  2. それに後続して、ある刺激が出現したり、その刺激の強さが増し
  3. その結果、その行動が強められる。

負の強化

  1. ある行動が生起し、
  2. それに後続して、ある刺激が撤去されたり、その刺激の強さが低下し
  3. その結果、その行動が強められる。

正の強化の場合は、刺激は行動の生起に後続して提示されたり、出現したりします。この刺激は正の強化子と呼ばれます。

負の強化の場合は、刺激は行動の生起に後続して撤去されたり、回避されたりします。この刺激は嫌悪刺激と呼ばれます。

両者の根本的な違いは、正の強化ではある行動によってある刺激が生み出され、負の強化ではある行動によってある刺激の出現が回避されたり、取り除かれるとうい点です。しかし、行動が将来起きやすくなるという点は同じです。

プレマックの原理

正の強化の一つのタイプに、低頻度行動の結果事象として高頻度行動(好きな行動)に従事する機会を設けるというものがあります。これはプレマックの原理と呼ばれます。

人間でいう「勉強したらテレビを見てもいいよ」というようなものです。

  • 遊んでほしい犬には遊んであげること
  • 散歩が好きな犬には散歩連れていてあげること
  • 抱っこが好きな犬には抱っこをしてあげること

などが正の強化子になるということです。

逃避行動と回避行動

負の強化のなかでしっかり区別しておきたいのが「逃避行動」と「回避行動」です。

逃避行動

逃避行動は、その行動が生起した結果として、その行動が起こるときすでにあった嫌悪刺激が停止する行動です。

ある行動をすることよって嫌悪刺激から逃れることができ、それによってその行動が強められるということです。

回避行動

回避行動は、その行動が生起した結果として、嫌悪刺激の提示がされなくなる行動です。

その行動をすることによって嫌悪刺激を避けることができ、それによってその行動が強められるということです。

回避行動の場面では、予告刺激が嫌悪刺激出現の信号になることが多く、この予告刺激が提示されたときに回避行動を行うようになります。

無条件性強化子と条件性強化子

無条件性強化子

食物、水、性的刺激は自然の正の強化子であり、個体の保持と種の保存にとって必要なものです。

痛み刺激や非常に強い刺激(寒さ、熱さ、その他不快刺激や嫌悪刺激)からの逃避は、それらの刺激からの逃避や回避が生存に有利に働くので、自然な形で負の強化子となります。

これらの自然の強化子は無条件性強化子と呼ばれます。初めて提示された場合でも、それらの刺激がほとんどの犬にとって強化子として機能し、これらの刺激に関する先行経験がなくても強化子として機能します。

これらの刺激が無条件性強化子であるのは、それらの刺激が生物学的に重要なものであるからです。

条件性強化子

もう一つの強化子のタイプが条件性強化子です。

条件性強化子とは、元々は中性であった刺激が、無条件性強化子(もしくはすでに確立している条件性強化子)と対提示されることによって、強化機能を持つようになった強化子です。

中性刺激=強化子として機能せず、それが行動に後続しても行動の変化が起きないような刺激

例えば、飼い主の注目は多くの犬にとって条件性強化子として機能します。それは、犬の生活の中で飼い主の注目が食物や温かさ、その他の強化子と何度も対提示されてきたからです。

既存の強化子と対提示することで、ほとんどの刺激は条件性強化子になりえます。トレーナーが犬をトレーニングするときに犬の行動を強化するためにクリッカーというものを使うことがあります。

トレーニングの初期に強化子としておやつを使い、クリッカーの音を対提示します。やがてクリッカーの音自体が条件性強化子となります。その後は、クリッカーの音が条件性強化子として継続的な効果を発揮するように、時折クリッカーの音と無条件性強化子を対提示します。

強化の効力に影響を及び要因

強化の効力には、多くの要因が影響を及ぼします。

即時性

行動が生起してから、それに結果事象が後続するまでの時間間隔は重要な要因となります。

ある結果事象が強化子として最も大きな効果を発揮するには、その行動が生起した直後に結果事象が後続する必要があります。行動と結果事象の間に遅延が生じると、その遅延が長いほど強化子としての効力は弱くなります。

随伴性

ある行動に一貫して即時の結果事象が後続すると、その結果事象がその行動を強化するようになります。

ある行動が特定の結果事象を生み、その行動が生起するまでその結果事象が生じなければ、その行動と結果事象との間に随伴性があると言えます。

随伴性があると、その結果事象は行動を強化するようになります。強化的な結果事象が一貫して後続することによって、行動は繰り返されるようになるのです。

確立操作

いくつかの事象はある時点で、他の時点よりも強化力が大きい結果事象となります。

例えば食べ物は、たったいま食事を終えて満腹な犬よりも、しばらく食べていない犬の方が、その強化力は高くなります。

水も同様に、しばらく水を飲んでいない犬の方が、たったいま水を飲みほした犬よりも強化力は高くなります。

このようにある刺激の強化子としての効力を変える働きを確立操作と言います。

これらの事象は、特定の時点や状況で強化子の効力を操作であり、その強化子をもたらす行動を生じやすくします。

結果事象の特性

ある結果事象が強化子となりえるかどうかは、犬によって異なります。

よって、ある結果事象がその犬にとって強化子となるかどうかを見極めることが必要になります。多くの犬にとって飼い主の注目が強化子になるからといっても、それが強化子にならない犬もいます。

また、その他の特性として刺激の量や強さもあります。適切な確立操作がある場合、刺激の量や強さが増すほど、その刺激の強化力は高まります。

強化スケジュール

強化スケジュールとは、すべての反応に強化子が随伴するのか、いくつかの反応が起きた後に強化子が随伴するのかを規定することで、大きく分けて2つ、「連続強化スケジュール」と「間欠強化スケジュール」に分けられます。

連続強化スケジュールでは、反応が起こるたびに強化され、間欠強化スケジュールでは、反応が起こるたびに強化されるのではなく、時々あるいは間欠的に強化されます。

連続強化スケジュールは、主に学習の初期段階(新たな行動を覚える段階)に適用され、学習が成立した後は、その行動を維持するために間欠強化スケジュールに切り替えます。

間欠強化スケジュールの4つのパターン

間欠強化スケジュールは、さらに4つのパターンに分かれます。

定率強化スケジュール

定率強化スケジュールでは、強化子の提示は反応数に依存し、強化子が提示されるまでに「一定数の反応」が必要になります。

例えば、定率5スケジュールであれば、反応が5回起こるたびに強化子が提示されます。

このように、定率強化スケジュールでは、強化子が提示されるために必要な生起数は変化しません。

※定率強化スケジュールでは、強化子が提示されたあとに反応に小休止が生じることがあります。

変率強化スケジュール

変率強化スケジュールでも、強化子の提示は反応数に依存しますが、強化に必要な反応数は、平均反応数を基準に毎回変わります。(ドッグトレーニングでは、主にこの強化スケジュールを使います)

例えば、変率10スケジュールでは、平均10反応後に強化子が提示されます。2~3反応で強化子が提示されることもあれば、20~25反応後にやっと強化子が提示されることもあります。しかし、平均すると10反応後に強化子が提示されるように設定します。

このように、変率強化スケジュールでは、強化子が提示されるために必要な生起数が変化しますが、平均すると一定数になります。

※変率強化スケジュールでは、強化子が提示されたあとに反応に小休止が生じることはありません。

定間隔強化スケジュール

定間隔強化スケジュールでは、一定時間が経過した後だけ反応が強化されます。この強化スケジュールでは反応数の多少は問題ではなく、特定の時間が経過した後に起きた最初の反応が強化されます。

定間隔強化スケジュールでは、時間間隔は固定されます。

例えば、定間隔20秒スケジュールでは、20秒が経過した後に起きた最初の反応が強化され、20秒が経過する前の反応は強化されません。

※定間隔強化スケジュールでは、時間間隔の初期段階で行動が生起しにくくなることがあります。

変間隔強化スケジュール

変間隔強化スケジュールでも、定間隔強化スケジュールと同じように、一定時間が経過した後だけ反応が強化されますが、強化子の提示に必要な時間間隔が変化します。ただし、必要な時間間隔は平均値の周辺に設定されます。

例えば、変間隔20秒スケジュールでは、時間間隔が20秒以上の場合もあれば、20秒以下の場合もあります。時間間隔の長さは常に変わりますが、平均すると20秒になるように設定されます。

※定間隔強化スケジュールで見られるように行動が生起しにくくなる現象は起こりません。

行動の色々な次元の強化

強化は行動の生起頻度を高めるために使われることが多いですが、頻度の他にも、持続時間、強度、反応潜時といった行動の他の次元にも影響を及ぼします。

例えば、オスワリの言葉から1秒以内にオスワリをしたときだけ強化すると、1秒以内にオスワリをする行動が強化されます。一定の高さ以上ジャンプしたときに強化をすれば、一定の高さ以上高くジャンプする行動が強化されます。

並列強化スケジュール

多くの場合、いくつかの反応オプションが同時に存在します。いくつかの行動パターンがあるということです。その行動パターンごとに強化スケジュールが存在するします。

ある時点でその犬が行なう行動それぞれに働く強化スケジュールを並列強化スケジュールと言います。

一般的に、特定の強化スケジュール、強化強度、強化子の即時性、そして反応努力に従って、多くの反応オプションの中から一つの行動に従事します。

まとめ

行動の基本原理の一つ、強化の原理についてのお話でした。

ドッグトレーニングでは、犬の困った行動を増やしている(強化している)結果事象を特定し、それ以上強化しないようにするとともに、数ある反応オプションの中から飼い主さんが望ましいと思う反応を強化する(並列強化スケジュール)ことで、結果的に困った行動を減らしていくという方法で問題行動に対します。

犬の困った行動にお悩みの方、何がその行動を強化しているのかを考えてみると解決の糸口がみえるかも知れませんね。