Приложение

ПРИЛОЖЕНИЕ

Теория оперантного обусловливания

Репондентное поведение, возникающее на основе классического обусловливания (И.П. Павлов, Дж. Уотсон) называется обусловливанием типа S, чтобы подчеркнуть важность стимула, который появляется до реакции и выявляет ее. Однако, выдающийся психолог Б.Ф. Скиннер полагал, что в целом поведение животных и человека нельзя объяснять в терминах классического обусловливания. Напротив, он делал акцент на поведении, не связанном с какими-либо известными стимулами. Другой отличительной особенностью теории Б.Ф. Скиннера была идея о том, что на поведение воздействуют стимульные события, которые наступят после него, а именно — его последствия. Так как этот тип поведения предполагает, что организм активно воздействует на окружение с целью изменить события каким-то образом, Б.Ф. Скиннер определил его как оперантное поведение. Он также называл его обусловливание типа R, чтобы подчеркнуть воздействие реакции на будущее поведение.

На научные воззрения Б.Ф. Скиннера большое влияние оказали экспериментальные работы, выполненные Э.Л. Торндайком, разработавшего объективную, механистическую теорию научения, в которой основное влияние уделялось внешнему поведению.

В результате проведенных исследований Э. Л Торндайк (T.L. Thomdike, 1905) обобщил в нескольких законах:

Закон эффекта: любое действие, вызывающее в данной ситуации удовлетворение, ассоциируется с данной ситуацией, так что, когда она возникает вновь, появление этого действия становится более вероятным, чем прежде. Напротив, любое действие, вызывающее дискомфорт, отделяется от данной ситуации, так что, когда он возникает вновь, появление этого действия становится менее вероятным любое действие, вызывающее удовлетворение, ассоциируется с данной ситуацией, так что, когда она возникает вновь, появление этого действия становится более вероятным, чем прежде. Позднее Э.Л. Торндайк провел исследование закона эффекта в рамках экспериментов, в которых в качестве испытуемых привлекались люди. Результаты исследований показали, что поощрение реакции действительно приводит к ее укреплению, но наказание не дает очевидного негативного результата для проведения параллели. Это побудило Э.Л. Торндайка пересмотреть закон эффекта, чтобы сделать больший акцент на поощрении, нежели на наказании.

Закон упражнения: согласно этому закону утверждается, что в каждой конкретной ситуации любая реакция начинает ассоциироваться с этой ситуацией. Чем чаще реакция проявляется в той или иной ситуации, тем теснее становится ассоциативная связь. И напротив, если реакция в течение длительного времени не практикуется, то ассоциативная связь ослабевает. Иначе говоря, повторение ответной реакции в конкретной ситуации приводит к ее усилению. Более поздние исследования убедили Э.Л. Торндайка в том, что благоприятные последствия реакции (то есть ситуация, которая приносит удовлетворение) являются более эффективными, чем простое многократное повторение.

Закон готовности — упражнения изменяют готовность организма к проведению нервных импульсов.

Закон ассоциативного сдвига — если при одновременном действии раздражителей один из них вызывает реакцию, то другие приобретают способность вызывать ту же самую реакцию.

Процесс оперантного обусловливания

Ключевая структурная единица скиннеровского подхода является реакция. Реакции можно ранжировать от простых рефлекторных реакций (например, слюноотделение на пищу, вздрагивание на громкий звук) до сложного паттерна поведения (например, решение математической задачи, скрытые формы агрессии). Реакция – это внешняя, наблюдаемую часть поведения, которую можно связать с событиями окружающей среды. Сущность процесса научения – это установление связей (ассоциаций) реакций с событиями внешней среды.

В своем подходе к научению Б.Ф. Скиннер проводил различие между реакциями, которые вызываются четко определенными стимулами (например, мигательный рефлекс в ответ на дуновение воздуха), и реакциями, которые нельзя связать ни с одним стимулом. Эти реакции второго типа порождаются самим организмом и называются оперантами. Б.Ф. Скиннер считал, что стимулы среды не принуждают организм вести себя определенным образом и не побуждают его действовать. Исходная причина поведения находится в самом организме. Б.Ф. Скиннер писал: «Не существует внешнего побуждающего стимула к оперантному поведению, оно просто происходит, осуществляется. С точки зрения теории оперантного обусловливания операнты порождаются организмом. Собака идет, бежит, «возится» с кем-то; птица летит; обезьяна прыгает с дерева на дерево; человеческий детеныш лепечет. В любом случае поведение происходит без воздействия какого-то специального побуждающего стимула... Производить оперантное поведение – это заложено в биологической природе организма».

Оперантное поведение (вызванное оперантным научением) определяется событиями, которые следуют за реакцией. То есть за поведением идет следствие, и природа этого следствия изменяет тенденцию организма повторять данное поведение в будущем. Например, катание на роликовой доске, игра на фортепиано, метание дротиков и написание собственного имени — это образцы оперантной реакции, или операнты, контролируемые результатами, следующими за соответствующим поведением. Это произвольные приобретенные реакции, для которых не существует стимула, поддающегося распознаванию. Б. Скиннер понимал, что бессмысленно рассуждать о происхождении оперантного поведения, так как нам неизвестны стимул или внутренняя причина, ответственная за его появление. Оно происходит спонтанно.

Если последствия благоприятны для организма, тогда вероятность повторения операнта в будущем усиливается. Когда это происходит, говорят, что последствия подкрепляются, и оперантные реакции, полученные в результате подкрепления (в смысле высокой вероятности его появления) обусловились. Сила позитивного подкрепляющего стимула таким образом определяется в соответствии с его воздействием на последующую частоту реакций, которые непосредственно предшествовали ему.

И напротив, если последствия реакции не благоприятны и не подкреплены, тогда вероятность получить оперант уменьшается. Б.Ф. Скиннер полагал, что, следовательно, оперантное поведение контролируется негативными последствиями. По определению, негативные, или аверсивные последствия ослабляют поведение, порождающее их, и усиливают поведение, устраняющее их.

Б.Ф. Скиннер считал, что оперантное поведение характерно для повседневного научения. Поскольку поведение, как правило, носит оперантный характер, то наиболее эффективным подходом к науке о поведении является изучение обусловливания и угасания оперантпого поведения.

Для того, чтобы изучать оперантное поведение в лаборатории, Б.Ф. Скиннер придумал простую процедуру, названную свободным оперантным методом. Классическая экспериментальная демонстрация заключалась в нажатии на рычаг в скиннеровском ящике (рисунок 10).

Рисунок 10– «Скинеровский ящик» (или как его называл сам автор – аппарат оперантного формирования условных рефлексов)

В этом эксперименте крыса, лишенная пищи, помещалась в ящик и получала полную возможность исследовать его. Сначала крыса демонстрировала множество оперантов: ходила, принюхивалась, почесывалась, чистила себя и мочилась. Такие реакции не вызывались никаким узнаваемым стимулом; они были спонтанны. В ходе исследований она неизбежно должна была задеть рычажок (педаль), который приводил в действие механизм, выдвигающий полочку с пищей. Так как реакция нажатия рычага первоначально имела низкую вероятность возникновения, ее следует считать чисто случайной по отношению к питанию; то есть нельзя предсказать, когда крыса будет нажимать на рычаг, и не возможно заставить ее делать это. После получения нескольких порций пищи, которые должны были служить подкреплением, у крысы довольно быстро формировался условный рефлекс. Следует обратить внимание, что поведение крысы (нажатие на рычаг) оказывает воздействие па окружающую среду и является инструментом приобретения пищи, то есть приобретет, в конце концов, высокую вероятность проявления в такой особой ситуации. Зависимая переменная в этом эксперименте проста и понятна: это скорость реакции.

Типы подкреплений

Одним из примечательных идей скинеровской теории обусловливания является понятие подкрепления. Уже первые исследования в «скиннеровском ящике» с нажатием рычага продемонстрировали значение подкрепления для оперантного поведения.

Подкрепление (punishment) – это любое событие (стимул), которое следует за реакцией и увеличивает вероятность ее появления. Когда крыса, например, нажимает на рычажок, то это поведение является оперантным, и если оно сопровождается подкреплением, таким, как еда, то вероятность нажатия на рычажок возрастает. В соответствии с этим взглядом, подкреплениие усиливает то поведение, за которым следует.

Очень важным является то, что стимулы, которые изначально не являются подкреплениями, могут превратиться в таковые благодаря ассоциированию с другими подкреплениями. Некоторые стимулы, такие, как деньги, становятся генерализованным подкреплением, поскольку они обеспечивают доступ ко множеству других видов подкрепления.

Здесь важно понимать, что подкрепление определяется через его воздействие на поведение – а именно через рост вероятности поведенческой реакции. Часто трудно точно определить, что может послужить таким подкреплением, так как оно варьирует от индивида к индивиду, от организма к организму.

Выделяют два типа подкрепления — первичное и вторичное. Первичное подкрепление — это любое событие или объект, сами по себе обладающие подкрепляющими свойствами. Таким образом, они не требуют предварительной ассоциации с другими подкреплениями, чтобы удовлетворить биологическую потребность. Первичные подкрепляющие стимулы для людей — это пища, вода, физический комфорт и секс. Их ценностное значение для организма не зависит от научения. Вторичное, или усвоеное подкрепление, – это любое событие или объект, которые приобретают свойство осуществлять подкрепление посредством тесной ассоциации с первичным подкреплением, обусловленным прошлым опытом организма. Примерами общих вторичных подкрепляющих стимулов у людей являются деньги, внимание, привязанности и хорошие оценки.

Феномены оперантного обусловливания

Логическим расширением принципа подкрепления является то, что поведение, усиленное в одной ситуации, с большой долей вероятности повторится, когда организм столкнется с другими ситуациями, напоминающими ее.

Генерализация стимулов. В теории Б.Ф. Скиннера тенденция подкрепленного поведения распространяться на множество схожих ситуаций называется генерализацией стимула. Обобщение стимула может быть результатом неприятного жизненного опыта. Характерным для условного подкрепления является то, что оно генерализуется, если объединяется с более чем одним первичным подкреплением. Следует рассмотреть некоторые из наиболее часто встречающихся генерализованных подкреплений в человеческой жизни.

Деньги. Особенно показательный пример, поскольку сама по себе «кучка бумажек» не может удовлетворить какое-либо из первичных человеческих потребностей. Однако, благодаря системе культурного обмена деньги являются мощным и сильным фактором для получения множества благ и удовольствий. Например, деньги позволяют человеку покупать пищу, одежду, машины, получать медицинскую помощь и образование.

Социальные подкрепляющие стимулы.Это особыйкласс генерализованных условных подкрепляющих стимулов, определяющих сложную систему межличностных отношений. Это могут быть лесть, внимание, похвала, социальное одобрение, привязанности, подчинение себе других и пр. Эти стимулы часто действуют очень сложно и едва уловимо, но они существенны для человеческого поведения в разнообразных ситуациях. Например, внимание и одобрение значимого другого – родителей, учителя, начальника, возлюбленного – для многих людей особенно эффективный генерализованный условный стимул, который может содействовать ярко выраженному поведению привлечения внимания.

Б.Ф. Скиннер полагал, что условные подкрепляющие стимулы очень важны в контроле поведения человека. Он также отмечал, что каждый человек проходит уникальную науку научения, и вряд ли всеми людьми управляют одни и те же подкрепляющие стимулы. Возможные вариации в поведении, поддержанные как позитивными, так и негативными условными подкрепляющими стимулами, бесконечны.

Различение стимулов. Различение стимула, составная часть обобщения, – это процесс научения реагировать адекватным образом в различных ситуациях окружения. Способность к различению приобретается через подкрепление реакций в присутствии одних стимулов и неподкрепление их в присутствии других стимулов. Различительные стимулы таким образом предоставляют человеку возможность предвидеть вероятные результаты, связанные с изъявлением особой оперантной реакции в различных социальных ситуациях. Вместе с тем, индивидуальные вариации различительной способности зависят от уникального прошлого опыта различных подкреплений.

Угасание реакций. Когда подкрепление больше не поступает, реакция становится все менее и менее частой; этот процесс получил название «оперантного угашения».

Б.Ф. Скиннер предположил, что здоровое личностное развитие происходит в результате взаимодействия генерализирующей и различительной способностей, с помощью которых человек регулирует свое поведение так, чтобы максимизировать позитивное подкрепление и минимизировать наказание.

Режимы подкрепления

Для Б.Ф. Скиннера подкрепить поведение означает осуществить манипуляцию, меняющую вероятность такого поведения в будущем. Поэтому его особый интерес был сосредоточен в основном на изучении особенностей (реакций и их связей с процентами подкреплений) и интервалами между ними, т.е. на изучении режимов подкрепления.

Как уже отмечалось, суть оперантного научения состоит в том, что подкрепленное поведение стремится повториться, а поведение неподкрепленное или наказуемое имеет тенденцию не повторяться или подавляться.

Поведение становится понятным, если его можно контролировать, внося определенные изменения в условия среды. Понять поведение – значит управлять им. Управление поведением, осуществляется через выбор типа реакции, которую необходимо подкрепить, и определения степени вероятности ее повторного появления. Скорость, с которой оперантное поведение приобретается и сохраняется, зависит от режима применяемого подкрепления.

Режим подкрепления — правило, устанавливающее вероятность, с которой подкрепление будет происходить. Режим подкрепления можно построить, опираясь на два параметра: задавая определенный временной интервал или определенный интервал реакций.

Режимы подкрепления изучались Б.Ф. Скиннером в экспериментах на голубях в специально оборудованной камере («ящике»).

Самым простым правилом, относящимся к первому параметру, является предъявление подкрепления каждый раз, когда организм дает желаемую реакцию. Это называется режимом непрерывного подкрепления и обычно используется на начальном этапе любого оперантного научения, когда организм учится производить правильную реакцию.

В большинстве ситуаций повседневной жизни, однако, это либо неосуществимо, либо неэкономично для сохранения желаемой реакции, так как подкрепление поведения бывает не всегда одинаковым и регулярным. В большинстве случаев социальное поведение человека подкрепляется только иногда. Например, ребенок плачет неоднократно, прежде чем добьется внимания матери. Ученый много раз ошибается, прежде чем приходит к правильному решению трудной проблемы. В обоих этих примерах неподкрепленные реакции встречаются до тех пор, пока одна из них не будет подкреплена.

В случае если задается интервал времени или реакций, т.е. определенное соотношение времени и реакций или подкреплений и реакций, подкрепления появляются после того, как прошло какое–то время или выполнено определенное число реакций (например, нажатий на рычаг или на ключ) – режим интервального подкрепления.

Таким образом, подкрепления не обязательно следуют после каждого ответа, а могут подаваться лишь время от времени. Более того, подкрепления могут подаваться в регулярном, или фиксированном, режиме – всегда через определенный интервал времени или всегда после определенного количества реакций, либо их можно подавать в переменном режиме – то через одну минуту, то через две, то после пары реакций, то после серии реакций. Каждая схема, или режим подкрепления, как правило, стабилизирует поведение по-разному.

Б.Ф. Скиннер тщательно изучал, как режим прерывистого, или частичного, подкрепления влияет на оперантное поведение. Хотя возможны многие различные режимы подкрепления, их все можно классифицировать в соответствии с двумя названными основными параметрами:

1) подкрепление может иметь место только после того, как истек определенный или случайный временной интервал с момента предыдущего подкрепления (так называемый режим временного подкрепления),

2) подкрепление может иметь место только после того, как с момента подкрепления было получено определенное или случайное количество реакций (режим пропорционального подкрепления).

В соответствии с этими двумя параметрами выделяют четыре основных режима подкрепления (Таблица 1).

Таблица 1.

Режимы подкрепления

Пропорциональные режимы
Режим с фиксированной пропорцией	Подкрепление дается после определенного количества реакций
Режим с вариативной пропорцией	Подкрепление дается после определенного количества реакций, количество которых непредсказуемо варьируется
Интервальные режимы
Режим с фиксированным интервалом	Подкрепление дается через определенное время, прошедшее после предыдущего подкрепления
Режим с вариативным интервалом	Подкрепление дается через определенное время, прошедшее после предыдущего подкрепления, при этом продолжительность интервалов непредсказуемо варьируется

1. Режим подкрепления с фиксированной пропорцией (ФП). В данном режиме организм подкрепляется по наличию заранее определенного или «постоянного» числа соответствующих реакций. Если это число составляет 5, то это значит, что подкрепление последует по совершении 5 реакций, если оно равно 50, потребуется совершить 50 реакций, и т. д. Было установлено, что, чем выше пропорция, тем с большей частотой организм реагирует, особенно если его первоначально тренировали при относительно низком коэффициенте, а затем непрерывно увеличивали коэффициент до величины 100. Пожалуй, самая примечательная особенность поведения при режиме с ФП состоит в том, что сразу после очередного подкрепления в росте реакций наступает пауза (см. рисунок 11). Трудно начать совершать какие–то действия сразу после того, как сделано их достаточно, чтобы получить вознаграждение.

Режим ФП обычно устанавливает чрезвычайно высокий оперантный уровень, так как чем чаще организм реагирует, тем большее подкрепление он получает. Считается, что этот режим лучший для освоения нового поведения.

Рисунок 11 – Режим подкрепления с фиксированной пропорцией

2. Режим подкрепления с фиксированным интервалом (ФИ). В режиме подкрепления с постоянным интервалом организм подкрепляется после того, как твердо установленный или «постоянный» временной интервал проходит с момента предыдущего подкрепления. Например, при данном режиме подкрепление дается только по истечении 5 минут после последней подкрепленной реакции; реакции в течение этого пятиминутного интервала проходят без последствий (рисунок 12). Любопытно, что режим ФИ дает низкую скорость реагирования сразу после того, как получено подкрепление – феномен, названный паузой после подкрепления. Это показательно для студентов, испытывающих трудности при обучении в середине семестра (предполагается, что они сдали экзамен хорошо), так как следующий экзамен будет еще нескоро. Они буквально делают перерыв в обучении. Примечательно, что эта пауза, возникающая сразу после подкрепления, может быть даже длиннее, чем пауза при режиме ФП.

Еще одна особенность реагирования при режиме ФИ – это возрастание частоты реакций по мере приближения окончания периода. Например, еженедельная выдача денег ребенку на карманные расходы образует ФИ форму подкрепления. Университеты обычно работают в соответствии с временным режимом ФИ. Экзамены устанавливаются на регулярной основе и отчеты об академической успеваемости издаются в установленные сроки.

Рисунок 12 – Режим подкрепления с фиксированным интервалом

3. Режим подкрепления с вариативной пропорцией (ВП). В этом режиме организм подкрепляется на основе какого-то в среднем предопределенного, но не предсказуемого числа реакций. Этот режим считается наиболее эффективным, если необходимо поддерживать поведение в течении длительного времени.Так, при режиме ВП количество реакций, требуемых для подкрепления, иногда составляет 1, иногда 10, а в среднем 5. В отличие от поведения при режиме с ФП, при режиме с ВП не наблюдается пауз в росте реакций (рисунок 13), предположительно потому, что у организма нет возможности определить, что подкрепление появится нескоро.

Рисунок 13 – Режим подкрепления с вариативной пропорцией

4. Режим подкрепления с вариативным интервалом (ВИ). В этом режиме организм получает подкрепление после того, как проходит неопределенный временной интервал, длительность которого непредсказуема. Подобно режиму ФИ, подкрепление при этом условии зависит от времени. Однако время между подкреплениями по режиму ВИ варьирует вокруг какой-то средней величины, а не является точно установленным. Как правило, скорость реагирования при режиме ВИ является прямой функцией примененной длины интервала: короткие интервалы порождают высокую скорость, а длинные интервалы порождают низкую скорость. Также при подкреплении в режиме ВИ организм стремится установить постоянную скорость реагирования, и при отсутствии подкрепления реакции угасают медленно. В конечном итоге, организм не может точно предвидеть, когда будет следующее подкрепление (рисунок 14).

Рисунок 14 – Режим подкрепления с вариативным интервалом

В повседневной жизни режим ВИ встречается нечасто, хотя несколько его вариантов можно наблюдать. В качестве примера режима ПИ в повседневной жизни можно привести дозванивание по занятому номеру. Чтобы получить подкрепление (дозвониться), надо подождать какое-то время после последней реакции (набора номера); сколько придется ждать в целом — непредсказуемо. Родитель, например, может хвалить поведение ребенка довольно произвольно, рассчитывая, что ребенок будет продолжать вести себя соответствующим образом и в неподкрепленные интервалы времени. Подобно этому, преподаватели, которые дают «неожиданные» контрольные работы, частота которых варьирует от одной в три дня до одной в три недели, в среднем одна в две недели, используют режим ВИ. При этих условиях от студентов можно ожидать сохранения относительно высокого уровня прилежания, так как они никогда не знают, в какой момент будет следующая контрольная работа.

Как правило, режим ВИ порождает более высокую скорость реагирования и большую сопротивляемость угасанию, чем режим ПИ.

Кроме того, в результате экспериментов Б.Ф. Скиннер выявил целый ряд закономерностей:

- чем короче временной интервал между подкреплениями, тем чаще животное проявляет обусловленную реакцию и, наоборот, по мере того, как увеличивается интервал между подкреплениями, частота реакции снижается;

- проявление условной реакции угасает с большей скоростью, если имело место непрерывное подкрепление, которое затем резко было прекращено, чем в том случае, когда подкрепление выдавалось с перерывами (например, некоторые голуби демонстрировали до десяти тысяч реакций без подкрепления, если исходно у них был сформирован условный рефлекс па основе периодичного, прерывистого подкрепления);

- животные, получающие поощрение по схеме с фиксированной частотой, реагируют намного интенсивнее, чем те, которые получают подкрепление по схеме с фиксированным интервалом.

По сути, теория оперантного научения представляет собой изощренную формулировку основных принципов дрессировки животных. Сложное поведение формируется через процесс последовательных приближений, т.е. сложные действия вырабатываются благодаря подкреплению тех элементов поведения, которые соответствуют той конечной форме поведения, какую хотят получить.

Процесс последовательного приближения

Процесс формирования, или процесс постепенного приближения, наиболее часто используется при обучении животных. Сложные трюки, демонстрируемые цирковыми животными, не усваиваются сразу, как законченное целое. Для этого дрессировщик постепенно выстраивает последовательность выученных реакций с помощью подкрепления определенных действий, которые затем связываются между собой или соединяются в цепочки. То, что начинается с усвоения отдельных движений, в конце концов превращается в демонстрацию цирковой публике сложных последовательностей действий. Животное непременно вознаграждается за свое поведение, но итоговая награда ставится в зависимость от исполнения всей серии первоначально усвоенных действий. Аналогичным образом с помощью последовательных приближений можно выработать сложное поведение у человека.

Однако вскоре стало очевидным, что стандартная методика оперантного научения плохо подходила для большого числа сложных оперантных реакций, которые могли спонтанно встречаться с вероятностью, равной почти нулю.

В сфере поведения человека, например, сомнительно, что с помощью общей стратегии оперантного научения можно было бы успешно научить пациентов психиатрического отделения приобретать соответствующие навыки межличностного общения.

Для того, чтобы облегчить эту задачу, Б.Ф. Скиннер (1953) придумал методику, при которой психологи могли эффективно и быстро уменьшить время, требуемое для обусловливания почти любого поведения в том наборе, которым располагал человек. Эта методика, названная методом успешного приближения, или формированием поведения, состоит из подкрепления поведения, наиболее близкого к желаемому оперантному поведению. К этому приближаются шаг за шагом, и поэтому одна реакция подкрепляется, а затем подменяется другой, более близкой к желаемому результату.

Виды подкрепления

Как отмечалось ранее, под подкреплением понимается какое–либо действие, призванное усилить определенную реакцию. Хотя оперантное обусловливание опирается в первую очередь на использование подкрепления с положительной валентностью, основанных на приближении организма к, такого, как пища, деньги или похвала, последователи Б.Ф. Скиннера подчеркивают также важность подкреплений, основанных на бегстве организма от, или на избегании им отвращающих (неприятных) стимулов. В таких случаях реакции подкрепляются устранением неприятных стимулов или возможностью их избежать, а не появлением приятных стимулов. Во всех этих случаях результатом должно быть сохранение или усиление реакции. В связи с этим различают два вида подкреплений:

Позитивное подкрепление– это приятный стимул, который следуя за желательной реакцией, усиливает ее или поддерживает на том же уровне, т.е. повышает вероятность ее повторения.

Негативное подкрепление– это неприятный стимул, устранение которого усиливает желательную реакцию.

Вместе с тем существует и множество самих способов подкрепления. К наиболее распространенным относятся поощрение (предъявление приятных стимулов) и наказание (предъявление неприятных стимулов).

Следует указать на различия между терминами «поощрение» и «наказание», с одной стороны, и «позитивное» и «негативное подкрепление», с другой. Термин «поощрение» может использоваться синонимично с термином «позитивный подкрепляющий фактор», т.е. событие, которое увеличивает вероятность той или иной формы поведения, если оно следует за данной формой поведения. Однако наказание – это не то же самое, что негативный подкрепляющий фактор. Термин «негативное подкрепление» означает прекращение наступления нежелательных событий, следующих за той или иной формой поведения; как и позитивное подкрепление, оно увеличивает вероятность соответствующей формы поведения. Наказание же имеет противоположный эффект: оно уменьшает вероятность наказуемого поведения. Наказание также может быть как позитивным (воздействие неприятного стимула), так и негативным (лишение положительного стимула)

Как поощрение, так и наказание могут выполняться двумя способами, это зависит от того, что следует за реакцией: предъявление или устранение приятного или неприятного стимула. Обратите внимание на то, что подкрепление усиливает реакцию; наказание — ослабляет ее.

Таким образом, в практике воспитания чаще всего используются четыре разновидности подкрепления (Таблица 2):

1) если вслед за желательной реакцией ребенка следует вызывающее приятные ощущения и переживания подкрепляющий стимул, то результат – положительное поощрение;

2) если за нежелательной реакцией следует не вызывающий приятные ощущения и переживания подкрепляющий стимул, то результат – положительное наказание;

3) если вызывающий неприятные ощущения и переживания подкрепляющий стимул устраняется после получения желательной реакции, то результат– отрицательное поощрение;

4) если приятный стимул устраняется после той или иной нежелательной реакции ребенка, то результат– отрицательное наказание.

Таблица 2

Позитивное и негативное подкрепление

Положительное

подкрепление

Отрицательное

подкрепление

Поощрение

Определение

Предъявление положительного, приятного стимула вслед за желательной формой поведения.

Удаление аверсивного, неприятного стимула вслед за желательной формой поведения.

Эффект

Увеличивает вероятность желательной формы поведения.

Пример

Студент хорошо подготовился к экзамену. Высокая оценка на экзамене предполагает, что студент сохранит высокую успеваемости в будущем.

Ребенок разбросал игрушки по комнате. Разрешение ребенку пойти гулять или смотреть телевизор после того, как он собрал игрушки.

Наказание

Определение

Предъявление аверсивного, неприятного стимула вслед за

нежелательной формой поведения

Удаление положительного, приятного стимула вслед за нежелательной формой поведения

Эффект

Уменьшает вероятность нежелательной формы поведения

Пример

Студент плохо подготовился к экзамену. Низкая оценка на экзамене предполагает, что студент будет более основательно готовиться к следующему экзамену.

Ребенок разбросал игрушки по комнате. Запрещение ребенку идти гулять или смотреть телевизор пока он не соберет игрушки.

Контроль поведения посредством аверсивных стимулов

С точки зрения Б.Ф. Скиннера, в основном поведение человека контролируется аверсивными (неприятными или болевыми) стимулами. Два наиболее типичных метода аверсивного контроля — это наказание и негативное подкрепление. Как уже отмечалось, эти термины часто используются как синонимы для описания концептуальных свойств и поведенческих эффектов аверсивного контроля. Б.Ф. Скиннер (1968) предложил следующее определение: «Вы можете различать наказание, при котором происходит аверсивное событие, пропорциональное реакции, и негативное подкрепление, в котором подкреплением является устранение аверсивного стимула, условного или безусловного».

Наказание. Термин наказание относится к любому аверсивному стимулу или явлению, которое следует или которое зависит от появления какой-то оперантной реакции. Вместо того, чтобы усиливать реакцию, которую оно сопровождает, наказание уменьшает, по крайней мере временно, вероятность того, что реакция повторится. Предполагаемая цель наказания – побудить людей не вести себя тем или иным образом. Б.Ф. Скиннер (1983) заметил, что это наиболее общий метод контроля поведения в современной жизни.

По Б.Ф. Скиннеру, наказание может быть осуществлено двумя различными способами, которые он называет позитивное наказание и негативное наказание (Таблица 1). Позитивное наказание встречается всякий раз, когда поведение ведет к аверсивному исходу. Вот несколько примеров: если дети плохо себя ведут, их шлепают или бранят; если студенты пользуются шпаргалками на экзамене, их исключают из вуза или школы; если взрослых ловят на краже, их штрафуют или сажают в тюрьму. Негативное же наказание встречается всякий раз, когда за поведением следует устранение (возможного) позитивного подкрепляющего стимула. Например, детям запрещают смотреть телевизор из-за плохого поведения. Широко используемый подход к негативному наказанию – методика приостановки. В соответствии с этой методикой человека моментально удаляют из ситуации, в которой доступны определенные подкрепляющие стимулы. Например, непослушного ученика, мешающего занятиям, могут выгнать из кабинета.

Наказание может подавить нежелательную реакцию, но у него есть несколько недостатков. Во-первых, его эффект не столь предсказуем, как эффект поощрения. Поощрение, по сути, несет в себе скрытое сообщение: «Повтори то, что ты уже сделал!»; наказание – «Перестань!», но при этом не предлагая альтернативы. В результате человек может заменить наказываемую реакцию еще менее желательной. Во-вторых, побочные результаты наказания могут оказаться вредными, то есть иметь негативные психологические и социальные последствия. Наказание часто ведет к антипатии или страху перед наказывающим человеком (родителем, учителем или начальником) и перед самой ситуацией (домом, школой или местом работы), где происходило наказание. Наконец, крайне суровое или болезненное наказание может вызвать агрессивное поведение, более серьезное, чем первоначальное нежелательное.

Эти предостережения не означают, что наказание никогда не должно применяться. Оно может эффективно устранять нежелательную реакцию, если другая реакция вознаграждается. Например, крысы, которые научились находить более короткий из двух путей в лабиринте, чтобы добраться до пищи, быстро переключаются на более длинный, если в коротком пути их бьет током. Временное подавление, вызываемое наказанием, дает крысе возможность научиться идти длинным путем. В этом случае наказание служит эффективным средством переориентировать поведение, поскольку оно информативно, а это и есть ключ к гуманному и эффективному применению наказания. Ребенок, который обжегся о горячий утюг, может научиться тому, к каким предметам в его окружении можно прикасаться, а к каким – нет.

Негативное подкрепление. В отличие от наказания, негативное подкрепление – это процесс, в котором организм ограничивает аверсивный стимул или избегает его. Любое поведение, которое препятствует или не приводит к появлению аверсивного стимула, таким образом, чаще повторяется и является негативно подкрепленным (Таблица 1). Неприятные события могут использоваться при научении новым реакциям.

Поведение ухода, «реакция бегства» – наилучшая иллюстрация этого. Организм может научиться реагировать так, чтобы прекратить неприятное событие. Например, человек, который прячется от дождя, уходя в помещение, скорее всего снова пойдет в помещение, когда дождь вновь станет проливным или ребенок научается закрывать кран, чтобы горячая вода не лилась в его ванну. Это называется научением избеганию событий. Следует заметить, что уход от аверсивного стимула не то же самое, что избегание его, поскольку аверсивный стимул, которого избегают, физически может быть не представлен.

Научение избеганию и предотвращению

Крысу помещают в ящик, состоящий из двух отделений, разделенных барьером. В каждой пробе животное помещают в одно из отделений. В некоторый момент звучит предупреждающий звук, а пять секунд спустя к полу этого отделения подается ток; чтобы уйти от удара током, животное должно перепрыгнуть через барьер в другое отделение. Первоначально животное делает это, когда ток уже включен, – здесь имеет место научение избеганию. Но по мере тренировки животное научается прыгать, услышав предупредительный звук, и тем самым целиком избегает удара током — это научение предотвращению.

Организм может реагировать и так, чтобы предотвратить неприятное событие до его начала, например, когда человек научается останавливаться на красный свет, чтобы не попасть под машину или платит за проезд в транспорте, чтобы не быть оштрафованным контролером. Иными словами, другой способ бороться с неприятными условиями – научиться избегать их, то есть вести себя так, чтобы предотвратить их появление. Это называется научением предотвращению событий. Научение избеганию часто предшествует научению предотвращать события.

Б.Ф. Скиннер боролся с использованием всех форм контроля поведения, основанных на аверсивных стимулах. Кроме всего прочего он считал, что использование аверсивных стимулов имеет еще и ограниченную эффективность. Так как наказание может временно подавлять нежелательное или неадекватное поведение, основным возражением Б.Ф. Скиннера было то, что поведение, за которым последовало наказание, скорее всего вновь появится там, где отсутствует тот, кто может наказать. Преступник, которого посадили в тюрьму за жестокое нападение, не обязательно будет меньше склонен к проявлению насилия. Поведение, за которое наказали, может опять появиться после того, как исчезнет вероятность быть наказанным. Например, ребенок, которого отшлепали за то, что он ругался дома, может свободно это делать во дворе. Водитель, оштрафованный за превышение скорости, может заплатить сотруднику ГАИ и продолжать свободно превышать скорость, когда поблизости нет патруля с радаром.

Вместо аверсивного контроля поведения Б.Ф. Скиннер рекомендовал позитивное подкрепление, как наиболее эффективный метод для устранения нежелательного поведения. Он доказывал, что, поскольку позитивные подкрепляющие стимулы не дают негативных побочных явлений, связанных с аверсивными стимулами, они более пригодны для формирования поведения человека. Например, во многих странах мира осужденные п

реступники содержатся в невыносимых условиях. Однако, как показывает практика, такой способ реабилитировать преступников оказался совершенно неэффективным. Это подтверждает высокий уровень рецидивов или повторных нарушений закона.

Б.Ф. Скиннер показал возможности позитивного подкрепления, и это повлияло на стратегии поведения, используемые в воспитании детей, в образовании, бизнесе и промышленности. Во всех этих областях появилась тенденция к все большему поощрению желательного поведения, а не наказанию нежелательного.