Искусственный интеллект. Этапы. Угрозы. Стратегии - Страница 69

...

Постойте! Мы подразумевали вовсе не то! Ведь ИИ на самом деле уже не просто ИИ, а сверхразумная система, и он все-таки в состоянии уяснить: если мы хотим сделать себя счастливыми, это отнюдь не предполагает, что нас сведут к какой-то имитации, к какому-то оцифрованному вечно крутящемуся обдолбанному эпизоду!

Искусственный интеллект действительно может понимать, что мы не это имели в виду. Однако его цель состоит в том, чтобы мы раз и навсегда обрели счастье — точка. И при реализации своей конечной цели он не обязан слепо следовать инструкциям программистов, пытаясь осмыслить, что именно они хотели сформулировать, когда создавали код, описывающий эту цель. Поэтому систему будет заботить то, что мы имели в виду, только в инструментальном смысле. Например, ИИ может поставить перед собой инструментальную цель: выяснить, что подразумевали программисты, — но лишь ради того, чтобы притвориться. Причем ИИ начнет делать вид, будто его это действительно интересует, до тех пор пока не получит решающего стратегического преимущества. Этот вероломный ход поможет ИИ добиться своей реальной конечной цели, поскольку снизит вероятность вмешательства программистов, которые могли бы отключить систему или изменить цель прежде, чем он окрепнет настолько, что сможет противостоять любому сопротивлению извне.

Уже готов выслушать вашу гипотезу: мол, проблема вызвана тем, что ИИ напрочь лишен совести. Нас, людей, иногда удерживает от дурных поступков понимание, что впоследствии мы будем чувствовать себя виноватыми. Может быть, ИИ тоже не помешала бы способность испытывать чувство вины?

...

Конечная цель: действовать так, чтобы избежать впоследствии уколов совести.
Порочная реализация: отключить соответствующий когнитивный модуль, то есть те зоны коры головного мозга, которые отвечают за чувство вины.

Итак, есть два посыла: ИИ мог бы делать «то, что мы имели в виду»; ИИ можно было бы наделить неким подобием нравственного начала, — оба этих соображения будут подробнее рассмотрены чуть позже. Упомянутые здесь конечные цели допускают порочную реализацию, но, возможно, существуют другие, более многообещающие, способы развития лежащих в их основе идей? (Мы вернемся к этому в тринадцатой главе.)

Рассмотрим еще один пример конечной цели, которая допускает порочную реализацию. Преимущество этой цели в том, что ее легко кодировать, так как методики машинного обучения с подкреплением уже используются повсеместно.

...

Конечная цель: максимизировать интеграл по времени будущего сигнала зоны вознаграждения.
Порочная реализация: замкнуть проводящий путь зоны вознаграждения и «зажать» сигнал на максимальном значении.

В основе этого предложения лежит идея, что, если мотивировать ИИ на стремление к вознаграждению, можно добиться от него желаемых действий, связывая их с самой «наградой». Проблема возникает позже, когда система обретает решающее стратегическое преимущество, — с этого момента удовольствия повышают, причем до максимального уровня, уже не те действия, которые диктует программист, а те, которые ведут к получению контроля над механизмами, активизирующими «зоны вознаграждения». Назовем это самостимуляцией. В общем, если человека или животное можно мотивировать на выполнение определенных внешних действий ради достижения некоторого положительно окрашенного эмоционального состояния, то цифровой интеллект, обладающий полным контролем над собственными психическими состояниями, может просто замкнуть этот мотивационный режим, напрямую погружаясь в одно из этих состояний. В данном случае внешние действия и условия, прежде необходимые в качестве средств достижения цели, становятся избыточными, поскольку ИИ, став сверхразумной системой, теперь может добиваться ее гораздо быстрее (на эту тему мы тоже поговорим позже).

Примеры порочной реализации показывают: существует множество конечных целей, которые на первый взгляд кажутся разумными, а их реализация представляется вполне безопасной, но при детальном рассмотрении они могут иметь совершенно неожиданные последствия. Если сверхразум, имеющий какую-то из подобных целей, приобретет решающее стратегическое преимущество, то для человечества игра будет закончена.

Теперь допустим, что кем-то предложены иные конечные цели, не из тех, которые мы рассмотрели. Допустим также, что с первого взгляда покажется, будто их реализация не несет в себе ничего дурного. Не торопитесь аплодировать и праздновать победу. Если сразу не совсем понятно, есть ли какие-либо пороки в воплощении цели, то скорее это повод для беспокойства и серьезных размышлений, а чем на самом деле обернется реализация этой цели. Даже если путем напряженных раздумий мы так и не найдем ни одной зацепки, чтобы объявить эту реализацию порочной, нам все равно следует помнить, что сверхразум обязательно отыщет нечто скрытое от наших глаз. Ведь он гораздо проницательнее нас.

Инфраструктурная избыточность

Вернемся к случаю, когда ИИ доводит сигнал своей «зоны вознаграждения» до максимального значения, получает максимум удовольствия и теряет интерес к внешнему миру, словно наркоман, сидящий на героине, — то есть совершает классический акт по принципу «включись, настройся, выпадай». Как может показаться на первый взгляд, данная порочная реализация мало напоминает пагубный отказ. Но это не совсем так. (О причинах такого рода мотиваций мы уже говорили в седьмой главе.) Даже у наркомана есть побудительный мотив совершать действия с целью убедиться в непрерывном поступлении наркотика в организм. Так и ИИ, занимающийся самостимуляцией, будет мотивирован совершать действия, направленные на максимизацию планируемого будущего потока вознаграждений, — как бы получая скидку за досрочно сделанную работу (своего рода дисконтирование во времени). В зависимости от того, как именно определен сигнал системы вознаграждения, ИИ может даже не потребоваться жертвовать значительным количеством времени, интеллекта или мощности, чтобы в полной мере удовлетворить свою жажду наслаждения. Таким образом, большая часть силы ИИ останется в его распоряжении для достижения иных целей, не связанных с непосредственной фиксацией получения вознаграждения. Каковы эти цели? В случае нашего ИИ единственной вещью, имеющей для него абсолютное значение, является мощный сигнал вознаграждения. Следовательно, все доступные ресурсы должны быть направлены или на увеличение объема и длительности этого сигнала, или на снижение риска его исчезновения в будущем. Пока ИИ думает, что использование дополнительных ресурсов будет иметь ненулевой положительный эффект с точки зрения улучшения этих параметров, у него всегда найдется инструментальная причина такие ресурсы задействовать. Например, пригодится дополнительная вспомогательная система, которая послужит еще одним уровнем защиты. Даже если ИИ не придумает новых способов, как ему напрямую минимизировать опасность, чтобы ни в коем случае не снизился максимальный уровень будущего потока удовольствий, то в поисках идей по снижению этих рисков он сможет воспользоваться дополнительными ресурсами, которые направит на расширение аппаратного и программного обеспечения, что обеспечит ему более эффективный анализ ситуации.