Искусственный интеллект. Этапы. Угрозы. Стратегии - Страница 107


К оглавлению

107

Наши замечания не подразумевают, будто обучение с подкреплением нельзя применять для развития безопасного для нас зародыша ИИ, мы лишь хотим сказать, что его использование следует соотносить с системой мотивации, которая сама по себе не основана на принципе максимизации вознаграждения. Тогда, чтобы решить проблему загрузки системы ценностей, потребуется искать иные подходы, нежели метод обучения с подкреплением.

Ассоциативная модель ценностного приращения

Невольно возникает вопрос: если проблема загрузки системы ценностей столь неподатлива, как нам самим удается обзаводиться ценностной ориентацией?

Одна из возможных (чрезмерно упрощенных) моделей выглядит примерно так. Мы вступаем в жизнь не только с относительно простым набором базовых предпочтений (иначе почему бы мы с детства испытывали неприятные ощущения от каких-то возбудителей и старались инстинктивно избегать этого?), но и с некоторой склонностью к приобретению дополнительных предпочтений, что происходит за счет обогащения опытом (например, у нас начинают формироваться определенные эстетические предпочтения, поскольку мы видим, что в нашем культурном пространстве какие-то цели и идеалы особо ценностны, а какое-то поведение весьма поощряется). И базовые первичные предпочтения, и склонность приобретать в течение жизни ценностные предпочтения являются врожденными чертами человека, сформированными в результате естественного и генетического отбора в ходе эволюции. Однако дополнительные предпочтения, которые складываются у нас к моменту взросления, зависят от жизненного пути. Таким образом, большая часть информационно-семантических моделей, имеющих отношение к нашим конечным ценностям, не заложена генетически, а приобретена благодаря опыту.

Например, в нашей жизни появился любимый человек, и конечно, для нас важнейшей конечной ценностью становится его благополучие. От каких механизмов зависит появление этой ценности? Какие смысловые структуры задействованы в ее формировании? Структур много, но мы возьмем лишь две — понятие «человек» и понятие «благополучие». Ни эти, ни какие другие представления непосредственно не закодированы в нашей ДНК. Скорее, в ДНК хранится информация и инструкции по строительству и развитию нашего мозга, а значит, и нашего разума, который, пребывая в человеческой среде обитания, за несколько лет создает свою модель мира — модель, включающую и дефиницию человека, и дефиницию благополучия. Только после того как сложились эти два представления, можно приступать к объяснению, каким таким особым значением наполнена наша конечная ценность. А теперь вернемся к первому вопросу: от каких механизмов зависит появление наших ценностных предпочтений? Почему желание блага любимому человеку формируется вокруг именно этих обретенных нами представлений, а не каких-то других, тоже обретенных, — вроде представлений о цветочном горшке или штопоре? Вероятно, должен существовать какой-то особый врожденный механизм.

Как работает сам механизм, нам неизвестно. Он, видимо, очень сложный и многогранный, особенно в отношении человека. Поэтому, чтобы хоть как-то понять, как он действует, рассмотрим его примитивную форму на примере животных. Возьмем так называемую реакцию следования (геномный, или родительский, импринтинг), в частности, у выводковых птиц, когда только что вылупившийся, но уже сформированный, птенец сразу начинает неотступно следовать за родителями или первым увиденным движущимся объектом. За каким объектом-«мамой» птенец пожелает двигаться, зависит от его первого опыта, но сам процесс запечатления в памяти соответствующей сенсорной информации (импринтинг) обусловлен генетическими особенностями. Попытаемся провести аналогию с человеческими привязанностями. Когда Гарри встретил Салли, ее благополучие стало для него абсолютной ценностью, но предположим, что они так и не встретились, и Гарри полюбил бы другую; тогда, может быть, его ценностные предпочтения тоже были бы иными. Способность генов человека кодировать механизм выработки целеполагания лишь объясняет, почему наша конечная цель обрастает разнообразными информационно-семантическими моделями, но их сложная организация никак не обусловлена генетически.

Следовательно, возникает вопрос: можно ли построить систему мотивации для искусственного интеллекта, основанную на этом принципе? То есть вместо описания сложной системы ценностей напрямую определить некий механизм, который обеспечил бы приобретение этих ценностей в процессе взаимодействия ИИ с определенной средой.

Похоже, имитировать процесс формирования ценностей, характерный для людей, непросто. Соответствующий человеческий генетический механизм стал результатом колоссальной работы, проделанной эволюцией, и повторить ее работу будет трудно. Более того, механизм, вероятно, рассчитан на нейрокогнитивную систему человека и поэтому неприменим к машинному интеллекту за исключением имитационных моделей. Но даже если полная эмуляция головного мозга окажется возможной, лучше будет начать с загрузки разума взрослого человека — разума, уже содержащего полное представление о некоторой совокупности человеческих ценностей.

Таким образом, попытка разработать модель ценностного приращения, точно имитирующую процесс формирования системы ценностей человека, означает безуспешную серию атак на проблему загрузки ценностей. Но, возможно, мы могли бы создать более простой искусственный механизм импорта в целевую систему ИИ высокоточных представлений о нужных нам ценностях? Чтобы добиться успеха, не обязательно снабжать ИИ точно такой же, как у людей, врожденной склонностью приобретать ценностные предпочтения. Возможно, это даже нежелательно — в конце концов, человеческая природа несовершенна, человек слишком часто делает выбор в пользу зла, что неприемлемо в любой системе, способной получить решающее стратегическое преимущество. Наверное, лучше ориентироваться на систему мотивации, не всегда соответствующей человеческим нормам, например такую, которой свойственна тенденция формировать конечные цели, полные бескорыстия, сострадания и великодушия, — любого, имеющего такие качества, мы сочли бы образцовым представителем человеческого рода. Эти конечные цели должны отклоняться от человеческой нормы в строго определенном направлении, иначе их трудно будет считать улучшениями; кроме того, они должны предполагать наличие неизменной антропоцентричной системы координат, при помощи которой можно делать значимые с человеческой точки зрения оценочные обобщения (чтобы избежать порочной реализации на базе искусственно приемлемых описаний цели, которую мы рассматривали в главе восьмой). Вопрос, насколько такое возможно, по-прежнему остается открытым.

107