Искусственный интеллект. Этапы. Угрозы. Стратегии - Страница 185


К оглавлению

185

497

[Yudkowsky 2004]. См. также: [Mijic 2010].

498

Например, Дэвид Льюис предложил диспозиционную теорию ценности, которая предполагает, что некая вещь Х значима для А тогда и только тогда, когда А хотел бы ею обладать, будучи идеально рациональным и идеально информированным об Х; см.: [Smith et al. 1989]. Родственные идеи были озвучены и ранее, см., например: [Sen, Williams 1982; Railton 1986; Sidgwick, Jones 2010]. Отчасти напоминает их и другой общий философский подход к выработке суждений: метод рефлексивного равновесия — процесс итерационной взаимной корректировки наших интуитивных представлений о ситуации, общих правил, которыми мы обычно руководствуемся в аналогичных случаях, и принципами, в соответствии с которыми, как нам кажется, эти элементы могут быть пересмотрены для того, чтобы система стала более согласованной; см., например: [Rawls 1971; Goodman 1954].

499

Предполагается, что, работая над предотвращением подобных катастрофических исходов, ИИ должен действовать максимально легкими касаниями, то есть так, чтобы можно было избежать несчастья и при этом не радикально вмешиваться в судьбу человечества в других смыслах.

500

[Yudkowsky 2004].

501

Замечание Ребекки Роуч (личное собщение).

502

Приведу три этих ценностных принципа, которые могли бы стать конечными целями сверхразума: 1) «защищать людей, будущее человечества и нашу человечную природу» (именно «человечную», а не просто «человеческую», то есть такую природную среду, какую нам хотелось бы иметь); 2) «человечество не должно провести остаток вечности, отчаянно сожалея о том, что сделали программисты»; 3) «помогать людям».

503

Некоторые религиозные сообщества делают особый акцент на вере, противопоставляя ее разумному доводу, которого, по их мнению, недостаточно для обретения духовного опыта — даже в наиболее идеализированной форме разума, даже после упорного и беспристрастного изучения всех священных текстов, откровений и толкований. Те, кто придерживается этих взглядов, вряд ли увидят в КЭВ оптимальный метод принятия решений (однако все-таки решат предпочесть именно его, а не еще более несовершенные методы, которые могут быть реализованы в случае отказа от КЭВ).

504

Подобный силам природы, действующий незаметно и регулирующий жизнь людей, — такой ИИ скорее можно считать «системным оператором» пространства, занятого человеческой цивилизацией, см.: [Yudkowsky 2001].

505

«Был бы нанесен» — потому что так может случиться, если когерентное экстраполированное волеизъявление человечества не согласится рассматривать моральные соображения в отношении этих субъектов, видимо, из-за сомнений в наличии у них морального статуса (хотя сейчас нам кажется более вероятным, что он у них есть). Но даже в случае блокировки решения КЭВ о прямой защите их интересов допустимо думать о возможности, что в рамках существующих правил те индивидуумы, которые желают эти интересы защитить и обеспечить благополучие субъектов за пределами базы экстраполяции, все-таки смогут добиться компромисса по этому вопросу (за счет отказа от части своей доли на ресурсы). Реально это или нет, будет зависеть от того, станет ли результат КЭВ выглядеть как набор базовых принципов, которые позволят в подобных случаях приходить к компромиссу (что, в свою очередь, предполагает решение проблемы стратегического торга).

506

Индивидуумы, внесшие вклад в создание безопасного и полезного человечеству сверхразума, могут получить за свой труд некоторую особую награду, которая в первую очередь не должна быть эксклюзивным правом определять характер деятельности человечества по овладению космическим пространством. Однако идея, что все, входящие в базу экстраполяции, получают равную долю, может быть настолько хорошей отправной точкой, что ее не стоит отбрасывать в сторону. В любом случае следует найти способ косвенным образом вознаградить тех, кто этого заслуживает, — альтруистов, работающих на благо всего человечества. Это можно сделать, не присваивая таким людям специального значения в базе экстраполяции, если КЭВ одобрит сам принцип (в том смысле, что присвоит ему какой-то минимальный ненулевой вес).

507

См.: [Bostrom et al. 2013].

508

Если у морального суждения, которое мы делаем, есть некий (довольно четко выраженный) смысл, понятный другим, сверхразум сможет определить его значение. Если суждение обладает свойствами высказывания (то есть имеет пропозициональный, или истинностный, характер, позволяющий ему быть истинным или ложным), сверхразум все равно сможет отыскать истинное значение, выраженное в виде: «агент Х должен сейчас сделать О». Так или иначе, но с подобной задачей он справится лучше нас. Даже не имеющий изначально способностей к оценке моральных суждений ИИ может ими овладеть, если обладает сверхмощью в области совершенствования интеллекта. Один из способов сделать это — разобраться, как функционирует этот механизм в человеческом мозгу, и разработать аналогичный, но более быстрый, действующий с более точной фактической информацией.

509

В силу неопределенности вопроса, связанного с метаэтикой, нужно решить, что должен делать ИИ, если не выполняются предварительные условия МП. Один из вариантов — постановить, что ИИ должен отключиться, если присвоит довольно высокую вероятность тому, что когнитивизм не работает или что подходящих абсолютных моральных истин не существует. Или предложить ему воспользоваться каким-то альтернативным методом вроде КЭВ.

Можно также уточнить метод МП, чтобы было понятнее, как поступать в различных неоднозначных или вырожденных случаях. Например, если теория ошибок верна (и, как следствие, любые утвердительные моральные суждения вида «я должен сейчас делать Т» ложны), тогда должна реализовываться запасная стратегия (например, отключение). Нам также нужно указать, как поступать, если существует несколько возможных действий, каждое из которых будет отвечать критерию моральной правоты. Например, можно сказать, что в таких случаях ИИ следует выполнить одно из возможных действий, которые предпочла бы коллективная экстраполяция человечества. Можно также оговорить, что произойдет, если в базовом словаре истинной этической теории не окажется терминов вроде «моральная правота». Например, в рамках консеквенциалистской теории одни действия могут считаться лучше других, но отсутствовать такое понятие, как «морально правильное действие». Тогда следует сказать, что в случае истинности такой теории ИИ следует выполнить одно из действий, наиболее приемлемых с моральной точки зрения, если таковое имеется; если приемлемых действий бесконечно много и для каждого из них есть лучшее с моральной точки зрения, тогда ИИ следует выполнить любое из тех действий, которое лучше лучшего действия, выбранного в такой ситуации человеком; если такового нет, то действие, которое как минимум не хуже того лучшего действия, выбранного в такой ситуации человеком.

185