Искусственный интеллект. Этапы. Угрозы. Стратегии - Страница 183


К оглавлению

183

Теперь рассмотрим P(w | Ey). Определение этой условной вероятности, строго говоря, не является частью проблемы загрузки ценностей. Чтобы считаться разумным, ИИ уже должен уметь каким-то образом оценивать вероятность возникающих в реальном мире возможностей. Неспособная на это система не будет представлять опасности, о которой мы говорим. Однако существует риск, что эпистемология ИИ окажется достаточно хорошей, чтобы сделать его инструментально эффективным, и при этом недостаточно хорошей, чтобы правильно оценивать возможности, имеющие важное нормативное значение. (В этом смысле проблема определения P(w | Ey) связана с проблемой определения W). Определение P(w | Ey) также требует преодоления и других трудностей, в частности: как представлять неопределенность, связанную с логически невозможными событиями.

Упомянутые выше вопросы — как определить класс возможных действий, класс возможных миров и распределение вероятности, связывающее событие с классами возможных миров, — имеют довольно общий характер, поскольку те же самые вопросы возникают в случае широкого диапазона формально определяемых агентов. Остается рассмотреть вопросы, более специфические для метода обучения ценностям, а именно как определить U, V(U) и P(V(U) | w).

U — это класс функций полезности. U и W связаны, поскольку каждая функция полезности U(w) в U должна в идеале присваивать полезность каждого возможного мира w из W. Но U тоже должна быть довольно широкой в том смысле, что должна содержать много разных функций полезности — это повысит нашу уверенность, что хотя бы одна из них справится с задачей адекватного представления требуемых ценностей.

Причина написания P(V(U) | w), а не просто P(U | w), в том, чтобы подчеркнуть факт присвоения вероятностей утверждениям. Сама функция полезности утверждением не является, но ее можно трансформировать в утверждение. Например, можно сказать о некоторой функции полезности U(.), что она описывает предпочтения некоторого субъекта, или представляет утверждения некоторой этической теории, или что эту функцию полезности хотел бы использовать в системе ИИ принципал, если бы долго и глубоко размышлял на эту тему. Тогда «критерий ценности» V(.) может выглядеть как функция, которая в качестве аргумента использует функцию полезности U, а в качестве значения выдает утверждение, что U удовлетворяет критерию V. Определив утверждение V(U), мы, скорее всего, получим условную вероятность P(V(U) | w) из того же источника, который используем для получения и других распределений вероятности нашего ИИ. (Если мы уверены, что все существенные с нормативной точки зрения факты приняты во внимание при задании возможных миров W, тогда в каждом из возможных миров P(V(U) | w) будет равняться нулю или единице.) Остается вопрос, как определить V, — это обсудим далее в основном тексте.

469

Здесь приведены не единственные сложности метода обучения ценностям. Неясно, например, как наделить ИИ набором достаточно разумных исходных убеждений до того момента, когда он окрепнет настолько, что сможет воспротивиться попыткам программистов их скорректировать.

470

См.: [Yudkowsky 2001].

471

«Аве Мария» — термин из американского футбола. Так называется очень длинный пас вперед, сделанный в отчаянной ситуации — обычно когда время на исходе, — в надежде, что кто-то из игроков поймает мяч у зачетного поля противника и выполнит тачдаун.

472

Подход «Аве Мария» основан на идее, что сверхразум может формулировать свои предпочтения точнее, чем мы, люди, излагаем свои. Например, ИИ может сделать это при помощи кода. Поэтому если наш ИИ представляет другие сверхразумные системы в виде вычислительных процессов, воспринимающих окружающую их среду, то он сможет предположить, как эти системы могли бы реагировать на разные гипотетические стимулы, например «окна», выскакивающие в их поле зрения, с исходным кодом нашего ИИ и предложением сформулировать свои инструкции для нас в каком-то заранее выбранном и удобном для понимания формате. После этого наш ИИ мог бы изучить эти воображаемые инструкции (фактически из своей собственной модели, работающей по принципу «от обратного», в которой и существуют эти «другие» системы сверхразума) и выполнить их, поскольку изначально был мотивирован нами на это.

473

Альтернативный вариант — создать детектор, который в рамках модели мира нашего ИИ ищет представления физических структур, созданных сверхразумными цивилизациями. Затем мы могли бы исключить шаг определения функций предпочтения этих гипотетических сверхразумных систем и наделить наш ИИ конечными ценностями, предполагающими попытку скопировать те физические структуры, которые, как ему кажется, скорее всего создали бы эти гипотетические системы.

Однако и для этого варианта характерны технические трудности. Например, поскольку наш ИИ, даже достигнув уровня сверхразума, скорее всего, не будет знать с достаточной точностью, какие именно физические структуры создают другие сверхразумные системы, он может попытаться аппроксимировать их. Для этого ему потребуется метрика, с помощью которой он мог бы оценивать сходство двух физических артефактов. Но метрики, основанные исключительно на физических показателях, могут быть неадекватными; например, вывод, что мозг больше похож на камамбер, чем на компьютер, работающий в режиме имитационной модели, был бы в корне неправильным.

183