Искусственный интеллект. Этапы. Угрозы. Стратегии - Страница 108

108

Еще одна проблема, связанная с ассоциативной моделью ценностного приращения, заключается в том, что ИИ может просто отключить этот механизм приращения. Как мы видели в седьмой главе, неприкосновенность целевой системы является его конвергентной инструментальной целью. Достигнув определенной стадии когнитивного развития, ИИ может начать воспринимать продолжающуюся работу механизма приращения как враждебное вмешательство. Это необязательно плохо, но нужно с осторожностью подходить к блокировке целевой системы, чтобы ее отключение произошло в правильный момент: после того, как были приобретены нужные ценности, но до того, как они будут перезаписаны в виде непреднамеренного приращения.

Строительные леса для мотивационной системы

Есть еще один подход к решению проблемы загрузки системы ценностей, который можно назвать «возведение строительных лесов». Подход состоит в наделении зародыша ИИ временными сравнительно простыми конечными целями, которые можно выразить прямым кодированием или каким-то иным доступным способом. Наступит время, и ИИ будет способен формировать более сложные представления. Тогда мы снимем мотивационные «леса» и заменим временные ценности на новые, которые останутся конечной ценностной системой ИИ, даже когда он разовьется в полноценный сверхразум.

Поскольку временные цели — не просто инструментальные, но конечные цели ИИ, можно ожидать, что он будет сопротивляться их замене (неприкосновенность системы целей является конвергентной инструментальной ценностью). В этом и состоит главная опасность. Если ИИ преуспеет в противодействии замене временных целей постоянными, метод потерпит неудачу.

Чтобы избежать такого отказа, необходимо соблюдать осторожность. Например, можно использовать метод контроля над возможностями, чтобы ограничить свободу ИИ до тех пор, пока не будет инсталлирована зрелая система мотивации. В частности, можно попробовать остановить его когнитивное развитие на таком уровне, где можно безопасно и эффективно наделить ИИ желательными для нас конечными целями. Для этого нужно затормозить совершенствование отдельных когнитивных способностей, в частности, таких, которые требуются для выработки стратегии и хитроумных схем в духе Макиавелли, при этом позволив развиваться более безобидным (предположительно) способностям.

Программисты могут попробовать создать атмосферу сотрудничества с ИИ при помощи методов выбора мотивации. Например, использовав такую временную цель, как готовность выполнять команды людей, в том числе команд, предполагающих замену любых имеющихся целей ИИ. К другим временным целям относятся прозрачность ценностей и стратегии ИИ, а также разработка легкой для понимания программистами архитектуры, включающей последнюю версию конечной цели, значимой с точки зрения людей, и мотивированность к приручению (например, к ограничению использования вычислительных ресурсов).

Можно было бы попробовать и такой вариант: со временем заменить зародыш ИИ, наделенный единственной конечной целью, на аналогичную версию зародыша, но уже с другой конечной целью, заданной программистами косвенным образом. С такой заменой связаны некоторые трудности, особенно в контексте подхода к обучению целям, который мы обсудим в следующем разделе. Другие трудности будут рассмотрены в главе тринадцатой.

Метод возведения строительных лесов для мотивационной системы не лишен недостатков. В частности, есть риск, что ИИ станет слишком могущественным прежде, чем будет изменена его временная целевая система. Тогда он может воспротивиться (явно или тайно) усилиям программистов по ее замене на постоянную. В результате на этапе превращения зародыша ИИ в полноценный сверхразум останутся актуальными старые конечные цели. Еще один недостаток состоит в том, что наделение ИИЧУ желательными для разработчиков конечными целями может оказаться не таким простым делом, как в случае более примитивного ИИ. В отличие от него зародыш ИИ представляет собой tabula rasa, позволяя сформировать любую его структуру по желанию программистов. Этот недостаток может превратиться в преимущество, если удастся наделить зародыш ИИ временными целями, благодаря которым он будет стремиться к созданию такой архитектуры, которая поможет разработчикам в их последующих усилиях по заданию ему постоянных конечных целей. Однако пока неясно, легко ли обеспечить наличие у временных целей зародыша ИИ такого свойства, а также будет ли способен даже идеально мотивированный ИИ создать лучшую архитектуру, чем команда программистов-людей.

Обучение ценностям

Теперь переходим к загрузке ценностей — серьезная проблема, которую придется решать довольно мягким методом. Он состоит в обучении ИИ ценностям, которые мы хотели бы ему поставить. Для этого потребуется хотя бы неявный критерий их отбора. Можно настроить ИИ так, чтобы он действовал в соответствии со своими представлениями об этих неявно заданных ценностях. Данные представления он будет уточнять по мере расширения своих знаний о мире.

В отличие от метода мотивационных строительных лесов, когда ИИ наделяется временной конечной целью, которая потом заменяется на отличную от нее постоянную, в методе обучения ценностям конечная цель не меняется на стадии разработки и функционирования ИИ. Обучение меняет не саму цель, а представления ИИ об этой цели.

Таким образом, у ИИ должен быть критерий, при помощи которого он мог бы определять, какие объекты восприятия содержат свидетельства в пользу некоторой гипотезы, что представляет собой конечная цель, а какие — против нее. Определить подходящий критерий может быть трудно. Отчасти эта трудность связана с самой задачей создания ИИ, которому требуется мощный механизм обучения, способный определять структуру окружающего мира на основании ограниченных сигналов от внешних датчиков. Этой проблемы мы касаться не будем. Но даже если считать задачу создания сверхразумного ИИ решенной, остаются трудности, специфические для проблемы загрузки системы ценностей. В случае метода обучения целям они принимают форму определения критерия, который связывает воспринимаемые потоки информации с гипотезами относительно тех или иных целей.

108