Искусственный интеллект. Этапы. Угрозы. Стратегии - Страница 62

В дальнейшем мы рассмотрим несколько категорий таких конвергентных инструментальных целей. Вероятность, что агент признает эти инструментальные цели, возрастает (при прочих равных условиях) с ростом уровня его интеллекта. Поэтому мы сосредоточим внимание в основном на случае гипотетического сверхразумного агента, инструментальные мыслительные способности которого выше человеческих. Кроме того, чтобы лучше понять, как следует интерпретировать и использовать наш тезис об инструментальной конвергенции, мы обсудим, истинен ли он по отношению к людям. Зная инструментальные цели сверхразума, мы сможем прогнозировать некоторые моменты его поведения — даже в том случае, если не будем иметь никакого представления о его конечных целях.

Самосохранение

Если конечные цели агента рассчитаны на длительную перспективу, тогда во многих сценариях ему будет необходимо выполнить некоторые действия в будущем, чтобы увеличить вероятность достижения своих целей. Отсюда возникает инструментальная причина оказаться в завтрашнем дне — что поможет агенту реализовать его ориентированные на будущее цели.

Представляется, что большинство людей определяют собственное выживание как некую конечную ценность. Однако вопрос самосохранения не всегда имеет столь окончательное значение для искусственных действующих сил: какие-то разумные агенты могут быть разработаны без особого стремления выжить. Тем не менее многие из них, напрямую не заинтересованные в сохранении собственного существования, при достаточно широком диапазоне условий имеют косвенный стимул обеспечить себе инструментально пребывание на свете как можно дольше — ради завершения своих конечных целей.

Непрерывная последовательность целей

Если текущие цели агента имеют отношение к будущему, тогда, скорее всего, они будут достигнуты уже той сущностью агента, которую он приобретет в будущем. Отсюда возникает инструментальная причина — предотвратить в настоящем изменение своих конечных целей. (Этот аргумент применим только к конечным целям. Чтобы их достичь, разумный агент, безусловно, начнет постоянно корректировать промежуточные цели с учетом новых данных и собственного понимания ситуации.)

В каком-то смысле непрерывная последовательность конечных целей является даже более фундаментальным конвергентным инструментальным мотивом, чем выживание. Среди людей может быть верно обратное — лишь потому, что выживание представляет собой одну из основных конечных целей. Для программных агентов, которые могут легко менять «корпус обитания» и создавать собственные точные копии, самосохранение самих себя в виде определенной реализации или физического объекта не обязательно является важной инструментальной целью. Расширенные версии программных агентов, возможно, смогут даже обмениваться воспоминаниями, загружать навыки и радикально изменять свою когнитивную архитектуру и персонализированные данные. Но в своей совокупности такие агенты не создают сообщества уникальных почти вечных сущностей, а скорее действуют наподобие «функционального потока». Генерируемые им процессы образуют целенаправленные последовательности, которые могут быть индивидуализированы скорее на основе общих ценностей, чем по признаку физических тел, «личностных» свойств, воспоминаний и способностей. В подобных случаях целостность непрерывной последовательности целей составляет едва ли не ключевой аспект вопроса выживания.

Но даже в таких сценариях бывают ситуации, когда агент способен намеренно корректировать конечные цели, чтобы выполнить их наилучшим образом. Это случается, когда любой из перечисленных ниже факторов становится особо значимым.

1. Социальные сигналы. Когда окружающие способны понять цели агента и на основе полученной информации сделать соответствующие выводы о его планах, важных с инструментальной точки зрения, тогда агенту придется в собственных интересах — чтобы произвести наиболее благоприятное впечатление — пересмотреть свои цели. Например, у агента может сорваться выгодная сделка, если потенциальные партнеры не доверяют ему и считают, что он неспособен выполнить свои обязательства по ней. Поэтому, чтобы завоевать доверие остальных участников договора, агент может выбрать в качестве конечной цели исполнение взятых на себя ранее обязательств (и позволить другой стороне проверить, что он действительно установил такую цель). Агенты, способные гибко и открыто пересматривать собственные цели, могут использовать это как преимущество при заключении сделок.

2. Социальные предпочтения. У окружающих могут сложиться собственные предпочтения относительно конечных целей агента. Тогда у агента появляются все основания откорректировать свои цели — либо чтобы удовлетворить общественные ожидания, либо чтобы окончательно подорвать их.

3. Приоритетность собственного ценностного содержания. У агента могут быть некоторые конечные цели, имеющие прямое отношение к его собственной системе ценностей. Например, он выбрал своей конечной целью стать таким агентом, который мотивирован какими-то определенными ценностями сильнее, чем остальными (скажем, состраданием, а не комфортом).

4. Издержки хранения. Если издержки, связанные с хранением или обработкой какого-то модуля функции полезности агента, велики по сравнению с вероятностью возникновения ситуации, когда применение этого модуля будет оправданно, тогда у агента появляется инструментальная причина упростить содержание целей и отказаться от неиспользуемого модуля.