Искусственный интеллект. Этапы. Угрозы. Стратегии - Страница 115

115

Степень безопасности, которая достигается за счет такого институционального конструирования, ограничена точностью тестов, применяющихся для оценки улучшенных субагентов. Разработка тестов усложняется тем, что оцениваемые параметры могут быть проверены лишь на небольшом диапазоне когнитивных способностей, а применяться они должны к агентам в том числе за пределами этого диапазона. Можно отчасти снять эту проблему, если проводить усовершенствование последовательно, шаг за шагом, и проверку на протяжении длительного времени. Однако такие меры предосторожности повысят издержки и замедлят прогресс (а в случае конкурентной гонки это будет означать, что проект, принимающий такие меры, окажется в невыгодном положении). И даже если идти вперед небольшими шагами и проводить интенсивное тестирование, остается некоторый риск появления небольших дефектов, которые постепенно приведут к деградации всю систему целей — деградации, способной проявиться лишь на этапе достижения системой уровня сверхразума. Риск можно несколько снизить, расширив условие тестирования на множество шагов улучшений, чтобы даже те агенты, которые успешно прошли проверку на каком-то этапе и были подвергнуты последующим улучшениям, продолжали бы сравниваться с контрольной группой немодифицированных агентов с изначально правильной системой мотивации.

В идеале такое тестирование должно проходить непрерывно, а не ограничиваться первоначальным периодом оценки. У субагентов человеческого уровня имеются стратегические способности, и они могут скрывать некоторые цели в ходе контрольных проверок их поведения. Чтобы сделать возможным непрерывное тестирование, можно создать иерархию, в рамках которой одни субагенты выполняли задачу по контролю над другими субагентами с несколько более высоким уровнем способностей. На нижней иерархической ступеньке способностей (но на вершине властной иерархии) окажется самый недалекий и «заторможенный» принципал. Он будет напоминать слабоумного короля, который отдает распоряжение недееспособному двору, а тот, в свою очередь, контролирует посредственное правительство, управляющее талантливыми людьми. Еще его можно сравнить с древним «мозгом рептилий», который следит за тем, чтобы более молодой и гораздо более развитый «неокортекс» отвечал за выполнение таких функций, как питание и совокупление.

Может возникнуть вопрос, а будет ли такая перевернутая меритократия стабильной? Если окажется, что мотивация значительного количества сверхразумных агентов нарушена, и люди, отвечающие за проект в целом, попытаются «откатить» часть улучшений, окажется ли эта институциональная структура достаточно прочной для того, чтобы выдержать сопротивление, вызванное этим шагом? В контексте исторических и современных человеческих обществ ответ, скорее всего, будет отрицательным. (Нельзя сказать, что к власти приходят только самые способные люди, но и сказать, что нами в прямом смысле управляют шимпанзе, тоже нельзя.) Однако этот вопрос оказывается гораздо более сложным, когда общество представляет собой совокупность компьютерных программ.

Представьте цифровую иерархию, в которой на каждых двух пролетариев приходится по одному хорошо обученному полицейскому агенту. А на каждых двух обычных полицейских агентов — один специальный полицейский агент. Еще есть специальный специальный полицейский агент на каждых двух просто специальных — и так далее, так что над каждым уровнем контролеров имеется уровень с как минимум в два раза меньшим количеством контролеров. Представьте также структуру этого общества, при которой контролер обладает большими полномочиями в отношении подконтрольных ему агентов. Например, может видеть и записывать все, что они говорят и делают, как если был бы скрыт от них зеркальным стеклом — из-за этого стекла подконтрольные агенты получают лишь приказы и инструкции, которые отбирал сам контролер. Еще нужно представить, что перед каждым контролером есть приборная панель с кнопками, нажимая которые он может в любой момент соответственно наказать, вознаградить, поставить на паузу, удалить или вернуть в предыдущее состояние своего подконтрольного агента. Благодаря этим возможностям власть агента-контролера выходит далеко за исторические рамки того, что встречалось даже в наиболее тоталитарных организациях.

Но даже этим инструменты контроля не исчерпываются. В распоряжении контролеров могут иметься реалистичные симуляторы виртуальной реальности, которые они могут использовать для моделирования гипотетических сценариев, чтобы провоцировать подконтрольных агентов и изучать их реакции (например, предлагать принять участие в заговоре или немного расслабиться, уверяя, что их никто не видит). Кроме того, контролеры могут «влезать в умы» подконтрольных агентов, подслушивая их внутренние монологи и напрямую манипулируя их эмоциональным состоянием.

То есть у контролера имеется огромное преимущество. Но каждый контролер является подконтрольным агентом другого контролера более высокого уровня, который, в свою очередь, наблюдает за каждым его шагом и следит, чтобы он не ослаблял усилий в деле исполнения своих контрольных функций. Таким образом, продуманная структура может быть стабильной даже в том случае, когда интеллектуально контролеры на всех уровнях иерархии слабее тех, кого контролируют. И всю эту структуру, включающую множество сверхразумных агентов, может контролировать небольшое количество людей с административным доступом.

115