Искусственный интеллект. Этапы. Угрозы. Стратегии - Страница 75

Быть может, машинный сверхразум будет столь же связан установленными обязательствами, которые вынудят его уживаться со всеми участниками грядущего драматического действа. Есть ли надежда? Отнюдь. Слишком это однозначное решение проблемы, незатейливо обещающее, будто удерживать сверхразум под контролем не составит для человека никакого труда. Что совсем не так. Подобное развитие отношений рассчитано на определенное равновесие сторон, однако ни юридические, ни экономические санкции не способны обуздать агента, обладающего решающим стратегическим преимуществом. В таком сюжете вряд ли разумно упоминать социальную интеграцию. Тем более если ситуация начнет развиваться в пользу быстрого или пусть даже умеренного взлета — когда остается лишь взрывоопасный вариант и на авансцену выходит победитель, который «получает все».

Рассмотрим другое развитие событий: например, критический рубеж преодолеют сразу несколько агентов, имеющих относительно одинаковый уровень потенциала, в силу чего может возникнуть новый многополярный мир. Что произойдет в этом случае? Допустим, речь не идет о медленном взлете. Тогда, чтобы достичь власти и сохранить разумное соотношение сил, от всех лидирующих агентов потребуется тщательно согласовать программы, время и динамику действий, то есть совместными усилиями не дать вырваться вперед ни одному игроку и совершить абсолютно скоординированный взлет. Предположим, в результате сформируется многополярная модель, но даже при таком варианте социальную интеграцию нельзя считать идеальным выходом. Если положиться на нее как на метод решения проблемы контроля, основные риски все равно могут перевесить потенциальный эффект. Хотя принцип равновесия сил предотвращает захват власти над миром каким-то одним ИИ, у него все же хватит власти, чтобы влиять на судьбу человечества, и если эта власть окажется направленной на достижение произвольных конечных целей — скажем, производство максимального количества скрепок, — это, вероятно, будет не в интересах принципала. Вернемся к нашему миллиардеру, основавшему благотворительный фонд, и теперь представим, что он формулирует его основное предназначение с помощью генератора случайных слов — вряд ли это поставит под угрозу существование человеческого вида, но точно будет свидетельствовать об упущенной возможности.

Близкая по духу и в то же время существенно отличающаяся от предыдущей идея состоит в том, что ИИ, свободно взаимодействуя с человеческим обществом, приобретет новые, дружественные для всей земной цивилизации конечные цели. На нас, людей, подобный процесс социализации, как правило, оказывает положительное влияние. Общаясь друг с другом, мы легче постигаем чуждые нам нормы жизни и непонятные мировоззренческие идеалы, начинаем больше ценить других людей. Но этот фактор не является универсальным для любой действующей разумной силы. Мы не раз говорили, что в разных ситуациях у многих агентов будут возникать конвергентные инструментальные причины ни в коем случае не допустить изменения своих конечных целей. (Можно попытаться разработать целую систему целеполагания, которая позволяла бы ИИ устанавливать конечные цели таким же образом, как это делают люди, но данная проблема не относится к методам контроля над возможностями. Некоторые способы обретения ценностей мы рассмотрим в главе двенадцатой.)

Контроль над возможностями сверхразума за счет социальной интеграции и установления равновесия сторон основан на разных общественных силах, которые как вознаграждают, так и осуждают ИИ. Следующим стимулирующим методом является создание таких условий, при которых вознаграждение и наказание ИИ осуществляется в рамках самого проекта, в результате чего стимулируются его действия в интересах принципала. Чтобы этого добиться, ИИ нужно поместить в контекстную среду, позволяющую непрерывно наблюдать за его поведением и оценивать его и в ручном, и автоматическом режиме. Такой ИИ должен знать, что положительная оценка будет означать получение вознаграждения, а отрицательная — невозможность такового. Теоретически в качестве вознаграждения можно рассмотреть достижение какой-либо конвергентной инструментальной цели. Однако без знания специфики мотивационной системы конкретного ИИ настроить механизм вознаграждения довольно трудно. Например, наш ИИ готов был бы рискнуть практически всем ради небольшого шанса обеспечить себе контроль над значительной частью Вселенной. В таком случае, видимо, будет слишком расточительно предлагать ИИ в качестве вознаграждения за сотрудничество более высокую ожидаемую полезность, чем ту, которую он надеется получить, отказавшись сотрудничать и попытавшись сбежать.

Лучшей альтернативой стало бы объединение этого стимулирующего метода с модами выбора мотивации — тогда появилась бы возможность наделить ИИ конечной целью, которую было бы намного проще брать под контроль. Допустим, какой-то ИИ разработан таким образом, что его конечная цель — не допустить нажатия красной кнопки в гипотетическом командном бункере. Поскольку этот акт имеет негативное значение, присущее ему по умолчанию, а не вызванное его возможными последствиями, кнопка может быть нерабочей и даже сделанной из пластилина. Более того, даже несущественно, узнает ли ИИ, была ли хоть когда-нибудь эта кнопка нажата. Важно другое: ИИ верит, что кнопка с большей вероятностью окажется ненажатой, если он будет действовать в интересах принципала, нежели если восстанет против него.

Условия можно уточнить. Вместо того чтобы наделять ИИ конечной целью, привязанной к конкретной кнопке, создадим ИИ, конечной целью которого станет получение потока неких зашифрованных наградных знаков. Это могут быть последовательности цифр, служащие ключами к шифрам, созданным до разработки ИИ и встроенным в его систему мотивации. Такие цифровые последовательности должны быть чрезвычайно желанными для ИИ и представлять собой награду, которую ИИ неспособен получить вследствие прямого стимулирования. Ключи должны храниться в безопасном месте, где было бы удобнее их быстро уничтожить в случае попытки ИИ завладеть ими. Однако пока ИИ проявляет готовность сотрудничать, их нужно выдавать ему на регулярной основе.