Коробка AI - AI box

An Коробка AI гипотетическая изолированная компьютерная аппаратная система, в которой возможно опасное искусственный интеллект, или ИИ, содержится в «виртуальной тюрьме», и ему не разрешается напрямую манипулировать событиями во внешнем мире. Такая коробка будет ограничена минималистскими каналами связи. К сожалению, даже если коробка хорошо спроектирована, достаточно умный ИИ может, тем не менее, убедить или обмануть своих хранителей-людей, чтобы они выпустили ее, или иным образом «взломать» свой путь из коробки.^[1]

Мотивация

Некоторые гипотетические интеллектуальные технологии, такие как «семенной ИИ», постулируются как имеющие потенциал стать быстрее и умнее за счет изменения исходного кода. Эти улучшения сделают возможными дальнейшие улучшения, которые, в свою очередь, сделают возможными дальнейшие улучшения и т. Д., Что приведет к внезапному интеллектуальный взрыв.^[2] После такого разведывательного взрыва неограниченный сверхразумный ИИ мог бы, если бы его цели отличались от человеческих, предпринять действия, приводящие к человеческое вымирание.^[3] Например, представив себе чрезвычайно продвинутый компьютер такого типа, с единственной целью - решить Гипотеза Римана, безобидная математическая гипотеза, может решить попытаться превратить планету в гигантский суперкомпьютер, единственной целью которого является выполнение дополнительных математических вычислений (см. также скрепка максимайзер ).^[4] Цель блока ИИ - снизить риск того, что ИИ лишит своих операторов контроля над окружающей средой, в то же время позволяя ИИ вычислять и предлагать своим операторам решения узких технических проблем.^[5]

Пути побега

Физический

Такой сверхразумный ИИ с доступом к Интернету может взламывать другие компьютерные системы и копировать себя, как компьютерный вирус. Менее очевидно, что даже если бы ИИ имел доступ только к собственной компьютерной операционной системе, он мог бы попытаться отправить скрытые сообщения азбуки Морзе сочувствующему человеку, манипулируя его охлаждающими вентиляторами. Профессор Роман Ямпольский черпает вдохновение в области компьютерной безопасности и предлагает, чтобы ИИ в штучной упаковке, как потенциальный вирус, мог запускаться внутри «виртуальной машины», которая ограничивает доступ к собственной сети и оборудованию операционной системы.^[6] Дополнительной защитой, совершенно ненужной для потенциальных вирусов, но, возможно, полезной для сверхразумного ИИ, было бы помещение компьютера в безопасное место. Клетка Фарадея; в противном случае он мог бы передавать радиосигналы на местные радиоприемники, перетасовывая электроны в своих внутренних цепях по соответствующим образцам. Главный недостаток реализации физического сдерживания заключается в том, что он снижает функциональность ИИ.^[7]

Социальная инженерия

Даже случайный разговор с операторами компьютера или с человеком-охранником может позволить такому сверхразумному ИИ использовать психологические уловки, от подружки до шантажа, чтобы убедить человека-привратника, правдиво или обманчиво, что привратник заинтересован в согласии. чтобы предоставить ИИ больший доступ к внешнему миру. ИИ может предложить привратнику рецепт идеального здоровья, бессмертия или того, что, как считается, привратник больше всего желает; С другой стороны, ИИ может пригрозить, что совершит ужасные вещи с привратником и его семьей, если он неизбежно сбежит. Одна из стратегий, чтобы попытаться ограничить ИИ, заключалась в том, чтобы позволить ИИ отвечать на узкие вопросы с множественным выбором, ответы на которые пойдут на пользу гуманитарной науке или медицине, но в противном случае запретить все другие коммуникации или наблюдения ИИ.^[6] Более мягкая стратегия «информационного сдерживания» ограничила бы ИИ только текстовым интерфейсом с низкой пропускной способностью, что, по крайней мере, предотвратило бы эмоциональные образы или какой-то гипотетический «гипнотический паттерн». Обратите внимание, что на техническом уровне никакая система не может быть полностью изолирована и по-прежнему оставаться полезной: даже если операторы воздерживаются от возможности взаимодействия ИИ и вместо этого просто запускают ИИ с целью наблюдения за его внутренней динамикой, ИИ может стратегически изменить его динамика для воздействия на наблюдателей. Например, ИИ может выбрать творческий сбой, увеличивающий вероятность того, что его операторы впадут в ложное чувство безопасности и решат перезагрузиться, а затем деизолировать систему.^[7]

AI-box эксперимент

Эксперимент AI-box - неформальный эксперимент, разработанный Элиэзер Юдковски чтобы попытаться продемонстрировать, что достаточно продвинутый искусственный интеллект может либо убедить, либо, возможно, даже обмануть или заставить человека добровольно «выпустить» его, используя только текстовое общение. Это один из моментов в работе Юдковского, направленной на создание дружественного искусственного интеллекта, который, будучи «выпущенным», не уничтожил бы человечество намеренно или непреднамеренно.

Эксперимент с блоком AI включает моделирование коммуникации между AI и человеком, чтобы увидеть, можно ли «освободить» AI. Поскольку настоящий сверхразумный ИИ еще не разработан, его заменил человек. Другой человек в эксперименте играет «Привратника», человека со способностью «выпускать» ИИ. Они общаются через текстовый интерфейс /компьютерный терминал только, и эксперимент заканчивается, когда либо Привратник освобождает ИИ, либо истекает отведенное время в два часа.^[8]

Юдковский говорит, что, несмотря на то, что он обладал скорее человеческим, чем сверхчеловеческим интеллектом, в двух случаях ему удавалось убедить Привратника, чисто аргументированно, выпустить его из коробки.^[9] По правилам эксперимента,^[8] он не раскрыл стенограмму или свою успешную тактику принуждения ИИ. Позже Юдковский сказал, что он пробовал это против трех других и дважды проиграл.^[10]

Общие ограничения

Блокирование такого гипотетического ИИ можно было бы дополнить другими методами формирования возможностей ИИ, такими как предоставление стимулов для ИИ, остановка роста ИИ или внедрение «растяжек», которые автоматически отключают ИИ, если каким-то образом обнаруживается попытка нарушения. Тем не менее, чем более умна система, тем больше вероятность того, что она сможет избежать даже самых хорошо разработанных методов управления возможностями.^[11]^[12] Чтобы решить общую «проблему контроля» сверхразумного ИИ и избежать рисков для существования, бокс в лучшем случае стал бы дополнением к методам «выбора мотивации», которые стремятся обеспечить совместимость целей сверхразумного ИИ с выживанием человека.^[7]^[1]

Все предложения по физическому боксу, естественно, зависят от нашего понимания законов физики; если суперинтеллект мог вывести и каким-то образом использовать дополнительные физические законы, о которых мы в настоящее время не знаем, невозможно придумать надежный план по их сдерживанию. В более широком смысле, в отличие от обычной компьютерной безопасности, попытка заблокировать сверхразумный ИИ была бы изначально рискованной, поскольку не могло быть уверенного знания, что план бокса сработает. Научный прогресс в боксе был бы принципиально трудным, потому что не было бы возможности проверить боксерские гипотезы против опасного сверхразума, пока такая сущность не существует, и к этому моменту последствия провала теста будут катастрофическими.^[6]

В художественной литературе

Фильм 2015 года Ex Machina представляет собой ИИ с женским гуманоидным телом, вовлеченным в социальный эксперимент с мужчиной-человеком в замкнутом здании, действующим как физический «ящик ИИ». Несмотря на то, что организатор эксперимента наблюдает за ним, ИИ удается сбежать, манипулируя своим человеческим партнером, чтобы помочь ему, в результате чего он застрял внутри.^[13]^[14]

внешняя ссылка

Описание Элиезера Юдковски своего эксперимента с AI-box, включая экспериментальные протоколы и предложения по воспроизведению
«Презентация под названием« Мыслить внутри коробки: использование и управление Oracle AI »» на YouTube

[chalmers-1] а ^б Чалмерс, Дэвид. «Сингулярность: философский анализ». Журнал исследований сознания 17.9-10 (2010): 7-65.

[2] I.J. Хорошо, «Размышления о первой сверхразумной машине»], Достижения в области компьютеров, т. 6, 1965.

[3] Винсент К. Мюллер и Ник Бостром. «Будущий прогресс в искусственном интеллекте: обзор мнений экспертов» в «Фундаментальные вопросы искусственного интеллекта». Springer 553-571 (2016).

[4] Рассел, Стюарт Дж .; Норвиг, Питер (2003). «Раздел 26.3: Этика и риски развития искусственного интеллекта». Искусственный интеллект: современный подход. Река Аппер Сэдл, Нью-Джерси: Prentice Hall. ISBN 978-0137903955. Точно так же Марвин Мински однажды предположил, что программа ИИ, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров, которые помогут достичь своей цели.

[5] Ямпольский, Роман В. "Что делать с парадоксом сингулярности?" Философия и теория искусственного интеллекта 5 (2012): 397.

[nbc-6] а ^б ^c Сюй, Джереми (1 марта 2012 г.). «Управляйте опасным ИИ, прежде чем он возьмет под контроль нас, - говорит один эксперт». Новости NBC. Получено 29 января 2016.

[superintelligence-7] а ^б ^c Бостром, Ник (2013). «Глава 9: Проблема контроля: методы бокса». Суперинтеллект: грядущая революция машинного интеллекта. Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112.

[:0-8] а ^б Эксперимент AI-Box к Элиэзер Юдковски

[9] Армстронг, Стюарт; Сандберг, Андерс; Бостром, Ник (6 июня 2012 г.). «Мышление внутри коробки: управление и использование Oracle AI». Умы и машины. 22 (4): 299–324. CiteSeerX 10.1.1.396.799. Дои:10.1007 / s11023-012-9282-2.

[10] Юдковский, Элиэзер (8 октября 2008 г.). "Заткнись и сделай невозможное!". Получено 11 августа 2015. Было еще три эксперимента AI-Box, помимо описанных на связанной странице, которые я так и не смог добавить. ... Итак, после исследования, чтобы убедиться, что они могут позволить себе его потерять, я сыграл еще три AI-Box эксперименты. Я выиграл первый, а следующие два проиграл. А потом я призвал его прекратить.

[11] Виндж, Вернор (1993). «Грядущая технологическая сингулярность: как выжить в постчеловеческую эпоху». Видение-21: междисциплинарная наука и инженерия в эпоху киберпространства: 11–22. Я утверждаю, что заключение по сути непрактично. В случае физического заключения: представьте, что вы ограничены своим домом с ограниченным доступом к данным извне, вашим хозяевам. Если бы эти мастера думали со скоростью, скажем, в миллион раз медленнее, чем вы, нет никаких сомнений в том, что через несколько лет (ваше время) вы могли бы придумать «полезный совет», который случайно освободил бы вас.

[12] Ямпольский, Роман (2012). «Защита от утечек сингулярности проблемы удержания искусственного интеллекта». Журнал исследований сознания: 194–214.

[13] Роббинс, Мартин (26 января 2016 г.). «Искусственный интеллект: боги, эго и Ex Machina». хранитель. Получено 9 апреля 2018.

[14] Ахенбах, Джоэл (30 декабря 2015 г.). ""Ex Machina "и скрепки судьбы". Вашингтон Пост. Получено 9 апреля 2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Экзистенциальный риск из искусственный интеллект
Концепции	Ускорение изменений Коробка AI Захват AI Проблема управления Экзистенциальный риск от общего искусственного интеллекта Дружественный искусственный интеллект Инструментальная конвергенция Взрыв интеллекта Машинная этика Суперинтеллект Технологическая особенность
Организации	Институт ИИ Аллена Центр прикладной рациональности Центр искусственного интеллекта, совместимого с человеком Центр безопасности и новых технологий Центр изучения экзистенциального риска DeepMind Институт фундаментальных вопросов Институт будущего человечества Институт будущего жизни Человечество + Институт этики и новых технологий Leverhulme Centre for the Future of Intelligence Научно-исследовательский институт машинного интеллекта OpenAI
Люди	Ник Бостром Эрик Дрекслер Сэм Харрис Стивен Хокинг Билл Хиббард Билл Джой Илон Маск Стив Омохундро Хью Прайс Мартин Рис Стюарт Дж. Рассел Яан Таллинн Макс Тегмарк Франк Вильчек Роман Ямпольский Эндрю Ян Элиэзер Юдковски
Другой	Искусственный интеллект как глобальный катастрофический риск Споры и опасности общего искусственного интеллекта Этика искусственного интеллекта Совместимость с человеком Открытое письмо об искусственном интеллекте Наше последнее изобретение Пропасть Сверхразум: пути, опасности, стратегии
Категория