Как создают робота, который захочет изменить мир?

Компьютерный ученый Кристоф Солдж пытается устранить необходимость в правилах, которые управляют поведением роботов. Его стратегия — дать им цель: сделать нас более могущественными. Кристоф работает в Game Innovation Lab при Нью-Йоркском университете. Саша Маслов взяла интервью у Солджа для Quanta Magazine, из которого мы узнаем, что нам, возможно, вовсе не стоит пытаться удержать неудержимый поток технологической сингулярности.

Знаменитые три закона робототехники Айзека Азимова — ограничения поведения андроидов и автоматов, необходимые для обеспечения безопасности человечества — также были незавершенными. Эти законы сперва появились в рассказе Азимова в 1942 году, а затем в классических работах вроде «Я, робот» и звучат примерно так:

  1. Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинен вред.
  2. Робот должен подчиняться приказам, отдаваемым людьми, если таковые не противоречат Первому Закону.
  3. Робот должен защищать свое существование, если эта защита не противоречит Первому или Второму Закону.

Конечно, в этих законах можно найти множество противоречий и лазеек (чем, собственно, пользовался и сам Азимов). В наш нынешний век продвинутого программного обеспечения с машинным обучением и автономной робототехникой, определение и внедрение железной этики искусственного интеллекта стало актуальной проблемой для таких организаций, как Институт исследований машинного интеллекта и OpenAI.

Кристоф Солдж предпринял другой подход. Вместо того чтобы «сверху-вниз» навязывать философские определения того, как должны или не должны вести себя искусственные агенты, Солдж и его коллега Даниэль Полани исследуют путь «снизу-вверх», или «что робот должен делать в первую очередь», как написали в своей статье «Расширение прав как замена трем законам робототехники». «Расширение прав», концепция, рожденная на стыке кибернетики и психологии, описывает внутреннюю мотивацию агента к одновременному сопротивлению и работе в условиях окружающей среды. «Как организм, он хочет выжить. Он хочет оставить след в мире», объясняет Солдж. Пылесос Roomba, запрограммированный на поиск зарядной станции при разрядке батарей, — это рудиментарный пример «расширенных прав»: чтобы продолжать функционировать в мире, он должен получить заряд и продолжить собственное существование, то есть выжить.

Расширение прав может прозвучать как рецепт для получения того самого результата, которого боятся сторонники безопасного искусственного интеллекта вроде Ника Бострома: мощной автономной системы, обеспокоенной только удовлетворением собственных интересов и сходящей с ума в процессе этого. Но Солдж, изучающий человеко-машинные социальные взаимодействия, задается вопросом: что будет, если агент с расширенными правами «также будет заниматься расширением прав другого? Нужно, чтобы робот не просто хотел оставаться в рабочем состоянии — нужно, чтобы он также хотел поддерживать своего человеческого партнера».

Солдж и Полани поняли, что теория информации предлагает способ воплотить это взаимное расширение в математическую базу, которую возьмет на вооружение не-философствующий искусственный агент. «Одним из недостатков трех законов робототехники является то, что они основаны на языке, а язык в высокой степени двусмысленный», говорит Солдж. «Мы пытаемся найти что-то, что на самом деле можно будет исполнить».

Некоторые технологи считают, что ИИ — это большая, даже катастрофическая угроза существованию людей. А вы?

Я воздержусь. То есть я правда считаю, что в настоящее время существует страх перед роботами и растущим влиянием ИИ. Но, думаю, в краткосрочной перспективе мы, вероятно, будем больше озабочены возможной переменой рабочих мест, процесса принятия решений, утратой демократии, потерей конфиденциальности. Не знаю, насколько вероятно появление неудержимого ИИ в ближайшее время. Но даже если ИИ будет контролировать систему здравоохранения и выдавать рецепты, нам стоит подумать об этических вопросах, возникающих в процессе его работы.

Каким образом концепция расширения прав поможет нам справиться с этими проблемами?

Я думаю, что идея расширения прав заполняет нишу. Она не даст агенту позволить человеку умереть, но как только вы сможете удержаться на этом пороге, она будет поддерживать намерение создавать дополнительные возможности для выражения человека и влияния на мир. В одной из книг Азимова роботы просто в конечном итоге поместят всех людей в безопасные контейнеры. Это было бы нежелательно. Если наша способность влиять на мир будет постоянно улучшаться, я думаю, это будет гораздо более интересная для достижения цель.

Вы проверяли свои идеи виртуальных агентов в видеоигровой среде. Что произошло?

Агент, мотивированный собственными расширенными правами, уклонится от снаряда и не упадет в яму, в общем избежит любую ситуацию, которая может привести его к утрате мобильности, смерти или повреждению таким образом, чтобы уменьшить его операциональность. Он просто будет держаться.

В связке с игроком-человеком, который также наделен расширенными правами, мы увидели, что виртуальный робот будет поддерживать определенную дистанцию, чтобы не препятствовать движению человека. Он не заблокирует вас, не станет на проходе, чтобы вы не могли пройти. Он будет держаться максимально близко к вам, чтобы иметь возможность помочь. Это приводит к поведению, при котором он может и брать инициативу, и следовать за чужой.

К примеру, мы создали сценарий, в котором у нас был лазерный барьер, опасный для человека, но безопасный для робота. Если человек в этой игре приближается к лазерам, у робота появляется больше стимулов для блокировки лазера. Стимул усиливается, когда человек становится прямо перед барьером, словно намереваясь его пересечь. И робот фактически блокирует лазер, становясь перед человеком.

Проявляли ли эти агенты какое-либо непреднамеренное поведение, подобное тому, что вытекает из трех законов в книге Азимова?

Сначала поведение было хорошим. Например, виртуальный робот перехватывал противников, которые пытались вас убить. Время от времени он мог прыгнуть под пулю, если это был единственный способ спасти вас. Но что нас особенно удивило, с самого начала, что он также очень боялся человека.

Причина этого связана с его «близорукой» моделью: по сути, он анализирует, как последовательности определенных действий в два-три шага могут повлиять на мир, как для вас, так и для него. Поэтому первым шагом мы запрограммировали то, что игрок действует случайным образом. Но на практике это вылилось в то, что агент относился к человеку как к своего рода психопату, который мог в любой момент времени, например, выстрелить в агента. Поэтому агенту приходилось очень и очень осторожно выбирать положения, при которых человек не мог его убить.

Нам нужно было это исправить, поэтому мы смоделировали так называемое предположение о доверии. По сути, компаньон-агент действует, исходя из предположения, что человек будет выбирать только те действия, которые не станут ограничивать расширенные права самого агента — пожалуй, это более подходящая для компаньона модель.

Мы также заметили, что если в игре у вас было, скажем, 10 очков здоровья, компаньон не особо переживал, если вы теряли восемь или девять этих очков — он мог даже выстрелить в вас разочек, просто шутки ради. И тогда мы поняли, что есть разрыв между миром, в котором мы живем, и моделью в компьютерной игре. Как только мы смоделировали ограничения способности, вызванные потерей здоровья, проблема исчезла. Ее также можно было решить, создав не такую близорукую модель, которая могла бы просчитывать действия еще на пару шагов в будущее. Если бы агент мог заглянуть дальше в будущее, он увидел бы, что иметь больше очков здоровья может быть полезным для будущих событий.

Принимая во внимание, что смена количества очков здоровья никак на сказывается на моих расширенных правах, агент решает: «Стреляю я в него, не стреляю — какая разница?». И иногда стреляет. Что, конечно, является проблемой. Я не хочу случайных выстрелов в игроков. Мы добавили исправление, чтобы виртуальный робот чуть больше беспокоился о вашем состоянии, чем о своем.

Как вы делаете эти концепции точными?

Если рассматривать агентов как системы управления, их можно разложить на информационные составляющие: в мире что-то происходят и так или иначе тебя касается. Мы говорим об информации не как о вещах, которые вы воспринимаете, а как о воздействиях любого рода — это может быть вещество, что-то протекающее между миром и вами. Может быть температура или питательные вещества в вашем теле. Любая вещь, которая пересекает границу между миром и агентом, переносит в себе информацию. Точно так же агент может влиять на внешний мир самыми разными способами, также выводя в него информацию.

Можно рассматривать этот поток как пропускную способность канала, это концепция из теории информации. У вас могут быть широкие полномочия, расширенные права, если вы способны предпринимать различные действия, которые приводят к различным результатам. Если что-то пойдет не так, вы лишитесь своих полномочий, потому что утрата способности соответствует количественному уменьшению пропускной способности канала между вами и окружающей средой. Это основная идея.

Сколько должен знать агент, чтобы его расширенные полномочия действовали в полной мере?

Расширенные права имеют преимущества в том, что их можно применять даже тогда, когда вы не обладаете полным знанием. Агент действительно нуждается в модели того, как его действия будут влиять на мир, но ему не нужно полное понимание мира и всех его тонкостей. В отличие от некоторых подходов, которые пытаются смоделировать все в мире, насколько это возможно, в нашем случае нужно лишь выяснить, как ваши действия влияют на ваше же восприятие. Не нужно узнавать все обо всем; нужен лишь агент, который исследует мир. Он что-то делает и пытается понять, как его действия влияют на мир. Модель растет, а агент все лучше и лучше понимает, куда простираются границы его полномочий.

Вы проверяли его в виртуальной среде. Почему не в реальном мире?

Главным препятствием масштабирования этой модели и тому, чтобы поместить ее в реального робота, является сложность расчета пропускной способности канала агента и человека в такой богатой среде, как реальный мир, надолго вперед. Всем этим процессам еще только предстоит стать эффективными. Я оптимистично настроен, но пока эта проблема остается чисто вычислительной. Поэтому мы проверяем работу системы в компьютерной игре, в упрощенной форме.

Похоже, расширение прав и возможностей, в идеале, сделает наши машины мощными служебными собаками.

Я даже знаю некоторых робототехников, которые сознательно моделируют поведение компаньона на основе собак. Думаю, если роботы будут относиться к нам, как наши собаки, в этом будущем все мы сможем ужиться.

Источник

Related Articles

Back to top button
Close

Atomic Wallet

Jaxx Wallet

Jaxx Wallet Download

Atomic Wallet Download

Atomic Wallet App

atomicwalletapp.com

sinkronisasi reel pendek pola 4 6 spin yang sering mendahului scatter ketiga riset soft start ketika awal spin terlihat ringan tapi menyimpan momentum besar pola jam senja 18 30 20 30 aktivasi wild lebih rapat dibanding sesi lain deteksi visual micro flash efek singkat yang muncul tepat sebelum pre freespin analisis jalur simbol menyilang indikator non linear menuju burst bertingkat fenomena board padat simbol besar berkumpul sebelum tumble panjang terbuka studi turbo pendek mengapa 6 9 spin cepat lebih sering mengunci momentum perilaku reel awal saat reel 1 2 terlihat berat menjelang aktivasi multiplier pola recovery halus wild tunggal muncul setelah dead spin sebagai sinyal balik arah riset scatter tertahan ketika dua scatter bertahan lama sebelum ledakan aktual efek clean frame stabil layar terlihat bersih tepat saat rtp masuk zona seimbang analogi hujan gerimis tumble kecil berulang yang diam diam mengarah ke burst besar mapping ritme animasi perubahan tempo visual sebagai petunjuk pre burst pola jam malam 21 00 23 00 frekuensi multiplier bertingkat meningkat signifikan reel terakhir aktif aktivasi mendadak di reel 5 sebagai pemicu tumble lanjutan observasi spin manual kontrol ritme yang membantu membaca sinyal sistem deteksi low pay berpola ketika simbol kecil justru menjadi fondasi bonus studi pre burst senyap fase tenang 8 12 spin sebelum ledakan tajam jalur simbol turun naik gerakan dinamis yang mengindikasikan multiplier siap aktif blueprint sesi pendek strategi mengatur awal tengah spin agar momentum tidak terbuang reel tengah menguat pola sinkronisasi halus yang sering jadi awal scatter berlapis riset mini tumble ketika 3 tumble pendek berurutan jadi penanda bonus dekat kabut tipis di layar frame redup yang hampir selalu mengarah ke pre multiplier analisis pola jam 17 00 20 00 wild awal muncul lebih konsisten dari hari sebelumnya slide track tajam pergerakan simbol diagonal yang munculkan fase pre burst fenomena quiet board ketika 10 spin tenang justru memunculkan ledakan mendadak scatter luncur lambat indikator unik bahwa freespin akan terealisasi setelah 2 4 spin pola spin turbo ringkas efektivitas 7 turbo cepat dalam memicu tumble besar perubahan warna clean frame efek putih pucat yang jadi kode sebelum multiplier aktif riset simbol berat ketika high pay turun lebih banyak dari biasanya menjelang bonus analisis rotasi vertikal jalur simbol memanjang yang memperkuat potensi burst pola jam dingin 02 00 04 00 scatter sering bertahan lama sebelum akhirnya terkunci fs simulasi 3000 spin frekuensi wild grip muncul tinggi di pola malam hari reel 5 hyper active tanda bahwa sistem sedang mendorong momentum ke kanan analogi sungai tenang layar tanpa tumble yang justru menyimpan ledakan 2 3 putaran lagi frame gelap sesaat sinyal visual tipis sebelum scatter muncul berturut turut pola recovery wild ketika wild muncul setelah dead spin panjang sebagai pembalik keberuntungan mapping simbol rendah bagaimana low pay yang berulang bisa mengangkat probabilitas bonus reel bergerak serempak efek sinkronisasi singkat sebelum pre freespin sequence pola burst 3 lapisan ketika sistem memberikan tumble berjenjang yang mengarah ke ledakan utama