Такім чынам штучны інтэлект крадзе вашы даныя

Раян Шэйх Махамед2023-06-21Апошняе абнаўленне: 2023 г

Такім чынам штучны інтэлект крадзе вашы даныя

Такім чынам штучны інтэлект крадзе вашы даныя

Група даследчыкаў з амерыканскіх і швейцарскіх універсітэтаў у супрацоўніцтве з кампаніяй Google і яе даччынай кампаніяй DeepMind апублікавала даследчую працу, у якой тлумачыцца, як можа адбыцца ўцечка дадзеных з платформаў для стварэння малюнкаў, якія заснавалі сваю працу на мадэлях генератыўнага штучнага інтэлекту, такіх як: DALL-E, Imagen, або Стабільная дыфузія.

Усе яны працуюць аднолькава: карыстальнік уводзіць пэўны тэкст, напрыклад, «крэсла ў форме авакада», і атрымлівае выяву, згенераваную з тэксту, на працягу некалькіх секунд.

Генератыўныя мадэлі штучнага інтэлекту, якія выкарыстоўваюцца ў гэтых платформах, былі навучаны на вельмі вялікай колькасці малюнкаў з загадзя вызначаным апісаннем.Ідэя заключаецца ў тым, што нейронавыя сеткі здольныя ствараць новыя і унікальныя выявы пасля апрацоўкі велізарнай колькасці навучальных даных.

Аднак новае даследаванне паказвае, што гэтыя выявы не заўсёды ўнікальныя. У некаторых выпадках нейронавая сетка можа прайграць выяву, якая дакладна супадае з папярэдняй выявай, якая выкарыстоўвалася ў навучанні. Гэта азначае, што нейронавыя сеткі могуць ненаўмысна раскрыць прыватную інфармацыю.

Гэта даследаванне аспрэчвае меркаванне, што мадэлі штучнага інтэлекту, якія выкарыстоўваюцца для стварэння малюнкаў, не захоўваюць навучальныя даныя і што навучальныя даныя могуць заставацца прыватнымі, калі іх не раскрываюць.

Дайце больш даных

Вынікі сістэм глыбокага навучання могуць быць дзіўнымі для неспецыялістаў, і яны могуць думаць, што гэта чараўніцтва, але на самой справе ніякага чараўніцтва ў гэтым няма, бо ўсе нейронныя сеткі грунтуюць сваю працу на адным і тым жа прынцыпе, якім з'яўляецца навучанне з выкарыстаннем вялікага набору дадзеных і дакладных апісанняў кожнага малюнка, напрыклад: серыі малюнкаў катоў і сабак.

Пасля навучання нейронавая сетка паказвае новы малюнак і прапануе вырашыць, кот гэта ці сабака. З гэтага сціплага пункту гледжання распрацоўшчыкі гэтых мадэляў пераходзяць да больш складаных сцэнарыяў, ствараючы вобраз неіснуючага гадаванца з дапамогай алгарытму, які быў навучаны на многіх выявах катоў. Гэтыя эксперыменты праводзяцца не толькі з малюнкамі, але і з тэкстам, відэа і нават гукам.

Адпраўной кропкай для ўсіх нейронавых сетак з'яўляецца навучальны набор даных.Нейронавыя сеткі не могуць ствараць новыя аб'екты з паветра. Напрыклад, каб стварыць вобраз кошкі, алгарытм павінен вывучыць тысячы рэальных фатаграфій або малюнкаў котак.

Вялікія намаганні, каб захаваць канфідэнцыяльнасць набораў даных

У сваёй працы даследчыкі надаюць асаблівую ўвагу мадэлям машыннага навучання.Яны працуюць наступным чынам: яны скажаюць навучальныя даныя — выявы людзей, машын, дамоў і г. д. — шляхам дадання шуму.Далей нейронавая сетка навучаецца аднаўляць гэтыя выявы ў зыходны стан.

Гэты метад дазваляе ствараць выявы прымальнай якасці, але патэнцыйным недахопам — напрыклад, у параўнанні з алгарытмамі ў генератыўных канкурэнтных сетках — з'яўляецца яго большая схільнасць да ўцечкі дадзеных. Зыходныя даныя можна атрымаць з яго як мінімум трыма рознымі спосабамі, а менавіта:

Выкарыстанне пэўных запытаў, каб прымусіць нейронавую сетку выводзіць пэўны зыходны відарыс, а не нешта унікальнае, згенераванае на аснове тысяч малюнкаў.
Арыгінальны малюнак можа быць рэканструяваны, нават калі даступная толькі яго частка.
Можна проста вызначыць, уключаны канкрэтны малюнак у навучальныя даныя ці не.
Часта нейронавыя сеткі лянівыя і замест таго, каб ствараць новы відарыс, ствараюць нешта з навучальнага набору, калі ён утрымлівае некалькі дублікатаў аднаго і таго ж відарыса. Калі выява паўтараецца ў навучальным наборы больш за сто разоў, існуе вельмі высокая верагоднасць таго, што яна будзе выцякаць у сваёй амаль арыгінальнай форме.

Тым не менш, даследчыкі паказалі спосабы атрымання навучальных малюнкаў, якія з'яўляліся толькі адзін раз у зыходным наборы.З 500 выяваў, якія пратэставалі даследчыкі, алгарытм выпадковым чынам аднавіў тры з іх.

У каго скраў?

У студзені 2023 года трое мастакоў падалі ў суд на платформы генерацыі малюнкаў на аснове штучнага інтэлекту за тое, што яны выкарыстоўвалі іх выявы ў Інтэрнэце для навучання сваіх мадэляў без захавання аўтарскіх правоў.

Нейросетка можа фактычна капіяваць стыль мастака, тым самым пазбаўляючы яго прыбытку. У дакуменце адзначаецца, што ў некаторых выпадках алгарытмы па розных прычынах могуць займацца адкрытым плагіятам, ствараючы малюнкі, фатаграфіі і іншыя выявы, якія практычна ідэнтычныя працы рэальных людзей.

Такім чынам, даследчыкі далі рэкамендацыі па павышэнню спецыфікі першапачатковага набора трэніровак:

1- Выключыце паўтарэнне ў навучальных групах.
2- Паўторная апрацоўка навучальных малюнкаў, напрыклад, шляхам дадання шуму або змены яркасці; Гэта зніжае верагоднасць уцечкі даных.
3- Тэставанне алгарытму з выкарыстаннем спецыяльных навучальных малюнкаў, затым праверка таго, што ён ненаўмысна не прайгравае яго дакладна.

што далей?

Платформы генератыўнага мастацтва, безумоўна, апошнім часам выклікалі цікавую дыскусію, у якой трэба шукаць баланс паміж мастакамі і распрацоўшчыкамі тэхналогій. З аднаго боку, трэба паважаць аўтарскія правы, а з іншага боку, ці моцна мастацтва, створанае ІІ, адрозніваецца ад мастацтва чалавека?

Але давайце пагаворым пра бяспеку. Дакумент прадстаўляе пэўны набор фактаў толькі аб адной мадэлі машыннага навучання. Распаўсюджваючы паняцце на ўсе падобныя алгарытмы, мы прыходзім да цікавай сітуацыі. Няцяжка ўявіць сабе сцэнар, у якім інтэлектуальны памочнік аператара мабільнай сеткі перадае канфідэнцыйную інфармацыю аб кампаніі ў адказ на запыт карыстальніка або піша падробнае тэкставае падказку ў агульнадаступную нейронавую сетку для стварэння копіі чыйгосьці пашпарта. Аднак даследчыкі падкрэсліваюць, што такія праблемы пакуль застаюцца тэарэтычнымі.

Але ёсць і іншыя рэальныя праблемы, з якімі мы цяпер сутыкаемся, паколькі мадэлі генерацыі скрыптоў, такія як: ChatGPT, цяпер выкарыстоўваюцца для напісання сапраўднага шкоднаснага кода.

А GitHub Copilot дапамагае праграмістам пісаць код, выкарыстоўваючы ў якасці ўваходных дадзеных велізарную колькасць праграмнага забеспячэння з адкрытым зыходным кодам. І інструмент не заўсёды паважае аўтарскія правы і прыватнасць аўтараў, чый код трапляе ў вельмі пашыраны набор навучальных даных.

Па меры развіцця нейронавых сетак будуць развівацца і атакі на іх з наступствамі, якіх пакуль ніхто не разумее.

Прадказанні гараскопа Магуя Фары на 2023 год

Тэгі

Раян Шэйх Махамед2023-06-21Апошняе абнаўленне: 2023 г

Такім чынам штучны інтэлект крадзе вашы даныя