Ninanakaw ng artificial intelligence ang iyong data sa ganitong paraan

Ryan Sheikh Mohammed2023-06-21Huling na-update: 2023-06-21

Ninanakaw ng artificial intelligence ang iyong data sa ganitong paraan

Ninanakaw ng artificial intelligence ang iyong data sa ganitong paraan

Isang pangkat ng mga mananaliksik sa mga unibersidad sa Amerika at Switzerland, sa pakikipagtulungan sa Google at sa subsidiary nito na DeepMind, ay nag-publish ng isang research paper na nagpapaliwanag kung paano maaaring tumagas ang data mula sa mga platform ng paggawa ng imahe na nakabatay sa kanilang trabaho sa mga generative artificial intelligence models gaya ng: DALL-E, Imagen, o Stable Diffusion.

Gumagana silang lahat sa parehong paraan batay sa pag-type ng user sa isang partikular na text prompt, hal. "armchair in the shape of a avocado", at pagkuha ng larawang nabuo mula sa text sa loob ng ilang segundo.

Ang mga generative na modelo ng AI na ginamit sa mga platform na ito ay sinanay sa napakalaking bilang ng mga larawan na may paunang natukoy na paglalarawan. Ang ideya ay ang mga neural network ay nakakagawa ng mga bago at natatanging mga larawan pagkatapos ng pagproseso ng malaking halaga ng data ng pagsasanay.

Gayunpaman, ipinapakita ng bagong pag-aaral na ang mga larawang ito ay hindi palaging natatangi. Sa ilang mga kaso, ang neural network ay maaaring magparami ng isang imahe na eksaktong tugma sa isang nakaraang larawan na ginamit sa pagsasanay. Nangangahulugan ito na ang mga neural network ay maaaring hindi sinasadyang magbunyag ng pribadong impormasyon.

Hinahamon ng pag-aaral na ito ang mga pananaw na ang mga modelo ng AI na ginamit upang makabuo ng mga larawan ay hindi nagse-save ng kanilang data ng pagsasanay, at ang data ng pagsasanay ay maaaring manatiling pribado kung hindi isiwalat.

Magbigay ng higit pang data

Ang mga resulta ng mga deep learning system ay maaaring maging kahanga-hanga para sa mga hindi espesyalista, at maaari nilang isipin na sila ay magic, ngunit sa katotohanan, walang magic sa bagay na ito, dahil ang lahat ng mga neural network ay nakabatay sa kanilang trabaho sa parehong prinsipyo, na pagsasanay. gamit ang isang malaking set ng data, at tumpak na paglalarawan ng bawat Larawan, halimbawa: serye ng mga larawan ng mga pusa at aso.

Pagkatapos ng pagsasanay, ang neural network ay nagpapakita ng isang bagong imahe at hinihiling na magpasya kung ito ay isang pusa o isang aso. Mula sa mababang puntong ito, ang mga developer ng mga modelong ito ay nagpapatuloy sa mas kumplikadong mga sitwasyon, na lumilikha ng isang larawan ng isang hindi umiiral na alagang hayop gamit ang isang algorithm na sinanay sa maraming larawan ng mga pusa. Ang mga eksperimentong ito ay isinasagawa hindi lamang sa mga larawan, kundi pati na rin sa teksto, video at kahit na tunog.

Ang panimulang punto para sa lahat ng neural network ay ang set ng data ng pagsasanay. Ang mga neural network ay hindi makakalikha ng mga bagong bagay mula sa manipis na hangin. Halimbawa, upang lumikha ng isang imahe ng isang pusa, ang algorithm ay dapat pag-aralan ang libu-libong mga tunay na larawan o mga guhit ng mga pusa.

Mahusay na pagsisikap na panatilihing kumpidensyal ang mga dataset

Sa kanilang papel, partikular na binibigyang-pansin ng mga mananaliksik ang mga modelo ng pag-aaral ng makina. Gumagana ang mga ito tulad ng sumusunod: binabaluktot nila ang data ng pagsasanay—mga larawan ng mga tao, sasakyan, bahay, at iba pa—sa pamamagitan ng pagdaragdag ng ingay. Susunod, ang neural network ay sinanay upang maibalik ang mga larawang ito sa kanilang orihinal na estado.

Ginagawang posible ng pamamaraang ito na makabuo ng mga larawan na may katanggap-tanggap na kalidad, ngunit ang isang potensyal na disbentaha—kumpara sa mga algorithm sa mga generative na mapagkumpitensyang network, halimbawa—ay ang mas malaking tendensya nitong mag-leak ng data. Ang orihinal na data ay maaaring makuha mula dito sa hindi bababa sa tatlong magkakaibang paraan, katulad:

Paggamit ng mga partikular na query para pilitin ang neural network na mag-output ng isang partikular na pinagmulang larawan, hindi isang kakaibang nabuo batay sa libu-libong larawan.
Ang orihinal na imahe ay maaaring muling buuin kahit na isang bahagi lamang nito ang magagamit.
Posibleng matukoy lamang kung ang isang partikular na larawan ay kasama sa data ng pagsasanay o hindi.
Maraming beses, tamad ang mga neural network at sa halip na gumawa ng bagong imahe, gumagawa sila ng isang bagay mula sa set ng pagsasanay kung naglalaman ito ng maraming duplicate ng parehong larawan. Kung ang isang imahe ay paulit-ulit sa set ng pagsasanay nang higit sa isang daang beses, mayroong isang napakataas na pagkakataon na ito ay ma-leak sa halos orihinal nitong anyo.

Gayunpaman, ang mga mananaliksik ay nagpakita ng mga paraan upang mabawi ang mga larawan ng pagsasanay na lumitaw nang isang beses lamang sa orihinal na hanay.

Kanino nagnakaw?

Noong Enero 2023, tatlong artist ang nagdemanda sa mga platform ng pagbuo ng imahe na nakabatay sa AI para sa paggamit ng kanilang mga online na larawan upang sanayin ang kanilang mga modelo nang walang anumang paggalang sa copyright.

Ang isang neural network ay maaaring aktwal na kopyahin ang estilo ng isang artist, at sa gayon ay inaalis sa kanya ang kita. Ang papel ay nagsasaad na sa ilang mga kaso, ang mga algorithm ay maaaring, sa iba't ibang mga kadahilanan, ay makisali sa tahasang pangongopya, pagbuo ng mga guhit, litrato, at iba pang mga larawan na halos magkapareho sa gawain ng mga totoong tao.

Kaya ang mga mananaliksik ay gumawa ng mga rekomendasyon upang mapahusay ang pagtitiyak ng orihinal na grupo ng pagsasanay:

1- Tanggalin ang pag-uulit sa mga grupo ng pagsasanay.
2- Muling iproseso ang mga larawan ng pagsasanay, hal sa pamamagitan ng pagdaragdag ng ingay o pagpapalit ng liwanag; Ginagawa nitong mas malamang ang pagtagas ng data.
3- Pagsubok sa algorithm gamit ang mga espesyal na larawan ng pagsasanay, pagkatapos ay i-verify na hindi nito sinasadyang kopyahin ito nang tumpak.

ano ang susunod?

Ang mga platform ng pagbuo ng sining ay tiyak na nagbunsod ng isang kawili-wiling debate kamakailan, isa kung saan dapat maghanap ng balanse sa pagitan ng mga artist at developer ng teknolohiya. Sa isang banda, dapat igalang ang copyright, at sa kabilang banda, ang sining ba na nabuo ng AI ay ibang-iba sa sining ng tao?

Ngunit pag-usapan natin ang tungkol sa seguridad. Ang papel ay nagpapakita ng isang partikular na hanay ng mga katotohanan tungkol sa isang machine learning model lang. Ang pagpapalawak ng konsepto sa lahat ng katulad na algorithm, dumating tayo sa isang kawili-wiling sitwasyon. Hindi mahirap isipin ang isang senaryo kung saan ang isang matalinong katulong sa isang mobile network operator ay nagbibigay ng sensitibong impormasyon ng kumpanya bilang tugon sa query ng isang user, o sumulat ng isang rogue script na nag-uudyok sa isang pampublikong neural network na gumawa ng kopya ng pasaporte ng isang tao. Gayunpaman, binibigyang diin ng mga mananaliksik na ang mga naturang problema ay nananatiling teoretikal sa ngayon.

Ngunit may iba pang tunay na problema na nararanasan natin ngayon, dahil ang mga modelo ng pagbuo ng script gaya ng: Ginagamit na ngayon ang ChatGPT upang magsulat ng tunay na malisyosong code.

At tinutulungan ng GitHub Copilot ang mga programmer na magsulat ng code gamit ang isang malaking halaga ng open source software bilang input. At hindi palaging iginagalang ng tool ang copyright at privacy ng mga may-akda na ang code ay nagtatapos sa isang napakalawak na hanay ng data ng pagsasanay.

Habang umuunlad ang mga neural network, gayundin ang mga pag-atake laban sa kanila, na may mga kahihinatnan na wala pang nakakaunawa.

Ang mga hula sa horoscope ni Maguy Farah para sa taong 2023

Mga tag

Ryan Sheikh Mohammed2023-06-21Huling na-update: 2023-06-21

Ninanakaw ng artificial intelligence ang iyong data sa ganitong paraan