Umelá inteligencia týmto spôsobom kradne vaše dáta

Ryan Sheikh Mohammed2023-06-21Posledná aktualizácia: 2023-06-21

Umelá inteligencia týmto spôsobom kradne vaše dáta

Umelá inteligencia týmto spôsobom kradne vaše dáta

Skupina výskumníkov z amerických a švajčiarskych univerzít v spolupráci so spoločnosťou Google a jej dcérskou spoločnosťou DeepMind zverejnila výskumnú prácu vysvetľujúcu, ako môžu údaje unikať z platforiem na vytváranie obrázkov, ktoré zakladajú svoju prácu na generatívnych modeloch umelej inteligencie, ako sú: DALL-E, Imagen, alebo stabilná difúzia.

Všetky fungujú rovnakým spôsobom na základe toho, že používateľ zadá konkrétnu textovú výzvu, napr. „kreslo v tvare avokáda“, a v priebehu niekoľkých sekúnd získa z textu obrázok.

Generatívne modely AI používané v týchto platformách boli trénované na veľmi veľkom počte obrázkov s vopred určeným popisom.Myšlienka je taká, že neurónové siete sú schopné generovať nové a jedinečné obrázky po spracovaní obrovského množstva trénovacích údajov.

Nová štúdia však ukazuje, že tieto obrázky nie sú vždy jedinečné. V niektorých prípadoch dokáže neurónová sieť reprodukovať obrázok, ktorý sa presne zhoduje s predchádzajúcim obrázkom použitým pri tréningu. To znamená, že neurónové siete môžu neúmyselne odhaliť súkromné informácie.

Táto štúdia spochybňuje názory, že modely AI používané na generovanie obrázkov neukladajú svoje tréningové údaje a že tréningové údaje môžu zostať súkromné, ak nie sú zverejnené.

Poskytnite viac údajov

Výsledky systémov hlbokého učenia môžu byť pre laikov úžasné a môžu si myslieť, že sú mágiou, ale v skutočnosti v tom nie je žiadna mágia, pretože všetky neurónové siete zakladajú svoju prácu na rovnakom princípe, ktorým je tréning pomocou veľkého súboru údajov a presných popisov každého obrázka, napríklad: série obrázkov mačiek a psov.

Po tréningu neurónová sieť zobrazí nový obrázok a je požiadaná, aby rozhodla, či ide o mačku alebo psa. Z tohto skromného bodu vývojári týchto modelov prechádzajú k zložitejším scenárom a vytvárajú obraz neexistujúceho domáceho maznáčika pomocou algoritmu, ktorý bol trénovaný na mnohých obrázkoch mačiek. Tieto experimenty sa vykonávajú nielen s obrázkami, ale aj s textom, videom a dokonca aj zvukom.

Východiskovým bodom pre všetky neurónové siete je súbor trénovacích údajov. Neurónové siete nedokážu vytvárať nové objekty zo vzduchu. Napríklad na vytvorenie obrazu mačky musí algoritmus študovať tisíce skutočných fotografií alebo kresieb mačiek.

Veľké úsilie o zachovanie dôvernosti súborov údajov

Vo svojej práci vedci venujú osobitnú pozornosť modelom strojového učenia. Fungujú nasledovne: skresľujú trénovacie údaje – obrázky ľudí, áut, domov atď. – pridaním šumu. Ďalej je neurónová sieť trénovaná na obnovenie tieto obrázky do pôvodného stavu.

Táto metóda umožňuje vytvárať obrázky prijateľnej kvality, ale potenciálnou nevýhodou – napríklad v porovnaní s algoritmami v generatívnych konkurenčných sieťach – je väčšia tendencia k úniku dát. Pôvodné údaje z neho možno extrahovať najmenej tromi rôznymi spôsobmi, a to:

Pomocou špecifických dopytov prinútite neurónovú sieť vydávať špecifický zdrojový obrázok, nie niečo jedinečné generované na základe tisícok obrázkov.
Pôvodný obraz je možné zrekonštruovať, aj keď je k dispozícii len jeho časť.
Je možné jednoducho určiť, či je konkrétny obrázok zahrnutý v tréningových dátach alebo nie.
Mnohokrát sú neurónové siete lenivé a namiesto toho, aby vytvorili nový obrázok, vytvoria niečo z tréningovej sady, ak obsahuje viacero duplikátov toho istého obrázka. Ak sa obrázok v tréningovej súprave zopakuje viac ako stokrát, je veľmi vysoká šanca, že unikne v takmer pôvodnej podobe.

Výskumníci však ukázali spôsoby, ako získať tréningové obrázky, ktoré sa v pôvodnej sade objavili iba raz. Z 500 obrázkov, ktoré výskumníci testovali, algoritmus náhodne vytvoril tri z nich.

Kto kradol?

V januári 2023 traja umelci zažalovali platformy na generovanie obrázkov založené na AI za používanie ich online obrázkov na trénovanie svojich modelov bez akéhokoľvek rešpektovania autorských práv.

Neurónová sieť môže skutočne kopírovať štýl umelca, čím ho pripraví o príjem. Článok poznamenáva, že v niektorých prípadoch sa algoritmy môžu z rôznych dôvodov zapojiť do priameho plagiátorstva, pričom vytvárajú kresby, fotografie a iné obrázky, ktoré sú takmer totožné s prácou skutočných ľudí.

Preto výskumníci urobili odporúčania na zvýšenie špecifickosti pôvodnej tréningovej skupiny:

1- Odstrániť opakovanie v tréningových skupinách.
2- Opätovné spracovanie tréningových obrázkov, napr. pridaním šumu alebo zmenou jasu; Vďaka tomu je únik údajov menej pravdepodobný.
3- Testovanie algoritmu pomocou špeciálnych tréningových obrázkov a následné overenie, či ho neúmyselne nereprodukuje presne.

čo bude ďalej?

Generatívne umelecké platformy v poslednej dobe určite vyvolali zaujímavú diskusiu, v ktorej treba hľadať rovnováhu medzi umelcami a vývojármi technológií. Na jednej strane treba rešpektovať autorské práva a na druhej strane je umenie generované umelou inteligenciou veľmi odlišné od ľudského?

Ale bavme sa o bezpečnosti. Článok predstavuje konkrétny súbor faktov len o jednom modeli strojového učenia. Rozšírením konceptu na všetky podobné algoritmy sa dostávame k zaujímavej situácii. Nie je ťažké si predstaviť scenár, v ktorom inteligentný asistent operátorovi mobilnej siete odovzdá citlivé firemné informácie ako odpoveď na otázku používateľa alebo napíše nečestný skript, ktorý vyzve verejnú neurónovú sieť, aby vytvorila kópiu niekoho pasu. Výskumníci však zdôrazňujú, že takéto problémy zostávajú zatiaľ len teoretické.

Existujú však aj iné skutočné problémy, s ktorými sa teraz stretávame, pretože modely generovania skriptov, ako napríklad: ChatGPT, sa teraz používajú na písanie skutočného škodlivého kódu.

A GitHub Copilot pomáha programátorom písať kód pomocou obrovského množstva open source softvéru ako vstupu. A tento nástroj nie vždy rešpektuje autorské práva a súkromie autorov, ktorých kód skončil vo veľmi rozšírenom súbore tréningových údajov.

S vývojom neurónových sietí sa budú vyvíjať aj útoky proti nim s následkami, ktorým zatiaľ nikto nerozumie.

Predpovede horoskopu Maguyho Faraha na rok 2023

Značky

Ryan Sheikh Mohammed2023-06-21Posledná aktualizácia: 2023-06-21

Umelá inteligencia týmto spôsobom kradne vaše dáta