Sztuczna inteligencja kradnie w ten sposób Twoje dane

Ryan Szejk Mohammed2023-06-21Ostatnia aktualizacja: 2023-06-21

Sztuczna inteligencja kradnie w ten sposób Twoje dane

Sztuczna inteligencja kradnie w ten sposób Twoje dane

Grupa naukowców z amerykańskich i szwajcarskich uniwersytetów, we współpracy z Google i jego spółką zależną DeepMind, opublikowała artykuł badawczy wyjaśniający, w jaki sposób dane mogą wyciekać z platform do tworzenia obrazów, które opierają swoją pracę na generatywnych modelach sztucznej inteligencji, takich jak: DALL-E, Imagen, lub stabilna dyfuzja.

Wszystkie działają w ten sam sposób, polegając na wpisaniu przez użytkownika określonego komunikatu tekstowego, np. „fotel w kształcie awokado” i uzyskaniu obrazu wygenerowanego z tekstu w ciągu kilku sekund.

Modele generatywne sztucznej inteligencji wykorzystywane na tych platformach zostały wytrenowane na bardzo dużej liczbie obrazów z wcześniej ustalonym opisem.Chodzi o to, aby sieci neuronowe były w stanie generować nowe i unikalne obrazy po przetworzeniu ogromnej ilości danych treningowych.

Jednak nowe badanie pokazuje, że te obrazy nie zawsze są unikalne.W niektórych przypadkach sieć neuronowa może odtworzyć obraz, który jest dokładnie dopasowany do poprzedniego obrazu użytego w szkoleniu.Oznacza to, że sieci neuronowe mogą przypadkowo ujawnić prywatne informacje.

To badanie podważa pogląd, że modele AI wykorzystywane do generowania obrazów nie zapisują swoich danych treningowych, a dane treningowe mogą pozostać prywatne, jeśli nie zostaną ujawnione.

Podaj więcej danych

Wyniki systemów głębokiego uczenia mogą być zdumiewające dla niespecjalistów i mogą myśleć, że to magia, ale w rzeczywistości nie ma w tym magii, ponieważ wszystkie sieci neuronowe opierają swoją pracę na tej samej zasadzie, jaką jest uczenie używając dużego zestawu danych i dokładnych opisów każdego Zdjęcia, na przykład: seria zdjęć kotów i psów.

Po treningu sieć neuronowa wyświetla nowy obraz i jest proszony o podjęcie decyzji, czy jest to kot, czy pies. Od tego skromnego punktu twórcy tych modeli przechodzą do bardziej złożonych scenariuszy, tworząc obraz nieistniejącego zwierzaka za pomocą algorytmu, który został przeszkolony na wielu obrazach kotów. Eksperymenty te przeprowadzane są nie tylko z obrazami, ale także z tekstem, wideo, a nawet dźwiękiem.

Punktem wyjścia dla wszystkich sieci neuronowych jest zbiór danych treningowych.Sieci neuronowe nie mogą tworzyć nowych obiektów znikąd. Na przykład, aby stworzyć wizerunek kota, algorytm musi przestudiować tysiące prawdziwych fotografii lub rysunków kotów.

Wielki wysiłek, aby zachować poufność zbiorów danych

W swoim artykule badacze zwracają szczególną uwagę na modele uczenia maszynowego, które działają w następujący sposób: zniekształcają dane treningowe — obrazy ludzi, samochodów, domów itd. — dodając szum. Następnie sieć neuronowa jest szkolona w celu przywrócenia te obrazy do ich pierwotnego stanu.

Ta metoda umożliwia generowanie obrazów o akceptowalnej jakości, ale potencjalną wadą – w porównaniu na przykład z algorytmami w generatywnych sieciach konkurencyjnych – jest większa skłonność do wycieku danych. Oryginalne dane można z niego wydobyć na co najmniej trzy różne sposoby, a mianowicie:

Używanie określonych zapytań, aby zmusić sieć neuronową do wygenerowania określonego obrazu źródłowego, a nie czegoś unikalnego wygenerowanego na podstawie tysięcy obrazów.
Oryginalny obraz można zrekonstruować, nawet jeśli dostępna jest tylko jego część.
Można w prosty sposób określić, czy dany obraz jest zawarty w danych treningowych, czy nie.
Wiele razy sieci neuronowe są leniwe i zamiast tworzyć nowy obraz, produkują coś ze zbioru uczącego, jeśli zawiera on wiele duplikatów tego samego obrazu. Jeśli obraz powtórzy się w zbiorze treningowym ponad sto razy, istnieje bardzo duża szansa, że wycieknie w niemal oryginalnej formie.

Jednak naukowcy wskazali sposoby na odzyskanie obrazów treningowych, które pojawiły się tylko raz w oryginalnym zestawie.Spośród 500 obrazów, które naukowcy przetestowali, algorytm losowo odtworzył trzy z nich.

Od kogo ukradł?

W styczniu 2023 r. trzech artystów pozwało platformy do generowania obrazów oparte na sztucznej inteligencji za wykorzystywanie ich obrazów online do szkolenia modeli bez poszanowania praw autorskich.

Sieć neuronowa może faktycznie kopiować styl artysty, pozbawiając go w ten sposób dochodów. W artykule zauważono, że w niektórych przypadkach algorytmy mogą z różnych powodów angażować się w jawny plagiat, generując rysunki, fotografie i inne obrazy, które są prawie identyczne z pracą prawdziwych ludzi.

Naukowcy sformułowali więc zalecenia mające na celu zwiększenie specyfiki pierwotnej grupy treningowej:

1- Wyeliminuj powtarzalność w grupach szkoleniowych.
2- Ponownie przetwórz obrazy treningowe, np. dodając szum lub zmieniając jasność; Zmniejsza to prawdopodobieństwo wycieku danych.
3- Testowanie algorytmu za pomocą specjalnych obrazów treningowych, a następnie sprawdzanie, czy nie odtwarza go przypadkowo dokładnie.

co jest następne?

Platformy sztuki generatywnej z pewnością wywołały ostatnio interesującą debatę, w której należy szukać równowagi między artystami a twórcami technologii. Z jednej strony prawa autorskie muszą być respektowane, az drugiej, czy sztuka generowana przez AI bardzo różni się od sztuki ludzkiej?

Ale porozmawiajmy o bezpieczeństwie. Artykuł przedstawia konkretny zestaw faktów dotyczących tylko jednego modelu uczenia maszynowego. Rozszerzając to pojęcie na wszystkie podobne algorytmy, dochodzimy do ciekawej sytuacji. Nietrudno wyobrazić sobie scenariusz, w którym inteligentny asystent operatora sieci komórkowej przekazuje poufne informacje firmowe w odpowiedzi na zapytanie użytkownika lub pisze nieuczciwy skrypt skłaniający publiczną sieć neuronową do utworzenia kopii czyjegoś paszportu. Naukowcy podkreślają jednak, że takie problemy pozostają na razie teoretyczne.

Istnieją jednak inne rzeczywiste problemy, z którymi obecnie mamy do czynienia, ponieważ modele generowania skryptów, takie jak: ChatGPT, są obecnie wykorzystywane do pisania prawdziwego złośliwego kodu.

A GitHub Copilot pomaga programistom pisać kod przy użyciu ogromnej ilości oprogramowania open source jako danych wejściowych. A narzędzie nie zawsze szanuje prawa autorskie i prywatność autorów, których kod znalazł się w bardzo rozbudowanym zbiorze danych treningowych.

Wraz z ewolucją sieci neuronowych będą się rozwijać ataki na nie, z konsekwencjami, których nikt jeszcze nie rozumie.

Prognozy horoskopu Maguy Farah na rok 2023

Tagi

Ryan Szejk Mohammed2023-06-21Ostatnia aktualizacja: 2023-06-21

Sztuczna inteligencja kradnie w ten sposób Twoje dane