Trí tuệ nhân tạo đánh cắp dữ liệu của bạn theo cách này

Ryan Sheikh Mohammed2023-06-21Cập nhật lần cuối: 2023-06-21

Trí tuệ nhân tạo đánh cắp dữ liệu của bạn theo cách này

Trí tuệ nhân tạo đánh cắp dữ liệu của bạn theo cách này

Một nhóm các nhà nghiên cứu tại các trường đại học của Mỹ và Thụy Sĩ, hợp tác với Google và công ty con DeepMind, đã xuất bản một bài nghiên cứu giải thích cách dữ liệu có thể bị rò rỉ từ các nền tảng tạo hình ảnh dựa trên công việc của họ dựa trên các mô hình trí tuệ nhân tạo tổng quát như: DALL-E, Imagen, hoặc Khuếch tán Ổn định.

Tất cả chúng đều hoạt động theo cùng một cách dựa trên việc người dùng nhập lời nhắc văn bản cụ thể, ví dụ: “ghế bành hình quả bơ” và nhận được hình ảnh được tạo từ văn bản trong vài giây.

Các mô hình AI tổng quát được sử dụng trong các nền tảng này đã được đào tạo trên một số lượng rất lớn hình ảnh với mô tả được xác định trước. Ý tưởng là các mạng thần kinh có thể tạo ra các hình ảnh mới và độc đáo sau khi xử lý một lượng lớn dữ liệu đào tạo.

Tuy nhiên, nghiên cứu mới cho thấy những hình ảnh này không phải lúc nào cũng là duy nhất. Trong một số trường hợp, mạng nơ-ron có thể tái tạo một hình ảnh khớp chính xác với hình ảnh trước đó được sử dụng trong đào tạo. Điều này có nghĩa là mạng nơ-ron có thể vô tình tiết lộ thông tin cá nhân.

Nghiên cứu này thách thức quan điểm cho rằng các mô hình AI được sử dụng để tạo hình ảnh không lưu dữ liệu đào tạo của chúng và dữ liệu đào tạo đó có thể vẫn ở chế độ riêng tư nếu không được tiết lộ.

Cung cấp thêm dữ liệu

Kết quả của các hệ thống học sâu có thể gây kinh ngạc đối với những người không chuyên và họ có thể nghĩ rằng chúng thật kỳ diệu, nhưng trên thực tế, không có điều kỳ diệu nào trong vấn đề này, vì tất cả các mạng lưới thần kinh đều hoạt động dựa trên cùng một nguyên tắc, đó là đào tạo sử dụng tập hợp dữ liệu lớn và mô tả chính xác cho từng Ảnh, ví dụ: loạt ảnh về mèo và chó.

Sau khi đào tạo, mạng lưới thần kinh sẽ hiển thị một hình ảnh mới và được yêu cầu quyết định xem đó là một con mèo hay một con chó. Từ điểm khiêm tốn này, các nhà phát triển của các mô hình này chuyển sang các tình huống phức tạp hơn, tạo ra hình ảnh của một con vật cưng không tồn tại bằng cách sử dụng thuật toán đã được đào tạo trên nhiều hình ảnh về mèo. Những thí nghiệm này được thực hiện không chỉ với hình ảnh mà còn với văn bản, video và thậm chí cả âm thanh.

Điểm khởi đầu cho tất cả các mạng nơ-ron là tập dữ liệu huấn luyện.Mạng nơ-ron không thể tự tạo đối tượng mới. Ví dụ, để tạo ra hình ảnh một con mèo, thuật toán phải nghiên cứu hàng nghìn bức ảnh thật hoặc hình vẽ về mèo.

Những nỗ lực tuyệt vời để giữ bí mật các bộ dữ liệu

Trong bài báo của mình, các nhà nghiên cứu đặc biệt chú ý đến các mô hình học máy. những hình ảnh này về trạng thái ban đầu của chúng.

Phương pháp này cho phép tạo ra những hình ảnh có chất lượng chấp nhận được, nhưng một nhược điểm tiềm ẩn—chẳng hạn như so với các thuật toán trong các mạng cạnh tranh chung—là xu hướng rò rỉ dữ liệu nhiều hơn. Dữ liệu gốc có thể được trích xuất từ nó theo ít nhất ba cách khác nhau, cụ thể là:

Sử dụng các truy vấn cụ thể để buộc mạng thần kinh xuất ra một hình ảnh nguồn cụ thể, không phải thứ gì đó duy nhất được tạo dựa trên hàng nghìn hình ảnh.
Hình ảnh ban đầu có thể được xây dựng lại ngay cả khi chỉ có một phần của nó.
Có thể chỉ cần xác định xem một hình ảnh cụ thể có được đưa vào dữ liệu huấn luyện hay không.
Nhiều lần, các mạng thần kinh lười biếng và thay vì tạo ra một hình ảnh mới, chúng tạo ra một thứ gì đó từ tập huấn luyện nếu nó chứa nhiều bản sao của cùng một hình ảnh. Nếu một hình ảnh được lặp lại trong tập huấn luyện hơn một trăm lần, thì khả năng rất cao là nó sẽ bị rò rỉ ở dạng gần như nguyên bản.

Tuy nhiên, các nhà nghiên cứu đã chỉ ra các cách để truy xuất các hình ảnh huấn luyện chỉ xuất hiện một lần trong tập hợp ban đầu.

Ăn trộm của ai?

Vào tháng 2023 năm XNUMX, ba nghệ sĩ đã kiện nền tảng tạo hình ảnh dựa trên AI vì đã sử dụng hình ảnh trực tuyến của họ để đào tạo người mẫu mà không tôn trọng bản quyền.

Một mạng lưới thần kinh thực sự có thể sao chép phong cách của một nghệ sĩ, do đó tước đi thu nhập của anh ta. Bài báo lưu ý rằng trong một số trường hợp, vì nhiều lý do, các thuật toán có thể tham gia vào hành vi đạo văn hoàn toàn, tạo ra các bản vẽ, ảnh chụp và các hình ảnh khác gần giống với tác phẩm của người thật.

Vì vậy, các nhà nghiên cứu đã đưa ra các khuyến nghị để nâng cao tính đặc hiệu của tập huấn luyện ban đầu:

1- Loại bỏ sự lặp lại trong các nhóm đào tạo.
2- Xử lý lại hình ảnh đào tạo, ví dụ bằng cách thêm nhiễu hoặc thay đổi độ sáng; Điều này làm cho rò rỉ dữ liệu ít có khả năng hơn.
3- Kiểm tra thuật toán bằng cách sử dụng các hình ảnh đào tạo đặc biệt, sau đó xác minh rằng nó không vô tình sao chép chính xác thuật toán đó.

tiếp theo là gì?

Các nền tảng nghệ thuật sáng tạo gần đây chắc chắn đã gây ra một cuộc tranh luận thú vị, trong đó phải tìm kiếm sự cân bằng giữa nghệ sĩ và nhà phát triển công nghệ. Một mặt, bản quyền phải được tôn trọng, mặt khác, nghệ thuật do AI tạo ra có khác rất nhiều so với nghệ thuật của con người không?

Nhưng hãy nói về bảo mật. Bài báo trình bày một tập hợp các sự kiện cụ thể về chỉ một mô hình học máy. Mở rộng khái niệm cho tất cả các thuật toán tương tự, chúng ta đi đến một tình huống thú vị. Không khó để tưởng tượng một kịch bản trong đó một trợ lý thông minh của nhà điều hành mạng di động trao thông tin nhạy cảm của công ty để trả lời truy vấn của người dùng hoặc viết một đoạn mã lừa đảo nhắc mạng thần kinh công cộng tạo bản sao hộ chiếu của ai đó. Tuy nhiên, các nhà nghiên cứu nhấn mạnh rằng những vấn đề như vậy vẫn chỉ là lý thuyết trong thời điểm hiện tại.

Nhưng có những vấn đề thực sự khác mà chúng ta đang gặp phải hiện nay, như các mô hình tạo tập lệnh như: ChatGPT hiện được sử dụng để viết mã độc thực sự.

Và GitHub Copilot giúp các lập trình viên viết mã bằng cách sử dụng một lượng lớn phần mềm mã nguồn mở làm đầu vào. Và công cụ này không phải lúc nào cũng tôn trọng bản quyền và quyền riêng tư của các tác giả có mã kết thúc trong một bộ dữ liệu đào tạo rất mở rộng.

Khi các mạng lưới thần kinh phát triển, các cuộc tấn công chống lại chúng cũng vậy, với những hậu quả mà chưa ai hiểu được.

Dự đoán tử vi của Maguy Farah cho năm 2023

Thẻ

Ryan Sheikh Mohammed2023-06-21Cập nhật lần cuối: 2023-06-21

Trí tuệ nhân tạo đánh cắp dữ liệu của bạn theo cách này