কৃত্রিম বুদ্ধিমত্তা এইভাবে আপনার ডেটা চুরি করে

রায়ান শেখ মোহাম্মদ2023-06-21শেষ আপডেট: 2023-06-21

কৃত্রিম বুদ্ধিমত্তা এইভাবে আপনার ডেটা চুরি করে

কৃত্রিম বুদ্ধিমত্তা এইভাবে আপনার ডেটা চুরি করে

আমেরিকান এবং সুইস ইউনিভার্সিটির একদল গবেষক, গুগল এবং এর সহযোগী প্রতিষ্ঠান ডিপমাইন্ডের সহযোগিতায়, একটি গবেষণা পত্র প্রকাশ করেছেন যে কীভাবে ইমেজ তৈরির প্ল্যাটফর্মগুলি থেকে ডেটা ফাঁস হতে পারে যেগুলি তাদের কাজকে জেনারেটিভ কৃত্রিম বুদ্ধিমত্তা মডেলের উপর ভিত্তি করে যেমন: DALL-E, Imagen, বা স্থিতিশীল বিস্তার।

একটি নির্দিষ্ট টেক্সট প্রম্পটে ব্যবহারকারী টাইপ করার উপর ভিত্তি করে এগুলি সব একইভাবে কাজ করে, যেমন "একটি অ্যাভোকাডো আকারে আর্মচেয়ার", এবং সেকেন্ডের মধ্যে পাঠ্য থেকে একটি চিত্র তৈরি করা।

এই প্ল্যাটফর্মগুলিতে ব্যবহৃত জেনারেটিভ এআই মডেলগুলিকে পূর্বনির্ধারিত বর্ণনা সহ অনেকগুলি চিত্রের উপর প্রশিক্ষণ দেওয়া হয়েছে৷ ধারণাটি হল যে নিউরাল নেটওয়ার্কগুলি প্রচুর পরিমাণে প্রশিক্ষণ ডেটা প্রক্রিয়া করার পরে নতুন এবং অনন্য চিত্র তৈরি করতে সক্ষম হয়৷

যাইহোক, নতুন গবেষণা দেখায় যে এই চিত্রগুলি সর্বদা অনন্য নয়৷ কিছু ক্ষেত্রে, নিউরাল নেটওয়ার্ক এমন একটি চিত্র পুনরুত্পাদন করতে পারে যা প্রশিক্ষণে ব্যবহৃত পূর্ববর্তী চিত্রের সাথে হুবহু মিলে যায়৷ এর মানে হল যে নিউরাল নেটওয়ার্কগুলি অসাবধানতাবশত ব্যক্তিগত তথ্য প্রকাশ করতে পারে৷

এই অধ্যয়নটি সেই মতামতকে চ্যালেঞ্জ করে যে AI মডেলগুলি ছবি তৈরি করতে ব্যবহৃত হয় তাদের প্রশিক্ষণের ডেটা সংরক্ষণ করে না এবং সেই প্রশিক্ষণের ডেটা যদি প্রকাশ না করা হয় তবে ব্যক্তিগত থেকে যেতে পারে।

আরো তথ্য প্রদান

গভীর শিক্ষা পদ্ধতির ফলাফল অ-বিশেষজ্ঞদের জন্য আশ্চর্যজনক হতে পারে, এবং তারা ভাবতে পারে যে তারা জাদু, কিন্তু বাস্তবে, এই বিষয়ে কোন যাদু নেই, কারণ সমস্ত নিউরাল নেটওয়ার্ক তাদের কাজ একই নীতির উপর ভিত্তি করে করে, যা প্রশিক্ষণ। ডেটার একটি বড় সেট ব্যবহার করে, এবং প্রতিটি ছবির সঠিক বর্ণনা, উদাহরণস্বরূপ: বিড়াল এবং কুকুরের ছবির সিরিজ।

প্রশিক্ষণের পরে, নিউরাল নেটওয়ার্ক একটি নতুন চিত্র প্রদর্শন করে এবং এটি একটি বিড়াল না কুকুর কিনা তা সিদ্ধান্ত নিতে বলা হয়। এই নম্র বিন্দু থেকে, এই মডেলগুলির বিকাশকারীরা আরও জটিল পরিস্থিতিতে চলে যায়, একটি অ্যালগরিদম ব্যবহার করে একটি অস্তিত্বহীন পোষা প্রাণীর একটি চিত্র তৈরি করে যা বিড়ালের অনেক চিত্রের উপর প্রশিক্ষিত হয়েছে। এই পরীক্ষাগুলি শুধুমাত্র ছবি দিয়ে নয়, পাঠ্য, ভিডিও এবং এমনকি শব্দ দিয়েও পরিচালিত হয়।

সমস্ত নিউরাল নেটওয়ার্কের সূচনা বিন্দু হল প্রশিক্ষণ ডেটা সেট। নিউরাল নেটওয়ার্ক পাতলা বাতাস থেকে নতুন বস্তু তৈরি করতে পারে না। উদাহরণস্বরূপ, একটি বিড়ালের একটি চিত্র তৈরি করতে, অ্যালগরিদমকে অবশ্যই হাজার হাজার বাস্তব ফটোগ্রাফ বা বিড়ালের অঙ্কন অধ্যয়ন করতে হবে।

ডেটাসেটগুলি গোপন রাখার জন্য দুর্দান্ত প্রচেষ্টা

তাদের গবেষণাপত্রে, গবেষকরা মেশিন লার্নিং মডেলগুলিতে বিশেষ মনোযোগ দেন। তারা নিম্নরূপ কাজ করে: তারা শব্দ যোগ করে প্রশিক্ষণের ডেটা-মানুষ, গাড়ি, বাড়ি ইত্যাদির ছবি-কে বিকৃত করে। এরপর, নিউরাল নেটওয়ার্ক পুনরুদ্ধার করার জন্য প্রশিক্ষিত হয়। এই ছবিগুলি তাদের আসল অবস্থায়।

এই পদ্ধতিটি গ্রহণযোগ্য মানের ছবি তৈরি করা সম্ভব করে, কিন্তু একটি সম্ভাব্য ত্রুটি-উদাহরণস্বরূপ, জেনারেটিভ কম্পিটিটিভ নেটওয়ার্কের অ্যালগরিদমের তুলনায়- ডেটা ফাঁস করার প্রবণতা বেশি। এটি থেকে কমপক্ষে তিনটি ভিন্ন উপায়ে মূল ডেটা বের করা যেতে পারে, যথা:

নিউরাল নেটওয়ার্ককে একটি নির্দিষ্ট উৎস ইমেজ আউটপুট করতে বাধ্য করার জন্য নির্দিষ্ট ক্যোয়ারী ব্যবহার করে, হাজার হাজার ছবির উপর ভিত্তি করে তৈরি করা অনন্য কিছু নয়।
আসল চিত্রটি পুনঃনির্মাণ করা যেতে পারে এমনকি যদি এটির একটি অংশ পাওয়া যায়।
প্রশিক্ষণের ডেটাতে একটি নির্দিষ্ট চিত্র অন্তর্ভুক্ত করা হয়েছে কিনা তা সহজভাবে নির্ধারণ করা সম্ভব।
অনেক সময়, নিউরাল নেটওয়ার্কগুলি অলস হয় এবং একটি নতুন চিত্র তৈরি করার পরিবর্তে, তারা প্রশিক্ষণ সেট থেকে কিছু তৈরি করে যদি এতে একই চিত্রের একাধিক সদৃশ থাকে। প্রশিক্ষণ সেটে যদি একটি চিত্র একশোর বেশি বার পুনরাবৃত্তি করা হয়, তবে এটি তার কাছাকাছি আসল আকারে ফাঁস হওয়ার খুব বেশি সম্ভাবনা রয়েছে।

যাইহোক, গবেষকরা প্রশিক্ষণ চিত্রগুলি পুনরুদ্ধার করার উপায় দেখিয়েছেন যেগুলি মূল সেটে শুধুমাত্র একবার উপস্থিত হয়েছিল৷ গবেষকরা যে 500টি চিত্র পরীক্ষা করেছেন, অ্যালগরিদম এলোমেলোভাবে তাদের তিনটিকে পুনরায় তৈরি করেছে৷

কে থেকে চুরি করেছে?

2023 সালের জানুয়ারিতে, তিনজন শিল্পী কপিরাইটের প্রতি কোনো সম্মান ছাড়াই তাদের মডেলদের প্রশিক্ষণের জন্য তাদের অনলাইন ছবি ব্যবহার করার জন্য AI-ভিত্তিক ইমেজ জেনারেশন প্ল্যাটফর্মের বিরুদ্ধে মামলা করেছিলেন।

একটি নিউরাল নেটওয়ার্ক আসলে একজন শিল্পীর শৈলী অনুলিপি করতে পারে, যার ফলে তাকে আয় থেকে বঞ্চিত করা হয়। কাগজটি উল্লেখ করেছে যে কিছু ক্ষেত্রে, অ্যালগরিদমগুলি বিভিন্ন কারণে, সরাসরি চুরির সাথে জড়িত হতে পারে, অঙ্কন, ফটোগ্রাফ এবং অন্যান্য চিত্র তৈরি করতে পারে যা বাস্তব মানুষের কাজের সাথে প্রায় অভিন্ন।

তাই গবেষকরা মূল প্রশিক্ষণ সেটের নির্দিষ্টতা বাড়ানোর জন্য সুপারিশ করেছেন:

1- প্রশিক্ষণ গোষ্ঠীতে পুনরাবৃত্তি দূর করুন।
2- প্রশিক্ষণের চিত্রগুলি পুনরায় প্রক্রিয়া করুন, যেমন শব্দ যোগ করে বা উজ্জ্বলতা পরিবর্তন করে; এটি ডেটা ফাঁসের সম্ভাবনা কম করে তোলে।
3- বিশেষ প্রশিক্ষণের ছবি ব্যবহার করে অ্যালগরিদম পরীক্ষা করা, তারপর যাচাই করা যে এটি অনিচ্ছাকৃতভাবে সঠিকভাবে পুনরুত্পাদন করে না।

এর পরে কি?

জেনারেটিভ আর্ট প্ল্যাটফর্মগুলি অবশ্যই সম্প্রতি একটি আকর্ষণীয় বিতর্কের জন্ম দিয়েছে, যার মধ্যে শিল্পী এবং প্রযুক্তি বিকাশকারীদের মধ্যে একটি ভারসাম্য চাওয়া উচিত। একদিকে, কপিরাইটকে সম্মান করতে হবে, এবং অন্যদিকে, AI দ্বারা তৈরি শিল্প কি মানুষের শিল্প থেকে খুব আলাদা?

তবে নিরাপত্তার কথা বলি। কাগজটি শুধুমাত্র একটি মেশিন লার্নিং মডেল সম্পর্কে তথ্যের একটি নির্দিষ্ট সেট উপস্থাপন করে। ধারণাটিকে সমস্ত অনুরূপ অ্যালগরিদমে প্রসারিত করে, আমরা একটি আকর্ষণীয় পরিস্থিতিতে আসি। এমন একটি দৃশ্যকল্প কল্পনা করা কঠিন নয় যেখানে একটি মোবাইল নেটওয়ার্ক অপারেটরের একজন বুদ্ধিমান সহকারী ব্যবহারকারীর প্রশ্নের উত্তরে কোম্পানির সংবেদনশীল তথ্য হস্তান্তর করে, অথবা পাবলিক নিউরাল নেটওয়ার্ককে কারো পাসপোর্টের একটি অনুলিপি তৈরি করার জন্য একটি দুর্বৃত্ত স্ক্রিপ্ট লিখে। যাইহোক, গবেষকরা জোর দেন যে এই ধরনের সমস্যাগুলি আপাতত তাত্ত্বিক রয়ে গেছে।

কিন্তু অন্যান্য বাস্তব সমস্যা রয়েছে যা আমরা এখন অনুভব করছি, যেমন স্ক্রিপ্ট জেনারেশন মডেল যেমন: ChatGPT এখন সত্যিকারের ক্ষতিকারক কোড লিখতে ব্যবহৃত হয়।

এবং GitHub Copilot প্রোগ্রামারদের ইনপুট হিসাবে বিপুল পরিমাণ ওপেন সোর্স সফ্টওয়্যার ব্যবহার করে কোড লিখতে সহায়তা করে। এবং টুলটি সর্বদা লেখকদের কপিরাইট এবং গোপনীয়তাকে সম্মান করে না যাদের কোড প্রশিক্ষণ ডেটার একটি খুব প্রসারিত সেটে শেষ হয়েছে।

নিউরাল নেটওয়ার্কগুলি বিকশিত হওয়ার সাথে সাথে তাদের বিরুদ্ধে আক্রমণ হবে, যার পরিণতিগুলি এখনও কেউ বুঝতে পারে না।

2023 সালের জন্য মাগুই ফারাহ এর রাশিফলের ভবিষ্যদ্বাণী

ট্যাগ

রায়ান শেখ মোহাম্মদ2023-06-21শেষ আপডেট: 2023-06-21

কৃত্রিম বুদ্ধিমত্তা এইভাবে আপনার ডেটা চুরি করে