২০২১ সালে ওপেন এআইয়ের ‘ডাল.ই’ প্রথম আধুনিক প্রম্পট টেক্সট টু এআই জেনারেটর। পরে ‘ডাল.ই ২’ ও ওপেন সোর্স প্রোগ্রাম ‘স্ট্যাবল ডিফউশন’ এ ক্ষেত্রে আরও অগ্রগতি আনে। প্রোগ্রাম জেনারেটেড ছবিগুলো হয়ে উঠতে থাকে আরও প্রাণবন্ত ও বাস্তবধর্মী। তবে প্রম্পটের বর্ণনা থেকে এ রকম প্রোগ্রামগুলোর মধ্যে সবচেয়ে অ্যাকুরেট ও রিয়েলিস্টিক ছবি তৈরি করতে পারে ২০২২ সালের জুলাইয়ে রিলিজ হওয়া মিডজার্নি নামক এআই প্রোগ্রাম। ডাল.ই ২, স্ট্যাবল ডিফিউশন এবং মিডজার্নি—এসব প্রোগ্রাম প্রায় একইভাবে কাজ করে।
এই এআই মডেলগুলো নিউরাল নেটওয়ার্ক ব্যবহার করে প্রম্পট টেক্সট থেকে বর্ণনা অনুযায়ী ছবি তৈরি করে। এর জন্য প্রথমে এই মডেলগুলোকে ফিড (feed) করা হয় বিশালাকার ট্রেনিং ডেটা সেট, যাতে থাকে বিভিন্ন রকম ছবি ও ছবিসংশ্লিষ্ট বর্ণনা। ইন্টারনেটে থাকা অগণিত ছবি ও তাদের অল্ট টেক্সট নিয়ে তৈরি করা হয় এই ডেটা সেট। মেশিন লার্নিং অ্যালগরিদমও ব্যবহার করা হয় এই প্রোগ্রামকে যেকোনো দুটি জিনিসের (যেমন একটা কলম ও একটা ফুল) মধ্যকার পার্থক্য শেখাতে। পার্থক্য শিখে গেলে ইমেজ স্পেসে আউটপুট দিয়ে কাঙ্ক্ষিত ছবি তৈরি করে এই মডেলগুলো।
মূলত এই মডেলগুলো হলো ইমেজ স্পেস এক্সপ্লোর করার একটি টুল। এআই আর্ট তৈরির প্রক্রিয়া সম্পর্কে আরও বিস্তারিত জানতে চাইলে এই ইমেজ স্পেস নিয়ে স্পষ্ট ধারণা থাকতে হবে।
বিজ্ঞান বিভাগের শিক্ষার্থীদের নিশ্চয়ই দ্বিমাত্রিক স্থানাঙ্ক সম্পর্কে ধারণা আছে। (২, -৩) বিন্দুটির অবস্থান X-অক্ষে দুই ঘর ধনাত্মক দিকে ও Y-অক্ষে তিন ঘর ঋণাত্মক দিকে। দ্বিমাত্রিক ব্যবস্থায় এভাবে যেকোনো বিন্দুর অবস্থান বের করা যায় ওই বিন্দুর স্থানাঙ্ক ব্যবহার করে। ত্রিমাত্রিক স্থানে এ রকম অবস্থান প্রকাশ করা হয় (৫, ৯, ৩) এ রকম একটি ভেক্টরের মাধ্যমে।
একটি দ্বিমাত্রিক ব্যবস্থায় একটি বিন্দুর অগণিত অবস্থান থাকতে পারে। একে সাংকেতিকভাবে প্রকাশ করা যায় (x, y)-এর মাধ্যমে। এই (x, y) হলো দ্বিমাত্রিক স্থান, যাতে x ও y-এর মান বসিয়ে এ স্থানের একটি নির্দিষ্ট অবস্থান প্রকাশ করা যায়।
ত্রিমাত্রিক বস্তুর ক্ষেত্রে তার অবস্থান প্রকাশ করা হবে ত্রিমাত্রিক স্থানে, সাংকেতিকভাবে যাকে (x, y, z) রূপে প্রকাশ করা যায়। আমাদের বাস্তব জীবনের প্রায় সবকিছু দ্বিমাত্রিক ও ত্রিমাত্রিক। তাই আমরা দ্বিমাত্রিক ও ত্রিমাত্রিক স্থান ভালোভাবে বুঝি। কিন্তু মাত্রা তিনের বেশি হলেই শুরু হয় যত বিপত্তি।
আমাদের মস্তিষ্ক তিন মাত্রার বেশি কিছু কল্পনা করতে পারে না। তাই ইমেজ স্পেসের ধারণা মাল্টিডাইমেনশন বা বহুমাত্রার ধারণার মতো অনেকটা অ্যাবস্ট্রাক্ট বা বিমূর্ত। ইমেজ স্পেস বোঝার সুবিধার্থে (যদিও এই সংখ্যা অসীম) ধরে নিই, আমাদের জগতে ১০০ রং রয়েছে। এখন খুব সরল একটা ৩২ পিক্সেলের ছবির কথা চিন্তা করি, যার প্রতিটি পিক্সেলে একেকটি রং রয়েছে। বিন্যাস সমাবেশের অঙ্ক কষে থাকলে খুব সহজেই nCr ফর্মুলা ব্যবহার করে বের করতে পারবেন, এই ৩২ পিক্সেলে রংগুলো মোট ১৪, ৩০, ১২, ৫০, ১৩, ৪৯, ১৭, ৪২, ৫৭, ৫৬, ০২, ২৬, ৭৭৫ ভাবে থাকতে পারে।
সংখ্যাটা পড়ার দরকার নেই। শুধু একটু কল্পনা করার চেষ্টা করুন, এই সংখ্যা কত বড় হতে পারে। না পারলে সমস্যা নেই, আমি সাহায্য করছি। পৃথিবীতে থাকা মোট বালুকণার সংখ্যা কত হতে পারে, ভাবুন। অনেক, তাই না?
কী ভাবছেন, সংখ্যাটা এর কাছাকাছি? না, সংখ্যাটা এর ধারেকাছেও নেই। আমাদের পৃথিবীর মতো প্রায় দুই কোটি পৃথিবীতে যত বালুকণা আছে, সংখ্যাটা তার সমান। তবে এটা তো শুধু ৩২ পিক্সেলের একটা ছবির জন্য, যেখানে মোট রং ধরেছি মাত্র ১০০টি।
বর্তমানে ফোন বা ক্যামেরায় তোলা ছবি ও কম্পিউটার জেনারেটেড ইমেজগুলোতে কয়েক হাজার থেকে শুরু করে কয়েক লাখ পিক্সেল থাকে, যার প্রতিটিতে লাল, সবুজ ও নীলের প্রায় ১ দশমিক ৭ কোটি ভিন্ন রঙের কম্বিনেশন হতে পারে। এ রকম কয়েক হাজার পিক্সেলের একটা ছবির প্রতি পিক্সেলের ভিন্ন বিন্যাসসংখ্যা হিসাব করা কোনো মানুষের পক্ষে সম্ভব নয়। এ জন্য প্রয়োজন খুব শক্তিশালী কম্পিউটিং ডিভাইস। কিন্তু এটা শুধু আরজিবি স্কেলে কয়েক হাজার পিক্সেলের একটা ছবির হিসাব।
পিক্সেলের সংখ্যা যদি অসীম হয়, তবে? আর যদি রঙের স্পেকট্রাম আরজিবি স্কেলের বাইরের স্কেলগুলো নিয়ে অসীম হয়? এ অসীমসংখ্যক পিক্সেল ও এর প্রতিটিতে অসীম রঙের কম্বিনেশনকে মিলিয়ে বলা হয় ইমেজ স্পেস, যার মাত্রার সংখ্যা অসীম।
এমন এন-ডাইমেনশনাল স্পেসকে গাণিতিকভাবে (n1, n2, n3,…, n∞) আকারে প্রকাশ করা যায়, যেখানে প্রতিটি n1, n2,…, n∞ এর মানের জন্য ইমেজ স্পেসে একটি নির্দিষ্ট ছবি বা ফ্রেম পাওয়া যায়। হতে পারে ওই নির্দিষ্ট ফ্রেমটি একটি র৵ানডম পিক্সেলের কালেকশন, বাস্তব জীবনে যার কোনো মানে নেই।
ওপরের ছবিটি বাবেলিয়া লাইব্রেরির ছোট ইমেজ স্পেস থেকে নেওয়া এমনই একটি র৵ানডম ফ্রেম। ঝিরঝিরে টিভির স্ক্রিনের মতো দেখতে ছবিটির কিন্তু বিশেষ কোনো তাৎপর্য নেই। তবে এটি ইমেজ স্পেসের একটি নির্দিষ্ট ফ্রেম। এর নামও আছে—6322466584437036। বাবেলিয়া লাইব্রেরিতে এ নাম দিয়ে সার্চ করলে ঠিক এ ছবি আসবে। এ রকম ইমেজ স্পেস থেকে একটা নির্দিষ্ট ফ্রেম নিয়ে আসা এআই মডেলগুলোর কাজ।
দ্বিমাত্রিক ব্যবস্থায় যেভাবে (২, -৩) বিন্দুটির অবস্থান এই স্থানাঙ্কের ২ ও -৩ দিয়ে বের করা হয়েছে, এআই মডেলগুলো ইনপুটে দেওয়া প্রম্পট থেকে এভাবে একটি নির্দিষ্ট ফ্রেম বের করে আনে। তবে এ ক্ষেত্রে তারা সরাসরি লেখাকে ইমেজ স্পেসের এন-ডাইমেনশনাল ভেক্টরে রূপান্তর করতে পারে না। এ জন্য ডিপ লার্নিং বা মেশিন লার্নিং কাজে আসে। কেউ যখন ‘ফোন হাতে এক লোক’ লিখে সার্চ করবে, তখন এআই মডেলটি আগে থেকে জানবে ‘ফোন’ কথাটি দিয়ে আমরা কী রকম আকার বা আকৃতি চাইছি। মডেলটি ইমেজ স্পেসে একটি জায়গাও ঠিক করে রেখেছে ‘ফোন’-এর জন্য।
যখন ‘ফোন’-এর সঙ্গে ‘লোক’-এর জন্য ছবি খোঁজা শুরু হবে, তখন মডেলগুলো ইমেজ স্পেসে ফোনের জন্য নির্ধারিত জায়গায় ‘লোক’-এর সন্ধান করতে শুরু করবে। এভাবে প্রম্পট বা কয়্যারিতে যত বেশি তথ্য থাকবে, এআই মডেলগুলো তত সুনির্দিষ্ট একটা ফ্রেমের সন্ধান করতে থাকবে, যেখানে বস্তুগুলোর আকার, আকৃতি ও রং—সবকিছু প্রম্পট টেক্সটের সঙ্গে মিলে যায়।
প্রম্পটের টেক্সট যদি ইমেজ স্পেসের একটা বড় পরিসরকে নির্দেশ করে, তবে তা থেকে নির্দিষ্ট একটি ফ্রেম আউটপুট হিসেবে বেছে নেওয়ার জন্য আরেকটি স্পেসও কাজ করে এই মডেলগুলোতে। এর নাম লেটেন্ট স্পেস।
লেটেন্ট স্পেসের কাজ হলো প্রম্পটের টেক্সট দিয়ে নির্ধারিত ইমেজ স্পেসের সুনির্দিষ্ট একটি বড় পরিসর থেকে নির্দিষ্ট ছবি বের করতে সাহায্য করা। ডিপ লার্নিং ব্যবহার করে এই লেটেন্ট স্পেসই নির্দিষ্ট করে দেবে, কোন ধরনের ছবি প্রম্পটের বর্ণনার সঙ্গে মিল রেখে আউটপুট হিসেবে দেখানো হবে। এ ছাড়া লেটেন্ট স্পেস একই ধরনের প্রম্পটের জন্য যেন একই ছবি একাধিকবার চলে না আসে, সেটি নিশ্চিত করে।
এই লেটেন্ট স্পেসকে ম্যাথমেটিক্যাল স্পেসও বলা হয়। কারণ, এটি ইমেজ স্পেসের সঙ্গে একটি (আসলে অসীম) নতুন মাত্রা যোগ করে আউটপুট নির্ধারণে সাহায্য করছে। লেটেন্ট স্পেস ইমেজ স্পেস থেকেও জটিল। আজ আর সেদিকে না-ই যাই। আপাতত জেনে রাখুন, লেটেন্ট স্পেসের কাজ ট্রেনিং ডেটা থেকে প্রশিক্ষণ ব্যবহার করে ইমেজ স্পেস থেকে একটি নির্দিষ্ট প্রম্পটের জন্য আউটপুট ছবি নির্ধারণে সাহায্য করা।
এই ইমেজ স্পেস ও লেটেন্ট স্পেসের সাহায্যে এআই মডেলগুলো বর্ণনা থেকে ছবি বের করে আনে। এ জন্য এ মডেলগুলোকে জেনারেটিভ সার্চ ইঞ্জিনও বলা হয়, যার কাজ ইমেজ স্পেস থেকে ইমেজ ব্রিড (Breed) করা বা জন্ম দেওয়া।
আরেকটু সহজ করে বললে, ইমেজ স্পেস হলো অসীমসংখ্যক পিক্সেলের অসীমসংখ্যক রঙের বিন্যাসবিশিষ্ট স্থান। বাক্যটি খুব ছোট হলেও এ কথার মানে কিন্তু বেশ গভীর।
ইমেজ স্পেসে অসীমসংখ্যক পিক্সেলে সব সম্ভব কম্বিনেশন আছে। এর মানে হলো, আপনি আজ পর্যন্ত আপনার মুঠোফোন দিয়ে যতগুলো ছবি তুলেছেন, তার সব এ ইমেজ স্পেসে আছে। শুধু তা-ই নয়, ভবিষ্যতে আপনি যত ছবি তুলবেন, তা-ও ইমেজ স্পেসে আছে। মূলত পৃথিবীর সব তোলা বা আঁকা ছবি এবং ভবিষ্যতে যা তোলা ও আঁকা হবে, তার সব এ ইমেজ স্পেসে আছে। এমনকি যেসব ছবি কোনো দিন কোনো খাতায় আঁকা হবে না, কোনো ক্যামেরায় তোলা হবে না, সেগুলো আছে এই ইমেজ স্পেসে।
ছোটবেলা থেকে এ পর্যন্ত আপনি যা কিছু দেখেছেন, এখন বিজ্ঞানচিন্তা ম্যাগাজিনে যা দেখছেন এবং বাকি জীবনে যা নিজের চোখে দেখবেন, সেসব ঘটনার প্রতিটি ফ্রেম আছে ইমেজ স্পেসে। অর্থাৎ বিগ ব্যাংয়ের মাধ্যমে সৃষ্টির শুরু থেকে এখন পর্যন্ত বিশ্বব্রহ্মাণ্ডে যা কিছু হয়েছে, হচ্ছে, হবে এবং যা কোনো দিন হয়নি ও হবে না, তার সবই আছে এ ইমেজ স্পেসে।
ইমেজ স্পেসের এ বিশালতায় চোখ উঠে কপালে গিয়ে ঠেকলে আশ্চর্য হবেন না। প্রথমবার ইমেজ স্পেস বোঝার পর আমিও দুই দণ্ড সিলিংয়ের দিকে তাকিয়ে ছিলাম।
ইমেজ স্পেসের এ বিশালতা এআই মডেলগুলোর প্রকৌশলীদের আরও ভাবাতে শুরু করে। প্রথম প্রথম মডেলগুলো দিয়ে বাস্তব জিনিস, যেমন বাস, ফল, কলম, মানুষ—এসব তৈরির জন্য প্রস্তুত করা হতে থাকে। শূন্য থেকে একটি ফুল, একটি প্লেন, এমনকি একজন মানুষের ছবি বানাতে সক্ষম হয় এই মডেলগুলো। দ্রুত শিখতে ও উন্নতি করতে থাকে প্রোগ্রামগুলো। এআই দিয়ে তৈরি মানবাকৃতির ‘এডমন্ড দ্য বেলামি’ নামের একটি ছবি ২০১৮ সালে প্রায় সাড়ে ৪ কোটি টাকার বিনিময়ে বিক্রি করে প্যারিসের একটি প্রতিষ্ঠান।
প্রকৌশলীদের মনে তখন আরেকটি ভাবনা আসে। বাস্তব দুনিয়ায় হামেশা দেখি, এমন কিছুর ছবি যদি তৈরি করা সম্ভব হয় এআই দিয়ে, তবে বাস্তব জীবনে যা সাধারণত দেখি না, এমন কিছু কেন তৈরি করা যাবে না? শুরু হয় নতুন করে এআই মডেলগুলো ট্রেইন করা। মেশিন লার্নিং ও ডিপ লার্নিংয়ের কল্যাণে এই মডেলগুলো এমন ছবি তৈরি করতে পারবে, যা কোনো দিন কেউ দেখেনি বা কল্পনা করেনি।
একঝাঁক পেঙ্গুইনকে রণসাজে দেখতে চান? পারবেন। চাঁদের মাটিতে বাংলাদেশের পতাকা দেখতে চান? সেটাও দেখা যাবে মিডজার্নির মতো জেনারেটিভ সার্চ ইঞ্জিনের কল্যাণে।
এ রকম অবাস্তব ও কাল্পনিক ছবি তৈরি করার পর এ কৃত্রিম বুদ্ধিমত্তার মডেলগুলোর ইঞ্জিনিয়ারদের মাথায় আরেক চিন্তা চেপে বসে। যদি এ রকম কাল্পনিক ছবি, বাস্তব জীবনে যার কোনো অস্তিত্ব নেই, এগুলো ইমেজ স্পেস থেকে নিয়ে আউটপুট হিসেবে দেওয়া যায়, তবে যা বাস্তব জীবনে একসময় ছিল কিন্তু এখন নেই, সেগুলো কেন বের করে আনা যাবে না।
অতীতের ঐতিহাসিক ব্যক্তিত্ব ও প্রাণীদের ইমেজ স্পেস থেকে খুঁজে আনার প্রচেষ্টায় কাজ চলতে লাগল জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক পোর্ট্রেট পেইন্টিং মডেলগুলোর। মডেলগুলোকে ট্রেইন করার জন্য ফিড করা হলো ইতিহাসের বিখ্যাত ব্যক্তিদের হাতে আঁকা বা ভাস্কর্যের ছবি, যার ফলে আজ গ্যালিলিও গ্যালিলির ক্যামেরায় তোলা কোনো ছবি না থাকলেও তার ফটোরিয়েলিস্টিক ছবি তৈরি করা সম্ভব হয়েছে। ল্যাপটপ বা ফোন হাতে আইনস্টাইন, যুদ্ধের জন্য সুসজ্জিত পেঙ্গুইন ও এই লেখার অন্যান্য অবাস্তব ছবির মতো গ্যালিলিওর বাস্তবধর্মী ছবিটিও আমি তৈরি করেছি মিডজার্নির সাহায্যে কয়েক মুহূর্তে।
শুধু গ্যালিলিও নন, রানি নেফারতিতি, জুলিয়াস সিজার, আলেকজান্ডার দ্য গ্রেট—তাঁদের বাস্তবধর্মী চেহারাও মিলবে বিভিন্ন এআই ইঞ্জিনে। প্রায় ২ হাজার ৬০০ বছর আগে জন্ম নেওয়া পিথাগোরাসকে বাইক চালাতে দেখতে চান? তা-ও সম্ভব এআইয়ের সাহায্যে।
শুধু বিখ্যাত ব্যক্তি নন, তাঁদের কাজ সম্পর্কে যথেষ্ট জ্ঞান আছে এ মডেলগুলোর। চিত্রশিল্পী ভিনসেন্ট ভ্যান গঘের চেহারার পাশাপাশি তাঁর চিত্রকর্মকেও নকল করতে পারে এই এআই।
এ অ্যালগরিদমগুলো এতটাই দক্ষ যে তাদের যদি বলা হয় ভিনসেন্ট ভ্যান গঘের স্টাইলে লেওনার্দো দ্য ভিঞ্চির মোনালিসা আঁকতে, হুবহু তা-ই করে দেবে। আউটপুট ইমেজটি মোনালিসার হলেও দেখে মনে হবে, এটা ভিঞ্চি নন, ভ্যান গঘ স্বয়ং এঁকেছেন। আর এখানে এআই নিয়ে বিতর্ক ও বিপত্তির শুরু।
এআই আর্ট নিয়ে বিতর্কের শুরু মূলত কপিরাইট ইস্যু ধরে। এআইয়ের সাহায্যে ভ্যান গঘের আঙ্গিকে তৈরি করা ভিঞ্চির এ নতুন ‘মোনালিসা’র প্রকৃত মালিক কে? আসল মোনালিসা যাঁর, সেই ভিঞ্চি? নাকি যে চিত্রশিল্পীর আর্ট স্টাইল কপি করে এটা বানানো হয়েছে, সেই ভ্যান গঘ? নাকি যে ব্যবহারকারী মডেলটিতে ভ্যান গঘের স্টাইলে মোনালিসা আঁকতে প্রম্পটে নির্দেশ দেন, সেই ব্যক্তি? নাকি এআই মডেলটি যে ইঞ্জিনিয়ার তৈরি করেছেন, তিনি? নাকি এআই মডেলটি নিজেই এ ছবির মালিক?
আচ্ছা, নতুন একটা ছবির কথা বলি। এই যে পিথাগোরাসের বাইক চালানোর ছবিটি আমি মিডজার্নির ডিসকর্ড বটে ইনস্ট্রাকশন দিয়ে কয়েক সেকেন্ডে বানিয়ে এনেছি বিজ্ঞানচিন্তার এই লেখার জন্য, এর মালিক কে? আমি? এআই মডেল? মডেলটির ইঞ্জিনিয়ার দল? নাকি এ ম্যাগাজিনে প্রকাশিত হচ্ছে, তাই বিজ্ঞানচিন্তা?
কপিরাইট নিয়ে এ রকম অস্পষ্টতার কারণে অনেক পেইন্টার ও ডিজিটাল আর্টিস্ট এআই আর্ট জেনারেশনের বিপক্ষে কথা বলছেন। তবে ছবিগুলোর মালিক যিনিই হন, এ অসম্ভব ছবিগুলো যে কৃত্রিম বুদ্ধিমত্তার সাহায্য ছাড়া সম্ভব ছিল না, তা খুব স্পষ্ট।
ইমেজ স্পেস এক্সপ্লোর করার এর চেয়ে ভালো টুল এখন পর্যন্ত আবিষ্কৃত হয়নি। তবে এই এআই মডেলগুলোর সীমাবদ্ধতা আছে। এর সীমাবদ্ধতা হলো আমাদের কল্পনাশক্তি।
মডেলগুলো যেহেতু আমাদের প্রম্পটের ওপর নির্ভরশীল, তাই এগুলো এমন কিছু আউটপুট দিতে পারে না, যা আমরা কল্পনা করতে পারি না। অর্থাৎ ইমেজ স্পেসের খুব ছোট একটা অংশ আমরা দেখতে পাব, যেটুকু আমরা চিন্তা করতে পারি।
বহুমাত্রিক বা হায়ার অর্ডারের কোনো কিছু যেহেতু আমরা কল্পনা করতে পারি না, ইমেজ স্পেসের বড় অংশ আমাদের অনাবিষ্কৃত থেকে যাবে। তবে হয়তো ভবিষ্যতে এমন কোনো মডেল তৈরি হবে, যা আমাদের চিন্তা-কল্পনা ছাড়িয়ে এক্সপ্লোর করতে পারবে এ ইমেজ স্পেস। তখন হয়তো জানা যাবে পুরো ইমেজ স্পেস, অর্থাৎ পুরো মহাবিশ্বকে।
জুমবাংলা নিউজ সবার আগে পেতে Follow করুন জুমবাংলা গুগল নিউজ, জুমবাংলা টুইটার , জুমবাংলা ফেসবুক, জুমবাংলা টেলিগ্রাম এবং সাবস্ক্রাইব করুন জুমবাংলা ইউটিউব চ্যানেলে।