Mozilla AI গাইড চালু হয়েছে এবং আমরা আপনাকে এটি পড়ার জন্য এবং এর সাথে পরিচিত হওয়ার জন্য স্বাগত জানাই। আপনি এটি অ্যাক্সেস করতে পারেন এখানে
আমাদের দৃষ্টিভঙ্গি হল AI গাইড প্রতিটি নতুন ডেভেলপারের জন্য মহাকাশের সূচনা বিন্দু এবং স্বচ্ছতা এবং অনুপ্রেরণার জন্য পুনরায় ঘুরে দেখার জায়গা, নিশ্চিত করে যে AI উদ্ভাবনগুলি দৈনন্দিন জীবনকে সমৃদ্ধ করে। এআই গাইডের প্রাথমিক ফোকাস ভাষা মডেল দিয়ে শুরু হয় এবং লক্ষ্য হল একটি সহযোগী সম্প্রদায়-চালিত সংস্থান যা অন্যান্য ধরণের মডেলগুলিকে কভার করে।
Mozilla AI গাইডের প্রথম কয়েকটি বিভাগ শুরু করতে Large Language Models (LLMs) সম্পর্কে সর্বাধিক জিজ্ঞাসিত প্রশ্নগুলির গভীরে যান। এআই বেসিক AI, ML, LLM-এর ধারণাগুলিকে কভার করে, এই ধারণাগুলির অর্থ কী এবং তারা কীভাবে সম্পর্কিত। এই বিভাগটি এলএলএম ব্যবহারের সুবিধা এবং অসুবিধাগুলিও ভেঙে দেয়। ভাষার মডেল 101 AI বেসিকগুলির ভাগ করা জ্ঞানের উপর ভিত্তি করে তৈরি করা চালিয়ে যাচ্ছে এবং ভাষার মডেলগুলির সাথে পরবর্তী স্তরে আরও গভীরে প্রবেশ করে৷ এটি এমন প্রশ্নের উত্তর দেবে যেমন “একটি এমএল মডেলের ‘প্রশিক্ষণ’ বলতে কী বোঝায়” বা “‘লুপে মানব’ পদ্ধতি কী?”
আমরা শেষ বিভাগে ঝাঁপ দেব এমএল মডেল নির্বাচন করা এবং নির্দিষ্ট টেক্সট সংক্ষিপ্ত করার জন্য ওপেন সোর্স মডেল ব্যবহার করে কি করা যেতে পারে নীচের কোডে প্রদর্শন করুন। আপনি Colab নোটবুক অ্যাক্সেস করতে পারেন এখানে অথবা পড়া চালিয়ে যান:
ভাষার মডেলের সাথে প্রথম ধাপ
অন্যান্য গাইড থেকে ভিন্ন, আপনি যা করার চেষ্টা করছেন তার জন্য সঠিক মডেল বাছাই করতে সাহায্য করার জন্য এটি ডিজাইন করা হয়েছে:
- প্রকাশিত এআই গবেষণার রক্তপাতের প্রান্তে কীভাবে সর্বদা থাকতে হয় তা শেখায়
- প্রদত্ত কাজের জন্য বর্তমান খোলা বিকল্পগুলিতে আপনার দৃষ্টিভঙ্গি প্রসারিত করা
- ক্লোজড-সোর্স/ক্লোজড-ডেটা বড় ভাষার মডেলের সাথে আবদ্ধ হবেন না (প্রাক্তন OpenAI, নৃতাত্ত্বিক)
- কোনো নির্দিষ্ট কাজের জন্য সর্বদা অত্যাধুনিক (SOTA) মডেল সনাক্তকরণ এবং ব্যবহার করার জন্য একটি ডেটা-নেতৃত্বাধীন সিস্টেম তৈরি করা।
আমরা আমাদের প্রথম কাজ হিসাবে “টেক্সট সংক্ষিপ্তকরণ” এর উপর সজ্জিত করতে যাচ্ছি।
তাহলে… কেন আমরা জনপ্রিয় বড় ভাষার মডেলগুলির একটি ব্যবহার করছি না?
মহান প্রশ্ন. তাদের লবণের মূল্যের বেশিরভাগ উপলব্ধ এলএলএমগুলি সংক্ষিপ্তকরণ সহ অনেকগুলি কাজ করতে পারে, তবে আপনি বিশেষভাবে তাদের যা করতে চান সেগুলির সবগুলিই ভাল নাও হতে পারে। তারা আসলে পারে কি না তা কীভাবে মূল্যায়ন করা যায় তা আমাদের খুঁজে বের করা উচিত।
এছাড়াও, বর্তমান জনপ্রিয় LLMগুলির মধ্যে অনেকগুলি খোলা নেই, অপ্রকাশিত ডেটার উপর প্রশিক্ষিত এবং পক্ষপাতগুলি প্রদর্শন করে৷ দায়িত্বশীল AI ব্যবহারের জন্য সতর্ক পছন্দের প্রয়োজন, এবং আমরা আপনাকে সেগুলি করতে সাহায্য করতে এখানে আছি।
অবশেষে, বেশিরভাগ বড় এলএলএম ব্যবহার করার জন্য শক্তিশালী GPU কম্পিউট প্রয়োজন। যদিও অনেক মডেল আছে যা আপনি একটি পরিষেবা হিসাবে ব্যবহার করতে পারেন, সেগুলির বেশিরভাগেরই প্রতি API কলের জন্য অর্থ খরচ হয়। অপ্রয়োজনীয় যখন আরও কিছু সাধারণ কাজ ইতিমধ্যে উপলব্ধ খোলা মডেল এবং অফ-দ্য-শেল্ফ হার্ডওয়্যার সহ ভাল মানের সাথে করা যেতে পারে।
কেন খোলা মডেল ব্যবহার গুরুত্বপূর্ণ?
গত কয়েক দশক ধরে, ইঞ্জিনিয়াররা ওপেন সোর্স প্রোজেক্ট শুরু করে এবং শেষ পর্যন্ত ওপেন সোর্সকে প্রোডাকশনে শিপিং করে জাহাজে যোগ দিতে পেরে আশীর্বাদ পেয়েছেন। এই ডিফল্ট অবস্থা এখন ঝুঁকিপূর্ণ.
হ্যাঁ, অনেক উন্মুক্ত মডেল উপলব্ধ রয়েছে যা একটি দুর্দান্ত কাজ করে। যাইহোক, বেশিরভাগ গাইড কীভাবে সহজ পদক্ষেপগুলি ব্যবহার করে তাদের সাথে শুরু করবেন তা নিয়ে আলোচনা করে না এবং পরিবর্তে বিদ্যমান বন্ধ APIগুলির প্রতি পক্ষপাতিত্ব করে।
তহবিল বাণিজ্যিক AI প্রকল্পগুলিতে প্রবাহিত হয়, যাদের কাজ বাজারজাত করার জন্য ওপেন সোর্স অবদানকারীদের তুলনায় বড় বাজেট রয়েছে, যা অনিবার্যভাবে ইঞ্জিনিয়ারদের ক্লোজড সোর্স প্রকল্প থেকে শুরু করে এবং ব্যয়বহুল বন্ধ প্রকল্পগুলিকে উত্পাদনে প্রেরণ করে।
আমাদের প্রথম প্রকল্প – সংক্ষিপ্তকরণ
আমরা যাচ্ছি:
- সংক্ষিপ্ত করার জন্য পাঠ্য খুঁজুন।
- বর্তমান অত্যাধুনিক ওপেন সোর্স মডেলগুলি ব্যবহার করে কীভাবে তাদের সংক্ষিপ্ত করা যায় তা বের করুন।
- এটি করার জন্য কিছু কোড লিখুন।
- প্রাসঙ্গিক মেট্রিক্স ব্যবহার করে ফলাফলের গুণমান মূল্যায়ন করুন
সরলতার জন্য, আসুন ধরা যাক Mozilla এর বিশ্বস্ত AI নির্দেশিকা স্ট্রিং আকারে
মনে রাখবেন যে বাস্তব জগতে, আপনাকে সম্ভবত অন্য কোনো লাইব্রেরি ব্যবহার করতে হবে কোনো নির্দিষ্ট ফাইলের জন্য সামগ্রী বের করতে।
import textwrap
content = """Mozilla's "Trustworthy AI" Thinking Points:
PRIVACY: How is data collected, stored, and shared? Our personal data powers everything from traffic maps to targeted advertising. Trustworthy AI should enable people to decide how their data is used and what decisions are made with it.
FAIRNESS: We’ve seen time and again how bias shows up in computational models, data, and frameworks behind automated decision making. The values and goals of a system should be power aware and seek to minimize harm. Further, AI systems that depend on human workers should protect people from exploitation and overwork.
TRUST: People should have agency and control over their data and algorithmic outputs, especially considering the high stakes for individuals and societies. For instance, when online recommendation systems push people towards extreme, misleading content, potentially misinforming or radicalizing them.
SAFETY: AI systems can carry high risk for exploitation by bad actors. Developers need to implement strong measures to protect our data and personal security. Further, excessive energy consumption and extraction of natural resources for computing and machine learning accelerates the climate crisis.
TRANSPARENCY: Automated decisions can have huge personal impacts, yet the reasons for decisions are often opaque. We need to mandate transparency so that we can fully understand these systems and their potential for harm."""
দারুণ। এখন আমরা সারসংক্ষেপ শুরু করতে প্রস্তুত।
প্রসঙ্গের জন্য একটি সংক্ষিপ্ত বিরতি
এআই স্পেস এত দ্রুত এগিয়ে চলেছে যে জমির স্তর এবং শিল্পের অবস্থা বোঝার জন্য প্রতি সপ্তাহে প্রচুর পরিমাণে বৈজ্ঞানিক কাগজপত্র সংগ্রহ করতে হবে।
এটি এমন একজন প্রকৌশলীর জন্য কিছু প্রচেষ্টা যিনি AI-তে একেবারে নতুন:
- কোন খোলা মডেল এমনকি বাইরে আছে আবিষ্কার করুন
- কোন বিশেষ কাজের জন্য উপযুক্ত মডেলগুলি
- কোন বেঞ্চমার্কগুলি সেই মডেলগুলিকে মূল্যায়ন করতে ব্যবহৃত হয়
- কোন মডেলগুলি মূল্যায়নের উপর ভিত্তি করে ভাল পারফর্ম করছে
- কোন মডেলগুলি আসলে উপলব্ধ হার্ডওয়্যারে চলতে পারে
একটি নির্দিষ্ট সময়সীমাতে কর্মরত প্রকৌশলীর জন্য, এটি সমস্যাযুক্ত। ওপেন সোর্স এআই মডেলগুলির সাথে কাজ করার বিষয়ে খুব বেশি কেন্দ্রীভূত বক্তৃতা নেই। পরিবর্তে খণ্ডিত X (আগের টুইটার) থ্রেড, এলোমেলো ব্যক্তিগত গ্রুপ এবং প্রচুর শব্দ-মুখ স্থানান্তর রয়েছে।
যাইহোক, উপরের সবগুলো সমাধান করার জন্য একবার আমাদের ওয়ার্কফ্লো হয়ে গেলে, আপনার কাছে চিরকালের জন্য প্রকাশিত এআই গবেষণার রক্তক্ষরণ বয়সে থাকার উপায় থাকবে।
আমি কিভাবে উপলব্ধ উন্মুক্ত সংক্ষিপ্তকরণ মডেলের একটি তালিকা পেতে পারি?
আপাতত, আমরা সুপারিশ করছি আলিঙ্গন মুখ এবং তাদের খোলা মডেলের বড় ডিরেক্টরি টাস্ক দ্বারা বিভক্ত। এটি একটি দুর্দান্ত শুরুর পয়েন্ট। মনে রাখবেন যে বড় LLMগুলিও এই তালিকাগুলিতে অন্তর্ভুক্ত রয়েছে, তাই আমাদের ফিল্টার করতে হবে।
সারাংশ মডেলের এই বিশাল তালিকায়, আমরা কোনটি বেছে নেব?
আমরা জানি না যে এই মডেলগুলির কোনটি কি বিষয়ে প্রশিক্ষিত। উদাহরণস্বরূপ, সংবাদ নিবন্ধ বনাম রেডডিট পোস্টগুলিতে প্রশিক্ষণপ্রাপ্ত একটি সংক্ষিপ্তসারকারী সংবাদ নিবন্ধগুলিতে আরও ভাল কাজ করবে।
আমাদের যা দরকার তা হল মেট্রিক্স এবং বেঞ্চমার্কের একটি সেট যা আমরা এই মডেলগুলির আপেল-থেকে-আপেল তুলনা করতে ব্যবহার করতে পারি।
আমি কিভাবে সংক্ষিপ্তকরণ মডেল মূল্যায়ন করব?
নীচের পদক্ষেপগুলি যে কোনও কাজের জন্য উপলব্ধ মডেলের মূল্যায়ন করতে ব্যবহার করা যেতে পারে। এটির জন্য আপাতত ডেটার কয়েকটি উত্সের মধ্যে হপিং প্রয়োজন, তবে আমরা এটিকে আরও সহজ করে তুলব।
পদক্ষেপ:
- সংক্ষিপ্তকরণের জন্য মডেল প্রশিক্ষণের জন্য ব্যবহৃত সবচেয়ে সাধারণ ডেটাসেট খুঁজুন।
- সেই ডেটাসেটগুলির সারসংক্ষেপের জন্য মডেলগুলি মূল্যায়ন করতে ব্যবহৃত সবচেয়ে সাধারণ মেট্রিকগুলি খুঁজুন৷
- দায়িত্বশীল AI ব্যবহারের সাথে সামঞ্জস্য রাখতে প্রশিক্ষণের ডেটা প্রোভেন্যান্স, গুণমান এবং কোনও প্রদর্শিত পক্ষপাতের উপর দ্রুত অডিট করুন।
ডেটাসেট খোঁজা
এটি করার সবচেয়ে সহজ উপায় হল ব্যবহার করা কোড সহ কাগজপত্রটাস্ক দ্বারা সর্বশেষ বৈজ্ঞানিক কাগজপত্র খোঁজার জন্য একটি চমৎকার সংস্থান যাতে কোড রিপোজিটরি সংযুক্ত থাকে।
প্রথমে, কোডের “টেক্সট সামারাইজেশন” ডেটাসেটগুলির দ্বারা কাগজগুলি ফিল্টার করুন৷ সর্বাধিক উদ্ধৃত পাঠ্য-ভিত্তিক ইংরেজি ডেটাসেট।
চলুন বাছাই করা যাক (এই লেখার মতো) সবচেয়ে উদ্ধৃত ডেটাসেট – “সিএনএন/ডেইলিমেইল” ডেটাসেট সাধারণত সর্বাধিক উদ্ধৃত হয় জনপ্রিয়তার একটি চিহ্নিতকারী।
এখন, আপনাকে এই ডেটাসেটটি ডাউনলোড করতে হবে না। কিন্তু আমরা পরবর্তী পদক্ষেপের জন্য এটি সম্পর্কে আরও জানতে কোড সহ পেপারস প্রদান করা তথ্য পর্যালোচনা করতে যাচ্ছি। এই ডেটাসেট এছাড়াও উপলব্ধ আলিঙ্গন মুখ.
আপনি 3টি জিনিস পরীক্ষা করতে চান:
- লাইসেন্স
- সাম্প্রতিক কাগজপত্র
- ডেটা ট্রেসযোগ্য কিনা এবং পদ্ধতিগুলি স্বচ্ছ কিনা
প্রথমে লাইসেন্স চেক করুন। এই ক্ষেত্রে, এটি MIT লাইসেন্সপ্রাপ্ত, যার মানে এটি বাণিজ্যিক এবং ব্যক্তিগত উভয় প্রকল্পের জন্য ব্যবহার করা যেতে পারে।
পরবর্তী, এই ডেটাসেট ব্যবহার করা কাগজপত্র সাম্প্রতিক কিনা তা দেখুন। আপনি পেপারগুলিকে নিচের ক্রম অনুসারে সাজিয়ে এটি করতে পারেন। এই নির্দিষ্ট ডেটাসেটে 2023 সালের অনেক কাগজপত্র রয়েছে – দুর্দান্ত!
পরিশেষে, আসুন পরীক্ষা করা যাক তথ্যটি বিশ্বাসযোগ্য উৎস থেকে এসেছে কিনা। এই ক্ষেত্রে, ডেটাসেটটি মন্ট্রিল বিশ্ববিদ্যালয়ের সাথে অংশীদারিত্বে IBM দ্বারা তৈরি করা হয়েছিল। দারুণ।
এখন, আসুন আমরা এই ডেটাসেট ব্যবহার করে এমন মডেলগুলিকে কীভাবে মূল্যায়ন করতে পারি তা খতিয়ে দেখা যাক।
মডেল মূল্যায়ন
এর পরে, আমরা পরিমাপ করা মেট্রিকগুলি সন্ধান করি যা সংক্ষিপ্তকরণ টাস্কের জন্য ডেটাসেটগুলিতে সাধারণ। কিন্তু, আপনি যদি সংক্ষিপ্তসারের সাহিত্যের সাথে পরিচিত না হন তবে সেগুলি কী তা আপনার কোন ধারণা নেই।
খুঁজে বের করতে, আপনি যা দেখতে চান তার কাছাকাছি একটি “সাবটাস্ক” বেছে নিন। আমরা উপরে নিচে টানা CNN নিবন্ধটি সংক্ষিপ্ত করতে চাই, তাই আসুন বেছে নেওয়া যাক “বিমূর্ত পাঠ্য সংক্ষিপ্তকরণ”।
এখন আমরা ব্যবসা করছি! এই পৃষ্ঠায় উল্লেখযোগ্য পরিমাণে নতুন তথ্য রয়েছে।
তিনটি নতুন পদের উল্লেখ আছে: ROUGE-1, ROUGE-2 এবং ROUGE-L। এই মেট্রিক্স যে ব্যবহার করা হয় সারসংক্ষেপ কর্মক্ষমতা পরিমাপ.
এই তিনটি মেট্রিক্সে মডেল এবং তাদের স্কোরগুলির একটি তালিকাও রয়েছে – আমরা যা খুঁজছি ঠিক এটিই৷
ধরে নিচ্ছি যে আমরা আমাদের মেট্রিক হিসাবে ROUGE-1-কে দেখছি, এখন আমাদের কাছে শীর্ষ 3টি মডেল রয়েছে যা আমরা আরও বিশদে মূল্যায়ন করতে পারি। 3টিই 50-এর কাছাকাছি, যা একটি প্রতিশ্রুতিশীল ROUGE স্কোর (ROUGE-এ পড়ুন)।
একটি মডেল পরীক্ষা করা হচ্ছে
ঠিক আছে, আমাদের কিছু প্রার্থী আছে, তাই আসুন একটি মডেল বেছে নেওয়া যাক যা আমাদের স্থানীয় মেশিনে চলবে। GPU-তে চলার সময় অনেক মডেল তাদের সেরা পারফরম্যান্স পায়, কিন্তু অনেকগুলি আছে যেগুলি CPU-তে দ্রুত সারাংশ তৈরি করে। চলুন শুরু করার জন্য সেগুলির মধ্যে একটি বেছে নেওয়া যাক – গুগলের পেগাসাস।
# first we install huggingface's transformers library
%pip install transformers sentencepiece
তারপর আমরা পেগাসাস খুঁজুন আলিঙ্গনমুখে মনে রাখবেন যে ডেটাসেটগুলির অংশে পেগাসাসকে প্রশিক্ষণ দেওয়া হয়েছিল CNN/DailyMail অন্তর্ভুক্ত যা আমাদের নিবন্ধের সারাংশের জন্য ভাল। মজার বিষয় হল, গুগল থেকে পেগাসাসের একটি রূপ রয়েছে যা শুধুমাত্র আমাদের পছন্দের ডেটাসেটে প্রশিক্ষণপ্রাপ্ত, আমাদের এটি ব্যবহার করা উচিত।
from transformers import PegasusForConditionalGeneration, PegasusTokenizer
import torch
# Set the seed, this will help reproduce results. Changing the seed will
# generate new results
from transformers import set_seed
set_seed(248602)
# We're using the version of Pegasus specifically trained for summarization
# using the CNN/DailyMail dataset
model_name = "google/pegasus-cnn_dailymail"
# If you're following along in Colab, switch your runtime to a
# T4 GPU or other CUDA-compliant device for a speedup
device = "cuda" if torch.cuda.is_available() else "cpu"
# Load the tokenizer
tokenizer = PegasusTokenizer.from_pretrained(model_name)
# Load the model
model = PegasusForConditionalGeneration.from_pretrained(model_name).to(device)
# Tokenize the entire content
batch = tokenizer(content, padding="longest", return_tensors="pt").to(device)
# Generate the summary as tokens
summarized = model.generate(**batch)
# Decode the tokens back into text
summarized_decoded = tokenizer.batch_decode(summarized, skip_special_tokens=True)
summarized_text = summarized_decoded(0)
# Compare
def compare(original, summarized_text):
print(f"Article text length: {len(original)}\n")
print(textwrap.fill(summarized_text, 100))
print()
print(f"Summarized length: {len(summarized_text)}")
compare(content, summarized_text)
Article text length: 1427 Trustworthy AI should enable people to decide how their data is used.<n>values and goals of a system should be power aware and seek to minimize harm.<n>People should have agency and control over their data and algorithmic outputs.<n>Developers need to implement strong measures to protect our data and personal security. Summarized length: 320
ঠিক আছে, আমরা কিছু পেয়েছি! যদিও সংক্ষিপ্ত ধরনের. দেখা যাক আমরা সারসংক্ষেপটি দীর্ঘ করতে পারি কিনা…
set_seed(860912)
# Generate the summary as tokens, with a max_new_tokens
summarized = model.generate(**batch, max_new_tokens=800)
summarized_decoded = tokenizer.batch_decode(summarized, skip_special_tokens=True)
summarized_text = summarized_decoded(0)
compare(content, summarized_text)
Article text length: 1427 Trustworthy AI should enable people to decide how their data is used.<n>values and goals of a system should be power aware and seek to minimize harm.<n>People should have agency and control over their data and algorithmic outputs.<n>Developers need to implement strong measures to protect our data and personal security. Summarized length: 320
ওয়েল, যে সত্যিই কাজ না. নামক একটি ভিন্ন পদ্ধতির চেষ্টা করা যাক ‘নমুনা’. এটি মডেলটিকে তার শর্তসাপেক্ষ সম্ভাব্যতা বন্টন অনুসারে পরবর্তী শব্দ বাছাই করতে দেয় (বিশেষত, সম্ভাব্যতা যে শব্দটি আগে শব্দটি অনুসরণ করে)।
আমরা সেট করা হবে ‘তাপমাত্রা’. এই ভেরিয়েবলটি জেনারেট আউটপুটে এলোমেলোতা এবং সৃজনশীলতার মাত্রা নিয়ন্ত্রণ করতে কাজ করে।
set_seed(118511)
summarized = model.generate(**batch, do_sample=True, temperature=0.8, top_k=0)
summarized_decoded = tokenizer.batch_decode(summarized, skip_special_tokens=True)
summarized_text = summarized_decoded(0)
compare(content, summarized_text)
Article text length: 1427 Mozilla's "Trustworthy AI" Thinking Points:.<n>People should have agency and control over their data and algorithmic outputs.<n>Developers need to implement strong measures to protect our data. Summarized length: 193
খাটো, কিন্তু গুণমান বেশি। তাপমাত্রা সামঞ্জস্য করা সম্ভবত সাহায্য করবে।
set_seed(108814)
summarized = model.generate(**batch, do_sample=True, temperature=1.0, top_k=0)
summarized_decoded = tokenizer.batch_decode(summarized, skip_special_tokens=True)
summarized_text = summarized_decoded(0)
compare(content, summarized_text)
Article text length: 1427 Mozilla's "Trustworthy AI" Thinking Points:.<n>People should have agency and control over their data and algorithmic outputs.<n>Developers need to implement strong measures to protect our data and personal security.<n>We need to mandate transparency so that we can fully understand these systems and their potential for harm. Summarized length: 325
এখন এর একটি অন্য প্রজন্মের পদ্ধতির সাথে খেলা যাক বলা হয় শীর্ষ_কে স্যাম্পলিং — শব্দভাণ্ডারের সমস্ত সম্ভাব্য পরবর্তী শব্দগুলি বিবেচনা করার পরিবর্তে, মডেলটি শুধুমাত্র উপরের ‘k’ সবচেয়ে সম্ভাব্য পরবর্তী শব্দগুলি বিবেচনা করে।
এই কৌশলটি মডেলটিকে সম্ভাব্য ধারাবাহিকতায় ফোকাস করতে সাহায্য করে এবং অপ্রাসঙ্গিক বা অযৌক্তিক পাঠ্য তৈরি করার সম্ভাবনা হ্রাস করে।
এটি পরবর্তী-শব্দ পছন্দের পুলকে সীমিত করে সৃজনশীলতা এবং সমন্বয়ের মধ্যে একটি ভারসাম্য বজায় রাখে, তবে এতটা নয় যে আউটপুট নির্ধারক হয়ে যায়।
set_seed(226012)
summarized = model.generate(**batch, do_sample=True, top_k=50)
summarized_decoded = tokenizer.batch_decode(summarized, skip_special_tokens=True)
summarized_text = summarized_decoded(0)
compare(content, summarized_text)
Article text length: 1427 Mozilla's "Trustworthy AI" Thinking Points look at ethical issues surrounding automated decision making.<n>values and goals of a system should be power aware and seek to minimize harm.People should have agency and control over their data and algorithmic outputs.<n>Developers need to implement strong measures to protect our data and personal security. Summarized length: 355
অবশেষে, এর চেষ্টা করা যাক শীর্ষ_পি স্যাম্পলিং — নিউক্লিয়াস স্যাম্পলিং নামেও পরিচিত, একটি কৌশল যেখানে মডেলটি শুধুমাত্র শীর্ষ শব্দের ক্ষুদ্রতম সেট বিবেচনা করে যার ক্রমবর্ধমান সম্ভাবনা একটি থ্রেশহোল্ড ‘p’ অতিক্রম করে।
অপছন্দ শীর্ষ_কে যা একটি নির্দিষ্ট সংখ্যক শব্দ বিবেচনা করে, শীর্ষ_পি পরবর্তী শব্দের জন্য সম্ভাব্যতার বন্টনের উপর ভিত্তি করে অভিযোজিত হয়। এটি এটিকে আরও গতিশীল এবং নমনীয় করে তোলে। এটি কম সম্ভাব্য শব্দগুলিকে বেছে নেওয়ার অনুমতি দিয়ে বৈচিত্র্যপূর্ণ এবং সংবেদনশীল পাঠ্য তৈরি করতে সাহায্য করে যখন সবচেয়ে সম্ভাব্য শব্দগুলি ‘p’ পর্যন্ত যোগ না করে।
set_seed(21420041)
summarized = model.generate(**batch, do_sample=True, top_p=0.9, top_k=50)
summarized_decoded = tokenizer.batch_decode(summarized, skip_special_tokens=True)
summarized_text = summarized_decoded(0)
compare(content, summarized_text)
# saving this for later.
pegasus_summarized_text = summarized_text
Article text length: 1427 Mozilla's "Trustworthy AI" Thinking Points:.<n>People should have agency and control over their data and algorithmic outputs.<n>Developers need to implement strong measures to protect our data and personal security.<n>We need to mandate transparency so that we can fully understand these systems and their potential for harm. Summarized length: 325
কোড উদাহরণ সহ চালিয়ে যেতে এবং অন্য মডেলের সাথে একটি পরীক্ষা দেখতে এবং কীভাবে তা শিখতে হবে এমএল মডেল ফলাফল মূল্যায়ন (একটি সম্পূর্ণ অন্য বিভাগ), পাইথন নোটবুক দেখতে এখানে ক্লিক করুন এবং আপনার সাথে পরীক্ষা করতে “কোলাবে খুলুন” এ ক্লিক করুন নিজস্ব কাস্টম কোড.
মনে রাখবেন এই নির্দেশিকাটি ক্রমাগত আপডেট করা হবে এবং পরবর্তীতে ডেটা পুনরুদ্ধার, ইমেজ জেনারেশন এবং ফাইন টিউনিং-এর নতুন বিভাগ আসবে।
বিকাশকারী অবদানগুলি গুরুত্বপূর্ণ৷
আজকের Mozilla AI গাইড চালু হওয়ার কিছুক্ষণ পরে, আমরা আমাদের সম্প্রদায়ের অবদানের নির্দেশিকা প্রকাশ করব। এটি কন্টেন্ট ডেভেলপাররা কী ধরনের অবদান রাখতে পারে এবং কীভাবে এটি শেয়ার করা যায় সে বিষয়ে নির্দেশনা প্রদান করবে। যেকোনো দুর্দান্ত ওপেন সোর্স এআই প্রকল্প, বাস্তবায়ন, ভিডিও এবং অডিও মডেল শেয়ার করার জন্য প্রস্তুত হন।
একসাথে, আমরা একটি সমন্বিত, সহযোগী এবং দায়িত্বশীল AI সম্প্রদায়কে একত্রিত করতে পারি।
কেভিন লি এবং প্রদীপ এলানকুমারানকে একটি বিশেষ ধন্যবাদ যারা এই দুর্দান্ত ব্লগ পোস্টটি একসাথে টেনেছেন।
মেলিসা মোজিলার একজন সিনিয়র ইন্টারনেট বিজ্ঞাপন বিশেষজ্ঞ