Putnam-AXIOM: উচ্চ স্তরের গাণিতিক যুক্তি পরিমাপের জন্য একটি কার্যকরী এবং স্ট্যাটিক বেঞ্চমার্ক

Putnam-AXIOM: উচ্চ স্তরের গাণিতিক যুক্তি পরিমাপের জন্য একটি কার্যকরী এবং স্ট্যাটিক বেঞ্চমার্ক

কীওয়ার্ড: বেঞ্চমার্ক, বড় ভাষা মডেল, গাণিতিক যুক্তি, গণিত, যুক্তি, মেশিন লার্নিং

টিএল; ডিআর: Putnam-AXIOM হল LLM-এর জন্য একটি চ্যালেঞ্জিং গাণিতিক যুক্তির বেঞ্চমার্ক, উল্লেখযোগ্য যুক্তি কার্যক্ষমতার ফাঁক এবং ডেটা দূষণের প্রভাব প্রকাশ করে।

বিমূর্ত: যেহেতু বৃহৎ ভাষা মডেল (LLMs) অগ্রসর হতে থাকে, তাদের যুক্তির ক্ষমতা মূল্যায়নের জন্য ডিজাইন করা অনেক বিদ্যমান বেঞ্চমার্ক পরিপূর্ণ হয়ে উঠছে। তাই, আমরা উইলিয়াম লোয়েল পুটনাম গাণিতিক প্রতিযোগিতা থেকে 236টি গাণিতিক সমস্যা নিয়ে গঠিত পুটনম-এক্সিওম অরিজিনাল বেঞ্চমার্ক উপস্থাপন করছি, সাথে বিস্তারিত ধাপে ধাপে সমাধান। Putnam-AXIOM বেঞ্চমার্কের বৈধতা রক্ষা করতে এবং সম্ভাব্য ডেটা দূষণ প্রশমিত করতে, আমরা 52টি সমস্যার কার্যকরী বৈচিত্র সহ Putnam-AXIOM ভেরিয়েশন বেঞ্চমার্ক তৈরি করেছি। ভেরিয়েবল এবং ধ্রুবকগুলির মতো সমস্যা উপাদানগুলিকে প্রোগ্রাম্যাটিকভাবে পরিবর্তন করে, আমরা সীমাহীন উপন্যাস তৈরি করতে পারি, সমানভাবে চ্যালেঞ্জিং সমস্যাগুলি অনলাইনে পাওয়া যায় না। আমরা দেখতে পাই যে প্রায় সমস্ত মডেলের মূল সমস্যার তুলনায় বৈচিত্র্যের মধ্যে উল্লেখযোগ্যভাবে কম নির্ভুলতা রয়েছে। আমাদের ফলাফলগুলি প্রকাশ করে যে OpenAI-এর o1-প্রিভিউ, সেরা পারফর্মিং মডেল, Putnam-AXIOM Original-এ শুধুমাত্র 41.95\% নির্ভুলতা অর্জন করে কিন্তু সংশ্লিষ্ট মূল সমস্যার তুলনায় বৈচিত্র্যের ডেটাসেটে নির্ভুলতার প্রায় 30% হ্রাসের অভিজ্ঞতা।

সমবর্তী জমা: আইসিএলআর 2025

জমা নম্বর: 86

Source link