ওপেন AI থেকে ChatGPT সমস্ত জেনারেটিভ AI সরঞ্জামগুলির মধ্যে সবচেয়ে বড় মূলধারার মাইন্ডশেয়ার উপভোগ করে, AI গবেষকদের দ্বারা ব্যবহৃত জনপ্রিয় ক্রাউডসোর্সড লিডারবোর্ডে বহুবর্ষজীবী প্রতিযোগী অ্যানথ্রোপিক-এর টপ-অফ-দ্য-লাইন ক্লাউড 3 ওপাস এর শীর্ষস্থানটি চুরি করেছে।
চ্যাটবট এরিনা র্যাঙ্কিংয়ে ক্লডের আরোহন প্রথমবারের মতো চিহ্নিত করে যে OpenAI-এর GPT-4, যা ChatGPT প্লাসকে ক্ষমতা দেয়, গত বছরের মে মাসে লিডারবোর্ডে প্রথম উপস্থিত হওয়ার পর থেকে এটিকে অপসারিত করা হয়েছে।
চ্যাটবট এরিনা লার্জ মডেল সিস্টেমস অর্গানাইজেশন (LMSYS ORG) দ্বারা পরিচালিত হয়, একটি গবেষণা প্রতিষ্ঠান যা খোলা মডেলগুলির জন্য নিবেদিত যা ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে, UC সান দিয়েগো এবং কার্নেগি মেলন বিশ্ববিদ্যালয়ের ছাত্র এবং শিক্ষকদের মধ্যে সহযোগিতা সমর্থন করে৷ প্ল্যাটফর্মটি ব্যবহারকারীদের দুটি লেবেলবিহীন ভাষার মডেলের সাথে উপস্থাপন করে এবং তাদের উপযুক্ত মনে করা যেকোনো মানদণ্ডের উপর ভিত্তি করে কোনটি ভাল পারফর্ম করে তা রেট দিতে বলে।
হাজার হাজার বিষয়গত তুলনা একত্রিত করার পরে, চ্যাটবট এরিনা লিডারবোর্ডের জন্য "সেরা" মডেলগুলি গণনা করে, সময়ের সাথে সাথে এটি আপডেট করে৷
অংশগ্রহণকারীদের পৃথক ব্যক্তিগত রুচির উপর ভিত্তি করে এই বিষয়গত পদ্ধতি, যা চ্যাটবট এরিনাকে অন্যান্য এআই বেঞ্চমার্ক থেকে আলাদা করে। মডেল প্রশিক্ষকরা তাদের মডেলগুলিকে অ্যালগরিদমকে হারানোর জন্য সেলাই করে "প্রতারণা" করতে পারে না, যেমন তারা পরিমাণগত বেঞ্চমার্কের সাথে হতে পারে। লোকেরা কী পছন্দ করে তা পরিমাপ করে, চ্যাটবট এরিনা AI গবেষকদের জন্য একটি মূল্যবান, গুণগত সম্পদ।
প্ল্যাটফর্মটি ব্যবহারকারীদের প্রতিক্রিয়া সংগ্রহ করে এবং এর মাধ্যমে এটি চালায় ব্র্যাডলি-টেরি পরিসংখ্যান মডেল প্রত্যক্ষ প্রতিযোগিতায় একটি নির্দিষ্ট মডেল অন্যদের ছাড়িয়ে যাওয়ার সম্ভাবনার পূর্বাভাস দিতে। এই পদ্ধতির Elo রেটিং অনুমানের জন্য আত্মবিশ্বাসের ব্যবধানের রেঞ্জ সহ ব্যাপক পরিসংখ্যান তৈরি করতে সক্ষম করে—দাবা খেলোয়াড়দের দক্ষতা পরিমাপ করতে ব্যবহৃত একই কৌশল।
ক্লাউড 3 ওপাসের শীর্ষে উত্থান লিডারবোর্ডে একমাত্র উল্লেখযোগ্য উন্নয়ন নয়। ক্লদ 3 সনেট (বিনামূল্যে উপলব্ধ মাঝারি আকারের মডেল) এবং ক্লদ 3 হাইকু (একটি ছোট, দ্রুত মডেল), এছাড়াও অ্যানথ্রোপিক দ্বারা বিকাশ করা হয়েছে, বর্তমানে যথাক্রমে 4 র্থ এবং 6 তম স্থানে রয়েছে৷
লিডারবোর্ডে GPT-4-এর বিভিন্ন সংস্করণ রয়েছে, যেমন GPT-4-0314 (মার্চ 4 থেকে GPT-2023-এর "মূল" সংস্করণ), GPT-4-0613, GPT-4-1106-প্রিভিউ এবং GPT-4 -0125-প্রিভিউ (জানুয়ারি 4 থেকে API-এর মাধ্যমে উপলব্ধ সর্বশেষ GPT-2024 Turbo মডেল)। র্যাঙ্কিং অনুসারে, সনেট এবং হাইকু উভয়ই আসল GPT-4 এর থেকে ভাল এবং সনেটও জুন 2023-এ OpenAI দ্বারা লঞ্চ করা একটি টুইক করা সংস্করণকে ছাড়িয়ে গেছে।
এর মানে এই যে, দুঃখজনকভাবে, বর্তমানে শীর্ষ 10-এ শুধুমাত্র একটি ওপেন-সোর্স LLM রয়েছে: Qwen, Starling 7b এবং Mixtral 8x7B শীর্ষ 20-এর মধ্যে একমাত্র অন্য উন্মুক্ত মডেল।
GPT-4 এর উপর Claude এর একটি সুবিধা হল এর টোকেন প্রসঙ্গ ক্ষমতা এবং পুনরুদ্ধারের ক্ষমতা। Claude 3 Opus-এর সর্বজনীন সংস্করণ 200K-এর বেশি পরিচালনা করে—এবং সংস্থাটি প্রায় নিখুঁত পুনরুদ্ধারের হার সহ 1 মিলিয়ন টোকেন পরিচালনা করতে সক্ষম একটি সীমাবদ্ধ সংস্করণ রয়েছে বলে দাবি করে। এর মানে হল যে Claude দীর্ঘ সময়ের প্রম্পট বুঝতে পারে এবং তার চেয়ে বেশি কার্যকরভাবে তথ্য ধরে রাখতে পারে জিপিটি-৪ টার্বোর তুলনায়, যা 128K টোকেন পরিচালনা করে এবং দীর্ঘ প্রম্পট সহ এর পুনরুদ্ধারের ক্ষমতা হারায়।
Google এর মিথুন অ্যাডভান্সড এআই অ্যাসিস্ট্যান্ট স্পেসেও ট্র্যাকশন লাভ করছে। কোম্পানি একটি প্ল্যান অফার করে যাতে 2TB স্টোরেজ এবং AI ক্ষমতাগুলি Google পণ্যগুলির স্যুটে চ্যাট জিপিটি প্লাস সাবস্ক্রিপশনের সমান মূল্যে (প্রতি মাসে $20) রয়েছে৷
ফ্রি জেমিনি প্রো বর্তমানে GPT-4 টার্বো এবং ক্লড 4 সনেটের মধ্যে 3 নম্বরে রয়েছে। টপ-অফ-দ্য-লাইন জেমিনি আল্ট্রা মডেলটি পরীক্ষার জন্য অনুপলব্ধ এবং এখনও র্যাঙ্কিংয়ে বৈশিষ্ট্যযুক্ত নয়৷
দ্বারা সম্পাদিত রায়ান ওজাওয়া.
ক্রিপ্টো খবরের শীর্ষে থাকুন, আপনার ইনবক্সে প্রতিদিনের আপডেট পান।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- উত্স: https://decrypt.co/223787/anthropic-claude-ai-versus-openai-chatgpt-llm-arena-ranking