മെറ്റാ ലാമ 3: വലിയ ഭാഷാ മോഡൽ മാനദണ്ഡങ്ങൾ പുനർ നിർവചിക്കുന്നു

അവതാരിക

ലാൻഡ്സ്കേപ്പ് നിർമ്മിത ബുദ്ധി യുടെ വരവോടെ കഴിഞ്ഞ കുറച്ച് വർഷങ്ങളായി നാടകീയമായി പുനർരൂപകൽപ്പന ചെയ്യപ്പെട്ടു വലിയ ഭാഷാ മോഡലുകൾ (എൽഎൽഎം). ഈ ശക്തമായ ടൂളുകൾ ലളിതമായ ടെക്‌സ്‌റ്റ് പ്രൊസസറുകളിൽ നിന്ന് മനുഷ്യനെപ്പോലെയുള്ള ടെക്‌സ്‌റ്റ് മനസ്സിലാക്കാനും സൃഷ്‌ടിക്കാനും കഴിവുള്ള സങ്കീർണ്ണമായ സിസ്റ്റങ്ങളിലേക്ക് പരിണമിച്ചിരിക്കുന്നു, ഇത് കഴിവുകളിലും ആപ്ലിക്കേഷനുകളിലും കാര്യമായ മുന്നേറ്റമുണ്ടാക്കുന്നു. ഈ പരിണാമത്തിൻ്റെ മുൻനിരയിൽ മെറ്റയുടെ ഏറ്റവും പുതിയ ഓഫറായ ലാമ 3 ആണ്, പ്രവേശനക്ഷമതയുടെയും പ്രകടനത്തിൻ്റെയും കാര്യത്തിൽ ഓപ്പൺ മോഡലുകൾക്ക് എന്ത് നേടാനാകുമെന്നതിൻ്റെ അതിരുകൾ മുന്നോട്ട് കൊണ്ടുപോകുമെന്ന് വാഗ്ദാനം ചെയ്യുന്നു.

പരിചയപ്പെടുത്തുന്നു Meta Llama 3: ഇന്നുവരെ ലഭ്യമായതിൽ ഏറ്റവും കഴിവുള്ള LLM.

ഇന്ന് ഞങ്ങൾ 8B & 70B മോഡലുകൾ പുറത്തിറക്കുന്നു, അത് മെച്ചപ്പെട്ട ന്യായവാദം പോലെയുള്ള പുതിയ കഴിവുകൾ നൽകുകയും അവയുടെ വലുപ്പത്തിലുള്ള മോഡലുകൾക്കായി ഒരു പുതിയ അത്യാധുനിക സംവിധാനം സജ്ജമാക്കുകയും ചെയ്യുന്നു.

ഇന്നത്തെ റിലീസിൽ ആദ്യത്തെ രണ്ട് ലാമ 3 ഉൾപ്പെടുന്നു… pic.twitter.com/Q80lVTeS7m

— AI at Meta (@AIatMeta) ഏപ്രിൽ 18, 2024

ഉള്ളടക്ക പട്ടിക

ലാമ 3 ൻ്റെ പ്രധാന സവിശേഷതകൾ

ലാമ 3, 128,000 ടോക്കണുകളെ പിന്തുണയ്ക്കുന്ന ടോക്കണൈസർ ഉൾപ്പെടെ, ഭാഷാ എൻകോഡിംഗ് കാര്യക്ഷമത മെച്ചപ്പെടുത്തുന്നതുൾപ്പെടെ കാര്യമായ മെച്ചപ്പെടുത്തലുകളോടെ ഡീകോഡർ മാത്രമുള്ള ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചർ പരിപാലിക്കുന്നു.
8 ബില്ല്യൻ, 70 ബില്ല്യൺ പാരാമീറ്റർ മോഡലുകളിൽ സംയോജിപ്പിച്ച്, ഫോക്കസ് ചെയ്തതും ഫലപ്രദവുമായ പ്രോസസ്സിംഗിനായി അനുമാനത്തിൻ്റെ കാര്യക്ഷമത വർദ്ധിപ്പിക്കുന്നു.
MMLU, HumanEval തുടങ്ങിയ ടാസ്‌ക്കുകളിൽ മികവ് പുലർത്തുന്ന ലാമ 3 വിവിധ മാനദണ്ഡങ്ങളിൽ അതിൻ്റെ മുൻഗാമികളെയും എതിരാളികളെയും മറികടക്കുന്നു.
15 ട്രില്ല്യണിലധികം ടോക്കണുകളുടെ ഡാറ്റാസെറ്റിൽ പരിശീലനം നൽകി, അതിലും ഏഴിരട്ടി വലുതാണ് ലാമ 2ൻ്റെ ഡാറ്റാസെറ്റ്, വൈവിധ്യമാർന്ന ഭാഷാ പ്രാതിനിധ്യവും 30-ലധികം ഭാഷകളിൽ നിന്നുള്ള ഇംഗ്ലീഷ് ഇതര ഡാറ്റയും ഉൾക്കൊള്ളുന്നു.
വിശദമായ സ്കെയിലിംഗ് നിയമങ്ങൾ ഡാറ്റാ മിക്സും കമ്പ്യൂട്ടേഷണൽ റിസോഴ്സുകളും ഒപ്റ്റിമൈസ് ചെയ്യുന്നു, ലാമ 2 നെ അപേക്ഷിച്ച് പരിശീലന പ്രക്രിയയുടെ കാര്യക്ഷമത മൂന്നിരട്ടി വർദ്ധിപ്പിക്കുമ്പോൾ വൈവിധ്യമാർന്ന ആപ്ലിക്കേഷനുകളിലുടനീളം ശക്തമായ പ്രകടനം ഉറപ്പാക്കുന്നു.
ഒരു മെച്ചപ്പെടുത്തിയ പോസ്റ്റ്-ട്രെയിനിംഗ് ഘട്ടം മോഡൽ ഗുണനിലവാരവും തീരുമാനമെടുക്കാനുള്ള കഴിവുകളും മെച്ചപ്പെടുത്തുന്നതിന് സൂപ്പർവൈസ്ഡ് ഫൈൻ-ട്യൂണിംഗ്, റിജക്ഷൻ സാമ്പിൾ, പോളിസി ഒപ്റ്റിമൈസേഷൻ എന്നിവ സംയോജിപ്പിക്കുന്നു.
പ്രധാന പ്ലാറ്റ്‌ഫോമുകളിൽ ഉടനീളം ലഭ്യമാണ്, ഇത് മെച്ചപ്പെടുത്തിയ ടോക്കനൈസർ കാര്യക്ഷമതയും സുരക്ഷാ സവിശേഷതകളും അവതരിപ്പിക്കുന്നു, ആപ്ലിക്കേഷനുകൾ അനുയോജ്യമാക്കുന്നതിനും ഉത്തരവാദിത്തമുള്ള AI വിന്യാസം ഉറപ്പാക്കുന്നതിനും ഡവലപ്പർമാരെ ശാക്തീകരിക്കുന്നു.

AI നഗരത്തെക്കുറിച്ചുള്ള സംസാരം

ക്ലെമൻ്റ് ഡെലാംഗ്, ഹഗ്ഗിംഗ്‌ഫേസിലെ സഹസ്ഥാപകനും സിഇഒ

ലാമ 3 ഔദ്യോഗികമായി റിലീസിൽ നിന്ന് ഏറ്റവും വേഗതയേറിയ മോഡലാണ് ഹഗ്ഗിംഗ് ഫേസിൽ ട്രെൻഡിംഗിൽ #1 ട്രെൻഡിംഗ് - ഏതാനും മണിക്കൂറുകൾക്കുള്ളിൽ.

ലാമ 30,000 & 1 അടിസ്ഥാനമാക്കി 2 പുതിയ മോഡലുകൾ പുറത്തിറക്കിയിട്ടുണ്ട്, അതിനാൽ മൂന്നാമത്തെയും ഏറ്റവും ശക്തവുമായ പതിപ്പ് ആവാസവ്യവസ്ഥയിൽ ചെലുത്തുന്ന സ്വാധീനം കാണാൻ എനിക്ക് കാത്തിരിക്കാനാവില്ല! 🚀🚀🚀 pic.twitter.com/6kiyBtL3WU

— clem 🤗 (@ClementDelangue) ഏപ്രിൽ 18, 2024

Yann LeCun, NYU ലെ പ്രൊഫസർ | മെറ്റായിലെ ചീഫ് AI സയൻ്റിസ്റ്റ് | AI, മെഷീൻ ലേണിംഗ്, റോബോട്ടിക്സ് മുതലായവയിൽ ഗവേഷകൻ | എസിഎം ട്യൂറിംഗ് അവാർഡ് ജേതാവ്.

🥁 ലാമ3 പുറത്ത് 🥁
8B, 70B മോഡലുകൾ ഇന്ന് ലഭ്യമാണ്.
8k സന്ദർഭ ദൈർഘ്യം.
ഇഷ്‌ടാനുസൃതമായി നിർമ്മിച്ച 15k GPU ക്ലസ്റ്ററിൽ 24 ട്രില്യൺ ടോക്കണുകൾ ഉപയോഗിച്ച് പരിശീലിപ്പിച്ചു.
വിവിധ ബെഞ്ച്മാർക്കുകളിലെ മികച്ച പ്രകടനം, ചില സന്ദർഭങ്ങളിൽ Llam3-8B ലാമ2-70ബിയേക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു.
കൂടുതൽ പതിപ്പുകൾ അടുത്തതായി വരുന്നു… pic.twitter.com/a2Koge2R5U

— Yann LeCun (@ylecun) ഏപ്രിൽ 18, 2024

ആൻഡ്രെജ് കർപതി, ഓപ്പൺഎഐയിലെ സ്ഥാപക ടീം

അഭിനന്ദനങ്ങൾ @AIatMeta ലാമ 3 റിലീസിൽ!! 🎉https://t.co/fSw615zE8S
കുറിപ്പുകൾ:

8B, 70B (ബേസ്, ഫൈൻട്യൂൺഡ്) മോഡലുകൾ പുറത്തിറക്കുന്നു, അവരുടെ മോഡൽ ക്ലാസിൽ ശക്തമായ പ്രകടനം കാഴ്ചവെക്കുന്നു (എന്നാൽ @ എന്നതിൽ റാങ്കിംഗ് വരുമ്പോൾ നമുക്ക് കാണാം @lmsysorg :))
400B ഇപ്പോഴും പരിശീലനത്തിലാണ്, പക്ഷേ ഇതിനകം കടന്നുകയറുകയാണ്...

— ആന്ദ്രെ കർപതി (@karpathy) ഏപ്രിൽ 18, 2024

മെറ്റാ ലാമ 3 മെറ്റയുടെ ഭാഷാ മോഡലുകളുടെ പരമ്പരയിലെ ഏറ്റവും പുതിയ മുന്നേറ്റത്തെ പ്രതിനിധീകരിക്കുന്നു, ഇത് ജനറേറ്റീവ് AI യുടെ പരിണാമത്തിൽ ഒരു സുപ്രധാന ചുവടുവെപ്പ് അടയാളപ്പെടുത്തുന്നു. ഇപ്പോൾ ലഭ്യമാണ്, ഈ പുതിയ തലമുറയിൽ 8 ബില്യൺ, 70 ബില്യൺ പാരാമീറ്ററുകളുള്ള മോഡലുകൾ ഉൾപ്പെടുന്നു, അവ ഓരോന്നും വൈവിധ്യമാർന്ന ആപ്ലിക്കേഷനുകളിൽ മികവ് പുലർത്താൻ രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്നു. ദൈനംദിന സംഭാഷണങ്ങളിൽ ഏർപ്പെടുന്നത് മുതൽ സങ്കീർണ്ണമായ യുക്തിസഹമായ ജോലികൾ കൈകാര്യം ചെയ്യുന്നത് വരെ, ലാമ 3 പ്രകടനത്തിൽ ഒരു പുതിയ നിലവാരം സ്ഥാപിക്കുന്നു, നിരവധി വ്യവസായ മാനദണ്ഡങ്ങളിൽ അതിൻ്റെ മുൻഗാമികളെ മറികടക്കുന്നു. ലാമ 3 സൗജന്യമായി ആക്‌സസ് ചെയ്യാവുന്നതാണ്, ആപ്ലിക്കേഷനുകൾ വികസിപ്പിക്കുന്നത് മുതൽ ഡെവലപ്പർ ടൂളുകൾ മെച്ചപ്പെടുത്തുന്നതിനും അതിനപ്പുറവും AI-യിൽ നവീകരണം നടത്താൻ കമ്മ്യൂണിറ്റിയെ ശാക്തീകരിക്കുന്നു.

ലാമ 2-ൽ നിന്നുള്ള മോഡൽ ആർക്കിടെക്ചറും മെച്ചപ്പെടുത്തലുകളും

ലാമ 3 തെളിയിക്കപ്പെട്ട ഡീകോഡർ-ഒൺലി ട്രാൻസ്‌ഫോർമർ ആർക്കിടെക്ചർ നിലനിർത്തുന്നു, അതേസമയം ലാമ 2-നേക്കാൾ അതിൻ്റെ പ്രവർത്തനക്ഷമത ഉയർത്തുന്ന കാര്യമായ മെച്ചപ്പെടുത്തലുകൾ ഉൾക്കൊള്ളുന്നു. യോജിച്ച ഡിസൈൻ ഫിലോസഫിക്ക് അനുസൃതമായി, ലാമ 3 128,000 ടോക്കണുകളുടെ വിപുലമായ പദാവലിയെ പിന്തുണയ്ക്കുന്ന ഒരു ടോക്കനൈസർ ഉൾക്കൊള്ളുന്നു. എൻകോഡിംഗ് ഭാഷയിൽ. ഈ വികസനം മൊത്തത്തിലുള്ള മെച്ചപ്പെട്ട പ്രകടനത്തിലേക്ക് വിവർത്തനം ചെയ്യുന്നു. കൂടാതെ, അനുമാന കാര്യക്ഷമത വർദ്ധിപ്പിക്കുന്നതിന്, Llama 3 അതിൻ്റെ 8 ബില്യൺ, 70 ബില്ല്യൺ പാരാമീറ്റർ മോഡലുകളിൽ ഗ്രൂപ്പ്ഡ് ക്വറി അറ്റൻഷൻ (GQA) സമന്വയിപ്പിക്കുന്നു. ഈ മോഡൽ 8,192 ടോക്കണുകളുടെ സീക്വൻസുകളും മാസ്കിംഗ് ടെക്നിക് ഉപയോഗിച്ച് ഉപയോഗിക്കുന്നു, അത് ഡോക്യുമെൻ്റ് അതിരുകളിലുടനീളം വ്യാപിക്കുന്നതിൽ നിന്ന് സ്വയം ശ്രദ്ധയെ തടയുന്നു, കൂടുതൽ ശ്രദ്ധാകേന്ദ്രവും ഫലപ്രദവുമായ പ്രോസസ്സിംഗ് ഉറപ്പാക്കുന്നു. ഈ മെച്ചപ്പെടുത്തലുകൾ വർധിച്ച കൃത്യതയും കാര്യക്ഷമതയും ഉപയോഗിച്ച് വിശാലമായ ടാസ്‌ക്കുകൾ കൈകാര്യം ചെയ്യാനുള്ള ലാമ 3 യുടെ കഴിവിനെ കൂട്ടായി വർദ്ധിപ്പിക്കുന്നു.

സവിശേഷത	ലാമ 2	ലാമ 3
പാരാമീറ്റർ ശ്രേണി	7B മുതൽ 70B വരെയുള്ള പാരാമീറ്ററുകൾ	8B, 70B പാരാമീറ്ററുകൾ, 400B+ പ്ലാനുകൾ
മാതൃകാ വാസ്തുവിദ്യ	ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചറിനെ അടിസ്ഥാനമാക്കി	സ്റ്റാൻഡേർഡ് ഡീകോഡർ മാത്രമുള്ള ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചർ
ടോക്കണൈസേഷൻ കാര്യക്ഷമത	സന്ദർഭ ദൈർഘ്യം 4096 ടോക്കണുകൾ വരെ	128K ടോക്കണുകളുടെ പദാവലി ഉള്ള ഒരു ടോക്കണൈസർ ഉപയോഗിക്കുന്നു
പരിശീലന ഡാറ്റ	പൊതുവായി ലഭ്യമായ ഉറവിടങ്ങളിൽ നിന്ന് 2 ട്രില്യൺ ടോക്കണുകൾ	പൊതുവായി ലഭ്യമായ ഉറവിടങ്ങളിൽ നിന്ന് 15T ടോക്കണുകൾ
അനുമാനം കാര്യക്ഷമത	70B മോഡലിന് GQA പോലെയുള്ള മെച്ചപ്പെടുത്തലുകൾ	മെച്ചപ്പെട്ട കാര്യക്ഷമതയ്ക്കായി ഗ്രൂപ്പുചെയ്ത ചോദ്യ ശ്രദ്ധ (GQA).
ഫൈൻ ട്യൂണിംഗ് രീതികൾ	മേൽനോട്ടത്തിലുള്ള ഫൈൻ ട്യൂണിംഗും RLHF ഉം	സൂപ്പർവൈസ്ഡ് ഫൈൻ-ട്യൂണിംഗ് (SFT), നിരസിക്കൽ സാമ്പിൾ, PPO, DPO
സുരക്ഷയും നൈതിക പരിഗണനകളും	പ്രതികൂല പ്രോംപ്റ്റ് ടെസ്റ്റിംഗ് അനുസരിച്ച് സുരക്ഷിതം	സുരക്ഷയ്ക്കായി വിപുലമായ റെഡ്-ടീമിംഗ്
ഓപ്പൺ സോഴ്‌സും പ്രവേശനക്ഷമതയും	ചില നിയന്ത്രണങ്ങളുള്ള കമ്മ്യൂണിറ്റി ലൈസൻസ്	ഒരു AI ആവാസവ്യവസ്ഥയെ പരിപോഷിപ്പിക്കുന്നതിനുള്ള തുറന്ന സമീപനമാണ് ലക്ഷ്യമിടുന്നത്
കേസുകൾ ഉപയോഗിക്കുക	ചാറ്റിനും കോഡ് സൃഷ്ടിക്കുന്നതിനുമായി ഒപ്റ്റിമൈസ് ചെയ്‌തു	നിർദ്ദേശങ്ങൾ പിന്തുടരുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ച് ഒന്നിലധികം ഡൊമെയ്‌നുകളിലുടനീളം വിപുലമായ ഉപയോഗം

മറ്റ് മോഡലുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ ബെഞ്ച്മാർക്കിംഗ് ഫലങ്ങൾ

ലാമ 3 ജനറേറ്റീവ് എഐയിൽ ബാർ ഉയർത്തി, വിവിധ മാനദണ്ഡങ്ങളിൽ അതിൻ്റെ മുൻഗാമികളെയും എതിരാളികളെയും മറികടന്നു. വിവിധ മേഖലകളിലെ അറിവ് വിലയിരുത്തുന്ന എംഎംഎൽയു, കോഡിംഗ് കഴിവുകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ച ഹ്യൂമൻ എവൽ തുടങ്ങിയ ടെസ്റ്റുകളിൽ ഇത് പ്രത്യേകിച്ചും മികവ് പുലർത്തി. കൂടാതെ, ഗൂഗിളിൻ്റെ ജെമിനി 3 പ്രോ, ആന്ത്രോപിക്കിൻ്റെ ക്ലോഡ് 1.5 സോണറ്റ് പോലുള്ള മറ്റ് ഉയർന്ന പാരാമീറ്റർ മോഡലുകളെ, പ്രത്യേകിച്ച് സങ്കീർണ്ണമായ ന്യായവാദത്തിലും ഗ്രഹണ പ്രവർത്തനങ്ങളിലും ലാമ 3 മികച്ച പ്രകടനം കാഴ്ചവച്ചു.

കാണുക മൂല്യനിർണ്ണയ വിശദാംശങ്ങൾ ഈ മൂല്യനിർണ്ണയങ്ങൾ കണക്കാക്കുന്ന ക്രമീകരണത്തിനും പാരാമീറ്ററുകൾക്കുമായി.

സ്റ്റാൻഡേർഡ്, കസ്റ്റം ടെസ്റ്റ് സെറ്റുകളിലെ മൂല്യനിർണ്ണയം

വിവിധ യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകളിലുടനീളം ലാമ 3 പരീക്ഷിക്കുന്നതിന് പരമ്പരാഗത ബെഞ്ച്മാർക്കുകൾക്കപ്പുറം തനതായ മൂല്യനിർണ്ണയ സെറ്റുകൾ മെറ്റ സൃഷ്ടിച്ചു. ഈ യോജിച്ച മൂല്യനിർണ്ണയ ചട്ടക്കൂടിൽ 1,800 നിർണായക ഉപയോഗ കേസുകൾ ഉൾക്കൊള്ളുന്ന 12 പ്രോംപ്റ്റുകൾ ഉൾപ്പെടുന്നു: ഉപദേശം നൽകൽ, മസ്തിഷ്കപ്രക്ഷോഭം, വർഗ്ഗീകരണം, അടച്ചതും തുറന്നതുമായ ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകൽ, കോഡിംഗ്, ക്രിയേറ്റീവ് കോമ്പോസിഷൻ, ഡാറ്റ എക്സ്ട്രാക്ഷൻ, റോൾ പ്ലേയിംഗ്, ലോജിക്കൽ റീസണിംഗ്, ടെക്സ്റ്റ് റീറൈറ്റിംഗ്, സംഗ്രഹം. മെറ്റയുടെ മോഡലിംഗ് ടീമുകൾക്ക് പോലും ഈ നിർദ്ദിഷ്ട സെറ്റിലേക്കുള്ള ആക്‌സസ് പരിമിതപ്പെടുത്തുന്നത്, മോഡലിൻ്റെ ഓവർഫിറ്റിംഗിന് എതിരെ സംരക്ഷിക്കുന്നു. ഈ കർശനമായ പരിശോധനാ സമീപനം ലാമ 3 യുടെ മികച്ച പ്രകടനം തെളിയിച്ചിട്ടുണ്ട്, ഇത് മറ്റ് മോഡലുകളെ പലപ്പോഴും മറികടക്കുന്നു. അങ്ങനെ അതിൻ്റെ പൊരുത്തപ്പെടുത്തലും പ്രാവീണ്യവും അടിവരയിടുന്നു.

പരിശീലന ഡാറ്റയും സ്കെയിലിംഗ് തന്ത്രങ്ങളും

പരിശീലന ഡാറ്റയും സ്കെയിലിംഗ് തന്ത്രങ്ങളും നമുക്ക് ഇപ്പോൾ പര്യവേക്ഷണം ചെയ്യാം:

പരിശീലന ഡാറ്റ

ലാമ 3-ൻ്റെ പരിശീലന ഡാറ്റാസെറ്റ്, 15 ട്രില്യൺ ടോക്കണുകൾ, ലാമ 2-ൽ നിന്ന് ഏഴിരട്ടി വർദ്ധനവാണ്.
ഡാറ്റാസെറ്റിൽ നാലിരട്ടി കൂടുതൽ കോഡുകളും 5 ഭാഷകളിൽ നിന്നുള്ള ഉയർന്ന നിലവാരമുള്ള ഇംഗ്ലീഷ് ഇതര ഡാറ്റയുടെ 30% വും ഉൾക്കൊള്ളുന്നു. ബഹുഭാഷാ ആപ്ലിക്കേഷനുകൾക്ക് വൈവിധ്യമാർന്ന ഭാഷാ പ്രാതിനിധ്യം ഉറപ്പാക്കുന്നു.
ഡാറ്റയുടെ ഗുണനിലവാരം നിലനിർത്തുന്നതിന്, ഹ്യൂറിസ്റ്റിക് ഫിൽട്ടറുകൾ, NSFW ഫിൽട്ടറുകൾ, സെമാൻ്റിക് ഡ്യൂപ്ലിക്കേഷൻ, ടെക്സ്റ്റ് ക്ലാസിഫയറുകൾ എന്നിവയുൾപ്പെടെയുള്ള സങ്കീർണ്ണമായ ഡാറ്റ-ഫിൽട്ടറിംഗ് പൈപ്പ്ലൈനുകൾ Meta ഉപയോഗിക്കുന്നു.
മുൻ ലാമ മോഡലുകളിൽ നിന്നുള്ള സ്ഥിതിവിവരക്കണക്കുകൾ പ്രയോജനപ്പെടുത്തി, ഈ സംവിധാനങ്ങൾ ഗുണനിലവാരമുള്ള ഡാറ്റ തിരിച്ചറിയുകയും സംയോജിപ്പിക്കുകയും ചെയ്തുകൊണ്ട് ലാമ 3-ൻ്റെ പരിശീലനം വർദ്ധിപ്പിക്കുന്നു.

സ്കെയിലിംഗ് തന്ത്രങ്ങൾ

വിശദമായ സ്കെയിലിംഗ് നിയമങ്ങൾ വികസിപ്പിച്ചുകൊണ്ട് ലാമ 3-ൻ്റെ ഡാറ്റാസെറ്റിൻ്റെ പ്രയോജനം പരമാവധിയാക്കുന്നതിൽ മെറ്റാ ശ്രദ്ധ കേന്ദ്രീകരിച്ചു.
ഡാറ്റ മിക്‌സിൻ്റെ ഒപ്റ്റിമൈസേഷനും കമ്പ്യൂട്ടേഷണൽ റിസോഴ്‌സുകളും വിവിധ ടാസ്‌ക്കുകളിലുടനീളമുള്ള മോഡൽ പ്രകടനത്തിൻ്റെ കൃത്യമായ പ്രവചനങ്ങൾ സുഗമമാക്കി.
ട്രിവിയ, STEM, കോഡിംഗ്, ചരിത്രപരമായ അറിവ് തുടങ്ങിയ വൈവിധ്യമാർന്ന ആപ്ലിക്കേഷനുകളിലുടനീളം തന്ത്രപരമായ ദീർഘവീക്ഷണം ശക്തമായ പ്രകടനം ഉറപ്പാക്കുന്നു.
സ്ഥിതിവിവരക്കണക്കുകൾ 8B പാരാമീറ്റർ മോഡലിനായുള്ള ചിൻചില്ല-ഒപ്റ്റിമൽ പരിശീലന കമ്പ്യൂട്ട് വെളിപ്പെടുത്തി, ഏകദേശം 200 ബില്യൺ ടോക്കണുകൾ.
8B, 70B മോഡലുകൾ 15 ട്രില്യൺ ടോക്കണുകളുള്ള പ്രകടന ലോഗ്-ലീനിയറായി മെച്ചപ്പെടുത്തുന്നത് തുടരുന്നു.
ഇഷ്‌ടാനുസൃതമായി നിർമ്മിച്ച 400 ജിപിയു ക്ലസ്റ്ററുകളിൽ ഒരേസമയം 16,000 ജിപിയു ഉപയോഗിച്ച് മെറ്റാ ഒരു ജിപിയുവിന് 24,000 ടിഎഫ്‌ലോപ്‌സ് നേടി.
പരിശീലന ഇൻഫ്രാസ്ട്രക്ചറിലെ പുതുമകളിൽ ഓട്ടോമേറ്റഡ് പിശക് കണ്ടെത്തൽ, സിസ്റ്റം മെയിൻ്റനൻസ്, സ്കേലബിൾ സ്റ്റോറേജ് സൊല്യൂഷനുകൾ എന്നിവ ഉൾപ്പെടുന്നു.
ഈ മുന്നേറ്റങ്ങൾ ലാമ 3 നെ അപേക്ഷിച്ച് ലാമ 2 യുടെ പരിശീലന കാര്യക്ഷമതയെ മൂന്നിരട്ടിയാക്കി, 95% ത്തിലധികം ഫലപ്രദമായ പരിശീലന സമയം കൈവരിച്ചു.
ഈ മെച്ചപ്പെടുത്തലുകൾ വലിയ ഭാഷാ മോഡലുകളെ പരിശീലിപ്പിക്കുന്നതിന് പുതിയ മാനദണ്ഡങ്ങൾ സജ്ജമാക്കി, AI യുടെ അതിരുകൾ മുന്നോട്ട് നീക്കുന്നു.

ഫൈൻ ട്യൂണിംഗിൻ്റെ നിർദ്ദേശം

ഇൻസ്ട്രക്ഷൻ-ട്യൂണിംഗ് മുൻകൂട്ടി തയ്യാറാക്കിയ ചാറ്റ് മോഡലുകളുടെ പ്രവർത്തനക്ഷമത വർദ്ധിപ്പിക്കുന്നു.
മേൽനോട്ടത്തിലുള്ള ഫൈൻ-ട്യൂണിംഗ്, റിജക്ഷൻ സാമ്പിൾ, PPO, DPO എന്നിവ പ്രോസസ്സ് സംയോജിപ്പിക്കുന്നു.
SFT-യിലെ നിർദ്ദേശങ്ങളും PPO/DPO-യിലെ മുൻഗണനാ റാങ്കിംഗും മോഡൽ പ്രകടനത്തിന് നിർണായകമാണ്.
മനുഷ്യ വ്യാഖ്യാനങ്ങൾ നൽകുന്ന സൂക്ഷ്മമായ ഡാറ്റ ക്യൂറേഷനും ഗുണനിലവാര ഉറപ്പും.
PPO/DPO-യിലെ മുൻഗണനാ റാങ്കിംഗുകൾ യുക്തിയും കോഡിംഗ് ടാസ്‌ക് പ്രകടനവും മെച്ചപ്പെടുത്തുന്നു.
ശരിയായ ഉത്തരങ്ങൾ സൃഷ്ടിക്കാൻ കഴിവുള്ള മോഡലുകൾ, എന്നാൽ തിരഞ്ഞെടുക്കുന്നതിൽ ബുദ്ധിമുട്ട് ഉണ്ടായേക്കാം.
മുൻഗണനാ റാങ്കിംഗുകളുള്ള പരിശീലനം സങ്കീർണ്ണമായ ജോലികളിൽ തീരുമാനമെടുക്കൽ വർദ്ധിപ്പിക്കുന്നു.

ലാമയുടെ വിന്യാസം3

ക്ലൗഡ് സേവനങ്ങളും മോഡൽ API ദാതാക്കളും ഉൾപ്പെടെ പ്രധാന പ്ലാറ്റ്‌ഫോമുകളിലുടനീളം വ്യാപകമായ ലഭ്യതയ്ക്കായി ലാമ 3 സജ്ജീകരിച്ചിരിക്കുന്നു. ഇത് മെച്ചപ്പെടുത്തിയ ടോക്കണൈസർ കാര്യക്ഷമത, ലാമ 15 നെ അപേക്ഷിച്ച് ടോക്കൺ ഉപയോഗം 2% വരെ കുറയ്ക്കുന്നു, കൂടാതെ 8B മോഡലിൽ ഗ്രൂപ്പ് ക്വറി അറ്റൻഷൻ (GQA) ഉൾപ്പെടുത്തി, Llama 1 2B-യെക്കാൾ 7 ബില്യൺ പാരാമീറ്ററുകൾ കൂടി ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. ഓപ്പൺ സോഴ്‌സ് 'ലാമ പാചകക്കുറിപ്പുകൾ' പ്രായോഗിക വിന്യാസത്തിനും ഒപ്റ്റിമൈസേഷൻ തന്ത്രങ്ങൾക്കുമായി സമഗ്രമായ ഉറവിടങ്ങൾ വാഗ്ദാനം ചെയ്യുന്നു, ലാമ 3-ൻ്റെ വൈവിധ്യമാർന്ന ആപ്ലിക്കേഷനെ പിന്തുണയ്ക്കുന്നു.

ലാമ 3-ലെ മെച്ചപ്പെടുത്തലുകളും സുരക്ഷാ സവിശേഷതകളും

ലാമ 3 രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത് ഡെവലപ്പർമാരെ ഉപകരണങ്ങളും ഫ്ലെക്സിബിലിറ്റിയും ഉപയോഗിച്ച് പ്രത്യേക ആവശ്യങ്ങൾക്കനുസൃതമായി ആപ്ലിക്കേഷനുകൾ തയ്യാറാക്കുന്നതിനാണ്. ഇത് ഓപ്പൺ AI ഇക്കോസിസ്റ്റം മെച്ചപ്പെടുത്തുന്നു. അനുമാനസമയത്ത് സുരക്ഷിതമല്ലാത്ത കോഡ് ഫിൽട്ടർ ചെയ്യാൻ സഹായിക്കുന്ന Llama Guard 2, Cybersec Eval 2, Code Shield എന്നിവയുൾപ്പെടെയുള്ള പുതിയ സുരക്ഷയും വിശ്വാസയോഗ്യമായ ടൂളുകളും ഈ പതിപ്പ് അവതരിപ്പിക്കുന്നു. LLM-കളുടെ കാര്യക്ഷമവും മെമ്മറി-സൗഹൃദവുമായ എഴുത്ത്, ഫൈൻ-ട്യൂണിംഗ്, ടെസ്റ്റിംഗ് എന്നിവ പ്രാപ്തമാക്കുന്ന PyTorch-നേറ്റീവ് ലൈബ്രറിയായ ടോർച്ച്ട്യൂണുമായി സഹകരിച്ചാണ് ലാമ 3 വികസിപ്പിച്ചിരിക്കുന്നത്. ഹഗ്ഗിംഗ് ഫെയ്‌സ്, വെയ്‌റ്റ്‌സ് & ബയസുകൾ തുടങ്ങിയ പ്ലാറ്റ്‌ഫോമുകളുമായുള്ള സംയോജനത്തെ ഈ ലൈബ്രറി പിന്തുണയ്ക്കുന്നു. എക്‌സിക്യുട്ടോർച്ചിലൂടെ വൈവിധ്യമാർന്ന ഉപകരണങ്ങളിൽ കാര്യക്ഷമമായ അനുമാനവും ഇത് സഹായിക്കുന്നു.

ഉത്തരവാദിത്ത വിന്യാസത്തിലേക്കുള്ള ഒരു വ്യവസ്ഥാപിത സമീപനം ലാമ 3 മോഡലുകൾ ഉപയോഗപ്രദമാണെന്ന് മാത്രമല്ല സുരക്ഷിതമാണെന്നും ഉറപ്പാക്കുന്നു. ഇൻസ്ട്രക്ഷൻ ഫൈൻ-ട്യൂണിംഗ് ഒരു പ്രധാന ഘടകമാണ്, സൈബർ സെക്യൂരിറ്റി പോലുള്ള മേഖലകളിലെ ദുരുപയോഗത്തിനെതിരെ സുരക്ഷയും കരുത്തും പരിശോധിക്കുന്ന റെഡ്-ടീമിംഗ് ശ്രമങ്ങൾ ഗണ്യമായി മെച്ചപ്പെടുത്തുന്നു. ലാമ ഗാർഡ് 2 ൻ്റെ ആമുഖം വ്യവസായ മാനദണ്ഡങ്ങൾ ക്രമീകരിക്കുന്നതിന് പിന്തുണയ്‌ക്കുന്നതിനായി MLCommons ടാക്‌സോണമി ഉൾക്കൊള്ളുന്നു, അതേസമയം CyberSecEval 2 കോഡ് ദുരുപയോഗത്തിനെതിരെയുള്ള സുരക്ഷാ നടപടികൾ മെച്ചപ്പെടുത്തുന്നു.

ലാമ 3 വികസിപ്പിക്കുന്നതിൽ തുറന്ന സമീപനം സ്വീകരിക്കുന്നത് AI കമ്മ്യൂണിറ്റിയെ ഒന്നിപ്പിക്കാനും സാധ്യതയുള്ള അപകടസാധ്യതകളെ ഫലപ്രദമായി നേരിടാനും ലക്ഷ്യമിടുന്നു. മെറ്റാ അപ്ഡേറ്റ് ചെയ്തു ഉത്തരവാദിത്തമുള്ള ഉപയോഗ ഗൈഡ് എല്ലാ മോഡൽ ഇൻപുട്ടുകളും ഔട്ട്പുട്ടുകളും ക്ലൗഡ് ദാതാക്കൾ നൽകുന്ന ഉള്ളടക്ക മോഡറേഷൻ ടൂളുകളാൽ പൂരകമായ സുരക്ഷാ മാനദണ്ഡങ്ങൾ പാലിക്കുന്നുണ്ടെന്ന് ഉറപ്പുവരുത്തുന്നതിനുള്ള മികച്ച സമ്പ്രദായങ്ങൾ (RUG) രൂപപ്പെടുത്തുന്നു. ഈ കൂട്ടായ ശ്രമങ്ങൾ വിവിധ ആപ്ലിക്കേഷനുകളിൽ LLM-കളുടെ സുരക്ഷിതവും ഉത്തരവാദിത്തവും നൂതനവുമായ ഉപയോഗം പ്രോത്സാഹിപ്പിക്കുന്നതിനാണ്.

ലാമയുടെ ഭാവി വികസനങ്ങൾ 3

3B, 8B പതിപ്പുകൾ ഉൾപ്പെടെ ലാമ 70 മോഡലുകളുടെ പ്രാരംഭ റിലീസ്. ഈ പരമ്പരയുടെ ആസൂത്രിതമായ സംഭവവികാസങ്ങളുടെ തുടക്കം മാത്രമാണിത്. 400 ബില്യണിലധികം പാരാമീറ്ററുകളുള്ള ഇതിലും വലിയ മോഡലുകളെ മെറ്റ നിലവിൽ പരിശീലിപ്പിക്കുന്നുണ്ട്. ഈ മോഡലുകൾ മൾട്ടിമോഡാലിറ്റി, ബഹുഭാഷാ ആശയവിനിമയം, വിപുലീകൃത സന്ദർഭ വിൻഡോകൾ, മൊത്തത്തിലുള്ള ശക്തമായ പ്രകടനം എന്നിവ പോലുള്ള മെച്ചപ്പെടുത്തിയ കഴിവുകൾ വാഗ്ദാനം ചെയ്യും. വരും മാസങ്ങളിൽ ഈ നൂതന മോഡലുകൾ അവതരിപ്പിക്കും. ലാമ 3-ൻ്റെ പരിശീലനത്തിൽ നിന്നുള്ള കണ്ടെത്തലുകളുടെ രൂപരേഖ നൽകുന്ന ഒരു വിശദമായ ഗവേഷണ പേപ്പറിനൊപ്പം. മെറ്റ അവരുടെ ഏറ്റവും വലിയ LLM മോഡലിൻ്റെ തുടർച്ചയായ പരിശീലനത്തിൽ നിന്നുള്ള ആദ്യകാല സ്നാപ്പ്ഷോട്ടുകൾ പങ്കിട്ടു, ഭാവി റിലീസുകളെക്കുറിച്ചുള്ള ഉൾക്കാഴ്ചകൾ വാഗ്ദാനം ചെയ്യുന്നു.

ലാമയുടെ സ്വാധീനവും അംഗീകാരവും 3

ഹഗ്ഗിംഗ് ഫെയ്‌സിൽ #3 ട്രെൻഡിംഗ് സ്‌പോട്ടിൽ എത്തിയ അതിവേഗ മോഡലായി ലാമ 1 മാറി. പുറത്തിറങ്ങി ഏതാനും മണിക്കൂറുകൾക്കുള്ളിൽ ഈ റെക്കോർഡ് നേടുന്നു.

ഇവിടെ ക്ലിക്കുചെയ്യുക ലിങ്ക് ആക്സസ് ചെയ്യുക.

ലാമ 30,000, 1 എന്നിവയിൽ നിന്നുള്ള 2 മോഡലുകൾ വികസിപ്പിച്ചതിന് ശേഷം, AI ആവാസവ്യവസ്ഥയെ കാര്യമായി സ്വാധീനിക്കാൻ ലാമ 3 ഒരുങ്ങുകയാണ്.
AWS, Microsoft Azure, Google Cloud, Hugging Face തുടങ്ങിയ പ്രധാന AI, ക്ലൗഡ് പ്ലാറ്റ്‌ഫോമുകൾ ഉടൻ തന്നെ ലാമ 3 സംയോജിപ്പിച്ചു.
Kaggle-ലെ മോഡലിൻ്റെ സാന്നിധ്യം അതിൻ്റെ പ്രവേശനക്ഷമത വിശാലമാക്കുന്നു, ഡാറ്റാ സയൻസ് കമ്മ്യൂണിറ്റിയിൽ കൂടുതൽ പര്യവേക്ഷണവും വികസനവും പ്രോത്സാഹിപ്പിക്കുന്നു.
LlamaIndex-ൽ ലഭ്യമാണ്, @ravithejads, @LoganMarkewich എന്നിവരെപ്പോലുള്ള വിദഗ്ധർ സമാഹരിച്ച ഈ റിസോഴ്‌സ് ലളിതമായ ജോലികൾ മുതൽ സങ്കീർണ്ണമായ RAG പൈപ്പ് ലൈനുകൾ വരെയുള്ള വിവിധ ആപ്ലിക്കേഷനുകളിൽ ലാമ 3 ഉപയോഗിക്കുന്നതിനുള്ള വിശദമായ മാർഗ്ഗനിർദ്ദേശം നൽകുന്നു. ഇതിനായി ഇവിടെ ക്ലിക്ക് ചെയ്യുക ആക്സസ് ലിങ്ക്.

തീരുമാനം

ലാമ 3 വലിയ ഭാഷാ മോഡലുകളുടെ പരിണാമത്തിൽ ഒരു പുതിയ നിലവാരം സ്ഥാപിക്കുന്നു. നൂതനമായ വാസ്തുവിദ്യയും കാര്യക്ഷമതയും ഉപയോഗിച്ച് അവർ വിവിധ ടാസ്‌ക്കുകളിലുടനീളം AI കഴിവുകൾ മെച്ചപ്പെടുത്തുന്നു. അതിൻ്റെ സമഗ്രമായ പരിശോധന മുൻഗാമികളെയും സമകാലിക മോഡലുകളെയും മറികടക്കുന്ന മികച്ച പ്രകടനം പ്രകടമാക്കുന്നു. കരുത്തുറ്റ പരിശീലന തന്ത്രങ്ങളും ലാമ ഗാർഡ് 2, സൈബർസെക് ഇവാൽ 2 പോലെയുള്ള നൂതന സുരക്ഷാ നടപടികളും. ഉത്തരവാദിത്ത AI വികസനത്തോടുള്ള മെറ്റയുടെ പ്രതിബദ്ധതയെ ലാമ 3 അടിവരയിടുന്നു. ലാമ 3 വ്യാപകമായി ലഭ്യമാകുന്നതിനാൽ, AI ആപ്ലിക്കേഷനുകളിൽ കാര്യമായ പുരോഗതി കൈവരിക്കുമെന്ന് ഇത് വാഗ്ദാനം ചെയ്യുന്നു. സാങ്കേതിക അതിരുകൾ പര്യവേക്ഷണം ചെയ്യുന്നതിനും വിപുലീകരിക്കുന്നതിനുമുള്ള ശക്തമായ ഒരു ഉപകരണം ഡവലപ്പർമാർക്ക് വാഗ്ദാനം ചെയ്യുന്നു.

SEO പവർ ചെയ്ത ഉള്ളടക്കവും PR വിതരണവും. ഇന്ന് ആംപ്ലിഫൈഡ് നേടുക.
PlatoData.Network ലംബ ജനറേറ്റീവ് Ai. സ്വയം ശാക്തീകരിക്കുക. ഇവിടെ പ്രവേശിക്കുക.
PlatoAiStream. Web3 ഇന്റലിജൻസ്. വിജ്ഞാനം വർധിപ്പിച്ചു. ഇവിടെ പ്രവേശിക്കുക.
പ്ലേറ്റോഇഎസ്ജി. കാർബൺ, ക്ലീൻ ടെക്, ഊർജ്ജം, പരിസ്ഥിതി, സോളാർ, മാലിന്യ സംസ്കരണം. ഇവിടെ പ്രവേശിക്കുക.
പ്ലേറ്റോ ഹെൽത്ത്. ബയോടെക് ആൻഡ് ക്ലിനിക്കൽ ട്രയൽസ് ഇന്റലിജൻസ്. ഇവിടെ പ്രവേശിക്കുക.
അവലംബം: https://www.analyticsvidhya.com/blog/2024/04/meta-llama-3-redefining-large-language-model-standards/

ജനറേറ്റീവ് ഡാറ്റ ഇന്റലിജൻസ്

മെറ്റാ ലാമ 3: വലിയ ഭാഷാ മോഡൽ മാനദണ്ഡങ്ങൾ പുനർനിർവചിക്കുന്നു

അവതാരിക

ഉള്ളടക്ക പട്ടിക

ലാമ 3 ൻ്റെ പ്രധാന സവിശേഷതകൾ

AI നഗരത്തെക്കുറിച്ചുള്ള സംസാരം

ലാമ 2-ൽ നിന്നുള്ള മോഡൽ ആർക്കിടെക്ചറും മെച്ചപ്പെടുത്തലുകളും

മറ്റ് മോഡലുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ ബെഞ്ച്മാർക്കിംഗ് ഫലങ്ങൾ

സ്റ്റാൻഡേർഡ്, കസ്റ്റം ടെസ്റ്റ് സെറ്റുകളിലെ മൂല്യനിർണ്ണയം

പരിശീലന ഡാറ്റയും സ്കെയിലിംഗ് തന്ത്രങ്ങളും

പരിശീലന ഡാറ്റ

സ്കെയിലിംഗ് തന്ത്രങ്ങൾ

ഫൈൻ ട്യൂണിംഗിൻ്റെ നിർദ്ദേശം

ലാമയുടെ വിന്യാസം3

ലാമ 3-ലെ മെച്ചപ്പെടുത്തലുകളും സുരക്ഷാ സവിശേഷതകളും

ലാമയുടെ ഭാവി വികസനങ്ങൾ 3

ലാമയുടെ സ്വാധീനവും അംഗീകാരവും 3

തീരുമാനം

ഉള്ളടക്ക മുന്നറിയിപ്പിൽ റെസ്‌ക്യൂ ഹുക്ക് എങ്ങനെ നേടാം, എങ്ങനെ ഉപയോഗിക്കാം

ഉള്ളടക്ക മുന്നറിയിപ്പിൽ MetaCoins (MC) എങ്ങനെ ലഭിക്കും

ഏറ്റവും പുതിയ ഇന്റലിജൻസ്

അടുത്ത വാലറൻ്റ് മാപ്പ് റിലീസ് തീയതി എപ്പോഴാണ്? » TalkEsport

Blast R6 പ്രധാന മാഞ്ചസ്റ്റർ ടീമുകൾ വെളിപ്പെടുത്തി » TalkEsport

ഗ്രൗണ്ടഡ് അപ്‌ഡേറ്റ് ഇപ്പോൾ ഔട്ട് (പതിപ്പ് 1.4.1), പാച്ച് കുറിപ്പുകൾ

എഫ്സി 24 ഒരു യുഗത്തിൻ്റെ അവസാനം സ്റ്റെഫ് ഹൗട്ടൺ എസ്ബിസി, ചെലവുകളും പരിഹാരങ്ങളും