സെഫിർനെറ്റ് ലോഗോ

മെറ്റാ ലാമ 3: വലിയ ഭാഷാ മോഡൽ മാനദണ്ഡങ്ങൾ പുനർനിർവചിക്കുന്നു

തീയതി:

അവതാരിക

ലാൻഡ്സ്കേപ്പ് നിർമ്മിത ബുദ്ധി യുടെ വരവോടെ കഴിഞ്ഞ കുറച്ച് വർഷങ്ങളായി നാടകീയമായി പുനർരൂപകൽപ്പന ചെയ്യപ്പെട്ടു വലിയ ഭാഷാ മോഡലുകൾ (എൽഎൽഎം). ഈ ശക്തമായ ടൂളുകൾ ലളിതമായ ടെക്‌സ്‌റ്റ് പ്രൊസസറുകളിൽ നിന്ന് മനുഷ്യനെപ്പോലെയുള്ള ടെക്‌സ്‌റ്റ് മനസ്സിലാക്കാനും സൃഷ്‌ടിക്കാനും കഴിവുള്ള സങ്കീർണ്ണമായ സിസ്റ്റങ്ങളിലേക്ക് പരിണമിച്ചിരിക്കുന്നു, ഇത് കഴിവുകളിലും ആപ്ലിക്കേഷനുകളിലും കാര്യമായ മുന്നേറ്റമുണ്ടാക്കുന്നു. ഈ പരിണാമത്തിൻ്റെ മുൻനിരയിൽ മെറ്റയുടെ ഏറ്റവും പുതിയ ഓഫറായ ലാമ 3 ആണ്, പ്രവേശനക്ഷമതയുടെയും പ്രകടനത്തിൻ്റെയും കാര്യത്തിൽ ഓപ്പൺ മോഡലുകൾക്ക് എന്ത് നേടാനാകുമെന്നതിൻ്റെ അതിരുകൾ മുന്നോട്ട് കൊണ്ടുപോകുമെന്ന് വാഗ്ദാനം ചെയ്യുന്നു.                                                                                                                                     

ഉള്ളടക്ക പട്ടിക

ലാമ 3 ൻ്റെ പ്രധാന സവിശേഷതകൾ 

  • ലാമ 3, 128,000 ടോക്കണുകളെ പിന്തുണയ്ക്കുന്ന ടോക്കണൈസർ ഉൾപ്പെടെ, ഭാഷാ എൻകോഡിംഗ് കാര്യക്ഷമത മെച്ചപ്പെടുത്തുന്നതുൾപ്പെടെ കാര്യമായ മെച്ചപ്പെടുത്തലുകളോടെ ഡീകോഡർ മാത്രമുള്ള ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചർ പരിപാലിക്കുന്നു.
  • 8 ബില്ല്യൻ, 70 ബില്ല്യൺ പാരാമീറ്റർ മോഡലുകളിൽ സംയോജിപ്പിച്ച്, ഫോക്കസ് ചെയ്തതും ഫലപ്രദവുമായ പ്രോസസ്സിംഗിനായി അനുമാനത്തിൻ്റെ കാര്യക്ഷമത വർദ്ധിപ്പിക്കുന്നു.
  • MMLU, HumanEval തുടങ്ങിയ ടാസ്‌ക്കുകളിൽ മികവ് പുലർത്തുന്ന ലാമ 3 വിവിധ മാനദണ്ഡങ്ങളിൽ അതിൻ്റെ മുൻഗാമികളെയും എതിരാളികളെയും മറികടക്കുന്നു.
  • 15 ട്രില്ല്യണിലധികം ടോക്കണുകളുടെ ഡാറ്റാസെറ്റിൽ പരിശീലനം നൽകി, അതിലും ഏഴിരട്ടി വലുതാണ് ലാമ 2ൻ്റെ ഡാറ്റാസെറ്റ്, വൈവിധ്യമാർന്ന ഭാഷാ പ്രാതിനിധ്യവും 30-ലധികം ഭാഷകളിൽ നിന്നുള്ള ഇംഗ്ലീഷ് ഇതര ഡാറ്റയും ഉൾക്കൊള്ളുന്നു.
  • വിശദമായ സ്കെയിലിംഗ് നിയമങ്ങൾ ഡാറ്റാ മിക്സും കമ്പ്യൂട്ടേഷണൽ റിസോഴ്സുകളും ഒപ്റ്റിമൈസ് ചെയ്യുന്നു, ലാമ 2 നെ അപേക്ഷിച്ച് പരിശീലന പ്രക്രിയയുടെ കാര്യക്ഷമത മൂന്നിരട്ടി വർദ്ധിപ്പിക്കുമ്പോൾ വൈവിധ്യമാർന്ന ആപ്ലിക്കേഷനുകളിലുടനീളം ശക്തമായ പ്രകടനം ഉറപ്പാക്കുന്നു.
  • ഒരു മെച്ചപ്പെടുത്തിയ പോസ്റ്റ്-ട്രെയിനിംഗ് ഘട്ടം മോഡൽ ഗുണനിലവാരവും തീരുമാനമെടുക്കാനുള്ള കഴിവുകളും മെച്ചപ്പെടുത്തുന്നതിന് സൂപ്പർവൈസ്ഡ് ഫൈൻ-ട്യൂണിംഗ്, റിജക്ഷൻ സാമ്പിൾ, പോളിസി ഒപ്റ്റിമൈസേഷൻ എന്നിവ സംയോജിപ്പിക്കുന്നു.
  • പ്രധാന പ്ലാറ്റ്‌ഫോമുകളിൽ ഉടനീളം ലഭ്യമാണ്, ഇത് മെച്ചപ്പെടുത്തിയ ടോക്കനൈസർ കാര്യക്ഷമതയും സുരക്ഷാ സവിശേഷതകളും അവതരിപ്പിക്കുന്നു, ആപ്ലിക്കേഷനുകൾ അനുയോജ്യമാക്കുന്നതിനും ഉത്തരവാദിത്തമുള്ള AI വിന്യാസം ഉറപ്പാക്കുന്നതിനും ഡവലപ്പർമാരെ ശാക്തീകരിക്കുന്നു.

AI നഗരത്തെക്കുറിച്ചുള്ള സംസാരം

ക്ലെമൻ്റ് ഡെലാംഗ്, ഹഗ്ഗിംഗ്‌ഫേസിലെ സഹസ്ഥാപകനും സിഇഒ

Yann LeCun, NYU ലെ പ്രൊഫസർ | മെറ്റായിലെ ചീഫ് AI സയൻ്റിസ്റ്റ് | AI, മെഷീൻ ലേണിംഗ്, റോബോട്ടിക്സ് മുതലായവയിൽ ഗവേഷകൻ | എസിഎം ട്യൂറിംഗ് അവാർഡ് ജേതാവ്.

ആൻഡ്രെജ് കർപതി, ഓപ്പൺഎഐയിലെ സ്ഥാപക ടീം

മെറ്റാ ലാമ 3 മെറ്റയുടെ ഭാഷാ മോഡലുകളുടെ പരമ്പരയിലെ ഏറ്റവും പുതിയ മുന്നേറ്റത്തെ പ്രതിനിധീകരിക്കുന്നു, ഇത് ജനറേറ്റീവ് AI യുടെ പരിണാമത്തിൽ ഒരു സുപ്രധാന ചുവടുവെപ്പ് അടയാളപ്പെടുത്തുന്നു. ഇപ്പോൾ ലഭ്യമാണ്, ഈ പുതിയ തലമുറയിൽ 8 ബില്യൺ, 70 ബില്യൺ പാരാമീറ്ററുകളുള്ള മോഡലുകൾ ഉൾപ്പെടുന്നു, അവ ഓരോന്നും വൈവിധ്യമാർന്ന ആപ്ലിക്കേഷനുകളിൽ മികവ് പുലർത്താൻ രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്നു. ദൈനംദിന സംഭാഷണങ്ങളിൽ ഏർപ്പെടുന്നത് മുതൽ സങ്കീർണ്ണമായ യുക്തിസഹമായ ജോലികൾ കൈകാര്യം ചെയ്യുന്നത് വരെ, ലാമ 3 പ്രകടനത്തിൽ ഒരു പുതിയ നിലവാരം സ്ഥാപിക്കുന്നു, നിരവധി വ്യവസായ മാനദണ്ഡങ്ങളിൽ അതിൻ്റെ മുൻഗാമികളെ മറികടക്കുന്നു. ലാമ 3 സൗജന്യമായി ആക്‌സസ് ചെയ്യാവുന്നതാണ്, ആപ്ലിക്കേഷനുകൾ വികസിപ്പിക്കുന്നത് മുതൽ ഡെവലപ്പർ ടൂളുകൾ മെച്ചപ്പെടുത്തുന്നതിനും അതിനപ്പുറവും AI-യിൽ നവീകരണം നടത്താൻ കമ്മ്യൂണിറ്റിയെ ശാക്തീകരിക്കുന്നു. 

ലാമ 2-ൽ നിന്നുള്ള മോഡൽ ആർക്കിടെക്ചറും മെച്ചപ്പെടുത്തലുകളും

ലാമ 3 തെളിയിക്കപ്പെട്ട ഡീകോഡർ-ഒൺലി ട്രാൻസ്‌ഫോർമർ ആർക്കിടെക്ചർ നിലനിർത്തുന്നു, അതേസമയം ലാമ 2-നേക്കാൾ അതിൻ്റെ പ്രവർത്തനക്ഷമത ഉയർത്തുന്ന കാര്യമായ മെച്ചപ്പെടുത്തലുകൾ ഉൾക്കൊള്ളുന്നു. യോജിച്ച ഡിസൈൻ ഫിലോസഫിക്ക് അനുസൃതമായി, ലാമ 3 128,000 ടോക്കണുകളുടെ വിപുലമായ പദാവലിയെ പിന്തുണയ്ക്കുന്ന ഒരു ടോക്കനൈസർ ഉൾക്കൊള്ളുന്നു. എൻകോഡിംഗ് ഭാഷയിൽ. ഈ വികസനം മൊത്തത്തിലുള്ള മെച്ചപ്പെട്ട പ്രകടനത്തിലേക്ക് വിവർത്തനം ചെയ്യുന്നു. കൂടാതെ, അനുമാന കാര്യക്ഷമത വർദ്ധിപ്പിക്കുന്നതിന്, Llama 3 അതിൻ്റെ 8 ബില്യൺ, 70 ബില്ല്യൺ പാരാമീറ്റർ മോഡലുകളിൽ ഗ്രൂപ്പ്ഡ് ക്വറി അറ്റൻഷൻ (GQA) സമന്വയിപ്പിക്കുന്നു. ഈ മോഡൽ 8,192 ടോക്കണുകളുടെ സീക്വൻസുകളും മാസ്കിംഗ് ടെക്നിക് ഉപയോഗിച്ച് ഉപയോഗിക്കുന്നു, അത് ഡോക്യുമെൻ്റ് അതിരുകളിലുടനീളം വ്യാപിക്കുന്നതിൽ നിന്ന് സ്വയം ശ്രദ്ധയെ തടയുന്നു, കൂടുതൽ ശ്രദ്ധാകേന്ദ്രവും ഫലപ്രദവുമായ പ്രോസസ്സിംഗ് ഉറപ്പാക്കുന്നു. ഈ മെച്ചപ്പെടുത്തലുകൾ വർധിച്ച കൃത്യതയും കാര്യക്ഷമതയും ഉപയോഗിച്ച് വിശാലമായ ടാസ്‌ക്കുകൾ കൈകാര്യം ചെയ്യാനുള്ള ലാമ 3 യുടെ കഴിവിനെ കൂട്ടായി വർദ്ധിപ്പിക്കുന്നു.

സവിശേഷത ലാമ 2 ലാമ 3
പാരാമീറ്റർ ശ്രേണി 7B മുതൽ 70B വരെയുള്ള പാരാമീറ്ററുകൾ 8B, 70B പാരാമീറ്ററുകൾ, 400B+ പ്ലാനുകൾ
മാതൃകാ വാസ്തുവിദ്യ ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചറിനെ അടിസ്ഥാനമാക്കി സ്റ്റാൻഡേർഡ് ഡീകോഡർ മാത്രമുള്ള ട്രാൻസ്ഫോർമർ ആർക്കിടെക്ചർ
ടോക്കണൈസേഷൻ കാര്യക്ഷമത സന്ദർഭ ദൈർഘ്യം 4096 ടോക്കണുകൾ വരെ 128K ടോക്കണുകളുടെ പദാവലി ഉള്ള ഒരു ടോക്കണൈസർ ഉപയോഗിക്കുന്നു
പരിശീലന ഡാറ്റ പൊതുവായി ലഭ്യമായ ഉറവിടങ്ങളിൽ നിന്ന് 2 ട്രില്യൺ ടോക്കണുകൾ പൊതുവായി ലഭ്യമായ ഉറവിടങ്ങളിൽ നിന്ന് 15T ടോക്കണുകൾ
അനുമാനം കാര്യക്ഷമത 70B മോഡലിന് GQA പോലെയുള്ള മെച്ചപ്പെടുത്തലുകൾ മെച്ചപ്പെട്ട കാര്യക്ഷമതയ്ക്കായി ഗ്രൂപ്പുചെയ്ത ചോദ്യ ശ്രദ്ധ (GQA).
ഫൈൻ ട്യൂണിംഗ് രീതികൾ മേൽനോട്ടത്തിലുള്ള ഫൈൻ ട്യൂണിംഗും RLHF ഉം സൂപ്പർവൈസ്ഡ് ഫൈൻ-ട്യൂണിംഗ് (SFT), നിരസിക്കൽ സാമ്പിൾ, PPO, DPO
സുരക്ഷയും നൈതിക പരിഗണനകളും പ്രതികൂല പ്രോംപ്റ്റ് ടെസ്റ്റിംഗ് അനുസരിച്ച് സുരക്ഷിതം സുരക്ഷയ്ക്കായി വിപുലമായ റെഡ്-ടീമിംഗ്
ഓപ്പൺ സോഴ്‌സും പ്രവേശനക്ഷമതയും ചില നിയന്ത്രണങ്ങളുള്ള കമ്മ്യൂണിറ്റി ലൈസൻസ് ഒരു AI ആവാസവ്യവസ്ഥയെ പരിപോഷിപ്പിക്കുന്നതിനുള്ള തുറന്ന സമീപനമാണ് ലക്ഷ്യമിടുന്നത്
കേസുകൾ ഉപയോഗിക്കുക ചാറ്റിനും കോഡ് സൃഷ്ടിക്കുന്നതിനുമായി ഒപ്റ്റിമൈസ് ചെയ്‌തു നിർദ്ദേശങ്ങൾ പിന്തുടരുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ച് ഒന്നിലധികം ഡൊമെയ്‌നുകളിലുടനീളം വിപുലമായ ഉപയോഗം

മറ്റ് മോഡലുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ ബെഞ്ച്മാർക്കിംഗ് ഫലങ്ങൾ

ലാമ 3 ജനറേറ്റീവ് എഐയിൽ ബാർ ഉയർത്തി, വിവിധ മാനദണ്ഡങ്ങളിൽ അതിൻ്റെ മുൻഗാമികളെയും എതിരാളികളെയും മറികടന്നു. വിവിധ മേഖലകളിലെ അറിവ് വിലയിരുത്തുന്ന എംഎംഎൽയു, കോഡിംഗ് കഴിവുകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ച ഹ്യൂമൻ എവൽ തുടങ്ങിയ ടെസ്റ്റുകളിൽ ഇത് പ്രത്യേകിച്ചും മികവ് പുലർത്തി. കൂടാതെ, ഗൂഗിളിൻ്റെ ജെമിനി 3 പ്രോ, ആന്ത്രോപിക്കിൻ്റെ ക്ലോഡ് 1.5 സോണറ്റ് പോലുള്ള മറ്റ് ഉയർന്ന പാരാമീറ്റർ മോഡലുകളെ, പ്രത്യേകിച്ച് സങ്കീർണ്ണമായ ന്യായവാദത്തിലും ഗ്രഹണ പ്രവർത്തനങ്ങളിലും ലാമ 3 മികച്ച പ്രകടനം കാഴ്ചവച്ചു.

മെറ്റാ ലാമ 3

കാണുക മൂല്യനിർണ്ണയ വിശദാംശങ്ങൾ ഈ മൂല്യനിർണ്ണയങ്ങൾ കണക്കാക്കുന്ന ക്രമീകരണത്തിനും പാരാമീറ്ററുകൾക്കുമായി.

സ്റ്റാൻഡേർഡ്, കസ്റ്റം ടെസ്റ്റ് സെറ്റുകളിലെ മൂല്യനിർണ്ണയം

വിവിധ യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകളിലുടനീളം ലാമ 3 പരീക്ഷിക്കുന്നതിന് പരമ്പരാഗത ബെഞ്ച്മാർക്കുകൾക്കപ്പുറം തനതായ മൂല്യനിർണ്ണയ സെറ്റുകൾ മെറ്റ സൃഷ്ടിച്ചു. ഈ യോജിച്ച മൂല്യനിർണ്ണയ ചട്ടക്കൂടിൽ 1,800 നിർണായക ഉപയോഗ കേസുകൾ ഉൾക്കൊള്ളുന്ന 12 പ്രോംപ്റ്റുകൾ ഉൾപ്പെടുന്നു: ഉപദേശം നൽകൽ, മസ്തിഷ്കപ്രക്ഷോഭം, വർഗ്ഗീകരണം, അടച്ചതും തുറന്നതുമായ ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകൽ, കോഡിംഗ്, ക്രിയേറ്റീവ് കോമ്പോസിഷൻ, ഡാറ്റ എക്സ്ട്രാക്ഷൻ, റോൾ പ്ലേയിംഗ്, ലോജിക്കൽ റീസണിംഗ്, ടെക്സ്റ്റ് റീറൈറ്റിംഗ്, സംഗ്രഹം. മെറ്റയുടെ മോഡലിംഗ് ടീമുകൾക്ക് പോലും ഈ നിർദ്ദിഷ്ട സെറ്റിലേക്കുള്ള ആക്‌സസ് പരിമിതപ്പെടുത്തുന്നത്, മോഡലിൻ്റെ ഓവർഫിറ്റിംഗിന് എതിരെ സംരക്ഷിക്കുന്നു. ഈ കർശനമായ പരിശോധനാ സമീപനം ലാമ 3 യുടെ മികച്ച പ്രകടനം തെളിയിച്ചിട്ടുണ്ട്, ഇത് മറ്റ് മോഡലുകളെ പലപ്പോഴും മറികടക്കുന്നു. അങ്ങനെ അതിൻ്റെ പൊരുത്തപ്പെടുത്തലും പ്രാവീണ്യവും അടിവരയിടുന്നു.

മെറ്റാ ലാമ 3
മെറ്റാ ലാമ 3

കാണുക മൂല്യനിർണ്ണയ വിശദാംശങ്ങൾ ഈ മൂല്യനിർണ്ണയങ്ങൾ കണക്കാക്കുന്ന ക്രമീകരണത്തിനും പാരാമീറ്ററുകൾക്കുമായി.

പരിശീലന ഡാറ്റയും സ്കെയിലിംഗ് തന്ത്രങ്ങളും

പരിശീലന ഡാറ്റയും സ്കെയിലിംഗ് തന്ത്രങ്ങളും നമുക്ക് ഇപ്പോൾ പര്യവേക്ഷണം ചെയ്യാം:

പരിശീലന ഡാറ്റ

  • ലാമ 3-ൻ്റെ പരിശീലന ഡാറ്റാസെറ്റ്, 15 ട്രില്യൺ ടോക്കണുകൾ, ലാമ 2-ൽ നിന്ന് ഏഴിരട്ടി വർദ്ധനവാണ്.
  • ഡാറ്റാസെറ്റിൽ നാലിരട്ടി കൂടുതൽ കോഡുകളും 5 ഭാഷകളിൽ നിന്നുള്ള ഉയർന്ന നിലവാരമുള്ള ഇംഗ്ലീഷ് ഇതര ഡാറ്റയുടെ 30% വും ഉൾക്കൊള്ളുന്നു. ബഹുഭാഷാ ആപ്ലിക്കേഷനുകൾക്ക് വൈവിധ്യമാർന്ന ഭാഷാ പ്രാതിനിധ്യം ഉറപ്പാക്കുന്നു.
  • ഡാറ്റയുടെ ഗുണനിലവാരം നിലനിർത്തുന്നതിന്, ഹ്യൂറിസ്റ്റിക് ഫിൽട്ടറുകൾ, NSFW ഫിൽട്ടറുകൾ, സെമാൻ്റിക് ഡ്യൂപ്ലിക്കേഷൻ, ടെക്സ്റ്റ് ക്ലാസിഫയറുകൾ എന്നിവയുൾപ്പെടെയുള്ള സങ്കീർണ്ണമായ ഡാറ്റ-ഫിൽട്ടറിംഗ് പൈപ്പ്ലൈനുകൾ Meta ഉപയോഗിക്കുന്നു.
  • മുൻ ലാമ മോഡലുകളിൽ നിന്നുള്ള സ്ഥിതിവിവരക്കണക്കുകൾ പ്രയോജനപ്പെടുത്തി, ഈ സംവിധാനങ്ങൾ ഗുണനിലവാരമുള്ള ഡാറ്റ തിരിച്ചറിയുകയും സംയോജിപ്പിക്കുകയും ചെയ്തുകൊണ്ട് ലാമ 3-ൻ്റെ പരിശീലനം വർദ്ധിപ്പിക്കുന്നു.

സ്കെയിലിംഗ് തന്ത്രങ്ങൾ

  • വിശദമായ സ്കെയിലിംഗ് നിയമങ്ങൾ വികസിപ്പിച്ചുകൊണ്ട് ലാമ 3-ൻ്റെ ഡാറ്റാസെറ്റിൻ്റെ പ്രയോജനം പരമാവധിയാക്കുന്നതിൽ മെറ്റാ ശ്രദ്ധ കേന്ദ്രീകരിച്ചു.
  • ഡാറ്റ മിക്‌സിൻ്റെ ഒപ്റ്റിമൈസേഷനും കമ്പ്യൂട്ടേഷണൽ റിസോഴ്‌സുകളും വിവിധ ടാസ്‌ക്കുകളിലുടനീളമുള്ള മോഡൽ പ്രകടനത്തിൻ്റെ കൃത്യമായ പ്രവചനങ്ങൾ സുഗമമാക്കി.
  • ട്രിവിയ, STEM, കോഡിംഗ്, ചരിത്രപരമായ അറിവ് തുടങ്ങിയ വൈവിധ്യമാർന്ന ആപ്ലിക്കേഷനുകളിലുടനീളം തന്ത്രപരമായ ദീർഘവീക്ഷണം ശക്തമായ പ്രകടനം ഉറപ്പാക്കുന്നു.
  • സ്ഥിതിവിവരക്കണക്കുകൾ 8B പാരാമീറ്റർ മോഡലിനായുള്ള ചിൻചില്ല-ഒപ്റ്റിമൽ പരിശീലന കമ്പ്യൂട്ട് വെളിപ്പെടുത്തി, ഏകദേശം 200 ബില്യൺ ടോക്കണുകൾ.
  • 8B, 70B മോഡലുകൾ 15 ട്രില്യൺ ടോക്കണുകളുള്ള പ്രകടന ലോഗ്-ലീനിയറായി മെച്ചപ്പെടുത്തുന്നത് തുടരുന്നു.
  • ഇഷ്‌ടാനുസൃതമായി നിർമ്മിച്ച 400 ജിപിയു ക്ലസ്റ്ററുകളിൽ ഒരേസമയം 16,000 ജിപിയു ഉപയോഗിച്ച് മെറ്റാ ഒരു ജിപിയുവിന് 24,000 ടിഎഫ്‌ലോപ്‌സ് നേടി.
  • പരിശീലന ഇൻഫ്രാസ്ട്രക്ചറിലെ പുതുമകളിൽ ഓട്ടോമേറ്റഡ് പിശക് കണ്ടെത്തൽ, സിസ്റ്റം മെയിൻ്റനൻസ്, സ്കേലബിൾ സ്റ്റോറേജ് സൊല്യൂഷനുകൾ എന്നിവ ഉൾപ്പെടുന്നു.
  • ഈ മുന്നേറ്റങ്ങൾ ലാമ 3 നെ അപേക്ഷിച്ച് ലാമ 2 യുടെ പരിശീലന കാര്യക്ഷമതയെ മൂന്നിരട്ടിയാക്കി, 95% ത്തിലധികം ഫലപ്രദമായ പരിശീലന സമയം കൈവരിച്ചു.
  • ഈ മെച്ചപ്പെടുത്തലുകൾ വലിയ ഭാഷാ മോഡലുകളെ പരിശീലിപ്പിക്കുന്നതിന് പുതിയ മാനദണ്ഡങ്ങൾ സജ്ജമാക്കി, AI യുടെ അതിരുകൾ മുന്നോട്ട് നീക്കുന്നു.

ഫൈൻ ട്യൂണിംഗിൻ്റെ നിർദ്ദേശം

  • ഇൻസ്ട്രക്ഷൻ-ട്യൂണിംഗ് മുൻകൂട്ടി തയ്യാറാക്കിയ ചാറ്റ് മോഡലുകളുടെ പ്രവർത്തനക്ഷമത വർദ്ധിപ്പിക്കുന്നു.
  • മേൽനോട്ടത്തിലുള്ള ഫൈൻ-ട്യൂണിംഗ്, റിജക്ഷൻ സാമ്പിൾ, PPO, DPO എന്നിവ പ്രോസസ്സ് സംയോജിപ്പിക്കുന്നു.
  • SFT-യിലെ നിർദ്ദേശങ്ങളും PPO/DPO-യിലെ മുൻഗണനാ റാങ്കിംഗും മോഡൽ പ്രകടനത്തിന് നിർണായകമാണ്.
  • മനുഷ്യ വ്യാഖ്യാനങ്ങൾ നൽകുന്ന സൂക്ഷ്മമായ ഡാറ്റ ക്യൂറേഷനും ഗുണനിലവാര ഉറപ്പും.
  • PPO/DPO-യിലെ മുൻഗണനാ റാങ്കിംഗുകൾ യുക്തിയും കോഡിംഗ് ടാസ്‌ക് പ്രകടനവും മെച്ചപ്പെടുത്തുന്നു.
  • ശരിയായ ഉത്തരങ്ങൾ സൃഷ്ടിക്കാൻ കഴിവുള്ള മോഡലുകൾ, എന്നാൽ തിരഞ്ഞെടുക്കുന്നതിൽ ബുദ്ധിമുട്ട് ഉണ്ടായേക്കാം.
  • മുൻഗണനാ റാങ്കിംഗുകളുള്ള പരിശീലനം സങ്കീർണ്ണമായ ജോലികളിൽ തീരുമാനമെടുക്കൽ വർദ്ധിപ്പിക്കുന്നു.

ലാമയുടെ വിന്യാസം3

ക്ലൗഡ് സേവനങ്ങളും മോഡൽ API ദാതാക്കളും ഉൾപ്പെടെ പ്രധാന പ്ലാറ്റ്‌ഫോമുകളിലുടനീളം വ്യാപകമായ ലഭ്യതയ്ക്കായി ലാമ 3 സജ്ജീകരിച്ചിരിക്കുന്നു. ഇത് മെച്ചപ്പെടുത്തിയ ടോക്കണൈസർ കാര്യക്ഷമത, ലാമ 15 നെ അപേക്ഷിച്ച് ടോക്കൺ ഉപയോഗം 2% വരെ കുറയ്ക്കുന്നു, കൂടാതെ 8B മോഡലിൽ ഗ്രൂപ്പ് ക്വറി അറ്റൻഷൻ (GQA) ഉൾപ്പെടുത്തി, Llama 1 2B-യെക്കാൾ 7 ബില്യൺ പാരാമീറ്ററുകൾ കൂടി ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. ഓപ്പൺ സോഴ്‌സ് 'ലാമ പാചകക്കുറിപ്പുകൾ' പ്രായോഗിക വിന്യാസത്തിനും ഒപ്റ്റിമൈസേഷൻ തന്ത്രങ്ങൾക്കുമായി സമഗ്രമായ ഉറവിടങ്ങൾ വാഗ്ദാനം ചെയ്യുന്നു, ലാമ 3-ൻ്റെ വൈവിധ്യമാർന്ന ആപ്ലിക്കേഷനെ പിന്തുണയ്ക്കുന്നു.

ലാമ 3-ലെ മെച്ചപ്പെടുത്തലുകളും സുരക്ഷാ സവിശേഷതകളും

ലാമ 3 രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത് ഡെവലപ്പർമാരെ ഉപകരണങ്ങളും ഫ്ലെക്സിബിലിറ്റിയും ഉപയോഗിച്ച് പ്രത്യേക ആവശ്യങ്ങൾക്കനുസൃതമായി ആപ്ലിക്കേഷനുകൾ തയ്യാറാക്കുന്നതിനാണ്. ഇത് ഓപ്പൺ AI ഇക്കോസിസ്റ്റം മെച്ചപ്പെടുത്തുന്നു. അനുമാനസമയത്ത് സുരക്ഷിതമല്ലാത്ത കോഡ് ഫിൽട്ടർ ചെയ്യാൻ സഹായിക്കുന്ന Llama Guard 2, Cybersec Eval 2, Code Shield എന്നിവയുൾപ്പെടെയുള്ള പുതിയ സുരക്ഷയും വിശ്വാസയോഗ്യമായ ടൂളുകളും ഈ പതിപ്പ് അവതരിപ്പിക്കുന്നു. LLM-കളുടെ കാര്യക്ഷമവും മെമ്മറി-സൗഹൃദവുമായ എഴുത്ത്, ഫൈൻ-ട്യൂണിംഗ്, ടെസ്റ്റിംഗ് എന്നിവ പ്രാപ്തമാക്കുന്ന PyTorch-നേറ്റീവ് ലൈബ്രറിയായ ടോർച്ച്ട്യൂണുമായി സഹകരിച്ചാണ് ലാമ 3 വികസിപ്പിച്ചിരിക്കുന്നത്. ഹഗ്ഗിംഗ് ഫെയ്‌സ്, വെയ്‌റ്റ്‌സ് & ബയസുകൾ തുടങ്ങിയ പ്ലാറ്റ്‌ഫോമുകളുമായുള്ള സംയോജനത്തെ ഈ ലൈബ്രറി പിന്തുണയ്ക്കുന്നു. എക്‌സിക്യുട്ടോർച്ചിലൂടെ വൈവിധ്യമാർന്ന ഉപകരണങ്ങളിൽ കാര്യക്ഷമമായ അനുമാനവും ഇത് സഹായിക്കുന്നു.

മെറ്റാ ലാമ 3

ഉത്തരവാദിത്ത വിന്യാസത്തിലേക്കുള്ള ഒരു വ്യവസ്ഥാപിത സമീപനം ലാമ 3 മോഡലുകൾ ഉപയോഗപ്രദമാണെന്ന് മാത്രമല്ല സുരക്ഷിതമാണെന്നും ഉറപ്പാക്കുന്നു. ഇൻസ്ട്രക്ഷൻ ഫൈൻ-ട്യൂണിംഗ് ഒരു പ്രധാന ഘടകമാണ്, സൈബർ സെക്യൂരിറ്റി പോലുള്ള മേഖലകളിലെ ദുരുപയോഗത്തിനെതിരെ സുരക്ഷയും കരുത്തും പരിശോധിക്കുന്ന റെഡ്-ടീമിംഗ് ശ്രമങ്ങൾ ഗണ്യമായി മെച്ചപ്പെടുത്തുന്നു. ലാമ ഗാർഡ് 2 ൻ്റെ ആമുഖം വ്യവസായ മാനദണ്ഡങ്ങൾ ക്രമീകരിക്കുന്നതിന് പിന്തുണയ്‌ക്കുന്നതിനായി MLCommons ടാക്‌സോണമി ഉൾക്കൊള്ളുന്നു, അതേസമയം CyberSecEval 2 കോഡ് ദുരുപയോഗത്തിനെതിരെയുള്ള സുരക്ഷാ നടപടികൾ മെച്ചപ്പെടുത്തുന്നു.

ലാമ 3 വികസിപ്പിക്കുന്നതിൽ തുറന്ന സമീപനം സ്വീകരിക്കുന്നത് AI കമ്മ്യൂണിറ്റിയെ ഒന്നിപ്പിക്കാനും സാധ്യതയുള്ള അപകടസാധ്യതകളെ ഫലപ്രദമായി നേരിടാനും ലക്ഷ്യമിടുന്നു. മെറ്റാ അപ്ഡേറ്റ് ചെയ്തു ഉത്തരവാദിത്തമുള്ള ഉപയോഗ ഗൈഡ് എല്ലാ മോഡൽ ഇൻപുട്ടുകളും ഔട്ട്പുട്ടുകളും ക്ലൗഡ് ദാതാക്കൾ നൽകുന്ന ഉള്ളടക്ക മോഡറേഷൻ ടൂളുകളാൽ പൂരകമായ സുരക്ഷാ മാനദണ്ഡങ്ങൾ പാലിക്കുന്നുണ്ടെന്ന് ഉറപ്പുവരുത്തുന്നതിനുള്ള മികച്ച സമ്പ്രദായങ്ങൾ (RUG) രൂപപ്പെടുത്തുന്നു. ഈ കൂട്ടായ ശ്രമങ്ങൾ വിവിധ ആപ്ലിക്കേഷനുകളിൽ LLM-കളുടെ സുരക്ഷിതവും ഉത്തരവാദിത്തവും നൂതനവുമായ ഉപയോഗം പ്രോത്സാഹിപ്പിക്കുന്നതിനാണ്.

ലാമയുടെ ഭാവി വികസനങ്ങൾ 3

3B, 8B പതിപ്പുകൾ ഉൾപ്പെടെ ലാമ 70 മോഡലുകളുടെ പ്രാരംഭ റിലീസ്. ഈ പരമ്പരയുടെ ആസൂത്രിതമായ സംഭവവികാസങ്ങളുടെ തുടക്കം മാത്രമാണിത്. 400 ബില്യണിലധികം പാരാമീറ്ററുകളുള്ള ഇതിലും വലിയ മോഡലുകളെ മെറ്റ നിലവിൽ പരിശീലിപ്പിക്കുന്നുണ്ട്. ഈ മോഡലുകൾ മൾട്ടിമോഡാലിറ്റി, ബഹുഭാഷാ ആശയവിനിമയം, വിപുലീകൃത സന്ദർഭ വിൻഡോകൾ, മൊത്തത്തിലുള്ള ശക്തമായ പ്രകടനം എന്നിവ പോലുള്ള മെച്ചപ്പെടുത്തിയ കഴിവുകൾ വാഗ്ദാനം ചെയ്യും. വരും മാസങ്ങളിൽ ഈ നൂതന മോഡലുകൾ അവതരിപ്പിക്കും. ലാമ 3-ൻ്റെ പരിശീലനത്തിൽ നിന്നുള്ള കണ്ടെത്തലുകളുടെ രൂപരേഖ നൽകുന്ന ഒരു വിശദമായ ഗവേഷണ പേപ്പറിനൊപ്പം. മെറ്റ അവരുടെ ഏറ്റവും വലിയ LLM മോഡലിൻ്റെ തുടർച്ചയായ പരിശീലനത്തിൽ നിന്നുള്ള ആദ്യകാല സ്നാപ്പ്ഷോട്ടുകൾ പങ്കിട്ടു, ഭാവി റിലീസുകളെക്കുറിച്ചുള്ള ഉൾക്കാഴ്ചകൾ വാഗ്ദാനം ചെയ്യുന്നു.

കാണുക മൂല്യനിർണ്ണയ വിശദാംശങ്ങൾ ഈ മൂല്യനിർണ്ണയങ്ങൾ കണക്കാക്കുന്ന ക്രമീകരണത്തിനും പാരാമീറ്ററുകൾക്കുമായി.

ലാമയുടെ സ്വാധീനവും അംഗീകാരവും 3

  • ഹഗ്ഗിംഗ് ഫെയ്‌സിൽ #3 ട്രെൻഡിംഗ് സ്‌പോട്ടിൽ എത്തിയ അതിവേഗ മോഡലായി ലാമ 1 മാറി. പുറത്തിറങ്ങി ഏതാനും മണിക്കൂറുകൾക്കുള്ളിൽ ഈ റെക്കോർഡ് നേടുന്നു.

ഇവിടെ ക്ലിക്കുചെയ്യുക ലിങ്ക് ആക്സസ് ചെയ്യുക.

  • ലാമ 30,000, 1 എന്നിവയിൽ നിന്നുള്ള 2 മോഡലുകൾ വികസിപ്പിച്ചതിന് ശേഷം, AI ആവാസവ്യവസ്ഥയെ കാര്യമായി സ്വാധീനിക്കാൻ ലാമ 3 ഒരുങ്ങുകയാണ്.
  • AWS, Microsoft Azure, Google Cloud, Hugging Face തുടങ്ങിയ പ്രധാന AI, ക്ലൗഡ് പ്ലാറ്റ്‌ഫോമുകൾ ഉടൻ തന്നെ ലാമ 3 സംയോജിപ്പിച്ചു.
  • Kaggle-ലെ മോഡലിൻ്റെ സാന്നിധ്യം അതിൻ്റെ പ്രവേശനക്ഷമത വിശാലമാക്കുന്നു, ഡാറ്റാ സയൻസ് കമ്മ്യൂണിറ്റിയിൽ കൂടുതൽ പര്യവേക്ഷണവും വികസനവും പ്രോത്സാഹിപ്പിക്കുന്നു.
  • LlamaIndex-ൽ ലഭ്യമാണ്, @ravithejads, @LoganMarkewich എന്നിവരെപ്പോലുള്ള വിദഗ്ധർ സമാഹരിച്ച ഈ റിസോഴ്‌സ് ലളിതമായ ജോലികൾ മുതൽ സങ്കീർണ്ണമായ RAG പൈപ്പ് ലൈനുകൾ വരെയുള്ള വിവിധ ആപ്ലിക്കേഷനുകളിൽ ലാമ 3 ഉപയോഗിക്കുന്നതിനുള്ള വിശദമായ മാർഗ്ഗനിർദ്ദേശം നൽകുന്നു. ഇതിനായി ഇവിടെ ക്ലിക്ക് ചെയ്യുക ആക്സസ് ലിങ്ക്.

തീരുമാനം

ലാമ 3 വലിയ ഭാഷാ മോഡലുകളുടെ പരിണാമത്തിൽ ഒരു പുതിയ നിലവാരം സ്ഥാപിക്കുന്നു. നൂതനമായ വാസ്തുവിദ്യയും കാര്യക്ഷമതയും ഉപയോഗിച്ച് അവർ വിവിധ ടാസ്‌ക്കുകളിലുടനീളം AI കഴിവുകൾ മെച്ചപ്പെടുത്തുന്നു. അതിൻ്റെ സമഗ്രമായ പരിശോധന മുൻഗാമികളെയും സമകാലിക മോഡലുകളെയും മറികടക്കുന്ന മികച്ച പ്രകടനം പ്രകടമാക്കുന്നു. കരുത്തുറ്റ പരിശീലന തന്ത്രങ്ങളും ലാമ ഗാർഡ് 2, സൈബർസെക് ഇവാൽ 2 പോലെയുള്ള നൂതന സുരക്ഷാ നടപടികളും. ഉത്തരവാദിത്ത AI വികസനത്തോടുള്ള മെറ്റയുടെ പ്രതിബദ്ധതയെ ലാമ 3 അടിവരയിടുന്നു. ലാമ 3 വ്യാപകമായി ലഭ്യമാകുന്നതിനാൽ, AI ആപ്ലിക്കേഷനുകളിൽ കാര്യമായ പുരോഗതി കൈവരിക്കുമെന്ന് ഇത് വാഗ്ദാനം ചെയ്യുന്നു. സാങ്കേതിക അതിരുകൾ പര്യവേക്ഷണം ചെയ്യുന്നതിനും വിപുലീകരിക്കുന്നതിനുമുള്ള ശക്തമായ ഒരു ഉപകരണം ഡവലപ്പർമാർക്ക് വാഗ്ദാനം ചെയ്യുന്നു.

സ്പോട്ട്_ഐഎംജി

ഏറ്റവും പുതിയ ഇന്റലിജൻസ്

സ്പോട്ട്_ഐഎംജി