AI ആധിപത്യത്തിനായുള്ള ഓട്ടം തുടരുമ്പോൾ, മൈക്രോസോഫ്റ്റ് ഇപ്പോൾ അതിൻ്റെ ഏറ്റവും പുതിയ ഉപകരണമായ VASA-1 ഉപയോഗിച്ച് ആളുകളുടെ പോർട്രെയ്റ്റ് ചിത്രങ്ങൾ സംസാരിക്കുന്ന മുഖങ്ങളോ വീഡിയോകളോ ആക്കി മാറ്റാൻ ആഗ്രഹിക്കുന്നു.
ടെക് ഭീമൻ്റെ ഒരു ഗവേഷണ പ്രബന്ധം അനുസരിച്ച്, മൈക്രോസോഫ്റ്റ് AI റേസിനെ മറ്റൊരു തലത്തിലേക്ക് കൊണ്ടുപോകുന്നു VASA 1, വിഷ്വൽ ഇഫക്റ്റീവ് കഴിവുകൾ (VAS) ഉള്ള വെർച്വൽ പ്രതീകങ്ങളുടെ ജീവിതസമാനമായ സംസാര മുഖങ്ങൾ സൃഷ്ടിക്കുന്നതിനുള്ള ചട്ടക്കൂട്, എല്ലാം ഒരു പോർട്രെയ്റ്റിൽ നിന്ന്.
ഇതും വായിക്കുക: AI-യുടെ മേൽ യൂണിയൻ ചെയ്യാനുള്ള വീഡിയോ ഗെയിം വ്യവസായം
പോർട്രെയ്റ്റുകൾ മുതൽ സംസാരിക്കുന്ന മുഖങ്ങൾ വരെ
ഇത് ഇതുവരെ പൊതുജനങ്ങൾക്ക് ലഭ്യമല്ലെങ്കിലും, ടൂൾ ഒരൊറ്റ പോർട്രെയിറ്റ് ഫോട്ടോയും സംഭാഷണ ഓഡിയോയും എടുക്കുകയും കൃത്യമായ ലിപ്-ഓഡിയോ സമന്വയം, ലൈഫ് ലൈക്ക് ഫേഷ്യൽ ബിഹേവിയർ, തത്സമയത്ത് ജനറേറ്റുചെയ്ത പ്രകൃതിദത്ത തല ചലനങ്ങൾ എന്നിവയുള്ള ഒരു ഹൈപ്പർ-റിയലിസ്റ്റിക് ടോക്കിംഗ് ഫെയ്സ് വീഡിയോ നിർമ്മിക്കുകയും ചെയ്യുന്നു.
ഉപകരണം ഇപ്പോഴും മൈക്രോസോഫ്റ്റ് റിസർച്ച് ടീമിനൊപ്പം ഗവേഷണ പ്രിവ്യൂ ഘട്ടത്തിലാണ്, ഡെമോ വീഡിയോകൾ "ശ്രദ്ധേയമായി തോന്നുന്നു."
എൻവിഡിയ, റൺവേ പോലുള്ള കമ്പനികൾക്ക് ഇതിനകം സമാനമായ തല ചലനവും ലിപ് സിങ്ക് സാങ്കേതികവിദ്യയും ഉള്ളപ്പോൾ, VASA-1 "വളരെ ഉയർന്ന നിലവാരമുള്ളതും യാഥാർത്ഥ്യബോധമുള്ളതും" ആണെന്ന് തോന്നുന്നു, ഇത് വായ ആർട്ടിഫാക്റ്റുകൾ കുറയ്ക്കുന്നു. ടോമിന്റെ ഗൈഡ്.
കൂടാതെ, ഓഡിയോ ഡ്രൈവ് ആനിമേഷനിലേക്കുള്ള ഈ സമീപനവും സമീപകാലത്തെ പോലെയാണ് വ്ലോഗർ AI ഗൂഗിൾ റിസർച്ചിൻ്റെ മാതൃക.
മൈക്രോസോഫ്റ്റ് പറയുന്നതനുസരിച്ച്, ഡെമോൺസ്ട്രേഷൻ ഉദാഹരണങ്ങളിലെ എല്ലാ ചിത്രങ്ങളും Dall-E സൃഷ്ടിച്ച സിന്തറ്റിക് ആണെങ്കിലും, VASA-1 ന് ഇപ്പോഴും ഒരു യഥാർത്ഥ ചിത്രം ആനിമേറ്റ് ചെയ്യാൻ കഴിയും.
"മറ്റ് ഉപകരണങ്ങളിൽ കാണുന്ന വായയുടെ മുകളിലും താഴെയുമുള്ള പുരാവസ്തുക്കൾ ഒന്നുമില്ല", മിക്കവാറും സ്വാഭാവികമായ ചലനങ്ങൾ, മുഖഭാവങ്ങൾ, കണ്ണുകളുടെ ചലനങ്ങൾ എന്നിവ ഉപയോഗിച്ച് സംസാരിക്കുന്ന വ്യത്യസ്ത ആളുകൾ ഡെമോ കാണിക്കുന്നു.
ഇത് പ്രവർത്തിക്കുന്നതിന് ഒരു മുഖം മുന്നോട്ട് പോർട്രെയ്റ്റ് ശൈലിയിലുള്ള ചിത്രം ആവശ്യമില്ല.
മൈക്രോസോഫ്റ്റ് VASA-1 അവതരിപ്പിച്ചു.
1 ഫോട്ടോയും ഒരു ഓഡിയോ ശകലവും പൂർണ്ണമായി ലൈഫ് ലൈക്ക് ഹ്യൂമൻ ഡീപ്ഫേക്കാക്കി മാറ്റാൻ കഴിയുന്ന ഒരു പുതിയ AI മോഡലാണിത്.
തെരഞ്ഞെടുപ്പിന് മുമ്പ് ഇത് ഉപേക്ഷിക്കണംpic.twitter.com/MuLkZVOKRM
- റോവൻ ച്യൂങ് (@rowancheung) ഏപ്രിൽ 18, 2024
VASA-1 ആളുകളെ സംസാരിച്ചു
എക്സ് പ്ലാറ്റ്ഫോമിലെ "കാട്ടു", "ഭ്രാന്തൻ" എന്ന് വിശേഷിപ്പിക്കുന്ന സാങ്കേതികവിദ്യയിൽ ഇതിനകം തന്നെ, AI പ്രേമികൾ അമ്പരന്നതായി തോന്നുന്നു.
“ഓരോ റിലീസിനുമിടയിൽ ഞങ്ങൾക്ക് ലഭിക്കുന്ന മെച്ചപ്പെടുത്തലുകൾ അവിശ്വസനീയമാണ്,” പറഞ്ഞു ലിനസ് എകെൻസ്റ്റാം.
"മാധ്യമ ഉള്ളടക്കം സൃഷ്ടിക്കുന്ന രീതിയിലും അത് എങ്ങനെ വിനിയോഗിക്കപ്പെടുന്നു എന്നതിലും ഭൂകമ്പപരമായ മാറ്റത്തിന്" ലോകം സാക്ഷ്യം വഹിക്കുകയാണെന്ന് മറ്റുള്ളവർ അഭിപ്രായപ്പെടുന്നു.
“ഇത് മനസ്സിനെ ഞെട്ടിക്കുന്നതാണ്, റിയലിസം ഏറ്റവും മികച്ചതാണ്,” സാം എന്നറിയപ്പെടുന്ന മറ്റൊരു ആവേശം പറഞ്ഞു.
ടൂളിൻ്റെ കഴിവുകൾ മറ്റുള്ളവർ തിരിച്ചറിയുന്നുണ്ടെങ്കിലും, എളുപ്പത്തിൽ കൈകാര്യം ചെയ്യാൻ കഴിയുന്ന ഒരു ടൂൾ അവതരിപ്പിക്കുന്നത് മൈക്രോസോഫ്റ്റിൻ്റെ ഭാഗത്തുനിന്ന് അൽപ്പം നിരുത്തരവാദപരമാണെന്ന് അവർ കരുതുന്നു. തിരഞ്ഞെടുപ്പ് ആഴത്തിലുള്ള വ്യാജങ്ങൾ.
"ഇലക്ഷന് മുമ്പ് ഇത് ഉപേക്ഷിക്കണം" എഴുതി X പ്ലാറ്റ്ഫോമിൽ റോവൻ ച്യൂങ്.
മറ്റൊരു ഉപയോക്താവ് ഇവാൻ കിർസ്റ്റൽ "മൈക്രോസോഫ്റ്റ് റിസർച്ചിൻ്റെ VASA-1 ഒരു ഗെയിം ചേഞ്ചറാണ്, ഒരു ഫോട്ടോയിൽ നിന്നും ഓഡിയോയിൽ നിന്നും ഹൈപ്പർ-റിയലിസ്റ്റിക് AI- ജനറേറ്റഡ് വീഡിയോകൾ സൃഷ്ടിക്കുന്നു."
“ക്ലാസിക് സിനിമാ ഇതിഹാസങ്ങളെ പുനരുജ്ജീവിപ്പിക്കുന്നത് മുതൽ വ്യക്തിഗതമാക്കിയ മാധ്യമങ്ങൾ വരെയുള്ള സാധ്യതകൾ അനന്തമാണ്. എന്നാൽ ഡീപ്ഫേക്ക് അപകടസാധ്യതകളെക്കുറിച്ച് നമുക്ക് ജാഗ്രത പാലിക്കാം.
AI ഉപയോഗിച്ച് രാഷ്ട്രീയക്കാരുടെ ശബ്ദങ്ങളോ ചിത്രങ്ങളോ കൃത്രിമം കാണിച്ച് പ്രചാരണം നടത്തുന്നതിന് തിരഞ്ഞെടുപ്പ് ഡീപ്ഫേക്കുകളുടെ ഒരു കുത്തൊഴുക്ക് ലോകം ഇതിനകം കണ്ടിട്ടുണ്ട്. ആഗോള ജനസംഖ്യയുടെ മൂന്നിലൊന്ന് പേർ ഈ വർഷം തെരഞ്ഞെടുപ്പിന് പോകുന്നുണ്ട്.
എന്നിരുന്നാലും, മൈക്രോസോഫ്റ്റിലെ ഗവേഷകർ ഇത് വെറും പ്രദർശനത്തിന് മാത്രമാണെന്നും പൊതു റിലീസ് ചെയ്യുന്നതിനോ ഡെവലപ്പർമാർക്ക് ലഭ്യമാക്കുന്നതിനോ നിലവിൽ പദ്ധതികളൊന്നുമില്ലെന്ന് സൂചിപ്പിച്ചു.
VASA-1 എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത്?
ടോംസ് ഗൈഡ് പറയുന്നതനുസരിച്ച്, "പരിശീലന ഡാറ്റാസെറ്റിൽ സംഗീതം ഉപയോഗിച്ചിട്ടില്ലെങ്കിലും ഗായകൻ്റെ വാക്കുകൾ പ്രശ്നമില്ലാതെ പ്രതിഫലിപ്പിക്കുന്ന ഒരു പാട്ടിനോട് തികച്ചും ലിപ്-സിങ്ക് ചെയ്യാനുള്ള മോഡലിൻ്റെ" കഴിവിൽ ഗവേഷകർ തന്നെ ആശ്ചര്യപ്പെടുന്നു.
കൂടാതെ, പ്രശസ്തമായത് പോലെയുള്ള ചരിത്രപരമായ ഛായാചിത്രങ്ങൾ ഉൾപ്പെടെ വ്യത്യസ്ത ചിത്ര ശൈലികൾ VASA-1 കൈകാര്യം ചെയ്തു മോണാലിസ.
ടൂൾ അതിൻ്റെ വിപുലമായ ലിപ്-സമന്വയ കഴിവുകളുടെ പിൻബലത്തിൽ ഗെയിമിംഗിൽ ഉപയോഗിക്കാം. ഇത് നിമജ്ജനത്തിന് ഒരു ഗെയിം ചേഞ്ചർ ആയിരിക്കുമെന്ന് വിദഗ്ധർ പറഞ്ഞു.
കൂടാതെ, Synthesia, HeyGen പോലുള്ള സ്ഥാപനങ്ങളുടെ കാര്യത്തിലെന്നപോലെ, സോഷ്യൽ മീഡിയ വീഡിയോകൾക്കായി അവതാറുകൾ സൃഷ്ടിക്കുന്നതിൽ ഈ സാങ്കേതികവിദ്യ സഹായകമാകും.
AI അടിസ്ഥാനമാക്കിയുള്ള സിനിമകൾക്കും സംഗീത വീഡിയോ പ്രൊഡക്ഷനുകൾക്കും കൂടുതൽ റിയലിസ്റ്റിക് വീഡിയോകൾക്കായി VASA-1 സാങ്കേതികവിദ്യ പ്രയോജനപ്പെടുത്താനാകും.
ഓപ്പൺഎഐയിൽ മൈക്രോസോഫ്റ്റിന് ഒരു ഓഹരിയുണ്ടെങ്കിൽ, VASA-1 ഒരു "ഭാവി കോപൈലറ്റിൻ്റെ ഭാഗമാകാൻ സാധ്യതയുണ്ട്. സോറ സംയോജനം."
- SEO പവർ ചെയ്ത ഉള്ളടക്കവും PR വിതരണവും. ഇന്ന് ആംപ്ലിഫൈഡ് നേടുക.
- PlatoData.Network ലംബ ജനറേറ്റീവ് Ai. സ്വയം ശാക്തീകരിക്കുക. ഇവിടെ പ്രവേശിക്കുക.
- PlatoAiStream. Web3 ഇന്റലിജൻസ്. വിജ്ഞാനം വർധിപ്പിച്ചു. ഇവിടെ പ്രവേശിക്കുക.
- പ്ലേറ്റോഇഎസ്ജി. കാർബൺ, ക്ലീൻ ടെക്, ഊർജ്ജം, പരിസ്ഥിതി, സോളാർ, മാലിന്യ സംസ്കരണം. ഇവിടെ പ്രവേശിക്കുക.
- പ്ലേറ്റോ ഹെൽത്ത്. ബയോടെക് ആൻഡ് ക്ലിനിക്കൽ ട്രയൽസ് ഇന്റലിജൻസ്. ഇവിടെ പ്രവേശിക്കുക.
- അവലംബം: https://metanews.com/enthusiasts-smitten-by-image-to-video-tool-vasa-1/