മൈക്രോസോഫ്റ്റിൻ്റെ ഇമേജ് ടു വീഡിയോ ടൂൾ വഴി ഉപയോക്താക്കൾ ഞെട്ടി

AI ആധിപത്യത്തിനായുള്ള ഓട്ടം തുടരുമ്പോൾ, മൈക്രോസോഫ്റ്റ് ഇപ്പോൾ അതിൻ്റെ ഏറ്റവും പുതിയ ഉപകരണമായ VASA-1 ഉപയോഗിച്ച് ആളുകളുടെ പോർട്രെയ്‌റ്റ് ചിത്രങ്ങൾ സംസാരിക്കുന്ന മുഖങ്ങളോ വീഡിയോകളോ ആക്കി മാറ്റാൻ ആഗ്രഹിക്കുന്നു.

ടെക് ഭീമൻ്റെ ഒരു ഗവേഷണ പ്രബന്ധം അനുസരിച്ച്, മൈക്രോസോഫ്റ്റ് AI റേസിനെ മറ്റൊരു തലത്തിലേക്ക് കൊണ്ടുപോകുന്നു VASA 1, വിഷ്വൽ ഇഫക്റ്റീവ് കഴിവുകൾ (VAS) ഉള്ള വെർച്വൽ പ്രതീകങ്ങളുടെ ജീവിതസമാനമായ സംസാര മുഖങ്ങൾ സൃഷ്ടിക്കുന്നതിനുള്ള ചട്ടക്കൂട്, എല്ലാം ഒരു പോർട്രെയ്റ്റിൽ നിന്ന്.

ഇതും വായിക്കുക: AI-യുടെ മേൽ യൂണിയൻ ചെയ്യാനുള്ള വീഡിയോ ഗെയിം വ്യവസായം

പോർട്രെയ്റ്റുകൾ മുതൽ സംസാരിക്കുന്ന മുഖങ്ങൾ വരെ

ഇത് ഇതുവരെ പൊതുജനങ്ങൾക്ക് ലഭ്യമല്ലെങ്കിലും, ടൂൾ ഒരൊറ്റ പോർട്രെയിറ്റ് ഫോട്ടോയും സംഭാഷണ ഓഡിയോയും എടുക്കുകയും കൃത്യമായ ലിപ്-ഓഡിയോ സമന്വയം, ലൈഫ് ലൈക്ക് ഫേഷ്യൽ ബിഹേവിയർ, തത്സമയത്ത് ജനറേറ്റുചെയ്‌ത പ്രകൃതിദത്ത തല ചലനങ്ങൾ എന്നിവയുള്ള ഒരു ഹൈപ്പർ-റിയലിസ്റ്റിക് ടോക്കിംഗ് ഫെയ്‌സ് വീഡിയോ നിർമ്മിക്കുകയും ചെയ്യുന്നു.

ഉപകരണം ഇപ്പോഴും മൈക്രോസോഫ്റ്റ് റിസർച്ച് ടീമിനൊപ്പം ഗവേഷണ പ്രിവ്യൂ ഘട്ടത്തിലാണ്, ഡെമോ വീഡിയോകൾ "ശ്രദ്ധേയമായി തോന്നുന്നു."

എൻവിഡിയ, റൺവേ പോലുള്ള കമ്പനികൾക്ക് ഇതിനകം സമാനമായ തല ചലനവും ലിപ് സിങ്ക് സാങ്കേതികവിദ്യയും ഉള്ളപ്പോൾ, VASA-1 "വളരെ ഉയർന്ന നിലവാരമുള്ളതും യാഥാർത്ഥ്യബോധമുള്ളതും" ആണെന്ന് തോന്നുന്നു, ഇത് വായ ആർട്ടിഫാക്‌റ്റുകൾ കുറയ്ക്കുന്നു. ടോമിന്റെ ഗൈഡ്.

കൂടാതെ, ഓഡിയോ ഡ്രൈവ് ആനിമേഷനിലേക്കുള്ള ഈ സമീപനവും സമീപകാലത്തെ പോലെയാണ് വ്ലോഗർ AI ഗൂഗിൾ റിസർച്ചിൻ്റെ മാതൃക.

മൈക്രോസോഫ്റ്റ് പറയുന്നതനുസരിച്ച്, ഡെമോൺസ്‌ട്രേഷൻ ഉദാഹരണങ്ങളിലെ എല്ലാ ചിത്രങ്ങളും Dall-E സൃഷ്ടിച്ച സിന്തറ്റിക് ആണെങ്കിലും, VASA-1 ന് ഇപ്പോഴും ഒരു യഥാർത്ഥ ചിത്രം ആനിമേറ്റ് ചെയ്യാൻ കഴിയും.

"മറ്റ് ഉപകരണങ്ങളിൽ കാണുന്ന വായയുടെ മുകളിലും താഴെയുമുള്ള പുരാവസ്തുക്കൾ ഒന്നുമില്ല", മിക്കവാറും സ്വാഭാവികമായ ചലനങ്ങൾ, മുഖഭാവങ്ങൾ, കണ്ണുകളുടെ ചലനങ്ങൾ എന്നിവ ഉപയോഗിച്ച് സംസാരിക്കുന്ന വ്യത്യസ്ത ആളുകൾ ഡെമോ കാണിക്കുന്നു.

ഇത് പ്രവർത്തിക്കുന്നതിന് ഒരു മുഖം മുന്നോട്ട് പോർട്രെയ്റ്റ് ശൈലിയിലുള്ള ചിത്രം ആവശ്യമില്ല.

മൈക്രോസോഫ്റ്റ് VASA-1 അവതരിപ്പിച്ചു.

1 ഫോട്ടോയും ഒരു ഓഡിയോ ശകലവും പൂർണ്ണമായി ലൈഫ് ലൈക്ക് ഹ്യൂമൻ ഡീപ്‌ഫേക്കാക്കി മാറ്റാൻ കഴിയുന്ന ഒരു പുതിയ AI മോഡലാണിത്.

തെരഞ്ഞെടുപ്പിന് മുമ്പ് ഇത് ഉപേക്ഷിക്കണംpic.twitter.com/MuLkZVOKRM

- റോവൻ ച്യൂങ് (@rowancheung) ഏപ്രിൽ 18, 2024

VASA-1 ആളുകളെ സംസാരിച്ചു

എക്‌സ് പ്ലാറ്റ്‌ഫോമിലെ "കാട്ടു", "ഭ്രാന്തൻ" എന്ന് വിശേഷിപ്പിക്കുന്ന സാങ്കേതികവിദ്യയിൽ ഇതിനകം തന്നെ, AI പ്രേമികൾ അമ്പരന്നതായി തോന്നുന്നു.

“ഓരോ റിലീസിനുമിടയിൽ ഞങ്ങൾക്ക് ലഭിക്കുന്ന മെച്ചപ്പെടുത്തലുകൾ അവിശ്വസനീയമാണ്,” പറഞ്ഞു ലിനസ് എകെൻസ്റ്റാം.

"മാധ്യമ ഉള്ളടക്കം സൃഷ്‌ടിക്കുന്ന രീതിയിലും അത് എങ്ങനെ വിനിയോഗിക്കപ്പെടുന്നു എന്നതിലും ഭൂകമ്പപരമായ മാറ്റത്തിന്" ലോകം സാക്ഷ്യം വഹിക്കുകയാണെന്ന് മറ്റുള്ളവർ അഭിപ്രായപ്പെടുന്നു.

“ഇത് മനസ്സിനെ ഞെട്ടിക്കുന്നതാണ്, റിയലിസം ഏറ്റവും മികച്ചതാണ്,” സാം എന്നറിയപ്പെടുന്ന മറ്റൊരു ആവേശം പറഞ്ഞു.

ടൂളിൻ്റെ കഴിവുകൾ മറ്റുള്ളവർ തിരിച്ചറിയുന്നുണ്ടെങ്കിലും, എളുപ്പത്തിൽ കൈകാര്യം ചെയ്യാൻ കഴിയുന്ന ഒരു ടൂൾ അവതരിപ്പിക്കുന്നത് മൈക്രോസോഫ്റ്റിൻ്റെ ഭാഗത്തുനിന്ന് അൽപ്പം നിരുത്തരവാദപരമാണെന്ന് അവർ കരുതുന്നു. തിരഞ്ഞെടുപ്പ് ആഴത്തിലുള്ള വ്യാജങ്ങൾ.

"ഇലക്ഷന് മുമ്പ് ഇത് ഉപേക്ഷിക്കണം" എഴുതി X പ്ലാറ്റ്‌ഫോമിൽ റോവൻ ച്യൂങ്.

മറ്റൊരു ഉപയോക്താവ് ഇവാൻ കിർസ്റ്റൽ "മൈക്രോസോഫ്റ്റ് റിസർച്ചിൻ്റെ VASA-1 ഒരു ഗെയിം ചേഞ്ചറാണ്, ഒരു ഫോട്ടോയിൽ നിന്നും ഓഡിയോയിൽ നിന്നും ഹൈപ്പർ-റിയലിസ്റ്റിക് AI- ജനറേറ്റഡ് വീഡിയോകൾ സൃഷ്ടിക്കുന്നു."

“ക്ലാസിക് സിനിമാ ഇതിഹാസങ്ങളെ പുനരുജ്ജീവിപ്പിക്കുന്നത് മുതൽ വ്യക്തിഗതമാക്കിയ മാധ്യമങ്ങൾ വരെയുള്ള സാധ്യതകൾ അനന്തമാണ്. എന്നാൽ ഡീപ്ഫേക്ക് അപകടസാധ്യതകളെക്കുറിച്ച് നമുക്ക് ജാഗ്രത പാലിക്കാം.

AI ഉപയോഗിച്ച് രാഷ്ട്രീയക്കാരുടെ ശബ്ദങ്ങളോ ചിത്രങ്ങളോ കൃത്രിമം കാണിച്ച് പ്രചാരണം നടത്തുന്നതിന് തിരഞ്ഞെടുപ്പ് ഡീപ്ഫേക്കുകളുടെ ഒരു കുത്തൊഴുക്ക് ലോകം ഇതിനകം കണ്ടിട്ടുണ്ട്. ആഗോള ജനസംഖ്യയുടെ മൂന്നിലൊന്ന് പേർ ഈ വർഷം തെരഞ്ഞെടുപ്പിന് പോകുന്നുണ്ട്.

എന്നിരുന്നാലും, മൈക്രോസോഫ്റ്റിലെ ഗവേഷകർ ഇത് വെറും പ്രദർശനത്തിന് മാത്രമാണെന്നും പൊതു റിലീസ് ചെയ്യുന്നതിനോ ഡെവലപ്പർമാർക്ക് ലഭ്യമാക്കുന്നതിനോ നിലവിൽ പദ്ധതികളൊന്നുമില്ലെന്ന് സൂചിപ്പിച്ചു.

VASA-1 എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത്?

ടോംസ് ഗൈഡ് പറയുന്നതനുസരിച്ച്, "പരിശീലന ഡാറ്റാസെറ്റിൽ സംഗീതം ഉപയോഗിച്ചിട്ടില്ലെങ്കിലും ഗായകൻ്റെ വാക്കുകൾ പ്രശ്നമില്ലാതെ പ്രതിഫലിപ്പിക്കുന്ന ഒരു പാട്ടിനോട് തികച്ചും ലിപ്-സിങ്ക് ചെയ്യാനുള്ള മോഡലിൻ്റെ" കഴിവിൽ ഗവേഷകർ തന്നെ ആശ്ചര്യപ്പെടുന്നു.

കൂടാതെ, പ്രശസ്തമായത് പോലെയുള്ള ചരിത്രപരമായ ഛായാചിത്രങ്ങൾ ഉൾപ്പെടെ വ്യത്യസ്ത ചിത്ര ശൈലികൾ VASA-1 കൈകാര്യം ചെയ്തു മോണാലിസ.

ടൂൾ അതിൻ്റെ വിപുലമായ ലിപ്-സമന്വയ കഴിവുകളുടെ പിൻബലത്തിൽ ഗെയിമിംഗിൽ ഉപയോഗിക്കാം. ഇത് നിമജ്ജനത്തിന് ഒരു ഗെയിം ചേഞ്ചർ ആയിരിക്കുമെന്ന് വിദഗ്ധർ പറഞ്ഞു.

കൂടാതെ, Synthesia, HeyGen പോലുള്ള സ്ഥാപനങ്ങളുടെ കാര്യത്തിലെന്നപോലെ, സോഷ്യൽ മീഡിയ വീഡിയോകൾക്കായി അവതാറുകൾ സൃഷ്ടിക്കുന്നതിൽ ഈ സാങ്കേതികവിദ്യ സഹായകമാകും.

AI അടിസ്ഥാനമാക്കിയുള്ള സിനിമകൾക്കും സംഗീത വീഡിയോ പ്രൊഡക്ഷനുകൾക്കും കൂടുതൽ റിയലിസ്റ്റിക് വീഡിയോകൾക്കായി VASA-1 സാങ്കേതികവിദ്യ പ്രയോജനപ്പെടുത്താനാകും.

ഓപ്പൺഎഐയിൽ മൈക്രോസോഫ്റ്റിന് ഒരു ഓഹരിയുണ്ടെങ്കിൽ, VASA-1 ഒരു "ഭാവി കോപൈലറ്റിൻ്റെ ഭാഗമാകാൻ സാധ്യതയുണ്ട്. സോറ സംയോജനം."

SEO പവർ ചെയ്ത ഉള്ളടക്കവും PR വിതരണവും. ഇന്ന് ആംപ്ലിഫൈഡ് നേടുക.
PlatoData.Network ലംബ ജനറേറ്റീവ് Ai. സ്വയം ശാക്തീകരിക്കുക. ഇവിടെ പ്രവേശിക്കുക.
PlatoAiStream. Web3 ഇന്റലിജൻസ്. വിജ്ഞാനം വർധിപ്പിച്ചു. ഇവിടെ പ്രവേശിക്കുക.
പ്ലേറ്റോഇഎസ്ജി. കാർബൺ, ക്ലീൻ ടെക്, ഊർജ്ജം, പരിസ്ഥിതി, സോളാർ, മാലിന്യ സംസ്കരണം. ഇവിടെ പ്രവേശിക്കുക.
പ്ലേറ്റോ ഹെൽത്ത്. ബയോടെക് ആൻഡ് ക്ലിനിക്കൽ ട്രയൽസ് ഇന്റലിജൻസ്. ഇവിടെ പ്രവേശിക്കുക.
അവലംബം: https://metanews.com/enthusiasts-smitten-by-image-to-video-tool-vasa-1/

ജനറേറ്റീവ് ഡാറ്റ ഇന്റലിജൻസ്

മൈക്രോസോഫ്റ്റിൻ്റെ ഇമേജ് ടു വീഡിയോ ടൂൾ വഴി ഉപയോക്താക്കൾ സ്മിറ്റഡ് – VASA-

പോർട്രെയ്റ്റുകൾ മുതൽ സംസാരിക്കുന്ന മുഖങ്ങൾ വരെ

VASA-1 ആളുകളെ സംസാരിച്ചു

VASA-1 എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത്?

നാനോടെക്നോളജി നൗ - പ്രസ്സ് റിലീസ്: ഹൈസൻബർഗ് ക്വാണ്ടം സ്പിൻ ചെയിനിൽ കാന്തികവൽക്കരണം അനുകരിക്കുന്നു

ഏറ്റവും പുതിയ ഇന്റലിജൻസ്

വെഞ്ച്വർ ഈസ്റ്റ് 22 ദശലക്ഷത്തിലധികം സാഗിൾ ഓഹരികൾ ഒരു സ്ട്രാറ്റജിക് ബ്ലോക്ക് ഡീലിൽ വിറ്റു

Google Pay, PhonePe എന്നിവയെ വെല്ലുവിളിച്ച് ONDC വഴി അതിൻ്റെ ഇക്കോസിസ്റ്റം വികസിപ്പിക്കാൻ BHIM ആപ്പ്

ഐസിവൈഎംഐ ഈ ആഴ്ച: സ്റ്റാർ വാർസ്, വിആർചാറ്റ്, അമ്പരപ്പിക്കുന്ന സ്ഥലങ്ങൾ എന്നിവയും മറ്റും

വെറും $40-ന് ഈ ബോൺ കണ്ടക്ഷൻ ഹെഡ്‌ഫോണുകൾ സ്വന്തമാക്കൂ

5 ഓൺലൈൻ സ്ലോട്ടുകളിൽ ഉത്തരവാദിത്തത്തോടെ ചൂതാട്ടത്തിനുള്ള നുറുങ്ങുകൾ