Logo Zephyrnet

Ta sztuczna inteligencja wykonuje bezproblemową manipulację wideo bez głębokiego uczenia się i zbiorów danych

Data:

Czy kiedykolwiek chciałeś edytować wideo, aby usunąć lub dodać kogoś, zmienić tło, zwiększyć jego trwałość lub zmienić rozdzielczość, aby dopasować ją do określonego współczynnika proporcji bez kompresji lub rozciągania? Dla tych z Was, którzy prowadzili już kampanie reklamowe, z pewnością chcieliście mieć odmiany swoich filmów do testowania AB i zobaczyć, co działa najlepiej. Cóż, te nowe badania Niv Haim et al. może pomóc Ci zrobić wszystko w jednym filmie i w jakości HD! Rzeczywiście, używając prostego wideo, możesz wykonać dowolne zadania, o których właśnie wspomniałem, w ciągu kilku sekund lub kilku minut w przypadku filmów wysokiej jakości. Zasadniczo można go używać do dowolnej aplikacji do obróbki wideo lub generowania wideo, o której myślisz. Pod każdym względem przewyższa nawet GAN i nie wykorzystuje żadnych wyszukanych badań głębokiego uczenia ani nie wymaga ogromnego i niepraktycznego zestawu danych! A najlepsze jest to, że ta technika jest skalowalna do filmów w wysokiej rozdzielczości

obraz

Zdjęcie profilowe Louis Bouchard Hacker Noon

Ludwika Boucharda

Wyjaśniam terminy i wiadomości dotyczące Sztucznej Inteligencji nie-ekspertom.

Czy kiedykolwiek chciałeś edytować wideo, aby usunąć lub dodać kogoś, zmienić tło, zwiększyć jego trwałość lub zmienić rozdzielczość, aby dopasować ją do określonego współczynnika proporcji bez kompresji lub rozciągania? Dla tych z Was, którzy prowadzili już kampanie reklamowe, z pewnością chcieliście mieć odmiany swoich filmów do testowania AB i zobaczyć, co działa najlepiej.

Cóż, te nowe badania Niv Haim et al. może pomóc Ci zrobić wszystko w jednym filmie i w jakości HD!

Rzeczywiście, używając prostego wideo, możesz wykonać dowolne zadania, o których właśnie wspomniałem, w ciągu kilku sekund lub kilku minut w przypadku filmów wysokiej jakości. Zasadniczo można go używać do dowolnej aplikacji do obróbki wideo lub generowania wideo, o której myślisz. Przewyższa nawet GAN pod każdym względem i nie wykorzystuje żadnych wyszukanych badań dotyczących głębokiego uczenia się ani nie wymaga ogromnego i niepraktycznego zestawu danych!

A najlepsze jest to, że ta technika jest skalowalna do filmów o wysokiej rozdzielczości…

Obejrzyj wideo

Referencje

►Przeczytaj cały artykuł: https://www.louisbouchard.ai/vgpnn-ge…
►Okładka artykułu: Haim N., Feinstein B., Granot N., Shocher A., ​​Bagon S., Dekel T. i Irani M. (2021). Różnorodna generacja z jednego filmu staje się możliwa. ArXiv, abs/2109.08591.
►Technika, która została zaadaptowana z obrazów do filmów: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon i Michal Irani. Drop the gan: W obronie łatek najbliższych sąsiadów jako modeli generujących pojedynczy obraz. arXiv preprint arXiv:2103.15545, 2021.
►Kod (dostępny wkrótce): https://nivha.github.io/vgpnn/
►Mój biuletyn (Nowa aplikacja AI wyjaśniana co tydzień w twoich e-mailach!): https://www.louisbouchard.ai/newsletter/

Zapis wideo

00:00

czy kiedykolwiek chciałeś edytować wideo?

00:02

usuń lub dodaj kogoś zmień

00:04

tło sprawi, że będzie trwało trochę dłużej lub

00:06

zmień rozdzielczość, aby dopasować ją do konkretnego

00:08

proporcje bez kompresji lub

00:10

rozciągając go dla tych z was, którzy

00:12

prowadziłeś już kampanie reklamowe

00:14

na pewno chciałem mieć wariacje

00:16

Twoje filmy do testów ab i zobacz, co

00:19

najlepiej działa to nowe badanie niv

00:22

haim ital może ci pomóc w wykonaniu wszystkich tych czynności

00:24

z jednego filmu i na wysokim poziomie

00:27

definicja rzeczywiście za pomocą prostego wideo

00:29

możesz wykonywać dowolne zadania, ja po prostu

00:32

wspomniana za kilka sekund lub za kilka minut

00:34

dla wysokiej jakości filmów, które możesz

00:36

w zasadzie używaj go do dowolnego filmu

00:38

manipulacja lub generowanie wideo

00:40

aplikacja, którą masz na myśli, nawet

00:42

przewyższa broń pod każdym względem i nie

00:45

nie używaj żadnych wyszukanych badań dotyczących głębokiego uczenia się, ani

00:48

wymaga ogromnego i niepraktycznego zbioru danych

00:51

a najlepsze jest to, że to

00:52

technika jest skalowalna do wysokiej rozdzielczości

00:55

filmy to nie tylko do badań

00:57

celów z filmami o rozdzielczości 256 na 256 pikseli oh

01:01

i oczywiście możesz go używać z obrazami

01:04

zobaczmy, jak to działa, model jest

01:06

o nazwie łatka generatywna oparta na wideo

01:08

najbliżsi sąsiedzi vgpnn zamiast używać

01:11

złożone algorytmy i modele, takie jak gans

01:14

lub transformatory badacze, którzy

01:16

rozwinięty vgpn zdecydować się na znacznie prostsze

01:19

podejść, ale wróciłem do najbliższego

01:22

algorytm sąsiada najpierw zmniejsza skalę

01:24

obraz w piramidzie, gdzie każdy

01:26

poziom to rozdzielczość kwiatu niż

01:28

jeden powyżej, a następnie dodają losowy szum do

01:31

najgrubszy poziom do wygenerowania a

01:33

inny obraz podobny do tego, co robią pistolety

01:36

w skompresowanej przestrzeni po kodowaniu

01:38

uwaga na obrazek, którą tutaj powiem

01:40

obraz dla uproszczenia, ale w tym przypadku

01:42

ponieważ jest stosowany do filmów, proces

01:45

wykonywany jest na trzech ramkach jednocześnie

01:48

dodanie wymiaru czasu, ale

01:49

wyjaśnienie pozostaje takie samo z dodatkowym

01:52

krok na końcu obrazek na

01:54

najgrubsza skala z dodanym szumem to

01:56

podzielony na wiele małych kwadratów

01:59

łata wszystkie łaty na obrazie za pomocą

02:01

dodane szumy są zastępowane przez większość

02:04

podobna łatka z początkowego skalowania

02:06

w dół obraz bez szumów to najbardziej

02:09

podobna łatka jest mierzona za pomocą

02:11

algorytm najbliższego sąsiada, jak będziemy

02:13

zobacz, że większość z tych łat pozostanie

02:15

to samo, ale w zależności od dodanego hałasu

02:17

niektóre łatki zmienią się na tyle, aby

02:19

sprawić, by wyglądały bardziej podobnie do innych

02:21

łatka na początkowym obrazie to jest

02:24

wyjście VPN widzisz tutaj te zmiany

02:27

wystarczy, aby wygenerować nowy

02:29

wersja obrazu wtedy ta pierwsza

02:31

dane wyjściowe są skalowane i używane do porównania

02:34

z obrazem wejściowym następnej skali

02:36

działać jako hałaśliwa wersja tego i

02:38

te same kroki są powtarzane w tym następnym

02:41

iteracja podzieliliśmy te obrazy na

02:43

małe łatki i zastąp poprzednie

02:45

wygenerowane z najbardziej podobnymi

02:48

te na obecnym etapie przejdźmy do

02:50

ten moduł VPN, który właśnie omówiliśmy jako ty

02:53

widzę tutaj jedyną różnicę w stosunku do

02:55

pierwszy krok z dodanym hałasem to

02:58

że porównujemy generowane ekskluzywne

03:00

obraz tutaj oznaczony jako q z powiększonym

03:03

wersja poprzedniego obrazu tylko tak to

03:06

ma ten sam poziom szczegółowości oznaczony jako

03:09

k w zasadzie używając poziomu poniżej jako

03:12

porównania porównujemy q i k, a następnie

03:15

wybierz odpowiednie poprawki w

03:17

obraz z obecnego poziomu v do

03:20

wygeneruj nowy obraz dla tego kroku

03:22

który będzie używany w następnym

03:24

iteracja, jak widać tutaj z małym

03:26

arrows k to tylko ekskluzywna wersja

03:28

obraz, który stworzyliśmy, skalowanie w dół v in

03:31

początkowy krok tego algorytmu, gdzie

03:33

stworzyliśmy skalowanie piramidalne

03:35

wersje naszego obrazu, aby to zrobić

03:38

porównaj ten sam poziom ostrości w

03:40

oba obrazy jako wygenerowane w wyższej rozdzielczości

03:42

obraz z poprzedniej warstwy q będzie

03:45

znacznie bardziej rozmazany niż obraz na

03:48

obecny krok v i będzie bardzo ciężko

03:50

aby znaleźć podobne łatki, powtarza się to

03:53

dopóki nie wrócimy na szczyt

03:54

piramida z wynikami w wysokiej rozdzielczości

03:57

to wszystkie te wygenerowane łatki są

03:59

złożone w wideo i voila możesz

04:02

powtórz to z różnymi dźwiękami lub

04:04

modyfikacje w celu wygenerowania dowolnych wariacji

04:06

chcesz na swoich filmach, zróbmy to szybko

04:09

przypomnijmy, że obraz jest przeskalowany w dół o

04:11

szum o wielu skalach jest dodawany do

04:13

obraz w skali corsy, który jest podzielony na

04:16

małe kwadratowe łaty każda hałaśliwa łatka jest

04:18

następnie zastąpiony najbardziej podobnym

04:20

łatki z tego samego skompresowanego obrazu

04:23

bez hałasu powodującego kilka przypadkowych zmian

04:26

w obrazie, zachowując jednocześnie realizm

04:28

nowo wygenerowany obraz i obraz

04:31

bez hałasu tego kroku są przeskalowane

04:33

i porównaj, aby znaleźć najbardziej podobne

04:36

ponownie łata z najbliższym sąsiadem

04:38

te najbardziej podobne łatki są wtedy

04:40

wybrany z obrazka w chwili obecnej

04:42

rozdzielczość generowania nowego obrazu dla

04:45

krok ponownie i powtarzamy to

04:47

skalowanie i porównywanie kroków, aż my

04:49

wróć na szczyt piramidy za pomocą

04:52

wyniki w wysokiej rozdzielczości oczywiście

04:54

wyniki nie są idealne, nadal możesz

04:56

zobaczyć niektóre artefakty, takie jak pojawianie się ludzi

04:58

i znikanie w dziwnych miejscach lub

05:00

po prostu skopiuj i wklej kogoś w niektórych

05:02

przypadki, co jest bardzo oczywiste, jeśli ty

05:05

skup się na tym nadal to dopiero pierwszy

05:07

papier atakuje manipulacje wideo za pomocą

05:09

algorytm najbliższego sąsiada i

05:11

dzięki czemu jest skalowalny do wysokiej rozdzielczości

05:13

filmy zawsze fajnie jest zobaczyć

05:15

różne podejścia, jestem bardzo podekscytowany

05:18

aby zobaczyć następny artykuł poprawiający się

05:20

ten również wyniki są nadal

05:22

dość imponujące i można je wykorzystać

05:24

jako narzędzie do powiększania danych dla modeli

05:26

pracuje nad filmami ze względu na ich bardzo niski poziom

05:29

czas pracy umożliwiający trenowanie innych modeli

05:31

na większych i bardziej zróżnicowanych zbiorach danych

05:33

bez większych kosztów, jeśli jesteś zainteresowany

05:35

aby dowiedzieć się więcej o tej technice i

05:37

zdecydowanie polecam przeczytanie ich

05:38

papier to pierwszy link w

05:40

opis dziękuję za oglądanie i

05:42

wszystkim wspierającym moją pracę

05:44

patreon lub przez komentowanie i polubienie

05:46

filmy tutaj na youtube

05:54

ty

Angielski (generowany automatycznie)

Wszystkie kategorie

Ostatnio przesłane

Obserwowane

Tagi

Dołącz do Hacker Noon

Utwórz darmowe konto, aby odblokować własne możliwości czytania.

PlatonAi. Nowa koncepcja sieci Web3. Wzmocniona analiza danych.
Kliknij tutaj, aby uzyskać dostęp.

Źródło: https://hackernoon.com/this-ai-performs-seamless-video-manipulation-without-deep-learning-or-datasets?source=rss

spot_img

Najnowsza inteligencja

spot_img