Czy kiedykolwiek chciałeś edytować wideo, aby usunąć lub dodać kogoś, zmienić tło, zwiększyć jego trwałość lub zmienić rozdzielczość, aby dopasować ją do określonego współczynnika proporcji bez kompresji lub rozciągania? Dla tych z Was, którzy prowadzili już kampanie reklamowe, z pewnością chcieliście mieć odmiany swoich filmów do testowania AB i zobaczyć, co działa najlepiej. Cóż, te nowe badania Niv Haim et al. może pomóc Ci zrobić wszystko w jednym filmie i w jakości HD! Rzeczywiście, używając prostego wideo, możesz wykonać dowolne zadania, o których właśnie wspomniałem, w ciągu kilku sekund lub kilku minut w przypadku filmów wysokiej jakości. Zasadniczo można go używać do dowolnej aplikacji do obróbki wideo lub generowania wideo, o której myślisz. Pod każdym względem przewyższa nawet GAN i nie wykorzystuje żadnych wyszukanych badań głębokiego uczenia ani nie wymaga ogromnego i niepraktycznego zestawu danych! A najlepsze jest to, że ta technika jest skalowalna do filmów w wysokiej rozdzielczości
Czy kiedykolwiek chciałeś edytować wideo, aby usunąć lub dodać kogoś, zmienić tło, zwiększyć jego trwałość lub zmienić rozdzielczość, aby dopasować ją do określonego współczynnika proporcji bez kompresji lub rozciągania? Dla tych z Was, którzy prowadzili już kampanie reklamowe, z pewnością chcieliście mieć odmiany swoich filmów do testowania AB i zobaczyć, co działa najlepiej.
Cóż, te nowe badania Niv Haim et al. może pomóc Ci zrobić wszystko w jednym filmie i w jakości HD!
Rzeczywiście, używając prostego wideo, możesz wykonać dowolne zadania, o których właśnie wspomniałem, w ciągu kilku sekund lub kilku minut w przypadku filmów wysokiej jakości. Zasadniczo można go używać do dowolnej aplikacji do obróbki wideo lub generowania wideo, o której myślisz. Przewyższa nawet GAN pod każdym względem i nie wykorzystuje żadnych wyszukanych badań dotyczących głębokiego uczenia się ani nie wymaga ogromnego i niepraktycznego zestawu danych!
A najlepsze jest to, że ta technika jest skalowalna do filmów o wysokiej rozdzielczości…
Obejrzyj wideo
Referencje
►Przeczytaj cały artykuł: https://www.louisbouchard.ai/vgpnn-ge…
►Okładka artykułu: Haim N., Feinstein B., Granot N., Shocher A., Bagon S., Dekel T. i Irani M. (2021). Różnorodna generacja z jednego filmu staje się możliwa. ArXiv, abs/2109.08591.
►Technika, która została zaadaptowana z obrazów do filmów: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon i Michal Irani. Drop the gan: W obronie łatek najbliższych sąsiadów jako modeli generujących pojedynczy obraz. arXiv preprint arXiv:2103.15545, 2021.
►Kod (dostępny wkrótce): https://nivha.github.io/vgpnn/
►Mój biuletyn (Nowa aplikacja AI wyjaśniana co tydzień w twoich e-mailach!): https://www.louisbouchard.ai/newsletter/
Zapis wideo
00:00
czy kiedykolwiek chciałeś edytować wideo?
00:02
usuń lub dodaj kogoś zmień
00:04
tło sprawi, że będzie trwało trochę dłużej lub
00:06
zmień rozdzielczość, aby dopasować ją do konkretnego
00:08
proporcje bez kompresji lub
00:10
rozciągając go dla tych z was, którzy
00:12
prowadziłeś już kampanie reklamowe
00:14
na pewno chciałem mieć wariacje
00:16
Twoje filmy do testów ab i zobacz, co
00:19
najlepiej działa to nowe badanie niv
00:22
haim ital może ci pomóc w wykonaniu wszystkich tych czynności
00:24
z jednego filmu i na wysokim poziomie
00:27
definicja rzeczywiście za pomocą prostego wideo
00:29
możesz wykonywać dowolne zadania, ja po prostu
00:32
wspomniana za kilka sekund lub za kilka minut
00:34
dla wysokiej jakości filmów, które możesz
00:36
w zasadzie używaj go do dowolnego filmu
00:38
manipulacja lub generowanie wideo
00:40
aplikacja, którą masz na myśli, nawet
00:42
przewyższa broń pod każdym względem i nie
00:45
nie używaj żadnych wyszukanych badań dotyczących głębokiego uczenia się, ani
00:48
wymaga ogromnego i niepraktycznego zbioru danych
00:51
a najlepsze jest to, że to
00:52
technika jest skalowalna do wysokiej rozdzielczości
00:55
filmy to nie tylko do badań
00:57
celów z filmami o rozdzielczości 256 na 256 pikseli oh
01:01
i oczywiście możesz go używać z obrazami
01:04
zobaczmy, jak to działa, model jest
01:06
o nazwie łatka generatywna oparta na wideo
01:08
najbliżsi sąsiedzi vgpnn zamiast używać
01:11
złożone algorytmy i modele, takie jak gans
01:14
lub transformatory badacze, którzy
01:16
rozwinięty vgpn zdecydować się na znacznie prostsze
01:19
podejść, ale wróciłem do najbliższego
01:22
algorytm sąsiada najpierw zmniejsza skalę
01:24
obraz w piramidzie, gdzie każdy
01:26
poziom to rozdzielczość kwiatu niż
01:28
jeden powyżej, a następnie dodają losowy szum do
01:31
najgrubszy poziom do wygenerowania a
01:33
inny obraz podobny do tego, co robią pistolety
01:36
w skompresowanej przestrzeni po kodowaniu
01:38
uwaga na obrazek, którą tutaj powiem
01:40
obraz dla uproszczenia, ale w tym przypadku
01:42
ponieważ jest stosowany do filmów, proces
01:45
wykonywany jest na trzech ramkach jednocześnie
01:48
dodanie wymiaru czasu, ale
01:49
wyjaśnienie pozostaje takie samo z dodatkowym
01:52
krok na końcu obrazek na
01:54
najgrubsza skala z dodanym szumem to
01:56
podzielony na wiele małych kwadratów
01:59
łata wszystkie łaty na obrazie za pomocą
02:01
dodane szumy są zastępowane przez większość
02:04
podobna łatka z początkowego skalowania
02:06
w dół obraz bez szumów to najbardziej
02:09
podobna łatka jest mierzona za pomocą
02:11
algorytm najbliższego sąsiada, jak będziemy
02:13
zobacz, że większość z tych łat pozostanie
02:15
to samo, ale w zależności od dodanego hałasu
02:17
niektóre łatki zmienią się na tyle, aby
02:19
sprawić, by wyglądały bardziej podobnie do innych
02:21
łatka na początkowym obrazie to jest
02:24
wyjście VPN widzisz tutaj te zmiany
02:27
wystarczy, aby wygenerować nowy
02:29
wersja obrazu wtedy ta pierwsza
02:31
dane wyjściowe są skalowane i używane do porównania
02:34
z obrazem wejściowym następnej skali
02:36
działać jako hałaśliwa wersja tego i
02:38
te same kroki są powtarzane w tym następnym
02:41
iteracja podzieliliśmy te obrazy na
02:43
małe łatki i zastąp poprzednie
02:45
wygenerowane z najbardziej podobnymi
02:48
te na obecnym etapie przejdźmy do
02:50
ten moduł VPN, który właśnie omówiliśmy jako ty
02:53
widzę tutaj jedyną różnicę w stosunku do
02:55
pierwszy krok z dodanym hałasem to
02:58
że porównujemy generowane ekskluzywne
03:00
obraz tutaj oznaczony jako q z powiększonym
03:03
wersja poprzedniego obrazu tylko tak to
03:06
ma ten sam poziom szczegółowości oznaczony jako
03:09
k w zasadzie używając poziomu poniżej jako
03:12
porównania porównujemy q i k, a następnie
03:15
wybierz odpowiednie poprawki w
03:17
obraz z obecnego poziomu v do
03:20
wygeneruj nowy obraz dla tego kroku
03:22
który będzie używany w następnym
03:24
iteracja, jak widać tutaj z małym
03:26
arrows k to tylko ekskluzywna wersja
03:28
obraz, który stworzyliśmy, skalowanie w dół v in
03:31
początkowy krok tego algorytmu, gdzie
03:33
stworzyliśmy skalowanie piramidalne
03:35
wersje naszego obrazu, aby to zrobić
03:38
porównaj ten sam poziom ostrości w
03:40
oba obrazy jako wygenerowane w wyższej rozdzielczości
03:42
obraz z poprzedniej warstwy q będzie
03:45
znacznie bardziej rozmazany niż obraz na
03:48
obecny krok v i będzie bardzo ciężko
03:50
aby znaleźć podobne łatki, powtarza się to
03:53
dopóki nie wrócimy na szczyt
03:54
piramida z wynikami w wysokiej rozdzielczości
03:57
to wszystkie te wygenerowane łatki są
03:59
złożone w wideo i voila możesz
04:02
powtórz to z różnymi dźwiękami lub
04:04
modyfikacje w celu wygenerowania dowolnych wariacji
04:06
chcesz na swoich filmach, zróbmy to szybko
04:09
przypomnijmy, że obraz jest przeskalowany w dół o
04:11
szum o wielu skalach jest dodawany do
04:13
obraz w skali corsy, który jest podzielony na
04:16
małe kwadratowe łaty każda hałaśliwa łatka jest
04:18
następnie zastąpiony najbardziej podobnym
04:20
łatki z tego samego skompresowanego obrazu
04:23
bez hałasu powodującego kilka przypadkowych zmian
04:26
w obrazie, zachowując jednocześnie realizm
04:28
nowo wygenerowany obraz i obraz
04:31
bez hałasu tego kroku są przeskalowane
04:33
i porównaj, aby znaleźć najbardziej podobne
04:36
ponownie łata z najbliższym sąsiadem
04:38
te najbardziej podobne łatki są wtedy
04:40
wybrany z obrazka w chwili obecnej
04:42
rozdzielczość generowania nowego obrazu dla
04:45
krok ponownie i powtarzamy to
04:47
skalowanie i porównywanie kroków, aż my
04:49
wróć na szczyt piramidy za pomocą
04:52
wyniki w wysokiej rozdzielczości oczywiście
04:54
wyniki nie są idealne, nadal możesz
04:56
zobaczyć niektóre artefakty, takie jak pojawianie się ludzi
04:58
i znikanie w dziwnych miejscach lub
05:00
po prostu skopiuj i wklej kogoś w niektórych
05:02
przypadki, co jest bardzo oczywiste, jeśli ty
05:05
skup się na tym nadal to dopiero pierwszy
05:07
papier atakuje manipulacje wideo za pomocą
05:09
algorytm najbliższego sąsiada i
05:11
dzięki czemu jest skalowalny do wysokiej rozdzielczości
05:13
filmy zawsze fajnie jest zobaczyć
05:15
różne podejścia, jestem bardzo podekscytowany
05:18
aby zobaczyć następny artykuł poprawiający się
05:20
ten również wyniki są nadal
05:22
dość imponujące i można je wykorzystać
05:24
jako narzędzie do powiększania danych dla modeli
05:26
pracuje nad filmami ze względu na ich bardzo niski poziom
05:29
czas pracy umożliwiający trenowanie innych modeli
05:31
na większych i bardziej zróżnicowanych zbiorach danych
05:33
bez większych kosztów, jeśli jesteś zainteresowany
05:35
aby dowiedzieć się więcej o tej technice i
05:37
zdecydowanie polecam przeczytanie ich
05:38
papier to pierwszy link w
05:40
opis dziękuję za oglądanie i
05:42
wszystkim wspierającym moją pracę
05:44
patreon lub przez komentowanie i polubienie
05:46
filmy tutaj na youtube
05:54
ty
Angielski (generowany automatycznie)
Wszystkie kategorie
Ostatnio przesłane
Obserwowane
Tagi
Utwórz darmowe konto, aby odblokować własne możliwości czytania.
PlatonAi. Nowa koncepcja sieci Web3. Wzmocniona analiza danych.
Kliknij tutaj, aby uzyskać dostęp.