Logo Zephyrnet

AI này thực hiện thao tác video liền mạch mà không cần học sâu hoặc tập dữ liệu

Ngày:

Bạn đã bao giờ muốn chỉnh sửa video để xóa hoặc thêm ai đó, thay đổi nền, làm cho video tồn tại lâu hơn một chút hoặc thay đổi độ phân giải để phù hợp với tỷ lệ khung hình cụ thể mà không cần nén hoặc kéo dài video chưa? Đối với những người đã chạy các chiến dịch quảng cáo, chắc chắn bạn muốn có các biến thể video của mình để thử nghiệm AB và xem cái nào hoạt động tốt nhất. Chà, nghiên cứu mới này của Niv Haim et al. có thể giúp bạn thực hiện tất cả mọi thứ chỉ trong một video và ở chế độ HD! Thật vậy, bằng cách sử dụng một video đơn giản, bạn có thể thực hiện bất kỳ tác vụ nào tôi vừa đề cập trong vài giây hoặc vài phút đối với video chất lượng cao. Về cơ bản, bạn có thể sử dụng nó cho bất kỳ ứng dụng xử lý video hoặc tạo video nào mà bạn có trong đầu. Nó thậm chí còn vượt trội hơn GAN về mọi mặt và không sử dụng bất kỳ nghiên cứu ưa thích học sâu nào cũng như không yêu cầu một bộ dữ liệu khổng lồ và không thực tế! Và điều tốt nhất là kỹ thuật này có thể mở rộng thành các video có độ phân giải cao

hình ảnh

Ảnh đại diện của Louis Bouchard Hacker Noon

Louis Bouchard

Tôi giải thích các thuật ngữ và tin tức về Trí tuệ nhân tạo cho những người không phải là chuyên gia.

Bạn đã bao giờ muốn chỉnh sửa video để xóa hoặc thêm ai đó, thay đổi nền, làm cho video tồn tại lâu hơn một chút hoặc thay đổi độ phân giải để phù hợp với tỷ lệ khung hình cụ thể mà không cần nén hoặc kéo dài video chưa? Đối với những người đã chạy các chiến dịch quảng cáo, chắc chắn bạn muốn có các biến thể video của mình để thử nghiệm AB và xem cái nào hoạt động tốt nhất.

Chà, nghiên cứu mới này của Niv Haim et al. có thể giúp bạn thực hiện tất cả mọi thứ chỉ trong một video và ở chế độ HD!

Thật vậy, bằng cách sử dụng một video đơn giản, bạn có thể thực hiện bất kỳ tác vụ nào tôi vừa đề cập trong vài giây hoặc vài phút đối với video chất lượng cao. Về cơ bản, bạn có thể sử dụng nó cho bất kỳ ứng dụng xử lý video hoặc tạo video nào mà bạn có trong đầu. Nó thậm chí còn vượt trội hơn GAN về mọi mặt và không sử dụng bất kỳ nghiên cứu ưa thích học sâu nào cũng như không yêu cầu một bộ dữ liệu khổng lồ và không thực tế!

Và điều tốt nhất là kỹ thuật này có thể mở rộng thành các video có độ phân giải cao…

Xem video

dự án

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/vgpnn-ge…
►Bài viết được đề cập: Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Thế hệ đa dạng từ một video duy nhất có thể. ArXiv, abs/2109.08591.
►Kỹ thuật chuyển thể từ hình ảnh sang video: Niv Granot, Ben Feinstein, Assaf Shocher, Shai Bagon, và Michal Irani. Thả gan: Để bảo vệ các bản vá hàng xóm gần nhất dưới dạng các mô hình tạo hình ảnh đơn lẻ. bản in trước arXiv arXiv:2103.15545, 2021.
►Code (sắp có): https://nivha.github.io/vgpnn/
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): https://www.louisbouchard.ai/newsletter/

Bảng điểm video

00:00

bạn đã bao giờ muốn chỉnh sửa video chưa

00:02

xóa hoặc thêm ai đó thay đổi

00:04

nền làm cho nó tồn tại lâu hơn một chút hoặc

00:06

thay đổi độ phân giải để phù hợp với một cụ thể

00:08

tỷ lệ khung hình mà không nén hoặc

00:10

kéo dài nó cho những người bạn

00:12

đã chạy chiến dịch quảng cáo bạn

00:14

chắc chắn muốn có các biến thể của

00:16

video của bạn để thử nghiệm ab và xem những gì

00:19

hoạt động tốt nhất nghiên cứu mới này của niv

00:22

haim ital có thể giúp bạn làm tất cả những điều này

00:24

ra khỏi một video duy nhất và ở mức cao

00:27

định nghĩa thực sự sử dụng một video đơn giản

00:29

bạn có thể thực hiện bất kỳ nhiệm vụ nào tôi chỉ

00:32

được đề cập trong vài giây hoặc trong vài phút

00:34

cho video chất lượng cao bạn có thể

00:36

về cơ bản sử dụng nó cho bất kỳ video

00:38

thao tác hoặc tạo video

00:40

ứng dụng bạn có trong tâm trí nó thậm chí

00:42

vượt trội hơn súng theo bất kỳ cách nào và không

00:45

sử dụng bất kỳ nghiên cứu ưa thích học sâu nào cũng như

00:48

đòi hỏi một bộ dữ liệu khổng lồ và không thực tế

00:51

và điều tốt nhất là điều này

00:52

kỹ thuật có thể mở rộng đến độ phân giải cao

00:55

video nó không chỉ dành cho nghiên cứu

00:57

mục đích với video 256 x 256 pixel oh

01:01

và tất nhiên bạn có thể sử dụng nó với hình ảnh

01:04

hãy xem mô hình hoạt động như thế nào

01:06

được gọi là bản vá tổng quát dựa trên video

01:08

hàng xóm gần nhất vgpnn thay vì sử dụng

01:11

các thuật toán và mô hình phức tạp như gans

01:14

hoặc máy biến áp các nhà nghiên cứu rằng

01:16

đã phát triển vgpn opt đơn giản hơn nhiều

01:19

tiếp cận nhưng xem lại gần nhất

01:22

thuật toán hàng xóm đầu tiên họ hạ thấp

01:24

hình ảnh theo cách kim tự tháp trong đó mỗi

01:26

cấp độ là một độ phân giải hoa hơn so với

01:28

một ở trên sau đó họ thêm tiếng ồn ngẫu nhiên vào

01:31

mức độ thô nhất để tạo ra một

01:33

hình ảnh khác tương tự như những gì súng làm

01:36

trong không gian nén sau khi mã hóa

01:38

hình ảnh lưu ý rằng ở đây tôi sẽ nói

01:40

hình ảnh cho đơn giản nhưng trong trường hợp này

01:42

kể từ khi nó được áp dụng cho video quá trình

01:45

được thực hiện đồng thời trên ba khung hình

01:48

thêm một chiều thời gian nhưng

01:49

lời giải thích vẫn giữ nguyên với một bổ sung

01:52

bước ở cuối hình ảnh ở

01:54

quy mô thô nhất với tiếng ồn được thêm vào là

01:56

chia thành nhiều ô vuông nhỏ

01:59

vá tất cả các bản vá trong ảnh bằng

02:01

tiếng ồn được thêm vào được thay thế bằng hầu hết

02:04

bản vá tương tự từ bản thu nhỏ ban đầu

02:06

down ảnh không noise nhất cái này

02:09

bản vá tương tự được đo bằng

02:11

thuật toán hàng xóm gần nhất như chúng ta sẽ

02:13

xem hầu hết các bản vá này sẽ giữ nguyên

02:15

tương tự nhưng tùy thuộc vào tiếng ồn được thêm vào

02:17

một số bản vá sẽ thay đổi vừa đủ để

02:19

làm cho chúng trông giống với cái khác

02:21

vá trong hình ảnh ban đầu, đây là

02:24

đầu ra vpn bạn thấy ở đây những thay đổi này

02:27

chỉ đủ để tạo ra một cái mới

02:29

phiên bản của hình ảnh sau đó cái này đầu tiên

02:31

đầu ra được nâng cấp và được sử dụng để so sánh

02:34

với hình ảnh đầu vào của tỷ lệ tiếp theo

02:36

hoạt động như một phiên bản ồn ào của nó và

02:38

các bước tương tự được lặp lại trong phần tiếp theo này

02:41

lặp đi lặp lại, chúng tôi chia những hình ảnh này thành

02:43

các bản vá nhỏ và thay thế các bản vá trước đó

02:45

được tạo ra với những cái giống nhau nhất

02:48

những cái ở bước hiện tại chúng ta hãy đi vào

02:50

mô-đun vpn này chúng tôi vừa giới thiệu với bạn

02:53

có thể thấy ở đây sự khác biệt duy nhất từ

02:55

bước đầu tiên với tiếng ồn được thêm vào là

02:58

mà chúng tôi so sánh cao cấp được tạo ra

03:00

hình ảnh ở đây ký hiệu là q với một upscaled

03:03

phiên bản của hình ảnh trước đó chỉ để nó

03:06

có cùng mức độ chi tiết được biểu thị là

03:09

k về cơ bản sử dụng mức dưới đây như

03:12

so sánh chúng tôi so sánh q và k và sau đó

03:15

chọn các bản vá tương ứng trong

03:17

hình ảnh từ mức v hiện tại này đến

03:20

tạo hình ảnh mới cho bước này

03:22

mà sẽ được sử dụng cho tiếp theo

03:24

lặp đi lặp lại như bạn thấy ở đây với nhỏ

03:26

arrows k chỉ là phiên bản cao cấp của

03:28

hình ảnh chúng tôi đã tạo hạ cấp v trong

03:31

bước đầu tiên của thuật toán này nơi

03:33

chúng tôi đã tạo ra quy mô kim tự tháp

03:35

các phiên bản hình ảnh của chúng tôi, điều này được thực hiện để

03:38

so sánh cùng một mức độ sắc nét trong

03:40

cả hai hình ảnh như cao cấp được tạo ra

03:42

hình ảnh từ lớp trước q sẽ là

03:45

mờ hơn nhiều so với hình ảnh ở

03:48

bước hiện tại v và nó sẽ rất khó khăn

03:50

để tìm các bản vá tương tự, điều này được lặp lại

03:53

cho đến khi chúng ta trở lại đỉnh của

03:54

kim tự tháp với kết quả độ phân giải cao

03:57

sau đó tất cả các bản vá được tạo này là

03:59

gấp thành một video và bạn có thể

04:02

lặp lại điều này với những tiếng ồn khác nhau hoặc

04:04

sửa đổi để tạo ra bất kỳ biến thể

04:06

bạn muốn trên video của mình, hãy làm nhanh

04:09

tóm tắt lại hình ảnh được thu nhỏ tại

04:11

tiếng ồn nhiều quy mô được thêm vào

04:13

hình ảnh quy mô corsa được chia thành

04:16

các mảng vuông nhỏ mỗi mảng ồn ào là

04:18

sau đó thay thế bằng tương tự nhất

04:20

các bản vá từ cùng một hình ảnh nén

04:23

không có tiếng ồn gây ra một số thay đổi ngẫu nhiên

04:26

trong hình ảnh trong khi giữ chủ nghĩa hiện thực cả hai

04:28

hình ảnh và hình ảnh mới được tạo

04:31

không có tiếng ồn của bước này được nâng cấp

04:33

và so sánh để tìm ra cái giống nhất

04:36

vá lỗi với hàng xóm gần nhất một lần nữa

04:38

những bản vá tương tự nhất sau đó là

04:40

được chọn từ hình ảnh hiện tại

04:42

độ phân giải để tạo ra một hình ảnh mới cho

04:45

bước một lần nữa và chúng tôi lặp lại điều này

04:47

nâng cấp và so sánh các bước cho đến khi chúng tôi

04:49

quay trở lại đỉnh của kim tự tháp với

04:52

kết quả độ phân giải cao của khóa học

04:54

kết quả không hoàn hảo, bạn vẫn có thể

04:56

thấy một số đồ tạo tác như người xuất hiện

04:58

và biến mất ở những nơi kỳ lạ hoặc

05:00

chỉ đơn giản là sao chép ai đó trong một số

05:02

trường hợp làm cho nó rất rõ ràng nếu bạn

05:05

tập trung vào nó vẫn chỉ là lần đầu tiên

05:07

giấy tấn công các thao tác video với

05:09

thuật toán hàng xóm gần nhất và

05:11

làm cho nó có thể mở rộng đến độ phân giải cao

05:13

video luôn tuyệt vời để xem

05:15

các cách tiếp cận khác nhau, tôi cực kỳ phấn khích

05:18

để xem bài báo tiếp theo được cải thiện khi

05:20

cái này cũng vậy, kết quả vẫn vậy

05:22

khá ấn tượng và chúng có thể được sử dụng

05:24

như một công cụ tăng cường dữ liệu cho các mô hình

05:26

làm việc trên video do chúng rất thấp

05:29

thời gian chạy cho phép các mô hình khác đào tạo

05:31

trên các tập dữ liệu lớn hơn và đa dạng hơn

05:33

không tốn nhiều chi phí nếu bạn quan tâm

05:35

khi tìm hiểu thêm về kỹ thuật này tôi

05:37

sẽ thực sự khuyên bạn nên đọc của họ

05:38

giấy nó là liên kết đầu tiên trong

05:40

mô tả cảm ơn bạn đã xem và

05:42

cho tất cả mọi người hỗ trợ công việc của tôi trên

05:44

patreon hoặc bằng cách bình luận và thích

05:46

video ở đây trên youtube

05:54

bạn

Tiếng Anh (được tạo tự động)

Tất cả

Đã tải lên gần đây

Đã xem

Tag

Tham gia Hacker Noon

Tạo tài khoản miễn phí của bạn để mở khóa trải nghiệm đọc tùy chỉnh của bạn.

PlatoAi. Web3 được mô phỏng lại. Khuếch đại dữ liệu thông minh.
Nhấn vào đây để truy cập.

Nguồn: https://hackernoon.com/this-ai-performs-seamless-video-manipulation-without-deep-learning-or-datasets?source=rss

tại chỗ_img

Tin tức mới nhất

tại chỗ_img