该 AI 无需深度学习或数据集即可执行无缝视频操作

由柏拉图重新发布

日期：

2021 年 9 月 26 日

浏览次数： 505

开放 TLDR

您是否曾经想编辑视频以删除或添加某人、更改背景、使其持续时间更长或更改分辨率以适应特定的宽高比而不压缩或拉伸它？对于那些已经进行过广告活动的人来说，您当然希望为您的视频制作变体以进行 AB 测试，看看哪种效果最好。好吧，Niv Haim 等人的这项新研究。可以帮助您在单个视频中以高清格式完成所有操作！事实上，使用一个简单的视频，您可以在几秒钟或几分钟内完成我刚刚提到的任何任务，以获得高质量的视频。您基本上可以将它用于您想到的任何视频操作或视频生成应用程序。它甚至在所有方面都优于 GAN，并且不使用任何深度学习花哨的研究，也不需要庞大且不切实际的数据集！最好的是，这种技术可以扩展到高分辨率视频

路易斯·布查德（Louis Bouchard）

我向非专家解释人工智能的术语和新闻。

您是否曾经想编辑视频以删除或添加某人、更改背景、使其持续时间更长或更改分辨率以适应特定的宽高比而不压缩或拉伸它？对于那些已经进行过广告活动的人来说，您当然希望为您的视频制作变体以进行 AB 测试，看看哪种效果最好。

好吧，Niv Haim 等人的这项新研究。可以帮助您在单个视频中以高清格式完成所有工作！

事实上，使用一个简单的视频，您可以在几秒钟或几分钟内完成我刚刚提到的任何任务，以获得高质量的视频。您基本上可以将它用于您想到的任何视频操作或视频生成应用程序。它甚至在所有方面都优于 GAN，并且不使用任何深度学习花哨的研究，也不需要庞大且不切实际的数据集！

最好的是，这种技术可以扩展到高分辨率视频……

观看视频

[嵌入的内容]

参考资料

►阅读全文： https://www.louisbouchard.ai/vgpnn-ge…
► 论文涵盖：Haim, N.、Feinstein, B.、Granot, N.、Shocher, A.、Bagon, S.、Dekel, T. 和 Irani, M. (2021)。从单个视频进行多样化生成成为可能。 ArXiv，abs/2109.08591。
►从图像改编为视频的技术：Niv Granot、Ben Feinstein、Assaf Shocher、Shai Bagon 和 Michal Irani。 Drop the gan：将最近邻的补丁作为单一图像生成模型进行防御。 arXiv 预印本 arXiv:2103.15545, 2021。
►代码（即将推出）： https://nivha.github.io/vgpnn/
►My Newsletter（每周都会向您的电子邮件解释一个新的 AI 应用程序！）： https://www.louisbouchard.ai/newsletter/

视频抄本

00:00

你有没有想过编辑视频

00:02

删除或添加某人更改

00:04

背景使它持续更长时间或

00:06

更改分辨率以适应特定的

00:08

没有压缩的纵横比或

00:10

为你们这些人伸展它

00:12

已经为您投放过广告活动

00:14

当然想要有变化

00:16

你的腹部测试视频，看看有什么

00:19

niv的这项新研究效果最好

00:22

haim ital 可以帮助您完成所有这些工作

00:24

出一个单一的视频和高

00:27

定义确实使用了一个简单的视频

00:29

你可以执行我刚刚完成的任何任务

00:32

在几秒钟或几分钟内提到

00:34

对于高质量的视频，您可以

00:36

基本上将它用于任何视频

00:38

操作或视频生成

00:40

您甚至想到的应用程序

00:42

在任何方面都胜过枪支并且不

00:45

使用任何深度学习花哨的研究，也不

00:48

需要庞大且不切实际的数据集

00:51

最棒的是，这

00:52

技术可扩展到高分辨率

00:55

视频它不仅用于研究

00:57

用于 256 x 256 像素视频的用途哦

01:01

当然，您可以将其与图像一起使用

01:04

让我们看看模型是如何工作的

01:06

称为基于视频的生成补丁

01:08

最近的邻居 vgpnn 而不是使用

01:11

像甘斯这样的复杂算法和模型

01:14

或改造研究人员

01:16

开发 vgpn 选择更简单的

01:19

接近但重新访问最近的

01:22

邻居算法首先他们缩小规模

01:24

金字塔方式的图像，其中每个

01:26

水平是比花分辨率

01:28

一个上面然后他们添加随机噪声到

01:31

生成一个最粗略的水平

01:33

不同的图像类似于枪的作用

01:36

在编码后的压缩空间中

01:38

图片请注意，我会在这里说

01:40

图像为简单起见，但在这种情况下

01:42

因为它应用于视频过程

01:45

同时在三个框架上制作

01:48

添加时间维度，但

01:49

解释保持不变，有一个额外的

01:52

在最后一步的图像

01:54

添加噪声的最粗尺度是

01:56

分成多个小方块

01:59

修补图像中的所有补丁

02:01

添加的噪音被替换为最

02:04

与初始缩放相似的补丁

02:06

最没有噪音的图像

02:09

类似的补丁是用

02:11

我们将使用的最近邻算法

02:13

看到这些补丁中的大多数将保留

02:15

相同，但取决于添加的噪声

02:17

一些补丁会改变

02:19

让它们看起来更相似

02:21

初始图像中的补丁这是

02:24

vpn 输出你在这里看到这些变化

02:27

足以产生一个新的

02:29

图像的版本然后这是第一个

02:31

输出被放大并用于比较

02:34

与下一个尺度的输入图像

02:36

充当它的嘈杂版本

02:38

接下来重复相同的步骤

02:41

迭代我们将这些图像分成

02:43

小补丁并替换以前的

02:45

生成的最相似的

02:48

当前步骤的那些让我们进入

02:50

我们刚刚介绍的这个 vpn 模块

02:53

可以在这里看到唯一的区别

02:55

添加噪声的初始步骤是

02:58

我们比较生成的高档

03:00

此处的图像表示为 q，带有放大

03:03

上一张图片的版本就这样

03:06

具有相同级别的详细信息，表示为

03:09

k 基本上使用以下级别作为

03:12

比较我们比较 q 和 k 然后

03:15

选择对应的补丁

03:17

图像从当前级别 v 到

03:20

为此步骤生成新图像

03:22

这将用于下一个

03:24

正如你在这里看到的小迭代

03:26

箭头 k 只是一个高档版本

03:28

我们创建的图像缩小了 v in

03:31

该算法的初始步骤

03:33

我们创建了金字塔缩放

03:35

这是我们图像的版本

03:38

比较相同级别的锐度

03:40

两个图像都作为高档生成

03:42

来自前一层 q 的图像将是

03:45

比上图模糊很多

03:48

当前步骤 v，这将非常困难

03:50

找到类似的补丁，这是重复的

03:53

直到我们回到顶部

03:54

具有高分辨率结果的金字塔

03:57

那么所有这些生成的补丁都是

03:59

折叠成视频，瞧，你可以

04:02

用不同的噪音重复这个或

04:04

修改以产生任何变化

04:06

你想在你的视频上做一个快速

04:09

回顾一下图像被缩小到

04:11

多尺度噪声被添加到

04:13

corsa比例图像分为

04:16

每个嘈杂的补丁都是小方块

04:18

然后替换为最相似的

04:20

来自同一压缩图像的补丁

04:23

没有噪音导致很少的随机变化

04:26

在图像中同时保持真实感

04:28

新生成的图像和图像

04:31

没有这一步的噪音被放大

04:33

并进行比较以找到最相似的

04:36

再次与最近的邻居打补丁

04:38

然后这些最相似的补丁

04:40

从当前图像中选择

04:42

生成新图像的分辨率

04:45

再次执行此步骤，我们重复此步骤

04:47

升级和比较步骤，直到我们

04:49

回到金字塔的顶端

04:52

高分辨率结果当然是

04:54

结果不完美你还可以

04:56

看到一些像人一样的文物出现

04:58

消失在奇怪的地方或

05:00

简单地复制粘贴某人

05:02

情况很明显，如果你

05:05

专注于它仍然只是第一个

05:07

论文攻击视频操作

05:09

最近邻算法和

05:11

使其可扩展到高分辨率

05:13

视频总是很棒

05:15

不同的方法我非常兴奋

05:18

查看下一篇论文的改进

05:20

这个也是结果还在

05:22

相当令人印象深刻，它们可以被使用

05:24

作为模型的数据增强工具

05:26

由于它们非常低，正在制作视频

05:29

允许其他模型训练的运行时间

05:31

在更大、更多样化的数据集上

05:33

如果您有兴趣，无需太多费用

05:35

在更多地了解这项技术时，我

05:37

强烈推荐阅读他们的

05:38

纸它是第一个链接

05:40

说明感谢您的观看和

05:42

致所有支持我工作的人

05:44

patreon 或通过评论和喜欢

05:46

youtube 上的视频

05:54

您

英语（自动生成）

所有类型

最近上传

观看

标签

加入黑客正午

创建您的免费帐户以解锁您的自定义阅读体验。

柏拉图重新构想的 Web3。数据智能放大。
单击此处访问。

来源：https://hackernoon.com/this-ai-performs-seamless-video-manipulation-without-deep-learning-or-datasets?source=rss

现货图片

最新情报

现货图片