首页 今日头条正文

乔治,让视频里的你彻底消失,Adobe最新SOTA模型完成无痕修图,无需先验常识,梦见猫

作者:张浩天等

参加:魔王

用各种修图技能 P 掉图片里的指定内容往往很难不着痕迹,抹掉视频里的活动内容就更难了。但近来,Adobe 提出了一种依据 Deep Image Prior 的新式视频修图算法,能够一起修正缺失图画和移动(光流)中暑梗信息,增强视频的时刻和空间连接性,使得去掉某些内容之后的视频仍然天然、流通,毫无修图痕迹。并且,该办法恐龙x档案无需外部数据库,仅经过视频内部学习即可完结。

用各种修图技能 P 掉图片里的指定内容往往很难不着痕迹,抹掉视频里的活动内容就更难了。但近来,Adobe 提出了一种鲁克玛在哪依据 Deep Image Prior 的新式视频修图算法,能够一起修正缺失图画和移动(光流)信息,乔治,让视频里的你完全消失,Adobe最新SOTA模型完结无痕修图,无需先验知识,梦见猫增强视频的时刻和空间连接性,使得去掉某些内容之后的视频仍然天然、流通,毫无修图痕迹。并且,该办法无需外部数据库,仅经过视频内部学习即可完结。

乔治,让视频里的你完全消失,Adobe最新SOTA模型完结无痕修图,无需先验知识,梦见猫 雷文吐槽中心

Adobe 提出的这种新式视频修图算法能够一起修正缺失图画和移动(光流)信息,依据 Deep Image Prior(DIP)提出。DIP 运用卷积网机器人拼装炮塔络架构来修正静止图画中的纹路。

论文链接:https://arxiv.org/abs/1909.07957v1

Adobe 的研讨人员将 DIP 从静止图画扩展到视频范畴,在此过程中他们做出了以下两大重要奉献:

  • 在没有先验练习的情况下,能够完结连接的视频修正。研讨人员选用生成办法进行视频修正,它依据内部(视频内数据)学习而不依赖外部视觉数据语料库,然后练习出适用于许多视荷里活性女大全频的通用模型;
  • 研讨人员证明,此类结构能够一起生成图画外观和光流,一起运用这些互补模态保证彼纳米神兵中文版此的连接性。

研讨者证明,运用每个视频的外观数据能够取得视觉合理的修正成果,一起乔治,让视频里的你完全消失,Adobe最新SOTA模型完结无痕修图,无需先验知识,梦见猫还能处理长时刻连接性这一难题。

研讨奉献

该研讨受 Deep Image Prior 的启示,提出一种依据内部学习的视频修正办法。DIP 最惊人的成果是:天然图画的「知识」能够经过卷积神经网络(CNN)进行瑞思娜编码,即 CNN 网络架构,而非实践的滤波器权重。

CNN 的平移不变性使得 DIP 能够运用图画中华球网直播视觉图画的内部循环(internal recurrence),该办法与依据图画块的经典乔治,让视频里的你完全消失,Adobe最新SOTA模型完结无痕修图,无需先验知识,梦见猫办法 [19] 相似,但表达性更强。此外,DIP 无需外部数据集,因而其遭受指数级数据问题的概率较小。研讨者测验将 DIP 办法扩展至视频修正范畴,作为从外部数据集学习先验知识的代替办法。

该研讨的中心奉献是:提出了首个依据内部学习的视频修正结构。该研讨证明,依据视频内数据练习的逐帧生成式 CNN 也有或许输出高质量的视频修正成果。研讨者研讨了不同内部学习战略对处理视频修正时刻连接性问题的作用,开宣布依据联合图画和光流猜测的练习战略,该战略能够感知到视频连接性。这一办法不只使网络捕捉到短期运动连接性,还能将该信息传达到不同帧,然后高效处理长时刻连接性问题。

研讨标明,该办法能够完结当时最优的视频修正成果。作为依据网络的结构,该办法能够归入 CNN 学得的天然图画先验,以防止依据图画块办法中常呈现的变形现象(见下图 1)。

图 1:「跑酷」场景的视频修正成果。

比较于依据帧的基线办法(第 2 行),Adobe 提出的内部学习视频修正结构的修正成果连接性更强,即使是关于多个帧中看不到的内容(橙色框)。作为依据网络的组成结构,Adobe 提出的办法能够运用天然图画先验防止变形,而这在依据图画块的办法(如 [16],第 3 行)中经常呈现(赤色框)。

从 DIP 到依据内部学习的视频修正办法,阅历了什么?

将 DIP 扩展至视频范畴的一项重要应战是保证时刻连接性:内容不应该呈现视觉伪影,相邻帧之间应该展现出滑润的运动(光流)。这对视频修正而言难度特别高,由于像素具有时刻对应性才干生成缺失内容,而这种对应也可完结内容的时刻流通度。

Adobe 经过一起组成外观和运动打破了这个循环,它经过编码器-解码器乔治,让视频里的你完全消失,Adobe最新SOTA模型完结无痕修图,无需先验知识,梦见猫网络生成内容,该网络不只在视觉范畴乔治,让视频里的你完全消失,Adobe最新SOTA模型完结无痕修图,无需先验知识,梦见猫运用 DIP,一起也在运动方面运用了 DIP。这就能够一起处理外观修正和光流修正问题,坚持二者之间的一致性。研讨证明,一起猜测外观和运动信息不只能够提高空间-时刻连接性,还能更好地在较大空泛区域传达结构信息,然后提高视觉合理性。

依据内部学习的视频修正办法

视频修正的输入是视频序列

其间 T 表明视频中田纪香宫洁丸曝光的帧数,M_i 表明每个帧 I_i 中已知区域的二元掩码(1 表明已知区域,0 表明不知道区域),⊙ 表明逐元素乘积。令 I_i ^* 表明 I_i 的希望版别,其间的掩码区域已被适宜内容填充。即视频修正的方针是依据 V bar 修正得到

研讨者运用内部学习办法完结视频修正。这一通用办法是:运用 V bar 作为练习数据,依据对应的噪声图 N_i 学习得到生成神经网络 G_,然后生成每一个方针帧 I_i ^*。

图 2:该研讨提出的视频修正结构图示。

给出每个独立帧的输入随机噪声 N_i,生成网络 G_可一起猜测帧 I_i hat 和光流

。G_ 仅依据输入视频练习,不运用任何外部数据,并优化图画生成丢失 L_r、感知丢失 L_p、光流生成丢失 L_f 和连接性丢失 L_c。

试验

研讨者在之前研讨所用的许多实际巴拉夫国际视频上对新办法进行了评价。为了促进量化评价,研讨者创建了额定的数据集,该数据会集每个视频都有远景掩码和真值布景帧。

控制变量测验

研讨者首要比照雷现平了不同内部学习办法的视频修正质量。详细而言,他们比照了其提出的终究办法 DIP-Vid-Flow,以及以下基线办法:

  • DIP:该基线办法直接将 DIP 结构逐帧应用于视频范畴。
  • DIP-Vid:Adobe 提出的结构,不过该基线办法仅运用图画生成丢失练习。
  • DIP-Vid-3DCN:除了直接运用 DIP 结构(具有纯 2D 卷积措组词),研讨者还修改了 DIP,使其运用 3D 卷积,并应用了图画生成丢失。

下表 1 展现了不同办法的成果。从一切目标上来看,针对整个视频的办法显着优于逐帧的 DIP 内卫官办法。

表 1:控制变量测验。

下图 4 是一些视觉示例。DIP 一般从已知区域借取文原本填充空泛区域,以至于许多示例中呈现结构不连接现象。

图 4:不同内部学习结构的成果比照。逐帧的 DIP 办法倾向于从已知区域中借取纹路,生成不连接的结构。

针对整个视频进行优化(DIP-Vid 和 DIP-Vid-3DCN)能够提高视觉质量,一起还能捕捉到时刻连接性(第 3、4 行的蓝色乔治,让视频里的你完全消失,Adobe最新SOTA模型完结无痕修图,无需先验知识,梦见猫框)。Adobe 提出的连接性丢失(DIP-Vid-Flow)提高了长时刻时刻连接性。

下图 5 展现了不同视频修正办法在两个视频序列上的时刻sw216连接性。

图 5:时刻连况组词贯性比照。研讨者将来自一切愿望深渊视频帧的固定行像素堆叠方虹日起来(黄线)。Adobe 提出的完好模型(DIP-Vid-Flow)具有最流通的时刻改换。

视频修正功能全包丝袜

研讨者比照了新办法和其他当时最优视频修正办法的功能,包含依据 Yu 等人提出的图画修正办法得到的视频修正成果、在视频修正数据上练习得到的 Vid2Vid 模型,以及别离来自 Newson 等人和 Huang 等人的两个当时最优视频修正办法。

下表 2 展现了这些办法在研讨者提出的 Composed 数据集上的量化评价成果,衡量目标为 PSNR 和 SSIM:

表 2:量化评价。

下图 6 展现了不同办法的视频修正帧示例:

图 6:不同办法在 [16] 供给的视频(第 1 行)、[8] 供给的视频(第 2 行)和 Adobe 提出的 Composed 数据集(第 3 行)上的视频修正成果。比较于依据图画块的办法,Adobe 提出办法的生成成果更不简单呈现变形。

本文为机器之心编译,转载请联络本大众号取得授权。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。