百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

编码图像tokenizer-从VQGAN到MAGVIT

cac55 2024-09-19 16:56 44 浏览 0 评论

来源:Agent的潜意识

我们在探讨patches的方方面面。不过patches有一个核心bug:就是他的分片是简单切割的,比如一张图片切成9份,那么有可能,一个具象的语义信息,例如一个人脸,可能被切割在了四份里面,每一份都只是人脸的一部分,这样的特征提取器表达力肯定是不完整的。

在NLP中,有一个专门的分词器tokenizer。例如可以把满腹经纶这样的成语分为一个词。如果图像要套用NLP里面的tokens的概念。这样的图像语义分词器就显得非常重要。

业界对这块也研究了很多。今天我们这条线盘一盘。目前我们整个系列还在盘图像tokens这个概念,他只是整个知识树的一个根,后面我们再整体全貌看如何构建一个视频生成网络模型的pipeline。

今天分享三块:

1、VQVAE Neural Discrete Representation Learning。如何将图片编码为离散隐变量。

论文:

https://arxiv.org/abs/1711.00937。这个是(google deepmind 2017 NIPS)

代码:https://github.com/karpathy/deep-vector-quantization

2、VQGAN Taming Transformers for High-Resolution Image Synthesis。他的核心思想是把VQVAE里面的CNN换成transformer。

论文:https://arxiv.org/pdf/2012.09841.pdf。这个是CVPR2021 oral。德国人的。

代码:https://git.io/JnyvK.

3、MAGIT - Masked Generative Video Transformer。这个论文是在VQGAN的基础上首次合成视频。

论文: https://arxiv.org/abs/2212.05199

Project : https://magvit.cs.cmu.edu/

代码: https://github.com/google-research/magvit

一、VQVAE 图像的离线隐空间编码器

这是一篇高被引奠基性的文章。后面很多论文都在这个论文基础上展开。他的核心思想其实也很简单。附上论文原图。更加真实理解论文本意。

整个pipeline在上图中。我们详细讲解一下整个过程。整个图从左往右看,虚黑线隔开的右半角部分是讲如何最近邻搜索离散化的。一只小狗的原始图片,通过一个CNN编码器网络,转变为一个隐变量绿色立方体空间Ze;由于是神经网络非线性变化,Ze肯定是一个连续变量空间矩阵,这时候,通过一个特征空间查找表E,将Ze里面的连续值,通过最近邻算法查找到最相近的点ei,从而将绿立方体变成了浅紫色立方体特征空间Zq。然后对这个浅紫色特征空间进行CNN的解码器变换,变换出一个真实图像出来。如果编码器学的好,就说明这个特征表示Zq非常有效。我们就拿这个Zq来表示这个图片了。由于Zq是离散值,因此就是一个图像的离散特征表示。红线表示的是梯度传播的时候直接跳过离散化查找表。

整个loss共三项。

第一项很简单,x是输入的图像,Zq(x)是解码器输出图像,这个就是一个重建loss,看输入的原始图像和解码器输出的图像之间的loss。后两项看起来比较复杂。我通俗易懂的给大家解释下原理:这两个loss的目的是让离散化查找表embedding space 中的节点更内聚的。所谓内聚,就是,以这张图为例,你可以把狗的耳朵当成一个离散值节点,那么两个狗耳朵就不需要两个离散化节点了。这样就提升了离散节点的表达力。他就是NL P里面词表的概念。

二、VQGAN : VQVAE的改进版

这篇论文有很多的博客在讲。但很多人都讲错了。VQGAN他的编码器和解码器都是CNN,并没有变化;他之所以命名为VQGAN,核心的区别是他的解码这一块,就是隐空间特征生成图像这块,他用的是GAN:有两个CNN,一个生成式CNN生成图像,一个判别式CNN对生成的真假打分。所以说他整个pipeline是没有transformer的。并不是编码器和解码器变成了transformer。

整个pipeline如上图所示。从左到右看,下面一层就是VQGAN的整个pipeline,img到编码器CNN,然后通过图像分词器tokenizer转成 Zq,然后再通过GAN生成img。整个pipeline有三个CNN。编码器cnn encoder,解码器CNN decoder,然后是判别器CNN。

Transformer干的是哪个活呢?是对分词器的优化,和对Z- Zq表示的优化。在VQ VAE中,分词器就是一个pixel CNN,当然这个也算是比较好的表达方式,如果你学过数字图像处理这个课,最原始的图像离散化表示是超像素分割。Transformer第一作用的生产出最具有表达力的图像词汇表;第二个作用是,当前的图像,用了词汇1-i-1共i个词汇后,还需要哪个词汇(图像语义token),能更好的表达当前的图像,从而生产出最具有表达力的Zq。

事实上,这个transformer表达的分词器词汇表对整个模型来说非常关键。

相关推荐

14款健身APP蹿红 看看下载最多的是哪款?

Zombies,Run!($3.99,安卓,iOS)如果你的运动理念是:除非有人追,否则绝不跑起来,那么这款APP应该适合你。Zombies,Run!这款程序把单调的跑步过程变身为躲避僵尸的游戏...

微软官方彩蛋庆祝《回到未来》纪念日

2015年10月21日,是MartyMcFly和Brown博士回到未来的时间。现在,这一天真的到了,那么当时影片中展示的一些科技产品究竟有多少实现了呢?作为一家走在技术前沿的公司,日前,微软就在M...

时尚圈最潮同志情侣 帅到没朋友(同志情侣微信头像)

来源:MSN时尚综合|2015-03-0419:45:15男演员ZacharyQuinto(中)与男模MilesMcMillan(右)于纽约街头公开热吻。情人节这个拥有不同起源传说,最早可以...

IE浏览器阻止过期ActiveX控件或将影响网银的使用

IE浏览器网银IE浏览器网银如果经常使用IE浏览器浏览网页的用户,可能都有遇到过浏览器窗口提示安装ActiveX控件的情况,一般情况下用户也是会选择直接安装。ActiveX控件广义上是指微软公司的整...

如何使Microsoft Band连接到WP设备

如果你幸运地购买到了MicrosoftBand,那么恭喜你。现在我们(winbeta)推出了“帮助系列”,那些尚未买到MicrosoftBand的朋友可以了解设备的一些新功能,以及设备的其他关键特...

毕业生不得不看的五大骗局全揭秘(毕业生防骗)

目前,距离高校大学生毕业已不足100天,大部分毕业生都十分忙碌。论文定稿、答辩,参加招聘、面试等成了应届毕业生的头等大事。但随着毕业季的临近,不法分子专门针对毕业生的诈骗高发期也随之来临。360手机安...

菠萝觅生活是O2O应用流量入口最大的供应商

现在主流的传统O2O生活服务,他们其实都有一个共通点,那就是各行其道。打车有快的,滴滴,外卖有饿了么,买机票有去哪儿网…每个APP都有着自己的核心竞争力。而用户呢?既想拥有海量有趣应用,又担心占用过多...

WP8.1版MSN健康应用,现已支持锁屏计步

IT之家(www.ithome.com):WP8.1版MSN健康应用,现已支持锁屏计步@WP之家报道,微软今天已将必应系列应用品牌归为MSN,除此之外,WP8.1版MSN健康和天气应用也获得一些新的...

短信就能传播手机病毒?看完推理惊呆了!

很多人都收到过一种带网址的陌生短信,有的人会点击网址看看,有的还会在好奇心驱使下回复短信。近日《北京新发现》栏目报道了一起离奇的电信诈骗案,事主耿先生的银行卡从未离身,但是在收到一条带网址的陌生短信,...

微软OneClip:我承包了你的剪贴板(微软onedrive云空间)

不久前,Twitter用户WalkingCat曝光了微软一款名为OneClip的应用。这是一款剪贴板应用,根据描述这款应用将覆盖Windows10(包括桌面和移动)、iOS和Android平台,可以...

Windows 10手机应该是什么样?微博用户给出了概念图

随着Windows10发布的不断临近,WindowsPhone的用户对Windows10的旗舰手机的期望也越来越高,我们WP中文网也在微博上发出了同样的问题,搜集用户对Windows10的硬...

云管家出席武汉2015年支付宝O2O生态峰会

2月4日,蚂蚁金服O2O生态峰会在武汉启幕。此次峰会展现了2015年蚂蚁金服在O2O领域的开放思路和策略,以及合作伙伴对O2O的创新观念及思路分享,吸引了武汉近3000名企业大佬、众多创业者、第三方服...

微软将于下周开启Windows开发中心帐号迁移工作

自下周开始微软将启动Windows开发中心的帐号迁移工作。根据WindowsBuildingApps博客透露Windows开发中心帐号迁移工作将会分为几个阶段。首个阶段从下周开始持续到今年7月份...

如何解绑已经合并的MSN账户和Skype账户?

如果您绑定的账户已经充值,建议您把产品消耗完毕后,再进行解绑。当您需要解绑合并的账户时,可登入Skype点卡账户自助操作。输入Skype或MSN账号、密码登录账户:登录后,可在页面左下角选择语言"中文...

微博账号已显示所属MCN机构,成为目前第二个上线该功能的平台

7月25日,多位网友发现,部分微博大V的个人主页已经显示其所属的MCN机构名称,微博也成为目前第二个上线该功能的平台。【来源:中新经纬】声明:此文版权归原作者所有,若有来源错误或者侵犯您的合法权益,您...

取消回复欢迎 发表评论: