图片来源:由* *布局AI工具生成。
最近,谷歌就像一个大漏勺。不,有AIGC的核心成员联手逃跑!
Quantum bit独家了解到,这次跟Google say byebye的,是文圣地图核心团队《关于AI绘画模型Imagen》的论文的四位核心作者,离开的目的是创办自己的AI公司。虽然公司名称尚未公布,但很明显新公司将走一条一致的路线:
基于Imagen,我们会继续做原来的项目,不仅继续做学生的图片,还会做视频方向。
核心人才创业,VC自然要塞钱——首轮融资已经以惊人的1亿美元天使估值完成,更多的VC想给钱却赶不上投资。
这是文圣地图、文圣视频和AIGC赛道上最著名的研究团队之一。
文生图的骨干成员创建了一个新的AIGC公司,即奇万·萨哈利亚、陈伟霆、乔纳森·何和穆罕默德·诺鲁齐,他们都来自谷歌。
他们之前的努力集中在AIGC的文圣地图部分,这是谷歌用来对抗DALLE-2的大杀手Imagen的论文的合著者,地位非常重要。
我先介绍一下Chitwan Saharia,这也是Imagen的合作作品。
Chitwan毕业于孟买理工学院,获得计算机科学与工程学士学位,曾在孟买理工学院和蒙特利尔大学担任程序和算法方面的研究助理。2019年加入谷歌,base Toronto,从二级软件工程师做了三年高级研究科学家,去年12月离开谷歌。
Chitwan拥有语音识别和机器翻译方面的经验。在谷歌工作时,他主要负责领导图像到图像扩散模型的工作。
第二个陈伟霆也是Imagen论文的合著者。他也是计算机工程出身,先后就读于加拿大滑铁卢大学和卡内基梅隆大学,并在新加坡国立大学做了一年的交换生。
在卡内基梅隆大学获得博士学位后,威廉还在加拿大最大的社区学院之一乔治布朗学院学习烘焙和烹饪。),学了3年。
威利安于2012年加入谷歌,并于2016年成为谷歌大脑成员。去年5月离职时,他已经是谷歌大脑多伦多的研究科学家。
然后我要介绍乔纳森·何,加州大学伯克利分校的毕业生。
他不仅是Imagen论文的核心贡献,也是难度模型的开创性著作之一,去噪难度概率模型。
乔纳森毕业于加州大学伯克利分校,获得计算机科学博士学位,在OpenAI担任了一年的研究科学家。后来在2019年加入谷歌,一起工作了两年零八个月。去年11月,他作为一名研究科学家离开了谷歌。
新公司的最后一位联合创始人是穆罕默德·诺鲁齐,这也是Imagen的论文的联合工作。
△
在多伦多大学攻读计算机科学博士期间,他获得了谷歌ML的博士奖学金。毕业后,他加入了谷歌大脑,在那里工作了7年。在谷歌末期,他是一名高级研究科学家,工作重点是生成模型。
同时,穆罕默德还是谷歌神经机器翻译团队的原始成员,也是SimCLR的共同发明人。他在GitHub的主页上透露了自己的最新进展:
目前在一家初创公司工作。公司的使命是推动人工智能的发展水平,帮助人类提高创造力。我们是* *!
除了这句话,四人并没有在任何社交平台透露更多关于新公司的信息。
这已经是谷歌最近泄露的第n波人了。
以过去两个月为例。首先,至少有四名谷歌大脑成员加入OpenAI,包括“让我们一步一步思考”的研究员谢恩·古(Shane Gu);。情人节当天,Hyung Won Chung和CoT最早的作品Jason Wei携手组队叛逃OpenAI。
这个星期三,你猜怎么着?嘿,还有一个:
OpenAI欣喜若狂,只有谷歌大漏勺的世界诞生了。
Imagen是什么?了解了谷歌漏掉的四个人,再来说说为他们的事业赢得掌声的Imagen项目。
Imagen是Google发布的文圣地图的模型,在DALL-E 2新鲜出炉一个月后发布。
本文开头放的熊猫震撼表情包,是向Imagen输入“一只非常开心的长毛熊猫,打扮成一个厨师在厨房做面团的高对比度人像,身后的墙上有一幅画着花”后,AI生成的一幅元素完整的画。(抱歉,请自行断句)
在Imagen出现之前,所有的图片都共用一个套路,就是CLIP负责从文本特征到图像特征的映射,然后引导一个GAN或者扩散模型生成图像。
Imagen不走寻常路,开创了文本到图像的新范式:
纯语言模型只负责编码文本特征,具体是文本到图像的工作,由Imagen扔给图像生成模型。
具体来说,Imagen包含一个冻结的语言模型T5-XXL(由谷歌自己生产)作为文本编码器。T5-XXL的C4训练集包含800GB纯文本语料库,在文本理解上比CLIP好很多,因为后者只使用有限的图片和文本对进行训练。
在图像生成部分,使用一系列扩散模型生成低分辨率图像,然后逐步对其进行过采样。
依靠新的取样技术,Imagen允许使用大的导向砝码,因此不会像原作一样降低样品质量。这样图像保真度更高,能更好的完成图文对齐。
概念简单,但Imagen的效果还是很震撼的。
产生的赛狗技术是一流的:
与爆炸的Dale-2相比,Imagen可以更准确地理解两种颜色要求同时出现的情况:
在绘画和写作的同时,Imagen也成功完成了这一要求,不仅书写正确,还加入了类似光影魔手(no)的烟火特效。
并且更有助于后期研究,Google通过Imagen研究优化了扩散模型。
首先,增加无分类器指导的权重可以改善图文对齐,但同时会损害图像保真度。
为了解决这一问题,在每一步采样中引入了动态阈值这一新的扩散采样技术来防止过饱和。
其次,在使用高引导权重的同时对低分辨率图像添加噪声,可以改善扩散模型多样性不足的问题。
第三,改进了扩散模型的经典结构U网,使之成为有效的U网。后者提高了内存使用效率、收敛速度和推理时间。
后来在Imagen上做了微调,谷歌也推出了一个版本的DreamBooth,可以“指向哪里玩”。只需上传3-5张指定物体的照片,然后用文字描述你想要生成的背景、动作或表情,就可以让指定物体“闪”进你想要的场景。
比如酱阿姨的:
还是酱婶:
大概是因为Imagen效果太优秀了,柴柴后来亲自公布的Google AI生成了一个视频播放器general,叫做“Imagen Video”,可以生成分辨率为1280*768,每秒24帧的视频片段。
啊,等等,谷歌有Imagen Vedio,这不是和四人新公司的碰撞吗?
仔细看论文,无论是Imagen还是Imagen视频,关于风险和社会影响,各有较大篇幅。
出于安全、AI伦理和公平的考虑,Imagen和Imagen Vedio都没有直接开源或开放API,甚至没有演示。
即使市面上有开源的复刻版,也不是最正宗的味道。
此前有消息透露,在谷歌年度内部员工调查“Googlegeist”中,员工对谷歌糟糕的执行能力表示怀疑。或许,这四个人走了,继续做Imagen,做了Imagen的视频版,或许是为了把项目放在更开放的AI环境中。
而且,这种出走创业也是热钱、大款涌向AIGC的结果。
因此,既然AIGC的风险投资热潮始于太平洋,它在太平洋也不会平静。
也许你听说过一些同样的大工厂已经离开去创业了。欢迎告诉我们~ ~
来源:《量子位》(ID: Qbitai),DeFi之道
作者:于恒
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信,我们会及时处理和回复。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:goldenhorseconnect@gmail.com