人工智能图像生成技能：短短5年内若何飞速成长？_算法_图像

2024-12-13 01:38:32 文字写作

图源：unsplash

人工智能图像生成技能：短短5年内若何飞速成长？_算法_图像文字写作

OpenAI曾创建出一些AI行业最具未来感的技能，并因此而享誉盛名。
这一研究机构得到了微软的支持，现由Y Combinator创始人Sam Altman领导，以其强大的文本天生器GPT-3而有名。

在过去几年内，该机构还制造出一只可以通过自学还原魔方的机器手、一组超人电子竞技算法、一种合理天生人类音乐的算法，以及多种可以玩游戏和利用工具学习繁芜策略的算法。

近期，OpenAI发布了DALL-E，一个可以根据书面文本天生图像的人工智能系统。
例如，系统相应提词“一个牛油果形状的皮包。
一个仿造牛油果样式的皮包”，可以产生几十次关于牛油果皮包的迭代。

图源: OpenAI

该公司还未将DALL-E（Salvador Dalí和WALL-E名字的结合）公之于众，乃至也尚未约请其特定开拓者群体来试用新软件，但据其网站上的案例所示，该系统可以创建极其逼真且细致的图像。

DALL-E精通各种艺术风格，包括插图和风景画。
它还可以天生文本，在建筑物上进行标记，并将同一场景的素描线条和全彩图像分离。
研究职员把这种影响深远的能力称为泛化能力，即算法并非专门针对某一种任务或艺术风格。

OpenAI将算法的神通广大归功于两个紧张成分：其一，算法非常弘大。
它利用了120亿个参数，数量大到令人惊异。
而这些参数可以被认为是算法迁徙改变的旋钮，用来调度其理解想法的办法。
这120亿个参数在剖析图像和文本时能够分辨出诸多特异性，令人难以置信。

然后，这些图像和文本材料被输入到算法中，并且被翻译成更易于算法理解的标记或文本。
OpenAI阐明说，一个标记就像英语字母表中的一个字母——它们代表碎片化的观点，这一办法更易于机器打算，并且以它们以算法的措辞模式排列。

这一机器字母表包含16384个文本标记和8192个图像标记。
这种将人类可读文本自动转换为机器可读文本的方法称为“转换器模型”。
一个字幕或带有文本的图像转换为算法，最多会被翻译成256个标记，而图像最多能被翻译成1024个标记。
这使得算法能够为相对较少的文本输入匹配到更繁芜的图像。

之后，算法将通过剖析成对的图像和字幕不断进化。
通过表面上数百万次迭代，它能够将文本片段与图像的特定特色联系起来。
但OpenAI还未公布这一数据集的容量或其包含的图像内容。

该公司并不是第一个考试测验从文本中天生图像的公司，乃至这也不是OpenAI的首次考试测验。
这只是此类算法的最新版本，彷佛也是最可行的一个版本。
虽然该公司还未揭橥过任何文章来描述该系统，但这一算法的创造者确实曾在其博客上引用了DALL-E的前置任务。

通过对算法的沿袭进行稽核，我们可以追踪到这项技能实际上的发展程度。

2016

OpenAI引用了这篇由密歇根大学和马普研究所撰写的论文，为当前文本到图像天生的研究注入了活力。

这篇论文利用了天生式对抗网络（generative adversarial networks generative，简称GANs）来天生图像。
GANs的功能是将两种算法相互对立：一种天生图像，另一种将不足真实的图像驳回。

图源: Reed et. al

2017

一年后，罗格斯大学、里海大学和中国喷鼻香港大学的研究职员采纳了另一种 GAN 方法——“堆叠”成对的算法。
第一对算法列出场景的形状和颜色，然后第二对算法细化细节。

图源: Zhang et. al

2019

2019年，另一支紧张从属于微软的团队考试测验了不同的“两步走”方法。
第一步是天生场景中工具所在位置的示意图，第二步是利用该示意图作为引导天生构成目标图片所需的工具。

图源: Li et. al

2020

去年年底，美国人工智能艾伦研究所揭橥了一项利用转换器模型的研究，与OpenAI利用的转换器模型相同。
艾伦研究所的研究职员没有追求模型的规模，而是依赖于“暗藏”。

在《麻省理工学院科技评论》上有一篇文章详细阐明了这一观点，Karen Hao将“暗藏”描述为“把不同的单词隐蔽在句子中，让模型补充空缺”。
算法节制这些直不雅观性跳跃后，研究者创造天生的图像质量得到显著提升。

图源: Cho et al.

回溯过去这些研究案例，我们可以创造OpenAI的DALL-E确实是一项飞跃。
从模糊不清的斑点开始，最前辈的技能已发展到能够天生牛油果形状的椅子，OneZero专栏作家欧文·威廉姆斯表示他真的乐意购买这样的椅子。

这些进步足以让一代家具设计师、图库艺术家以及其他网络艺术家感到害怕。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

本文系作者个人观点，不代表本站立场，转载请注明出处！

算法图像

人工智能图像生成技能：短短5年内若何飞速成长？_算法_图像

热门内容

随机文章

推荐内容

最新内容

TAGS标签

人工智能图像生成技能：短短5年内若何飞速成长？_算法_图像

相关推荐

C语言实现MD5加密密码安全的守护神

伪代码视角下的n个数排序理论与方法的完美融合

图像融合技术在C语言编程中的应用与实现

头条冷启动算法如何让优质内容迅速脱颖而出

头条分类算法智能推荐背后的秘密

栏目热门

热门内容

随机文章

推荐内容

最新内容

TAGS标签