博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
OpnAI将可预测序列中下一段文字、图像和语音
阅读量:6842 次
发布时间:2019-06-26

本文共 1232 字,大约阅读时间需要 4 分钟。

OpnAI近日开发了一套深度神经网络模型Sparse Transformer,透过改良过的注意力(attention)机制算法,来萃取出更多序列中的模式,进而预测出序列中下一段文字、图像或是语音,OpenAI指出,在AI研究领域现存的一项挑战就是,训练并预测长范围、不易察觉相互关系的复杂数据,像是图像、影片或是语音等数据,Sparse Transformer模型加入了自我注意力机制,再加上一些改良,试着解决这项挑战。过去,用于预测这些数据的模型,都会特定为一个领域所设计,或是模型也很难扩展到多个不同的序列上,相反地,OpenAI这次开发的深度神经网络模型,可以利用好几百层神经网络,为数万个数据元素建立序列,用于跨多个领域的应用中,OpenAI将用这套模型,来协助打造出更了解世界的AI系统。

OpnAI将可预测序列中下一段文字、图像和语音
在Transformer模型中,每个输出元素都与输入元素都息息相关,且在每个输入和输出数据之间的权重,都是动态改变的,权重会依据各种情况来计算,这个过程称之为注意力(attention)机制,虽然这项机制被认为能够使Transformer比固定连接模式的模型,更加有弹性,但是实行上来说,每一层网络都要生成N x N的注意力矩阵,因此,用于数据类型含有多个元素的数据时,会需要耗费庞大的内存计算资源,像是影像或是原始语音文件。其中一项降低内存资源的方式,就是在反向传播算法(backpropagation)中,从checkpoints重新计算注意力矩阵,反向传播算法是在深度学习中,被广泛应用于降低内存用量的技术,该技术用于Transformer注意力矩阵运算后,内存成本和层数就会无关,因此,相比以往,OpenAI现在能够训练更深的神经网络,在OpenAI的实验中,Transformer最多能够到128层,为了训练这些越深的模型,OpenAI还针对Transformer模型的操作顺序,以及scheme初始化做了一些调整,OpenAI也将详细的研究内容发表成论文。内文来源至:sbf胜博网址

但是,即使只计算单一个注意力矩阵,也会因为庞大的输入数据变得不切实际,因此,OpenAI改用稀疏(sparse)注意力模式,也就是只针对每个输出位置,从输入位置的子集合中计算权重,当子集合比整个输入集相对小时,就算是非常大的序列,注意力计算结果也会变得较容易处理。为了实现该方法,OpenAI首先将用于预测影像的Transformer模型中的学习注意力模式可视化,找出许多可解释和结构化的稀疏模式,当输入部分聚焦于小的子集上,且出现高度的规则性时,该层就属于易稀疏化,不过,虽然有许多层都显现出稀疏的架构,有些层在整张图上还是会清楚地出现动态的注意力,为了保留模型学习这类型模式的能力,OpenAI对注意力矩阵进行二维分解,因此,模型就可以透过稀疏注意力,来检视图像中的所有位置。

转载于:https://blog.51cto.com/13220658/2384619

你可能感兴趣的文章
当前深度神经网络模型压缩和加速都有哪些方法?
查看>>
高并发场景之RabbitMQ篇
查看>>
改变你对世界看法的五大计算机视觉技术
查看>>
探寻教育信息化着力点,创新四川省教育厅IT管理
查看>>
iptables实现IP地址重定向(转发)
查看>>
军方让我做即时通讯,好好交代一下网络安全问题(附源码)
查看>>
11【在线日志分析】之redis-3.2.5 install(单节点)
查看>>
Uvaoj10054 - The Necklace
查看>>
玩转树莓派:OpenHAB的入门(二)
查看>>
.Net 中的序列化与反序列化 (转)
查看>>
linux系统管理 简单常用命令
查看>>
人工智能现在可以作画了
查看>>
重温.NET下Assembly的加载过程
查看>>
华先胜:城市大脑模仿者众多,揭秘阿里原版真正的技术实力
查看>>
使用 redis 缓存的经验
查看>>
硬盘修复专题帖
查看>>
udev安全补丁
查看>>
oracle修改归档日志路径
查看>>
自动化运维工具Ansible实战(七)playbook循环
查看>>
struts2标签常用
查看>>