OpnAI将可预测序列中下一段文字、图像和语音-白红宇

OpnAI将可预测序列中下一段文字、图像和语音

阅读量：6842 次

发布时间：2019-06-26

本文共 1232 字，大约阅读时间需要 4 分钟。

OpnAI近日开发了一套深度神经网络模型Sparse Transformer，透过改良过的注意力（attention）机制算法，来萃取出更多序列中的模式，进而预测出序列中下一段文字、图像或是语音，OpenAI指出，在AI研究领域现存的一项挑战就是，训练并预测长范围、不易察觉相互关系的复杂数据，像是图像、影片或是语音等数据，Sparse Transformer模型加入了自我注意力机制，再加上一些改良，试着解决这项挑战。过去，用于预测这些数据的模型，都会特定为一个领域所设计，或是模型也很难扩展到多个不同的序列上，相反地，OpenAI这次开发的深度神经网络模型，可以利用好几百层神经网络，为数万个数据元素建立序列，用于跨多个领域的应用中，OpenAI将用这套模型，来协助打造出更了解世界的AI系统。

在Transformer模型中，每个输出元素都与输入元素都息息相关，且在每个输入和输出数据之间的权重，都是动态改变的，权重会依据各种情况来计算，这个过程称之为注意力（attention）机制，虽然这项机制被认为能够使Transformer比固定连接模式的模型，更加有弹性，但是实行上来说，每一层网络都要生成N x N的注意力矩阵，因此，用于数据类型含有多个元素的数据时，会需要耗费庞大的内存计算资源，像是影像或是原始语音文件。其中一项降低内存资源的方式，就是在反向传播算法（backpropagation）中，从checkpoints重新计算注意力矩阵，反向传播算法是在深度学习中，被广泛应用于降低内存用量的技术，该技术用于Transformer注意力矩阵运算后，内存成本和层数就会无关，因此，相比以往，OpenAI现在能够训练更深的神经网络，在OpenAI的实验中，Transformer最多能够到128层，为了训练这些越深的模型，OpenAI还针对Transformer模型的操作顺序，以及scheme初始化做了一些调整，OpenAI也将详细的研究内容发表成论文。内文来源至：sbf胜博网址

但是，即使只计算单一个注意力矩阵，也会因为庞大的输入数据变得不切实际，因此，OpenAI改用稀疏（sparse）注意力模式，也就是只针对每个输出位置，从输入位置的子集合中计算权重，当子集合比整个输入集相对小时，就算是非常大的序列，注意力计算结果也会变得较容易处理。为了实现该方法，OpenAI首先将用于预测影像的Transformer模型中的学习注意力模式可视化，找出许多可解释和结构化的稀疏模式，当输入部分聚焦于小的子集上，且出现高度的规则性时，该层就属于易稀疏化，不过，虽然有许多层都显现出稀疏的架构，有些层在整张图上还是会清楚地出现动态的注意力，为了保留模型学习这类型模式的能力，OpenAI对注意力矩阵进行二维分解，因此，模型就可以透过稀疏注意力，来检视图像中的所有位置。

转载于:https://blog.51cto.com/13220658/2384619

你可能感兴趣的文章

当前深度神经网络模型压缩和加速都有哪些方法？