资讯

自Transformer架构提出以来,围绕其架构的创新一直是产学研各界的研究焦点。总体来看,对于其注意力机制的补丁式创新和替代性创新成为了主要研究方向。补丁式创新主要采用更为简单的算子或精度来模拟注意力机制的计算,替代性创新主要通过其他算法替代注意力机制来挖掘上下文关系。除此之外,越来越多回归循环神经网络(Recurrent Neural ...