Transformer是一种深度学习模型,以“Attention is all you need”为核心思想,主要用于处理序列数据。它由编码器和解码器组成,完全基于注意力机制,显著提升了计算效率和处理长距离依赖的能力。