AI行业应用是一片新的大陆,深度学习作为新大陆的基石,经历了一轮又一轮突破。过去十年,在计算机视觉、语音识别、棋类 AI 等计算和感知智能技术上,深度学习率先取得成功。而最近深度学习在认知智能/自然语言处理上的进展,特别是 Transformer 衍生模型加上两阶段预训练语言模型范式的成功,正在将自然语言处理变成人工智能下一个最有可能的突破口。
损失函数对神经网络的训练有显著影响,也有很多学者人一直在探讨并寻找可以和损失函数一样使模型效果更好的函数。后来,Szegedy 等学者提出了标签平滑方法,该方法通过计算数据集中 hard target 的加权平均以及平均分布来计算交叉熵,有效提升了模型的准确率。近日,Hinton 团队等人在新研究论文《When Does Label Smoothing Help?》中,就尝试对标签平滑技术对神经网络的影响进行分析,并对相关网络的特性进行了描述。