DeepSeek 并非完美,训练过程存在“深度诅咒”
“深度诅咒”的存在对大语言模型的训练和优化带来了严重的挑战。
高性能大模型在训练的过程中通常需要数千个GPU,耗费数月甚至更长时间才能完成一次训练。这种巨大的资源投入使得模型的每一层都必须高效训练,才能确保算力资源最大化利用。
但大连理工、西湖大学、牛津大学等研究人员对DeepSeek、Qwen、Llama和Mistral研究发现,这些模型的深层在训练过程中表现并不好,甚至可以被完全剪枝而不会影响模型性能。
例如,研究人员对DeepSeek-7B模型进行了逐层剪枝,以评估每一层对模型整体性能的贡献。结果显示,移除模型的深层对性能的影响微乎其微,而移除浅层性能会明显下降。这表明DeepSeek模型的深层在训练过程中未能有效学习到有用的特征,而浅层则承担了大部分的特征提取任务。
这种现象称为“深度诅咒”(Curse of Depth),同时研究人员也提出了一种有效的解决方法——LayerNorm Scaling(层归一化缩放)。
深度诅咒介绍
“深度诅咒”现象的根源在于Pre-LN的特性。Pre-LN是一种在Transformer架构模型中广泛使用的归一化技术,它在每一层的输入上进行归一化,而不是在输出上。这种归一化方式虽然能够稳定模型的训练过程,但也带来了一个严重的问题,随着模型深度的增加,Pre-LN的输出方差会呈指数级增长。
这种方差的爆炸性增长导致深层的Transformer块的导数接近于单位矩阵,使得这些层在训练过程中几乎不贡献任何有效的信息。换句话说,深层在训练过程中变成了单位映射,无法学习到有用的特征。
“深度诅咒”的存在对大语言模型的训练和优化带来了严重的挑战。首先,深层的训练不足导致了资源的浪费。在训练大语言模型时,通常需要大量的计算资源和时间。由于深层未能有效学习到有用的特征,算力资源在很大程度上被浪费了。
深层的无效性限制了模型性能的进一步提升。尽管浅层能够承担大部分的特征提取任务,但深层的无效性使得模型无法充分利用其深度优势。
此外,“深度诅咒”还对模型的可扩展性带来了难题。随着模型规模的增加,深层的无效性愈发突出,这使得模型的训练和优化变得更加困难。例如,在训练超大型模型时,深层的训练不足可能导致模型的收敛速度变慢,甚至无法收敛。
解决方法——LayerNorm Scaling
LayerNorm Scaling 的核心思想是对Pre-LN输出方差的精准控制。在一个多层的 Transformer 模型中,每一层的层归一化输出都会被乘以一个特定的缩放因子。这个缩放因子与当前层的深度密切相关,是层深度平方根的倒数。
为大家举个简单易懂的例子,大模型就像一座高楼,每一层都是其中的一层楼,而 LayerNorm Scaling 就是给每一层楼的 “能量输出” 进行了精细调节。
对于较低的楼层(浅层),缩放因子相对较大,这意味着它们的输出被调整的幅度较小,能够保持相对较强的 “能量”;对于较高的楼层(深层),缩放因子较小,这样就有效地降低了深层输出的“能量强度”,避免了方差的过度积累。
通过这种方式,整个模型的输出方差得到了有效控制,不会再出现深层方差爆炸的情况。(整个计算过程比较复杂,有兴趣的小伙伴可以直接看论文)
从模型训练的视角来看,在传统的 Pre-LN 模型训练中,由于深层方差的不断增大,梯度在反向传播过程中会受到很大干扰。深层的梯度信息变得不稳定,这就像在传递接力棒时,接力棒在后面几棒的传递过程中总是掉落,导致信息传递不畅。
使得深层在训练时难以学习到有效的特征,模型的整体训练效果大打折扣。而 LayerNorm Scaling通过控制方差,稳定了梯度流。
在反向传播过程中,梯度能够更加顺畅地从模型的输出层传递到输入层,每一层都能接收到准确而稳定的梯度信号,从而能够更有效地进行参数更新和学习。
实验结果
为了验证LayerNorm Scaling的有效性,研究人员在不同规模的模型上进行了广泛的实验。实验涵盖了从1.3亿参数到10亿参数的模型。
实验结果显示,LayerNorm Scaling在预训练阶段显著提升了模型性能,与传统的Pre-LN相比,降低了困惑度,并减少了训练所需的token数量。
例如,在LLaMA-130M模型上,LayerNorm Scaling将困惑度从26.73降低到25.76,而在10亿参数的LLaMA-1B模型上,困惑度从17.02降低到15.71。这些结果表明,LayerNorm Scaling不仅能够有效控制深层的方差增长,还能够显著提升模型的训练效率和性能。
研究人员对LayerNorm Scaling在监督微调阶段的表现进行了评估。实验结果显示,LayerNorm Scaling在多个下游任务上均优于其他归一化技术。
例如,在LLaMA-250M模型上,LayerNorm Scaling在ARC-e任务上的性能提升了3.56%,在所有任务上的平均性能提升了1.80%。这表明,LayerNorm Scaling不仅在预训练阶段表现出色,在微调阶段也能够显著提升模型的性能。
此外,研究人员将DeepSeek-7B模型的归一化方法从传统的Pre-LN替换为LayerNorm Scaling。在整个训练过程中,深层块的学习能力得到了显著提升,能够积极地参与到模型的学习过程中,为模型的性能提升贡献力量。困惑度下降的幅度更为明显,下降速度也更稳定。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。
免责声明:文章中的所有内容仅代表作者的观点,与本平台无关。用户不应以本文作为投资决策的参考。
你也可能喜欢
Pi币VS比特币:万倍神话再现?技术团队首次披露主网路线图
在当今的加密货币世界里,比特币作为元老级币种,一直占据着主导地位,备受全球投资者瞩目。而Pi币作为新兴的加密货币,凭借其创新的挖矿模式、庞大的用户基础,也迅速在加密货币领域崭露头角。市场上流传着Pi币可能复刻比特币“万倍神话

SEC批准ETF后巨鲸疯狂扫货!Santiment数据:以太坊鲸鱼持仓激增30%预示暴涨行情
在当今瞬息万变的加密货币市场中,每一个重大事件都可能引发市场的剧烈震荡。近期,美国证券交易委员会(SEC)批准加密货币交易所交易基金(ETF)这一消息,如一颗重磅炸弹投入市场,瞬间激起千层浪。与此同时,Santiment的数据显示,以太坊鲸鱼(持
MVRV 指标释放强烈买入信号!以太坊衍生品未平仓量飙升 78% 剑指 3891 美元
在加密货币市场风云变幻的当下,投资者的目光总是聚焦在那些呈现出显著变化的数字资产上。近期,以太坊成为了市场的焦点,其 MVRV 指标释放出强烈的买入信号,同时衍生品未平仓量飙升了 78%,市场预测其价格有望达到 3891 美元。这种现象

以太坊将逆袭比特币?顶级分析师:ETH/BTC交易对已形成牛市结构,历史新高在即
在加密货币的浩瀚星河中,以太坊(Ethereum)与比特币(Bitcoin)宛如两颗最为耀眼的巨星,它们的一举一动都牵动着整个市场的神经。近期,顶级分析师发出惊人言论:ETH/BTC交易对已形成牛市结构,以太坊历史新高在即,甚至有可能逆袭比特币,这一观点
加密货币价格
更多








