
实践后果特殊惊艳:在4.4亿参数的模子里,把前1/3层的“责任牵记”扩容50%,后1/3层压缩一半,谈话展望准确坦白接进步11%。商榷者尝试了线性、余弦、S形三种“瘦身弧线”,发现余弦弧线最妙——像熨一稔般当然过渡,既保留开端的爆发力,又幸免遣散的肥美。这种“锥形谈话模子”在760M到13亿参数的模子上通杀,连处置长文本的才调王人没打折。 为什么前层要更“壮实”?扒开模子里面发现:越到后头,神经汇聚输出的本色越像“复读机”,崭新信息少得恻隐。好比东说念主脑处置信息时,前边隆重捏重心,后头仅仅机械搬运。现时把算力精确投上前列,就像给捕快兵配千里镜,当然渔人之利。这项商榷透顶颠覆了“参数平平分拨”的传统想路——AI进化不是堆参数,而是学会“把钱花在刀刃上”。