反复,模型便会在最优解附近来回振荡,难以精准地收敛到精确的最优解。
相反,如果学习率设置得过小,模型就像一艘移动速度极慢的寻宝船,虽然这样能保证每一步都走得很稳,不会轻易错过最优解,但是前进的速度会非常慢,需要花费大量的时间和计算资源才能达到最优解,甚至可能在有限的训练时间内根本无法到达。
历景铄设计的自适应学习率策略,就是根据训练的进展动态调整这个 “步伐大小”。
在训练前期,他为模型设置相对较大的学习率,让它迅速捕捉到数据中的关键特征。
后续随着训练轮数的增加,他依据预先设定好的衰减公式,让学习率按照一定的衰减率逐渐减小,这样模型能够更加精细地调整参数,从而提高了收敛的精度和速度,让模型能够更准确、更高效地找到最优解。
与此同时,历景铄还对小批量样本的选取方式进行了优化,他不再是简单地随机选取小批量样本,而是采用了分层抽样的方法。
考虑到 nist 数据集中不同数字的分布情况,他将数据集重新整理并划分出来多个批次。
每个批次的小批量样本各类数字的比例与整个数据集的比例大致相同,这样做的好处是,模型在每次参数更新时,都能均衡地学习到各类数字的特征,避免了因某些数字在小批量样本中出现频率过低而导致学习不充分的问题。
历景铄优化后的训练过程与卷积神经网络完美配合,二者相得益彰,关键指标识别准确率逐步提高,经过将近两个月夜以继日的训练与反复调整,最终,模型的识别准确率达到了 923。
这个成绩让历景铄震惊不已,因为这一成果意味着他在神经网络领域实现了突破性的进步。
此前,学术界流行的多感知机模型的最高准确率仅为 80,与之相比,此次的提升可谓是飞跃式的。
历景铄兴奋不已,他第一时间就找到秦奕,两人热烈地讨论着向国内由华国科学院计算技术研究所主办的计算机领域核心期刊《计算机学报》投稿的事宜,这一成果不仅是个人的荣耀,更可能为国内的计算机科学研究带来新的思路和启发。
除了历景铄这个项目取得了令人瞩目的进展之外,理