2025年6月24日,中央財經(jīng)大學管理科學與工程學院邀請佛羅里達州立大學數(shù)學系朱凌炯教授來訪交流,并作題為《Heavy-Tail Phenomena in Machine Learning》的學術(shù)講座。本次講座圍繞機器學習中梯度算法的泛化能力與“重尾現(xiàn)象”這一前沿議題展開,吸引了眾多對數(shù)學、人工智能與優(yōu)化理論感興趣的師生與研究人員積極參加。

圖1朱凌炯教授講座現(xiàn)場
在講座中,朱教授從神經(jīng)網(wǎng)絡訓練中常用的隨機梯度下降法(SGD)切入,深入剖析了為何SGD在實際應用中具備出色的泛化能力。圍繞“為什么SGD相比標準梯度下降更容易找到泛化能力強的解”,他指出,這一現(xiàn)象背后隱藏著SGD所特有的重尾梯度噪聲(heavy-tailed noise)結(jié)構(gòu)。他詳細講解了如何將SGD建模為受Lévy過程驅(qū)動的隨機微分方程,并通過馬爾可夫鏈穩(wěn)定分布和metastability理論,揭示SGD更傾向于停留在“寬極小值”上,從而提升對未見數(shù)據(jù)的預測能力。

圖2理論建模與算法穩(wěn)定性分析講解
朱教授進一步展示了其在算法穩(wěn)定性理論方面的突破性成果。他提出,SGD在重尾梯度噪聲下的泛化性能可以通過Wasserstein距離刻畫,并與算法穩(wěn)定性理論相結(jié)合,推導出泛化誤差的上界。通過一系列數(shù)學定理與模擬實驗,他指出SGD中的“尾指數(shù)α”與模型的測試準確率高度相關(guān),較小的α對應更好的泛化性能。講座還特別分析了動量SGD與去中心化SGD在重尾背景下的穩(wěn)定性差異,提出了“訓練收斂速度”與“泛化效果”之間存在權(quán)衡關(guān)系的重要洞見。
在講座的后半部分,朱教授回歸實際問題,探討了即便數(shù)據(jù)本身為輕尾分布,SGD依然可能因高維性、步長設(shè)定與樣本批大小等因素呈現(xiàn)重尾行為。他以線性回歸與全連接神經(jīng)網(wǎng)絡為實驗場景,通過大規(guī)模仿真與真實圖像數(shù)據(jù)集(如MNIST、CIFAR10、CIFAR100)上的實驗,驗證了理論模型的有效性,展現(xiàn)了從微觀參數(shù)機制到宏觀訓練表現(xiàn)之間的嚴密聯(lián)系。

圖3與師生合影
本次講座內(nèi)容深入淺出,理論分析與實證研究并重,不僅為與會師生提供了理解SGD泛化能力的全新數(shù)學視角,也展現(xiàn)了理論研究與工程實踐深度融合的發(fā)展趨勢。朱凌炯教授的精彩講解引發(fā)了現(xiàn)場熱烈討論,激發(fā)了師生對前沿交叉領(lǐng)域研究的濃厚興趣,講座取得圓滿成功。
撰稿人:宋雙琳
審稿人:劉志東、荊中博