第65章 顺手证了(1/2)
肖宿把这几条线在笔记本上列了出来,还在旁边画了几个箭头,標註出了各自的瓶颈。
代理模型:维数灾难,计算量爆炸。
元启发:无理论保证,收敛慢。
端到端:训练数据依赖,泛化难证。
他盯著这几行字看了很久。
都是好思路,也都在各自的赛道上做出了成果。
但肖宿总觉得,它们缺了点什么。
缺的是对问题本身结构的理解。
这些方法都是在“解”上做文章。
怎么搜索更快,怎么採样更聪明,怎么擬合更准。
但它们很少去问,这个待解的优化问题,它本身有什么內在的性质?
有没有什么是不变的?
有没有什么对称性?
就像解微分方程,你对著一个方程硬算可能算到天荒地老。
但如果能发现它是某个守恆系统的欧拉-拉格朗日方程,立刻就能用变分原理把它简化一大半。
优化问题也一样。
肖宿想起之前读过的李群和李代数的內容。
群论研究的是对称性,在某种变换下保持不变的性质。
如果一个系统具有对称性,那么它的解必然落在某些特定的轨道上。
这些轨道的结构,比整个空间简单得多。
工业场景里的那些高维耦合数据,真的完全隨机吗?
不是的。
设备的运行参数之间,一定有某种物理规律在约束。
生產流程的数据,一定有因果链条在驱动。
即使是看起来最混乱的噪声,也可能有某种统计上的不变性。
如果能找到这些不变性,用它们把高维空间“分层”“分叶”,把一个大问题拆解成一系列低维子问题的组合……
肖宿的笔尖停在纸上。
这就是他在会议室里没来得及细想的方向。
叶状结构是微分几何里的一个概念,描述如何把一个高维流形分解成若干低维的“叶子”,每片叶子內部光滑,叶子之间不相交。
他之前已经运用这个方法解决了几个课题的难点,但是没有想过运用到这个问题上。
如果能构造出这样一个结构,让优化问题的局部最优解落在不同的叶子上,全局最优解落在某片特定的叶子上,那就可以先找叶子,再找叶子上的点。
搜索空间被压缩了。
从整个高维空间,压缩到几片低维流形上。
肖宿在笔记本上写下一个词:叶状结构。
又写下另一个词:李群作用。
如果能在目標函数的定义域上定义一个李群作用,然后用群作用的轨道来分叶,那么同一个轨道上的点,必然具有某种相同的性质。
如果能证明全局最优解一定落在某种特定轨道类型上,那就可以先用群论把轨道类型分类,再在少数几类轨道里精细搜索。
理论上是可行的。
但问题也接踵而至。
首先,目標函数的结构是未知的。
如果是黑箱问题,只知道输入输出数据,怎么定义群作用?
其次,即使能定义群作用,怎么保证轨道分叶和优化问题的极值结构是兼容的?
如果一片叶子里既有高峰又有低谷,那分了也是白分。
第三,也是最难的,怎么定位全局最优解所在的那片叶子?
这需要某种“不变量”,一个在群作用下保持不变却能指示极值位置的標量函数。
肖宿在笔记本上写下三个问號,然后盯著它们出神。
窗外的蝉鸣越发响了。
图书馆里的冷气开得很足,他的指尖却微微发热。
这些问题,每一个都够想很久。
但至少,方向有了。
接下来的几天,肖宿的生活变得极其简单。
早上七点半,从寢室走到图书馆,三楼靠窗那张桌子,坐下,翻开书。
中午去食堂隨便吃点,回来继续。
傍晚闭馆,回寢室洗漱,然后去数学研究院的那间小办公室,继续待到深夜。
办公室白板上的字跡从零散变成密集,又从密集被擦掉重来。
然后,他在白板上画了一个简单的二维测试函数。它有两个驼峰,一个高一个低,全局最优解就在矮的那个上。
他试著用自己设想的方法构造叶状结构,但是失败了。
分叶的唯一性保证不了,同一个点能分到不同叶子上,后续的优化结果跟著乱跑。
之后,他从图书馆借来一本《黎曼流形的叶状结构理论》,翻到后半部分,重新研究“叶状结构的正则性”那一章。
“要保证叶状结构唯一,需要定义一个在流形上处处非退化的可积分布。”
肖宿盯著那行字看了很久,然后在白板上加了一行公式。
用李代数的结构常数来构造这个分布。
然后他又借了《李群作用下的动力系统》,读到“轨道类型分解”那一节时,他停了下来。
这一章写到,如果李群的作用是光滑的,那么流形上的点可以根据迷向子群的共軛类来分类,每一类构成一个光滑子流形。
这些子流形,就是轨道的“型”。
肖宿的脑海里闪过一个念头。
迷向子群,固定某个点的那些群元素构成的子群。
不同的点,可能有不同类型的迷向子群。
如果能证明,全局最优解的迷向子群类型是唯一的,或者至少是罕见的,那就可以反过来,先找所有可能的迷向子群类型,然后只搜索那些可能包含全局最优的类型。
本章未完,点击下一页继续阅读。