1.现代数学教育的意义

数学是人类文化的一个组成部分,它在人类社会生活中有着重要的地位和作用。数学是一切科学的基础,是打开科学大门的钥匙。数学既是科学的语言,又是思维的工具。当今人类进入信息时代,信息时代也是数学大发展的时代,人类社会日益走向数学化,从来没有像今天这样,人们需要进行数学式的思维。1984年美国一个由数学家相有关专家组成的专门委员会提出的“进一步繁荣美国数学”报告中指出:“高科技的出现把我们的社会推进到数学工程技术的新时代.”这个专门委员会的主席指出:“高技术本质上是一种数学技术”,提法点出了高科技与数学的内在联系[1]。前不久,华为负责人任正非先生也提到数学对华为发展的基础性作用。

2.我国数学教育现状

我国目前的数学教育处于怎样的状况呢?基本上还保持着50年代初学习苏联的模式。总的看来,中学的数学课内容大体上属于初等数学阶段,数学系以外的大学数学课程(如高等数学、工程数学、数学物理方法等)的内容,都属于高等数学阶段,也就是说,接受了大学数学教育,还对现代数学几乎没有接触,但是现代数学的许多基本概念,如算子、泛函、空间、拓扑、张量、流形等等已成为现代的科学语言而在科技文献上大量出现,没有现代数学的基本概念和基本知识,不仅难以从事具有现代水平的科学研究,甚至连看文献、进行学术交流都有困难。数学教育的落后,直接影响到现代水平的人才培养和科研的发展。因此,对大学数学课程进行现代化改革,在我国大学里和科技界普及现代数学教育,具有迫切的重要意义,应该引起学术界、教育界等有关部门和领导的重视[2]。

在电子信息专业的教学过程中,笔者对此有深刻的体会。现代信号处理技术中,傅里叶变换、小波变换是处理信号的基本手段,但学生在这方面的数学基础是零,这样的教学完全是在给学生强制灌输“悬空循环概念”,对学生的自信心和创新能力是一种破坏。

3.现代数学教育的困境

[3]。

数学的高度抽象性是其最重要的特点,但也正是这种高度抽象性使得数学的理解成为了极其困难的事情,严重制约了其普及性,这是我国在高技术领域的创新能力不足的一个主要原因。

4.突破现代数学教育的困境

现代数学教育的重要性是毋庸置疑了,然而,现实的数学教育困难重重,造成这种困难的原因是多方面的,但一个重要的原因是现代数学的抽象程度越来越高,造成理解也变得十分艰难,如果不改变数学的高度抽象的理解问题,现代数学教育的困境是无法突破的。

在笔者看来,突破现代数学教育的关键是改变目前现代数学的高度抽象现状,具体的解决办法是让现代数学的概念体系接地性能提高,即降低其抽象的深度,使得对它的学习理解变成一件轻松愉快的事情。也许有人对这种可能性表示怀疑,以下通过笔者近年来收集到的一些这方面成功的例子来说明,这种努力是可能的,也是现实中在不断发生的。

例子一:奎因(WillardVanOrmanQuine)”的《语言与对象》(整体论哲学)关于数学的一些论断:公理其实是约定;科学定理其实是定义;逻辑真理来自约定;任何一种翻译都是正确的。

例子二:拓扑就是橡皮膜[4]。

代数,分析,和拓扑,被称为是现代数学的三大柱石。最初读拓扑,由于学习流形理论的需要。可是,随着知识的积累,发现它是很多理论的根基。可以说,没有拓扑,就没有现代意义的分析与几何。我们在各种数学分支中接触到的最基本的概念,比如,极限,连续,距离(度量),边界,路径,在现代数学中,都源于拓扑。拓扑学是一门非常奇妙的学科,它把最直观的现象和最抽象的概念联系在一起了。拓扑描述的是普遍使用的概念(比如开集,闭集,连续),我们对这些概念习以为常,理所当然地使用着,可是,真要定义它,则需要对它们本质的最深刻的洞察。数学家们经过长时间的努力,得到了这些概念的现代定义。这里面很多第一眼看上去,会感觉惊奇——怎么会定义成这个样子。首先是开集。在学习初等数学时,我们都学习开区间(a,b)。可是,这只是在一条线上的,怎么推广到二维空间,或者更高维空间,或者别的形体上呢?最直观的想法,就是“一个不包含边界的集合”。可是,问题来了,给一个集合,何谓“边界”?在拓扑学里面,开集(OpenSet)是最根本的概念,它是定义在集合运算的基础上的。它要求开集符合这样的条件:开集的任意并集和有限交集仍为开集。我最初的时候,对于这样的定义方式,确实百思不解。不过,读下去,看了和做了很多证明后,发现,这样的定义一个很重要的意义在于:它保证了开集中每个点都有一个邻域包含在这个集合内——所有点都和外界(补集)保持距离。这样的理解应该比使用集合运算的定义有更明晰的几何意义。但是,直观的东西不容易直接形成严谨的定义,使用集合运算则更为严格。而集合运算定义中,任意并集的封闭性是对这个几何特点的内在保证。另外一个例子就是“连续函数”(ContinuousFunction)。在学微积分时,一个耳熟能详的定义是“对任意的epsilon0,存在delta0,使得……”,背后最直观的意思就是“足够近的点保证映射到任意小的范围内”。可是,epsilon,delta都依赖于实空间,不在实空间的映射又怎么办呢?拓扑的定义是“如果一个映射的值域中任何开集的原象都是开集,那么它连续。”这里就没有epsilon什么事了。“开集的原象是开集”这里的关键在于,在拓扑学中,开集的最重要意义就是要传递“邻域”的意思——开集本身就是所含点的邻域。这样连续定义成这样就顺理成章了。稍微把说法调节一下,上面的定义就变成了“对于f(x)的任意邻域U,都有x的一个邻域V,使得V里面的点都映射到U中。”这里面,我们可以感受到为什么开集在拓扑学中有根本性的意义。既然开集传达“邻域”的意思,那么,它最重要的作用就是要表达哪些点靠得比较近。给出一个拓扑结构,就是要指出哪些是开集,从而指出哪些点靠得比较近,这样就形成了一个聚集结构——这就是拓扑。可是这也可以通过距离来描述,为什么要用开集呢,反而不直观了。某种意义上说,拓扑是“定性”的,距离度量是“定量”的。随着连续变形,距离会不断变化,但是靠近的点还是靠近,因此本身固有的拓扑特性不会改变。拓扑学研究的就是这种本质特性——连续变化中的不变性。在拓扑的基本概念中,最令人费解的,莫过于“紧性”(Compactness)。它描述一个空间或者一个集合“紧不紧”。正式的定义是“如果一个集合的任意开覆盖都有有限子覆盖,那么它是紧的”。乍一看,实在有点莫名其妙。它究竟想描述一个什么东西呢?和“紧”这个形容词又怎么扯上关系呢?一个直观一点的理解,几个集合是“紧”的,就是说,无限个点撒进去,不可能充分散开。无论邻域多么小,必然有一些邻域里面有无限个点。上面关于compactness的这个定义的玄机就在有限和无限的转换中。一个紧的集合,被无限多的小邻域覆盖着,但是,总能找到其中的有限个就能盖全。那么,后果是什么呢?无限个点撒进去,总有一个邻域包着无数个点。邻域们再怎么小都是这样——这就保证了无限序列中存在极限点。Compact这个概念虽然有点不那么直观,可是在分析中有着无比重要的作用。因为它关系到极限的存在性——这是数学分析的基础。了解泛函分析的朋友都知道,序列是否收敛,很多时候就看它了。微积分中,一个重要的定理——有界数列必然包含收敛子列,就是根源于此。在学习拓扑,或者其它现代数学理论之前,我们的数学一直都在有限维欧氏空间之中,那是一个完美的世界,具有一切良好的属性,Hausdorff,Locallycompact,Simplyconnected,Completed,还有一套线性代数结构,还有良好定义的度量,范数,与内积。可是,随着研究的加深,终究还是要走出这个圈子。这个时候,本来理所当然的东西,变得不那么必然了。两个点必然能分开?你要证明空间是Hausdorff的。有界数列必然存在极限点?这只在locallycompact的空间如此。一个连续体内任意两点必然有路径连接?这可未必。一切看上去有悖常理,而又确实存在。从线性代数到一般的群,从有限维到无限维,从度量空间到拓扑空间,整个认识都需要重新清理。而且,这些绝非仅是数学家的概念游戏,因为我们的世界不是有限维向量能充分表达的。当我们研究一些不是向量能表达的东西的时候,度量,代数,以及分析的概念,都要重新建立,而起点就在拓扑。

例子三:图、谱、马尔可夫过程、聚类结构[4]

题目中所说到的四个词语,都是MachineLearning以及相关领域中热门的研究课题。表面看属于不同的topic,实际上则是看待同一个问题的不同角度。不少文章论述了它们之间的一些联系,让大家看到了这个世界的奇妙。

从图说起

这里面,最简单的一个概念就是“图”(Graph),它用于表示事物之间的相互联系。每个图有一批节点(Node),每个节点表示一个对象,通过一些边(Edge)把这些点连在一起,表示它们之间的关系。就这么一个简单的概念,它对学术发展的意义可以说是无可估量的。几乎所有领域研究的东西,都是存在相互联系的,通过图,这些联系都具有了一个统一,灵活,而又强大的数学抽象。因此,很多领域的学者都对图有着深入探讨,而且某个领域关于图的研究成果,可以被其它领域借鉴。

矩阵表示:让代数进入图的世界

在数学上,一种被普遍使用的表达就是邻接矩阵(AdjacencyMatrix)。一个有N个节点的图,可以用一个NxN的矩阵G表示,G(i,j)用一个值表示第i个节点和第j个节点的联系,通常来说这个值越大它们关系越密切,这个值为0表示它们不存在直接联系。这个表达,很直接,但是非常重要,因为它把数学上两个非常根本的概念联系在一起:“图”(Graph)和“矩阵”(Matrix)。矩阵是代数学中最重要的概念,给了图一个矩阵表达,就建立了用代数方法研究图的途径。数学家们几十年前开始就看到了这一点,并且开创了数学上一个重要的分支——代数图论(AlgebraicGraphTheory)。

代数图论通过图的矩阵表达来研究图。熟悉线性代数的朋友知道,代数中一个很重要的概念叫做“谱”(Spectrum)。一个矩阵的很多特性和它的谱结构——就是它的特征值和特征向量是密切相关的。因此,当我们获得一个图的矩阵表达之后,就可以通过研究这个矩阵的谱结构来研究图的特性。通常,我们会分析一个图的邻接矩阵(AdjacencyMatrix)或者拉普拉斯矩阵(LaplaceMatrix)的谱——这里多说一句,这两种矩阵的谱结构刚好是对称的。

谱:“分而治之”的代数

谱,这个词汇似乎在不少地方出现过,比如我们可能更多听说的频谱,光谱,等等。究竟什么叫“谱”呢?它的概念其实并不神秘,简单地说,谱这个概念来自“分而治之”的策略。一个复杂的东西不好直接研究,就把它分解成简单的分量。如果我们把一个东西看成是一些分量叠加而成,那么这些分量以及它们各自所占的比例,就叫这个东西的谱。所谓频谱,就是把一个信号分解成多个频率单一的分量。

矩阵的谱,就是它的特征值和特征向量,普通的线性代数课本会告诉你定义:如果Av=cv,那么c就是A的特征值,v就叫特征向量。这仅仅是数学家发明的一种数学游戏么?——也许有些人刚学这个的时候,并一定能深入理解这么个公式代表什么。其实,这里的谱,还是代表了一种分量结构,它为使用“分而治之”策略来研究矩阵的作用打开了一个重要途径。这里我们可以把矩阵理解为一个操作(operator),它的作用就是把一个向量变成另外一个向量:y=Ax。对于某些向量,矩阵对它的作用很简单,Av=cv,相当于就把这个向量v拉长了c倍。我们把这种和矩阵A能如此密切配合的向量v1,v2,叫做特征向量,这个倍数c1,c2,叫特征值。那么来了一个新的向量x的时候,我们就可以把x分解为这些向量的组合,x=a1v1+a2v2+,那么A对x的作用就可以分解了:Ax=A(a1v1+a2v2+)=a1c1v1+a2c2v2所以,矩阵的谱就是用于分解一个矩阵的作用的。

这里再稍微延伸一点。一个向量可以看成一个关于整数的函数,就是输入i,它返回v(i)。它可以延伸为一个连续函数(一个长度无限不可数的向量,呵呵),相应的矩阵A变成一个二元连续函数(面积无限大的矩阵)。这时候矩阵乘法中的求和变成了积分。同样的,A的作用可以理解为把一个连续函数映射为另外一个连续函数,这时候A不叫矩阵,通常被称为算子。对于算子,上面的谱分析方法同样适用(从有限到无限,在数学上还需要处理一下,不多说了)——这个就是泛函分析中的一个重要部分——谱论(SpectralTheory)。

马尔可夫过程——从时间的角度理解图

回到“图”这个题目,那么图的谱是干什么的呢?按照上面的理解,似乎是拿来分解一个图的。这里谱的作用还是分治,但是,不是直观的理解为把图的大卸八块,而是把要把在图上运行的过程分解成简单的过程的叠加。如果一个图上每个节点都有一个值,那么在图上运行的过程就是对这些值进行更新的过程。一个简单,大家经常使用的过程,就是马尔可夫过程(MarkovProcess)。

学过随机过程的朋友都了解马尔可夫过程。概念很简单——“将来只由现在决定,和过去无关”。考虑一个图,图上每个点有一个值,会被不断更新。每个点通过一些边连接到其它一些点上,对于每个点,这些边的值都是正的,和为1。在图上每次更新一个点的值,就是对和它相连接的点的值加权平均。如果图是联通并且非周期(数学上叫各态历经性,ergodicity),那么这个过程最后会收敛到一个唯一稳定的状态(平衡状态)。

图上的马尔可夫更新过程,对于很多学科有着非常重要的意义。这种数学抽象,可以用在什么地方呢?(1)Google对搜索结果的评估(PageRank)原理上依赖于这个核心过程,(2)统计中一种广泛运用的采样过程MCMC,其核心就是上述的转移过程,(3)物理上广泛存在的扩散过程(比如热扩散,流体扩散)和上面的过程有很重要的类比,(4)网络中的信息的某些归纳与交换过程和上述过程相同(比如RandomGossiping),还有很多。非常多的实际过程通过某种程度的简化和近似,都可以归结为上述过程。因此,对上面这个核心过程的研究,对于很多现象的理解有重要的意义。各个领域的科学家从本领域的角度出发研究这个过程,得出了很多实质上一致的结论,并且很多都落在了图的谱结构的这个关键点上。

图和谱在此联姻

根据上面的定义,我们看到邻接矩阵A其实就是这个马尔可夫过程的转移概率矩阵。我们把各个节点的值放在一起可以得到一个向量v,那么我们就可以获得对这个过程的代数表示,v(t+1)=Av(t)。稳定的时候,v=Av。我们可以看到稳定状态就是A的一个特征向量,特征值就是1。这里谱的概念进来了。我们把A的特征向量都列出来v1,v2,,它们有Avi=civi。vi其实就是一种很特殊,但是很简单的状态,对它每进行一轮更新,所有节点的值就变成原来的ci倍。如果0ci1,那么,相当于所有节点的值呈现指数衰减,直到大家都趋近于0。

一般情况下,我们开始于一个任意一个状态u,它的更新过程就没那么简单了。我们用谱的方法来分析,把u分解成u=v1+c2v2+c3v3+(在数学上可以严格证明,对于上述的转移概率矩阵,最大的特征值就是1,这里对应于平衡状态v1,其它的特征状态v2,v3,,对应于特征值1c2c3-1)。那么,我们可以看到,当更新进行了t步之后,状态变成u(t)=v1+c2^tv2+c3^tv3+,我们看到,除了代表平衡状态的分量保持不变外,其它分量随着t增长而指数衰减,最后,其它整个趋近于平衡状态。

从上面的分析看到,这个过程的收敛速度,其实是和衰减得最慢的那个非平衡分量是密切相关的,它的衰减速度取决于第二大特征值c2,c2的大小越接近于1,收敛越慢,越接近于0,收敛越快。这里,我们看到了谱的意义。第一,它帮助把一个图上运行的马尔可夫过程分解为多个简单的子过程的叠加,这里面包含一个平衡过程和多个指数衰减的非平衡过程。第二,它指出平衡状态是对应于最大特征值1的分量,而收敛速度主要取决于第二大特征值。

我们这里知道了第二大特征值c2对于描述这个过程是个至关重要的量,究竟是越大越好,还是越小越好呢?这要看具体解决的问题。如果你要设计一个采样过程或者更新过程,那么就要追求一个小的c2,它一方面提高过程的效率,另外一方面,使得图的结构改变的时候,能及时收敛,从而保证过程的稳定。而对于网络而言,小的c2有利于信息的迅速扩散和传播。

聚类结构——从空间的角度理解图

c2的大小往往取决于图上的聚类结构。如果图上的点分成几组,各自聚成一团,缺乏组与组之间的联系,那么这种结构是很不利于扩散的。在某些情况下,甚至需要O(exp(N))的时间才能收敛。这也符合我们的直观想象,好比两个大水缸,它们中间的只有一根很细的水管相连,那么就需要好长时间才能达到平衡。有兴趣的朋友可以就这个水缸问题推导一下,这个水缸系统的第二大特征值和水管流量与水缸的容积的比例直接相关,随比例增大而下降。

对于这个现象进行推广,数学上有一个重要的模型叫导率模型(Conductance)。具体的公式不说了,大体思想是,节点集之间的导通量和节点集大小的平均比例和第二大特征值之间存在一个单调的上下界关系。导率描述的是图上的节点连接的空间结合,这个模型把第二特征值c2和图的空间聚集结构联系在一起了。

图上的聚类结构越明显,c2越大;反过来说,c2越大,聚类的结构越明显,(c2=1)时,整个图就断裂成非连通的两块或者多块了。从这个意义上说,c2越大,越容易对这个图上的点进行聚类。机器学习中一个重要课题叫做聚类,近十年来,基于代数图论发展出来的一种新的聚类方法,就是利用了第二大特征值对应的谱结构,这种聚类方法叫做谱聚类(SpectralClustering)。它在ComputerVision里面对应于一种著名的图像分割方法,叫做NormalizedCut。很多工作在使用这种方法。其实这种方法的成功,取决于c2的大小,也就是说取决于我们如何构造出一个利于聚类的图,另外c2的值本身也可以作为衡量聚类质量,或者可聚类性的标志。遗憾的是,在paper里面,使用此方法者众,深入探讨此方法的内在特点者少。

5.现代数学教育的改革方向

从以上给出的例子,可以说明降低现代数学抽象深度,提高其接地性能是可能的。现代数学的教学过程中,一旦某个抽象概念悬空,与之相关的所有概念都会形成“悬空循环概念群”,而“悬空循环概念群”是创新能力被摧毁的罪魁祸首。

现代数学的高速发展和高度抽象化的倾向是值得反思的,通俗点说:现代数学跑得太快太远了(从“思”和“学”的角度看,就是“思”不足,而“学”有余),应该稍稍慢下来反思一下,改善其现有概念的体系结构,提高其接地性能,这需要大量人力物力的投入,尤其是需要按照新原则,重新编写全新的现代数学教材,这是必需的,尤其对于我国目前的现代数学教育现状,我们急需要整理现代数学大量的抽象概念,使其尽可能接地,降低学生学习理解的门槛。

参考文献:

[1].百度百科

[2].杜珣.现代数学引论.北京:北京大学出版社,1996

[3].李文林.数学史概论(第二版).北京:高等教育出版社,2002

[4].林达华.博客心得

附注:原创图文,欢迎分享。