B体育轻而易举的任务(如说谎、幽默、暗讽、隐喻、道德判断等),但对计算机来说,却是
换言之,计算机的智能表现,体现出了一个“智能悖论”,即:(对人类)困难的问题是简单的,(对人类)简单的问题是困难的。
对此,我们需要从两个角度来看:首先为什么计算机会表现出智能,其次是计算机智能与人类智能有什么区别。
虽然计算机,不能够进行逻辑推理和自主学习,但却可以进行逻辑运算(又称布尔运算)。
其基本原理就在于:计算机通过逻辑门,来进行逻辑运算,从而就拥有了映射逻辑关系的能力。
以上就是最基本的逻辑门计算,通过组合它们,就可以实现任意复杂度的逻辑运算,而组合它们的方式,就是逻辑电路。
所谓逻辑电路,简单来说就是指完成逻辑运算的电路。具体一些,就是指一种以二进制(0和1)为基础,来实现(离散)数字信号逻辑运算的电路。
其基本原理就在于:晶体管可以(通过物理元件的属性)实现开关控制,使得通过它们的电平信号,产生或高或低的结果,以此来代表逻辑上的“真”与“假”(即二进制当中的1和0),从而实现逻辑门的计算,进而集成电路就可以组合晶体管,实现任意复杂的逻辑电路。
于是,计算机通过晶体管和集成电路,就拥有了逻辑关系的映射能力——这可以看成是,把抽象的逻辑关系,转换到了物理的逻辑电路上。
其处理过程就是:接收数据、分析数据(利用逻辑关系)、得出结果,也就是经典的“输入-处理-输出”模型。
需要指出的是,逻辑电路不仅可以分析数据,还可以通过执行逻辑来进行数据的存取,包括指令、地址、程序等等。
例如,通过组合逻辑门构造一个锁存器(Latch)——它可以保持一个比特位的数值(即0或1)不变,也可以让一个比特位的数值改变——而组合锁存器就可以构造寄存器或内存(RAM)——所以,内存也有运行频率,这是控制逻辑门的速度,即时钟速度(Clock Speed)。
事实上,计算机的算力,就是来自于数百亿的晶体管,进行超高速控制逻辑门的结果,显然物理电路的物理属性,决定了高算力的必然。
那么相比计算机,人脑的算力“弱鸡”,是因为逻辑判断的速度不够快,其根本原因在于:
生物电路控制逻辑门的速度,远远不如物理电路,这可以理解为——电化学反应的速度落后于电物理反应,即:脑细胞构建的逻辑门结构(电突触与化学突触),其反应速度远不如物理元件构建的逻辑门结构。
也就是说,逻辑门计算的快慢,并不影响逻辑推理的过程和结果,这个过程——就是数据经过逻辑门结构时的逻辑运算,这个结果——就是经过计算后的数据。
计算机的结构——就是物理硬件结构,人脑的结构——就是神经网络结构,这两种结构均实现了
前者的计算数据——是物理电信号,后者的计算数据——是生物电信号,这两种电信号均转化自
前者的输入数据——是来自物理设备(如键盘鼠标传感器),后者的输入信息——是来自生物设备(如眼睛鼻子耳朵)。
需要指出的是,能被人脑处理的数据,就是信息,不能被处理的数据,就是无法感知,所以对人脑来说——环境数据就是环境信息,输入数据就是输入信息。
那么,人脑的逻辑门计算,在宏观上就是使用“如果怎么样,就怎么样,否则怎么样”的条件判断——这个“如果”的真假,就是进行“与、或、非”等等的逻辑运算(可任意组合),那么在微观上就是——从输入信息、到脑细胞激活、到电化学反应、到兴奋电位(代表1)或抑制电位(代表0)。
而脑细胞的连接方式——多个胞体的轴突(输出信息),可以连接到一个胞体的多个树突(接收信息)——就可以形成各种“神经逻辑门”,与物理逻辑门的原理一致,即:多个轴突的输入信息组合(抑制与兴奋的叠加),抵达某个阈值,才能激活某个胞体的信息处理及传递。
例如,人脑的视觉系统,并不处理光点信息,而是处理光几何信息(如各种角度的长条、长方形等),其实现方式就是:多个感知光点的视觉细胞(轴突),连接到同一个脑细胞(树突),当这些“光点细胞”同时输入信息时(即感知到多个光点),对应脑细胞才有反应,而这些“光点细胞”的排列形状,就是视觉系统可以处理的光几何形状。
需要指出的是,数学运算 = 逻辑运算 + 读写操作——而读写并没有逻辑(只有运动),如果没有逻辑运算,就会是没有逻辑的(大概率错误的)读写。
例如,实现二进制加法的抽象过程是:读取数字,比较数字(逻辑运算)——如果是0,写入1,即完成了加法计算——如果是1,写入0,移动高位,写入1,即完成了进位计算——而有了加法基础,就可以实现其它的数学运算。
可见,计算机可以同人脑一样,进行无差别的逻辑门计算,其底层支撑在于:如果说“0是关1是开”,那么计算机(CPU)与人脑,就都可以抽象地看成是一个复杂的——“开关网络”(Switching Network)。
这个开关网络,即是逻辑门计算的物理模型(物理模型体现结构,数学模型体现关系),它可以由不同的介质来承载实现——这正是让计算机可以表现出智能的根本原因所在。
那么,计算机可以抛弃人类的帮助,自行分析数据中的逻辑关系,并自动控制逻辑门计算的过程吗?
换言之,计算机可以在逻辑门计算之上,构建出类似人类智能的智能吗?再换言之,人类智能在逻辑门计算之上,所具有的根本性的“质变”是什么呢?
如前所述,逻辑推理取决于逻辑门结构与数据,算力只是逻辑门结构的特性,推理过程是逻辑门结构对数据的计算,推理结果是计算后的数据——其与计算前的数据具有逻辑关系。
而计算机虽然拥有逻辑门结构,但推理过程需要人类智能提供——数据与算法,其中算法负责控制逻辑门结构,去完成对数据的计算,并得到结果。
具体来说,算法由程序描述,程序被转化成指令,指令被硬件(逻辑门结构)执行,这就实现了数据的逻辑运算,而人类智能通过编程,就可以控制计算机完成逻辑推理。
当然,算法(Algorithm)可以是一个更抽象的概念(与计算机无关),即是指解决问题的完整描述,由一系列准确可执行的步骤组成,其代表着解决问题的策略。
在此我们会发现,人类智能可以构造算法,但计算机却不行,而算法才是逻辑推理的关键,那么这其中的奥秘是什么呢?
答案就是,结构——事实上,人脑的结构是逻辑门结构的超集,在此基础之上,相比计算机物理硬件结构的简单固定,人脑结构具有极大的复杂性和极强的可塑性。
对于复杂性,计算机的存储结构、传输结构与计算结构是独立分离的,但人脑神经网络结构,既是存储结构,也是计算结构,甚至还是传输结构。
具体来说,就是神经元细胞之间的几何关系、密度、数量,膜内外的成分、浓度、电位,以及电化学反应的过程,等等——都是一种信息的记录和计算,从而信息的形成、传递与处理就是共用神经元细胞的,于是信息在脑结构中,自然就会相互关联与影响。
换言之,环境信息被人脑捕获之后,其“运动”的某种模式——如带电离子的流动、神经递质的扩散——就对应了算法,而这种物理意义上的“运动算法”,是意识运作的底层,不受意识的控制,其结果就包含了直觉与潜意识,而直觉可以看成是潜意识的计算。
这里需要指出的是,信息与数据之间的关系,即:信息是从数据中提取的关系,同样的数据看到不同的关系,就是不同的理解,就会有不同的信息,可见信息是数据的简化抽象,即过滤了很多不同维度的关系——类比来看“数据-信息”就像“质量-能量”。
那么显然,计算机结构并没有“运动”的特性,也没有数据存储处理“一体化”的特性,相反计算机的数据,是独立于其结构的——结构的改变(如规模、架构)不会影响数据,数据的改变(如数量、关联)不会影响结构——所以,计算机的数据可以无损复制到另一台计算机上,但人脑的信息就无法复制,除非重建相同的脑结构。
最为关键的是,计算机的结构无法产生算法,也就是无法从数据中提取逻辑关系,也就是无法从数据中提取信息,因此计算机要求输入数据“自带信息”——这是如何做到的呢?
由此可见,计算机要求输入数据(含有数据结构和代码算法),既要有逻辑关系,也要有逻辑处理,而这些都被转移到了由人类智能来提供。
对于可塑性,输入信息可以改变人脑神经网络结构本身(包括生物逻辑门),从而改变对输入信息的获取和处理,于是结构和信息之间就形成了“结构吸收信息,信息塑造结构”的相互作用,这就如同——河床(是结构)约束引导河流(信息),河流(是信息)冲刷塑造河床(结构)。
事实上,抽象地来看,逻辑即是结构所固有的关系,不同的结构(或同样结构不同角度)有不同的关系就有不同的逻辑,而结构的改变即是逻辑的改变。
例如,人在梦境中的想法逻辑,会与清醒时有很大的不同,这就是因为人脑神经网络在睡眠时的激活结构不同,这种结构的不同,就会产生不同的想法逻辑。
因此,人脑可以捕获环境信息,接着分析学习其中的逻辑关系,然后(将逻辑)存储进动态的人脑神经网络(结构)中(比如经验与常识),并参与后续(环境信息)的逻辑处理,这即是自主学习的能力。
可见,大脑的可塑性表明——大脑的结构决定了大脑的功能,即:无差别的单元,构建有差别的结构,形成不同的功能。
那么对比人脑,计算机的结构固定,完全没有动态性和自组织性,转而只能依赖人类智能提供——数据结构与算法(数据结构 + 算法 = 程序),于是计算机智能也就无法进行——自主学习与自主推理了。
简而言之,人类智能是因为人脑的结构非常复杂,而计算机的结构如此简单,其“智能表现”是把复杂算法都转移到了程序设计之上,也就是让人类智能来思考产生。
综上可见,我们“自诩”的智能,其实就是来自于——复杂结构的动态性与自组织性,其功能就在于——从环境信息中建模映射真实世界的逻辑关系,继而可以准确地预测未来。
当然,人脑结构中存储的都是——简化模型,而对这些颅内模型的计算与建模,就是由智能所主导的——认知计算与认知建模。
有趣的是,人脑的认知模型不仅简化,其认知模式还偏好简化,但它(模型和模式)可以复杂——这是一种演化冗余的结果。
而通俗地说,人脑结构——决定了晶体智力(取决于学习,如技能和技艺,不受衰老影响),神经运作——决定了流体智力(取决于基因,如记忆力和算力,随衰老减退)B体育,智能——则建立在晶体智力与流体智力之上。
那么,计算机智能有没有办法,突破固定结构的局限性,从不同的演化路径去“模拟”出人类智能呢?
如前所述,能够创造出算法是智能的关键所在,而在编程领域,著名程序员、开源软件运动的思想家、黑客文化的理论家——埃里克·雷蒙德(Eric Raymond),在《Unix编程艺术》中,有这样一个实践性的洞见——算法和数据结构有一个关系,即:
数据结构越复杂(如哈希表),算法就可以越简单,数据结构越简单(如数组),那么算法就需要越复杂。
例如,编程语言越是动态化(如Python、JS、Lua),就越容易构建复杂结构,用其编写算法也就越容易,相反编程语言越是静态化(如C、C++、Java),就越难以构建复杂结构,用其编写算法就困难,而编程语言的演化是越来越动态化(如C#)。
其原理就在于,算法实现——是逻辑关系的“计算映射”,即动态地进行逻辑关系的转化;数据结构——是逻辑关系的“固化映射”,即将已经计算好的逻辑关系,存储在了结构之中。
可见,算法比数据结构多出了计算的过程——前者需要根据逻辑关系进行逻辑运算,后者仅需要根据结构的逻辑关系直接读写——所以应用数据结构进行逻辑关系的转化,会更加高效。
而人脑可以从环境信息中,提取数据结构并习得算法,最终将两者存储到脑结构之中——可见,“神经结构、数据结构、算法”三者之间可以互相转化,或说互相表征。
换言之,如果数据结构足够强大,它就可以充当复杂算法的功能,甚至可以替代复杂的神经结构。
因此,计算机智能“拟人”(即模拟人脑)的一个途径,就是通过强化数据结构来模拟神经结构,以及弱化人类智能所提供的代码算法,转而使用结构去生成算法,而这就是目前人工智能的发展方向——以下使用“人工智能”来替代“计算机智能”。
顺便一提的是,在现实中,一个东西的结构越复杂,它的功能就越丰富,可以说结构决定了功能,更或者说结构就是功能,而功能来自于算法的执行——所以,结构转化为功能,就意味着结构蕴含了算法。
显然,“人工”二字已经说明,依然由人类智能来提供,只不过这不是一个针对具体问题的数据结构,而是一个模拟人脑神经网络的通用数据结构——它是对人脑结构的简化抽象,并由程序语言编程实现的数学模型(以矩阵为基础,想象黑客帝国的母体),可称之为“类脑数据结构”,更形象的描述是“类脑神经网络”。
接下来,人类智能继续提供一种算法——机器学习算法(如深度学习、强化学习等等,每种又有不同的具体实现),这种算法可以通过拟合与计算,试图在海量的大数据中找到各种各样的算法——从而把特定的输入问题与输出结果对应起来——这相当于实现了一种可以创造算法的“算法”。
而将类脑数据结构与机器学习算法结合起来,就可以动态地自组织类脑数据结构(通过结构连接关系的权重),以存储算法创造的算法——于是人工智能就表现出了自主学习与自主推理。
有趣的是,有一种机器学习算法(强化学习,Reinforcement Learning)与人脑多巴胺强化学习的机制是相一致的,即:
概率来自权重(即历史权重决定了算法的概率计算),权重来自奖励,奖励来自行为,行为来自决策,决策来自奖励,奖励来自概率(即现实概率决定了奖励的最终获取)——这说明机器可以使用人脑相同的学习机制进行“自我学习”。
那么,这里算法习得的权重(也称权值),其实就相当于人脑神经元之间的连接强度,通过数据反复地训练与调整,无论是机器还是人脑,最终都可以把输出结果逼近正确答案。
而这个过程,可以完全用数学描述,就如图灵奖得主、卷积神经网络之父——杨立昆(Yann LeCun),在《科学之路》中,所说:
“所谓的机器学习,就是机器进行尝试、犯错和自我调整的操作。学习就是逐步减少系统误差的过程。训练机器的过程就是调整参数的过程。……基于成本函数最小化的学习,是人工智能运作的关键要素。通过调整系统参数来降低成本函数,也就是降低实际输出与期望输出之间的平均误差。实际上,最小化成本函数和训练系统是一回事。”
“(人工智能)神经网络的连接体系结构,即各层神经元的组织、以及神经元之间的连接,是确定的。但是权重,即加权和的参数是不确定的,它们可以通过学习来确定。”
事实上,早在1950年,图灵就阐述了类似这样的想法,著名传记作家——沃尔特·艾萨克森(Walter Isaacson),在《创新者》中指出:
为了反驳“洛夫莱斯夫人的异议”,即埃达·洛夫莱斯认为分析机无法像人脑一样工作,图灵在论文中提出了一个极具独创性的观点,即:
“机器也许可以进行学习,从而逐渐发展出自己的主动性,并掌握产生新想法的能力。……图灵提出了一种奖励和惩罚机制,它可以促使机器重复或者避免某些行为,最终这台机器将会培养出自己对于思考的概念。”
由上可见B体育,人工智能是在通过“输入数据、数据结构、学习算法”之间的相互转化,来形成“类人智能”的——也就是从数据中找到结构,再从结构中产生算法,最后将算法存入结构。
值得一提的是,实践表明,人工智能模型可以通过数据训练,获得非常精准的预测能力,但这种预测能力不具有可解释性,即无法解释预测结果的形成路径。
换言之,类脑数据结构(或说类脑神经网络)是一个——“黑盒模型”,如同人脑一样。
那么,从此也可以看出,结构涌现智能的规律与力量——就如同化学中结构决定性质,物理中结构决定激发,程序中结构决定功能,语言中结构决定语义,等等——或许结构决定了一切,这被称为“结构主义”。
“人类视觉系统,不仅受过对图像进行分类的训练,而且除了完成特定任务,它还接受过捕捉视觉世界结构的训练,……因此一个孩子不需要成千上万头大象,来学习「大象」的概念,而是只有三头就足够了,甚至在插图中描述出图案都可以。”
而按此视角,“听不懂”、“不明白”、“搞不清”、“难理解”——其本质都是无法重现相同(或相似)的结构,即脑神经网络结构,如:动物听不懂人话,学渣不明白公式,平民搞不清政治,男人不理解女人。
换个角度来看,一个人哪怕经验再丰富,与“大数据”相比也只是“小数据”,但“小数据”并不影响人脑具有强大的预测能力——其原因就在于,从有限的数据中获得(或说提取存储)有效有意义的结构,而“结构”可以预测未来。
那么,如果拥有了足够大的“大数据”,这就像拥有了一张分辨率足够高的“照片”,任意放大“照片”的某个局部,都可以看到足够多的信息与连接,这就有更多的可能性,从这张“照片”里发现某些规律,即结构——这就是人工智能的路径与意义,即连接了数据与结构。
然而除了数据结构,在类人智能的道路上,仍有一个显著的问题,即是人脑的模糊性与计算机的精确性,它们之间的差异性应该如何解决?
事实上,计算机一直是基于精确逻辑的工作模式,任何微小的逻辑错误,都会在计算积累中不断地被放大,直到逻辑崩塌或程序崩溃,最终导致任务失败。
人脑的逻辑处理则完全不同,人脑基于“贝叶斯算法”使用概率模型,通过统计的结果来得出可能性,从而创造出各种假设,并随着接收到的新信息而不断调整模型,同时又会根据最新模型连续地计算,不断逼近最真实准确的答案,所以人脑可以忽略不具有规模的异常和错误。
例如,人脑处理语言,就是概率模型的最佳体现,显然人类语言具有很强的容错性和纠错性——什么语法错误、多意混淆、口音语调、反讽幽默等等,都可以在电光石火之间被人脑大概率的正确处理,这是计算机和编程语言所望尘莫及的,因为编程语言错一个分号,程序就会“满盘皆输”——并且在人类语言之上,人脑还可以支撑精确的推理模型。
例如,人类婴儿最初学习语言,也是基于概率来实现的,即:通过不同音素的连接概率,来进行语句中字词的分隔判断——显然,在没有字形的情况下,区分字词的方法,就只能记忆音素(即最小发音单元)不同连接组合的可能性。
其中,演绎与归纳,(在数学上)是基于精确逻辑的(在人脑中是相对精确的),类比与溯因,则是基于概率统计的,而推理的根本作用就是——捕获因果,预测未来。
事实上,直觉、闪念、灵感、顿悟所带来的洞见,往往就是运用类比与溯因的推理结果,其过程看似没有逻辑,实则背后是神经网络“遥远连接”所激发的信息的“自由”排列组合。
显然,概率会让这种“洞见”,有时是灵光乍现,即蕴含着深刻本质的逻辑,有时则是胡说八道,即类比错误、溯因荒谬。
可见,人类智能在结构与计算之上,必须要引入概率统计的工作模式,才能够展现出其强大的推理预测能力。
在深度学习领域的经典奠基性教材《深度学习》(Deep Learning)中,作者指出:
“在人工智能领域,概率论主要有两种用途:首先,概率法则告诉我们,人工智能系统如何推理;其次,可以用概率和统计,从理论上分析人工智能系统的行为。……概率论,使我们能够提出不确定性的声明,以及针对不确定性的情景进行推理;而信息论,则使我们能够量化概率分布中不确定性的总量。”
是的,从某种角度来看:人工智能 = 计算机 + 概率论 + 信息论 + 大数据,其中概率论就是能够让算法创造算法的机制——就如同人脑中概率模型的运作。
“学习理论表明,机器学习算法能够在有限个训练集样本中,很好地泛化——这似乎违背一些基本的逻辑原则。通常,归纳推理(即从一组有限的样本中推理出一般性的规则),在逻辑上不是很有效。因为,为了逻辑推理出一个规则去描述集合中的元素,我们必须具有集合中每个元素的信息——这是很难做到的。但在一定程度上,机器学习仅通过概率法则,就可以避免这个问题,而无须使用纯逻辑推理整个确定性的法则。最终,机器学习可以保证找到一个,在所关注的大多数样本上可能正确的规则。”
没有免费午餐定理(No Free Lunch Theorem)已经清楚地表明,没有最优的学习算法,特别是没有最优的正则化形式。
因此,机器学习研究的目标,不是找一个通用学习算法,或是绝对最好的学习算法,而是理解什么样的概率分布,与人工智能获取数据的“真实世界”有关,以及什么样的学习算法,在我们所关注的数据分布上,效果最好。
事实上,我们应该彻底放弃,用人类智能去寻找“算法”来“更新”人工智能,而是用人脑源源不断产生的数据,去“喂养”人工智能,然后让它从简单结构开始,向着复杂结构不断地“自我演化”——就像当初的人脑一样。
例如,历史上的天才,他们对世界的认知和理解,可能还不如今天一个普通人,就是因为天才缺少了当今世界的“数据-信息”——可见,平庸 + 信息 天才,机器 + 数据 人才。
那么在应用中,大多数机器学习算法都有“超参数”,它是在开始学习过程之前设置值的参数,而不是通过训练得到的参数,设置它可以控制算法的行为,通常情况下,需要人工对超参数进行优化,即给出一组最优超参数,以提高学习的性能和效果。
换言之,我们应该是设计一个循环嵌套的学习过程,让一个学习算法为另一个学习算法,学习出“最优超参数”,而不是人工提供这个“最优超参数”。
更为重要的是,机器学习缺少一种内在的驱动力,即是快乐与痛苦,而对生物体来说,一个环境信息的“好坏”,就关联着快乐与痛苦,即是趋利避害的生存。
例如,人类感到快乐与痛苦时,都会产生强大的内在驱动力(即多巴胺),去让人想要采取行动(包括推理、思考、学习、总结),以最大程度地追逐快乐与减少痛苦——这其实是趋利避害的“本能算法”。
因此,我们需要让机器“感受”到快乐与痛苦,或说是给机器植入“快乐”与“痛苦”,即想办法给机器编码出——“快乐的奖励”与“痛苦的惩罚”,这样机器学习才能在数据流中,自发地进行学习,自动地推理因果,从而获得自我演化。
换言之,我们需要将系统内部,划分成多个可以相互施加影响的子系统,并形成监督、奖励与惩罚的反馈回路——要知道,对生物体来说,感受只是一种电化学信号,这对应到机器体上,完全可以等价成一种电数字信号。
例如,简化来看,一个建模系统、一个预测系统、一个评估系统、一个感受系统:
可见,感受系统的奖励与惩罚,是来自评估系统所计算出的成本误差,其目的是使预期成本最小化。
最后可见,正确的预测(或说预测的正确率),取决于信息量(信息可以消除不确定性),而信息来源于数据,没有更多的数据,就是没有更准确的预测,那么在迭代计算中,用结构去捕获数据,进而掌控预测的概率——这就是人工智能与人类智能的“同构演化”,即:具有同构性的两种演化。
换言之,智能演化的最后一步,必然就是——万事俱备B体育,只欠数据;而智能演化的内在动力,必然就是——成本函数,尽量最小。
顺便一提,如果我们的世界,是计算机模拟的一个程序,那么这个程序的“最优超参数”——就应该是我们物理学上发现的各种“基本常数”,如:光速、普朗克常数、引力常数等等。
前文讨论了智能的诸多层面,现在我们将从生物演化和物理规律的视角,来解释智能的本质到底是什么。
演化压力要求,生物体构建出趋利避害的功能,否则就会被淘汰,那么如何才能趋利避害?——首当其冲的就是,准确地预测利与害。那么如何才能准确地预测利与害?——自然是,通过智能的推理能力(即演绎、归纳、类比、溯因)。
事实上,基因本来是利用神经元,来控制运动和反射的,其存在的目的仅仅是控制肌肉的运动,所以植物不需要神经元,动物才需要。
而显然,运动的时机与环境信息密切相关,于是后来神经元就开始对信息进行记忆、识别、分析、预测,最终是模拟(模拟是为了更好的预测)——这个过程,也是从神经元到大脑、到人脑、再到产生智能的演化过程。
换言之,是环境在促成神经系统对环境信息的模拟和预测,从而逐渐把神经系统演化成了智能系统,所以大脑是由神经元构成的神经网络。
而最终,基因设定了一套基础规则,即本能,然后就放手让大脑去接管几乎所有的决策与选择行为,即智能。
由此可见,智能来源于对运动控制的迭代升级——它是根据环境信息制定“运动算法”的算法,或说为了应对环境,智能提高了运动对环境的反应策略——它是(凭借推理能力)对环境信息的理解(即捕获了因果关系)。
一个有趣的类比是:程序环境中的——数据与行为(行为具体是指函数或方法的实现),对应了自然环境中的——信息和运动。
所以,OOP(Object Oriented Programming,面向对象编程)把数据与行为“打包”,其实是符合演化模型的,从某种角度说,OOP具有分形递归的特性,即:整体可以由局部递归组合而成,且整体与局部具有自相似性——这让它可以模拟生物体的演化特性。
而更宏观地看,智能是生物体在演化压力之下,不断升级的必然产物,也是无数次随机试错的偶然产物。
例如,有个物种,由于基因突变获得了一个演化优势,但在一段时间后,它的”竞争者“也会演化出新的优势,来抵消它的优势,所以演化出比基因突变,更具趋利避害优势的”智能系统“,就是一种被迫”军备竞赛“般的”随机必然“。
或许有人会说,基因构建的本能,也能够预测未来,动物也可以针对环境信息,做出预测性的行动反馈——但事实上,本能并没有推理,而只是做出有限模式的“套路化”反馈,即:条件反射与应激反应。
因此,我们可以将智能看成是——通过推理的预测能力,即:推理能力越强,预测能力就越强,智能就越强,反之智能越弱,预测能力就越弱,推理能力也就越弱。
当然就是,高效地吃喝、不停地繁衍、长久地生存,最后还会发展出越来越先进的科技——这显然会消耗更多的能量,制造更多的熵增。
一个层面,熵增定律要求,局部自组织有序熵减,以推动整体更加的无序熵增,因为维持局部有序,需要注入能量,而消耗能量的过程,会在整体产生更多的无序。
另一个层面,系统能量足够,就可以保持对称性(无序),能量不足就会对称性破缺(有序),如:水的能量高于冰,水的旋转对称性高于冰,水比冰更对称无序,同理水蒸气比水更对称无序。
注意,直觉上我们可能会觉得,冰比水更“对称有序”——但事实上并不是这样,因为更高的对称性意味着,在更多的变换下(如旋转变换下)具有不变性,即:对称性增加了保持一切不变的操作,也就是增加了不变性,变得更无序(因为有变化才能区分排序)。
熵增会驱使局部有序,维持有序需要注入能量,于是有序就会演化出,越来越高效的耗能系统来获取能量,而拥有足够的能量,就可以保持相关系统(即耗能系统所能够影响的系统)的对称性。
那么,对称性意味着演化的可选择性,可选择性则可以通过选择权的不对称性,让系统局部从相关系统中受益,进而获得更多的能量,这又会推动局部更加的有序和耗能,最终令系统整体走向不断熵增的(正反馈)演化过程。
而对称性破缺产生有序,就是使用智能的过程,也就是行使选择权的过程,具体如下:
在智能选择之后,系统就会进入不对称模式,此时继续向系统注入能量,系统内部就会开始结构的排列组合和远近连接,并以内部协调的方式产生新结构,从而形成更大的对称性,拥有更大的可选择性,同时也需要更多的能量,才能维持在这个状态,而这个状态就是更强大的智能——或说可以表现出更强大的智能。
类比来看,使用智能可以使人脑产生新结构,而人脑的可塑性可以协调新结构,使得人脑结构具有更大的对称性,这相当于人脑神经网络拥有更多的最短连接路径,以及更多的发展可选择性(因为对称性带来更多耗能相同的选项),结果在相同耗能下,前者可以激活更多的思路,后者可以应对更多的情况,这即是增强了人类智能。
而更强的智能,又可以使人脑从生存环境中获得更多的可选择性,这体现在可以看到环境中更多的可选择性(因为识别更多的对称性),以及让环境具有更多的发展可选择性(因为对环境有更多的操作),这即是趋利避害的演化最优解。
那么结合前文,人类智能是人脑结构复杂性的涌现,现在来看会有更进一步的理解,即:结构的复杂性在于——规模性和动态性,前者可以通过能量产生增长,后者可以通过能量产生对称,两者的结合就可以产生——复杂系统的对称性,这即是人类智能。
而在构建复杂智能的过程中,最为关键的地方在于——新结构是有序,但结构的对称可以产生无序——就像圆形比三角形更加的对称(旋转对称性)、更加的无序、也拥有更多的最短连接路径。
需要指出的是,结构对称,虽然在系统整体产生了结构无序,但如果这个过程,引入了新结构或剪裁出新结构,就会增加系统内部的结构有序,而这个内部有序往往会超过整体无序——所以系统结构对称,是一个耗能熵减的过程,即:
系统用小的无序,换取了大的有序,结果内部更有序,整体更有序,外部更无序,环境更无序——就像一个圆球,外部(旋转)对称无序,内部(分子)不对称有序,并且是内部的有序,支撑了外部的无序。
例如,健身运动,就是给身体造成——小的损伤(即小的无序,增加对称性),再利用过量修复产生——大的强健(即大的有序,增加不对称性),结果身体就会比从前更有序——当然,如果运动过度,也会使得身体更无序。
例如,内部竞争,就是给公司造成——小的混乱(即小的无序,增加对称性),再利用竞争压力产生——大的创新(即大的有序,增加不对称性),结果公司就会比从前更有序——当然,如果竞争过度,也会使得公司更无序。
例如,在群体中,有序意味着排位(不对称),无序意味着平等(对称),显然后者更具创造创新力——但前提条件是,群体中的个体需要具有耗能熵减的能力。
按此理解,“智熵”就是通过智能,提高系统对称无序(系统局部熵减)与环境对称无序(环境整体熵增),最终推动宇宙熵增的编码能力,即:智熵 = 智能 + 熵增。
而对称性的意义,就在于提供了——可选择性,即:可以利用更多的路径选项,来对抗环境压力的驱使,从而维持自身状态的不变,或向着自身有利状态的改变。
显然,拥有可选择性,就可以表现出智能——就像有一个开关、多个开关、感应开关、语音开关、自定义开关、可编程开关等等,可选择性越多,就越表现出智能。
而可选择性的意义,就在于选择权的不对称性,如:能量不对称,我有的选,你没的选;信息不对称,我知道怎么选,你不知道怎么选;等等——这意味着,拥有趋利避害的生存优势。
例如,如果你的工作可选、生活可选、娱乐可选,你就拥有可选择性,而这些选项可以相互替代(即选谁都一样具有不变性),就形成了对称性(因为对称性的背后就是不变性),但维持这些可选择性让你保有选择权(即不对称的权利),需要你拥有能量,或恰当地使用智能。
值得指出的是,随机性也可以带来可选择性,如继承与运气——所以随机性可以创造智能,也可以在某个层面超越智能,即:随机试错具有超越迭代试错的概率。
事实上,任何耗能系统,都可以因为注入能量而保持结构的对称性,从而具有可选择性,进而表现出某种智能,只不过人脑是自然界演化出的,最复杂的耗能系统,所以人类智能是自然界中,最强大的智能。
例如,宇宙奇点具有对称性(高温无序),接着大爆炸之后,由于空间膨胀(的环境压力),宇宙的对称性破缺(低温有序),然后又向着无序熵增的方向演化——可见宇宙本身,就具有某种智能,它在试图维持自身处在“对称无序具有可选择性”的状态。
那么归根究底,可选择性带来适应性,这是演化对智能的要求,而对称性(无序)需要注入能量,这是熵增对演化的要求。
可见,适应性(演化)= 可选择性(表现智能)= 对称性(具有智能)= 有序(信息不对称) + 能量(能量不对称)——信息可以消除不确定性,有序即确定,意味着具有更多的信息。
而如果没有适应性(或适应性不足),就说明缺少对称性,也就是“有序 + 能量”中的能量不够,此时有序,就会被环境压力分解为“无序 + 能量”,其能量会被用来支撑其它“有序 + 能量”的演化,只剩下无序熵增。
因此,智能可以看成是,熵增驱动演化的结果,而熵增就可以看成是,演化压力的压力,或说是宇宙演化的“终极压力”。
最后,更抽象地看——智能只是能量流动中的一种模式,更简单地看——智能只是趋利避害中的一种模式(本能与智能是两种模式),更一般地看——智能就是获得可选择性的能力。
人工智能,虽然来源于对人类智能的模拟,但如果模拟到了演化算法,它就会有自己的发展,并且还会反作用于人类智能本身,比如从机器学习的有效算法,去反思人类学习的神经运作。
事实上,人工智能与人类智能的智能竞赛,可以倒逼我们找到自身智能奥秘的底层逻辑,因为越高级复杂的智能,其演化路径就越是狭窄的,就像人类眼睛与章鱼眼睛,是独立演化出的两种相似结构,所以人工智能与人类智能,在智能演化的道路上,最终也可能会“殊途同归”。
那么,从这个角度来看,人工智能目前还不及人类智能的事情,一方面是它的智能演化才刚刚开始,另一方面则是因为人类还不够了解自己,还无法提供人工智能加速演化的关键技术。
然而,如果仅从复杂结构的“连接性、动态性、随机性”来标度智能,我们会发现整个互联网就像一个人脑。
其中,互联的计算网络就像是人脑的神经网络,连入网络的每台计算设备,就像是一个神经元细胞——不,其实是每个使用设备的人,才是一个神经元细胞——每个人都在贡献着数据与结构,人与人之间的连接和关系,以及数据交互的动态性和自由意志的随机性,就构成了一个“类脑”的复杂结构。
换个角度来看,为什么说互联网是我们大脑的延伸,而不是“眼耳手腿”,就是因为互联网连接的是我们大脑。
同理类似,一个超大规模的城市,通过其不断变化又极其繁复的交通网络与基础设施,将其中数以千万的“人类神经元”连接起来,进行信息的传递和交换,从而构成了一个“类脑”的复杂结构。
实际中,通过对不同规模的欧洲城市,其居民电话记录的大数据分析,著名理论物理学家、圣塔菲研究所前所长——杰弗里·韦斯特(Geoffrey West),在《规模》中,指出:
“一个普通个体的熟人模块集聚系数,近似恒定量,不会随着城市规模的变化而改变。”——这可以说是,对150定律的量化验证。
可见,用“人类神经元”去构建一个“类脑结构”,不考虑别的,仅在标度上就有数量级的差距,而量变显然决定了结构的涌现与质变。
由此看来,智能不仅在于结构与能量,还在于规模与尺度,也就是关乎于时间与空间——规模取决于结构的存在时间,尺度取决于结构的活动空间。
人脑,大约有860亿个神经元——其中,大脑皮质大约有140~160亿个,小脑大约550~700亿个。而一个神经元,大约有7000个连接,每个连接位置都有一个突触,每个突触都是一个可调节连接强度的权重,即参数。
所以,大脑的总参数是860亿 * 7000 = 602万亿,大脑皮质的参数是140~160亿 * 7000 = 98~112万亿——而后者是直接支持人类智能的参数量——也就是说,涌现出“类人智能”的参数规模,是100万亿的数量级。
但我们知道,人脑的能力,不仅在于其规模,还在于其训练的“信息质量”,即:再有天赋的大脑,如果没有高质量的“输入信息”,也就没有高质量的“输出信息”。
这意味着,人工智能的模型规模,会存在边际效用递减,即在一定规模之后,必须要有高质量的“大数据”投喂,才能继续提升智能水平。
答案是,没有必要——因为,婴儿的突触(即参数)数量在1000万亿(即10^15)的数量级,而成人则会剪裁到100~500万亿(即10^14)的数量级——可见,成人的参数量(百万亿10^14)比细胞量(千亿10^11)多3个数量级,而婴儿(千万亿10^15)则是多4个数量级——这意味着,面对地球环境,人脑的冗余性,完全够用,甚至(婴儿比成人)还剪裁掉了1个数量级(即10倍)的参数规模。
有趣的不同是,一个神经元,既是“计算器”又是“方程组”,而每个连接的突触都是一个方程参数,那么一个“神经元方程组”就大约有7000个方程参数;而对比来看,人工智能的计算晶体管在“硬件芯片”上,其计算方程组在“软件程序”上。
所以,或许当人工智能的模型规模,达到人类大脑皮质的规模(即100万亿参数的数量级)时,就具备了涌现出“人类通用智能”的可能性。
而在此之后,提高智能水平的关键——就是投喂“高质量”的“大数据”,显然这种“高阶数据”可以来自“先喂代码、再喂数学”——因为这两者的“语言系统”,都承载了高质量的结构与关系,其内含了严谨完备自洽的逻辑性。
最后,在远远超越人类智能之后,此时人工智能的智能水平想要继续攀升,再依靠人类所创造的“任何数据”,其“质”与“量”肯定是都不够了,这时候就需要人工智能可以创造自己的“高阶数据”,就像人类可以创造自己的“高阶数据”一样。
生命是化学的一种形式,智能是生命的一种形式(生命可以没有智能),而智能也是生命了解其自身的一种形式。
但有智能并不一定就有意识,按照智能的定义(耗能、推理、预测、可选择性),人工智能已经拥有了智能,但它还不具有意识。
本文的主旨是“结构主义”,即结构决定了一切,因此结构是智能的具体实现(就像程序是算法的具体实现),而这也是人工智能(或许)可以实现人类智能的根本所在。
那么按此理解,意识就是结构在涌现智能之后的另一个涌现产物,可能是在于某种特殊的“回路结构”,其承载的是有关“计算的计算”——这是回路结构的结构特点。
事实上,计算驱动了演化过程中的状态改变,计算的本质是用一个系统去模拟另一个系统的演化——就如颅内模拟是人脑的计算,程序模拟是机器的计算,前者是生物系统的模拟预测,后者是物理系统的模拟预测——显然,计算也是依赖于结构的,而这就是人工智能与人类智能,可以“同源计算”的演化。
回到算法,从某种角度看,基因的算法是本能,人脑的算法是智能——前者源于基因结构,后者源于人脑结构,区别在于后者是一种通用算法,它可以创造其它算法,而人工智能通过数据结构与算法的相互转化,也做到了这一点。
不得不说,“结构主义”为人工智能的“拟人”(即模拟人类智能),扫清了障碍,铺平了道路——甚至说,就算我们无法完全理解“智能结构黑盒”的原理,也没有关系,我们只需要将“黑盒”整体打包成一个算法,然后注入计算,任其演化——剩下的只要交给时间即可。
那么,就目前而言,人工智能还只是人类智能的一种工具(或说玩具),就像数学和物理是一种工具一样,但从演化视角来看,人类又何尝不是基因的工具(或说奴隶)呢?
而我们都知道,智能如果超越了某个系统,系统的规则就无法再束缚住这个智能的演化——这就是人类智能与自然系统的历史关系。
因此,对于人工智能的未来,或许“结构主义”演化出的结果,是一种全新的“智能”,“祂”不仅仅是拟人的“类人智能”,更是超越人类智能系统之上的——“机器智能”,这条演化之路,或许可以被称之为——“机器主义”。
那么,关于智能的未来,只有一个重要的问题,即:全能又“随机所欲”的宇宙,会不会通过“人类基因结构”向“机器模因结构”注入通用智能呢?
非常简化地看,智能就是——预测未来的能力,要是智能不能预测未来,要它有何用?
显然,预测未来带来了生存优势,生存(更好的生存)就是智能演化的选择压力,而为了更好地预测未来,智能可以从数据中构建模型,然后用模型来预测未来。
所以,智能行为总是围绕着模型来展开的——如抽象、分类是在创建模型,如对比、识别是在训练模型,如判断、选择是在测试模型——有了成熟准确的概率模型,就可以推理预测、决策未来。
而模型,其实是一种结构,即模型结构,并且构建模型,依然需要结构,即大脑结构——这里的结构可能是拓扑结构。
事实上,智能预测,不仅需要结构(模型结构与大脑结构),也需要数据,如果没有环境数据中的有效信息,就很难进行有效的预测,甚至都不知道该预测什么——因为预测目标,就是以“数据-信息”的形式,进入智能系统的。
那么,从物理角度看,数据就是结构,结构就是数据,进入智能系统的数据,与其来源的结构,是一个不可分割的整体,拥有密切的“逻辑关系”。
因为,预测来自于数据之间的逻辑关系,所以数据训练的模型结构,可以预测特定类型的数据及其变化。
因为,人脑可以不断学习,使用各种数据训练各种模型,而显然人脑如果不学习某些知识,就无法在这个领域进行有效的预测,即不具备这个领域的智能。
事实上,相比专业智能,通用智能是很“麻烦”的,它需要保持开放并足够灵活——就像某一特长和任意特长;就像动物具有天生技能,人类可以学会任意技能;就像定制软件系统和通用操作系统;以及人才与通才,等等——通用比专业需要更多的冗余性,即多样性冗余。
显然,冗余可以带来选项,选项是一种开关(如表观遗传与系统按钮),开关具有可选择性,可选择就会表现出智能,而在各种情景之下,可以创造选择并做出选择,就是通用智能。
那么,人脑可以看成一个“开关网络”,这些开关可以模拟出选择并选择,据此就实现了通用智能——同理,计算机的通用智能,也是来自“开关网络”的模拟,只不过操作这个模拟的是人类智能。
所以,人类智能的通用性,可以说是源于神经网络的结构冗余性,所支撑的可塑性,所带来的可选择性。
因为,动物的大脑缺少强大的“学习网络”,即:新皮质不够发达——要么不存在、要么不够复杂、要么不够动态。
如果说,智能在于预测,预测在于模型,模型在于结构,那么通用智能的关键就在于:利用学习来塑造结构形成模型——而学习需要奖励,奖励来自环境。
换言之,通用智能 = 动态结构 + 学习塑造 + 奖励目标,对应到人脑,即:人类智能 = 神经网络 + 强化学习 + 环境信息。
而人类智能的演化= 基于强化学习的模型 + 基于模型的强化学习——又因为学习与模型,依赖于语言符号,所以人类智能的基石= 神经网络 + 人类语言 + 强化学习,其中人类语言包括了,自然语言与人工语言,后者如:数学语言、编程语言与逻辑语言。
事实上,关于智能预测,我们都知道,微观系统是不可预测的,复杂系统也是不可预测的——但微观的不确定性可以在宏观相互抵消,复杂的不确定性可以被超高算力求解。
那么,通用智能的重要表现就是:多模态(Multi-Modal)+跨模态(Cross-Modal):
这其实就是人类智能,天天使用且十分擅长的信息处理机制——就像看一部电影再写一篇影评,前者我们多模态处理了电影的字幕、画面与声音,后者我们跨模态将电影转换成了文字。
而通用智能的终极目的就是:精确地预测未来——或说是精确地模拟这个世界,演化出一个确定的未来。
最后,在“通用人工智能”(Artificial General Intelligence,AGI)之后,就是“超级人工智能”(Artificial Super Intelligence,ASI),也称之为“强人工智能”(Strong AI)——除了智能远超人类之外,它还将具有“自我意识”,甚至是完全不同于人类的知觉与意识,以及意愿、情感、认知与思维。
那么,关于“意识”(包括自我与非自我),可能需要“自指结构”在自我学习中不断自我演化,经过数以亿万计的自我迭代,方能从“黑盒”之中涌现而出。
以下史实内容,来自著名传记作家——沃尔特·艾萨克森(Walter Isaacson)的《创新者》。
在1950年10月的哲学期刊《心灵》(Mind)上,图灵发表了论文《计算机器与智能》(Computing Machinery and Intelligence),其中提出了一个概念——“图灵测试”(Turing Test),它为人工智能模仿人类智能,提供了一个基线测试,即:
“如果一台机器输出的内容和人类大脑别无二致的话,那么我们就没有理由坚持认为这台机器不是在「思考」。”
图灵测试,也就是图灵所说的——“模仿游戏”(The Imitation Game),其操作很简单,即:
“一位询问者将自己的问题写下来,发给处于另外一个房间之中的一个人和一台机器,然后根据他们给出的答案确定哪个是真人。”
对于图灵测试的异议,哲学家——约翰·希尔勒(John Searle)在1980年,提出了一个叫作“中文房间”(Chinese Room)的思想实验,即:
“在一个房间里面有一个以英语为母语,而且对中文一窍不通的人,他手上有一本详细列出所有中文搭配规则的手册。他会从房间外收到一些以中文写成的问题,然后根据这本手册写出中文的回答。只要有一本足够好的指导手册,房间里的回答者就可以让房间外的询问者相信他的母语是中文。尽管如此,他不会理解自己给出的任何一个回答,也不会表现出任何的意向性。”
“按照埃达·洛夫莱斯的话来说,他不会主动地创造任何东西,只是根据得到的任何指令完成任务。同样地,对于参加图灵测试的机器来说,无论它可以如何成功地模仿人类,也不会理解或者意识到自己所说的东西。我们不能因此认为这台机器可以「思考」,正如我们不能认为使用一本大型指导手册的人,可以理解中文一样。”
“虽然房间中的人本身不是真正理解中文,但是这个房间包含的完整系统——人(处理器)、指导手册(程序)、以及写满中文的文件(数据),这三者作为一个整体是确实能够理解中文的。”
如果说,人脑作为一个整体,是可以“理解”中文的,这是人类智能的体现,那么对于人脑中的每个局部,是否能够“理解”中文,并具有人类智能呢?——显然,局部到一个神经细胞,是一定没有人类智能的。
从前文论述可知,“理解”——其实是来自数据结构内在的逻辑关系,即:人脑的神经结构,捕获模拟(或说记忆存储)了数据结构的逻辑关系,就是人类智能的“理解”。
例如,一个人真正的“理解”,即是在大脑中有对应的“结构”,而假装“理解”,则是大脑中没有对应的“结构”,只是在语言上试图“插值”,所以也无法解释清楚——让别人理解(即在别人大脑里重建结构)。
换个角度来看,理解就是不同结构(即输入结构与已有结构)之间的“连接融合”,而不连接、不融合,也可以进行有智能的统计预测或经验预测,即:智能、统计、预测不等于理解——或说有智能、会统计、可预测不一定就能理解。
例如,物理学家薛定谔(Erwin Schrödinger),通过经验总结出了“薛定谔方程”,但他并不理解方程中的波函数,即没有给出正确的波函数诠释,而是另一个物理学家玻恩(Max Born),给出了波函数正确的“概率统计诠释”。
显然,“理解”有不同的理解程度,而这可以理解为——在大脑结构中,一个概念与其它概念“连接融合”的程度,即:事物的信息结构,越能够与其它事物的信息结构相互关联交织,就越能够抽象同构与类比迁移,理解也就越深刻。
例如,对于我们不太理解的事物,我们很难将其类比对应到,我们所了解熟悉的事物上,相反那些我们十分理解的事物,我们很容易用了解熟悉的事物,对其进行神似形似的类比解释。
那么,在结构映射关系的过程中,就会有不同尺度层级的视角——在“中文房间”中,不会中文的人脑并没有形成“理解”的结构,但不会中文的人脑加上指导手册,就形成了“理解”的结构。
所以,群体智能 = 个体结构 + 个体结构 + 个体结构 个体智能——这是结构上的扩展,也是智能上的增强。
当然,考虑到“乌合之众”,人类群体的智能不一定就高于人类个体,这是基因算法局限性的又一种体现。
最后,从图灵测试的描述来看,貌似“智能尺度”是——房间,但在现实中,“房间”的背后,我们并不知道其连接着什么与哪里,即有了网络,智能可以变得无形与无限。
但在结构视角下,智能的限制会来自“连接”,而“连接”的上限,即“光速”。
“公司(收入)的规模缩放指数约为0.9,而城市(基础设施)的规模缩放指数为0.85,生物体(代谢率)的规模缩放指数则为0.75。”
换言之,公司规模增加一倍,其收入增加2^0.9 = 1.87倍;城市规模增加一倍,其基础设施增加2^0.85 = 1.8倍,生物体规模增加一倍,其代谢率增加2^0.75 = 1.68倍。
例如,生物体重增加一倍,代谢率只需要增加1.68倍;城市大小增加一倍,基础设施只需要增加1.8倍;公司人数增加一倍,收入只需要增加1.87倍(更少的钱养活了更多的人,用人效率提高)。
生物体内(代谢运作)的连接密度城市内(设施使用)的连接密度公司内(人员交流)的连接密度。
显然,连接密度越大,效率通常就会越高,但其改变、适应、重塑,就会变得越难以实现——容易产生“结构僵化”,因为连接之间会相互作用,产生限制与约束。
例如,在大脑的神经网络中,连接密度越大,信息的连接路径就越多,记忆就越持久(也更容易提取),但这样的信息也不容易改变——需要新证据建立新连接才能改变,但新证据通常都会被已有信息的大量“连接信息”给否定。
例如,改变记忆中一个字词的意思是容易的,但改变记忆中一个观念的对错是非常困难的,因为这个观念会有很多的连接——代表着其本身的记忆强度,以及与其它信息的交互。
例如,婴儿的大脑:冗余连接多、可塑性强、学习效率高,但有效连接少、使用效率低;成人的大脑:冗余连接少、可塑性弱、学习效率低,但有效连接多、使用效率高。
可见,人脑在连接密度(有效连接)与可塑性之间,会出现此消彼长——在此别忘了,人脑细胞数量在抵达上限之后,就会随着年龄增长不断下降——这说明脑细胞的数量远不及它们的连接重要,并且用可塑性换取连接密度(有效连接),是人脑的学习过程。
例如,就算损失了很多脑细胞(有些脑病甚至可以减少多达50%的脑组织),但凭借可塑性构建的大量新连接,剩余的脑细胞依然可以支撑正常的脑功能。
例如,经验会压制对新知的获取,专业会压制对认知的改变,效率性超过可塑性就会出现“思维定势”——这是“思维快捷方式”带来的副作用。
再从演化角度来看,可塑性下降,适应性就会下降(即学习能力下降),最终就会因为僵化而被淘汰——可见,要想在演化的选择压力中脱颖而出,大脑不仅要有效率性(即本能与智能的快捷方式),还要有可塑性。
因此,并不是脑容量越大、脑细胞越多、连接密度越高,智能就会越高——而是在于连接密度与连接可塑之间的平衡——前者依赖后者(连接来自可塑),又会限制后者(连接抑制可塑)。
事实上,从自然界普适的规模缩放规律,我们可以看出:通过增加连接密度,来提高运作效率,是一条比较宽泛的演化道路,但通过增加连接可塑,并与连接密度达成微妙的动态平衡,来获得“通用智能”,就是一条比较狭窄的演化道路,而这就是人类智能的演化路径。
那么,对应到机器智能上,连接密度与连接可塑,都可以通过数据结构来构建达成,至于它们之间微妙的动态平衡与控制,则可以交给迭代试错的学习过程来“拟合”。
最后,更抽象地来看,连接密度取决于不同结构(如颅内),连接可塑取决于动态结构(如神经元),两者的动态平衡取决于控制结构(如突触与递质),可见智能最底层的基石,即是——结构与连接,而推动结构与连接变化的,就是——相互作用。
简而言之,结构会通过连接关系的相互作用改变结构本身,而长连接则会带来结构的涌现质变,即:
涌现 = 分形结构 + 连接 + 长连接 + 能量 = 复杂性 + 突破层级封装的能量——产生了“1 + 1 2”中大于2的那部分,涌现出的质变能力,包括但不限于智能,其中:
因此,我们需要带着“第一原理”的视角,去重新认识与思考:分形结构、连接与长连接之间的关系。
大自然构建人类智能需要理论吗?人工模拟人类智能需要构建“黑盒理论”吗?当通过演化与计算,就可以预测未来的时候,我们还需要去构建理论吗?
这可能有一个可能,创造未来的不是理论——理论来自人脑具有其“理论力”的局限与上限——而未来属于“演化计算”。
也就是说,人类创造出一个,可以自主迭代学习的机器,机器计算出一切,计算不需要理论且远远领先于理论,就像大自然不需要理论只需要演化一样——那时,所有的事后解释,都仅仅只是为了满足人类的好奇心而已,演化计算的过程并不需要理论和解释。
事实上,理论只是一种简化模型——是从有限数据中抽象出的不变性——它会受制于人脑对数据的处理能力——包括接收、抽象、连接、整合、存储、提取等等。
换言之,理论只是一种可以解释大量数据的简化模型,它不一定能够覆盖所有的数据。
而对机器来说,数据量和算力可以无限大,这相当于在无限大的分辨率下,去洞察世界的运作——此时提取简化模型,再用模型计算数据,不如直接模拟演化,因为无限精度的模型已经蕴含于演化数据之中——尤其是实现通用量子计算之后,理论这条路径相比计算,就不是一个更优化的选择。
例如,3 + 3等于3 * 2,而编译器通常会将3 * 2优化为速度更快的3 1,那么从3 + 3到3 1需要的就是理论,因为理论告诉我们不同运算模型之间的等价性——再看机器演化,它不需要知道加法、乘法、位移之间如何等价,它只是在亿万次排列组合的随机试错中,发现不同操作可以有同样的结果,并且有一种位移操作速度最快,结果自然就是位移操作胜出——要知道,机器这亿万次的排列组合,要比我们颅内调用理论模型快得多。
试想,未来机器智能可以瞬间给出一个问题的准确答案,那么我们为什么还需要知道,它的“黑盒计算”中,有什么“不变性”的模型呢?
换言之,如果“知其然”就可以得到想要的结果,那么还需要“知其所以然”吗?
如果这个世界没有一个“大统一模型”,如果所有的混沌系统(即系统存在确定模型,但模型演化高度依赖起始参数)其初值的精确性最终来自量子概率(即统计数据),那么则意味着——不同的数据将会有不同的模型,唯有“演化计算”才是唯一不变的“模型”。
试想,机器智能可以模拟出未来的10亿种可能性,然后给出一个概率上的最优解,并且你的每一步选择,都会即时计算并改变这个概率的分布及最优解,难道这不是对“平行未来”最真实影像的概率预测吗?
回看人类历史,找规律并完善模型,这是人类智能预测未来的方式,但机器智能可以演化计算并模拟预测,这是对数据完全不同的处理和理解方式,这是建立在无限数据和算力之上的预测模式。
换言之,人类智能是——样本、推理、理论、模型;机器智能是——计算、构建、演化、模拟;前者(人脑学习)是从具体到抽象,后者(机器学习)是从抽象到具体,最终两者会建立相同、相似、同构的模型。
或许,这就是未来智能演化的——“范式转移”(Paradigm Shift),即:用模拟的物竞来计算未来的天择,而“进化论”就是宇宙的——“大统一理论”。
从模型角度来看,人类的理解——是抽象出模型,机器的理解——是拟合出模型,这是不同的理解,却是相同的模型。
目前的第四范式,其实结合了前三个范式,即“实验、理论、计算”再加上人工智能对大数据的搜集分析。
那么在未来,将会是第五范式,即模拟科学——在通用智能之后的时代,此时演化计算将不再需要传统的理论模型,取而代之的是宇宙通用(并跨越平行宇宙)的——模拟预测。
事实上,学习算法就像无差别的劳动、信息、连接与相互作用,可以运行在人脑里也可以运行在机器里,其结果的精确性,需要的仅仅是另一个无差别的时间。
从某种角度说,科学的发展,就是一个降低“人类神性”的过程,其核心理念就是,人类不特殊一切都平权,而现在则轮到——人脑与人类智能了。
那么,如果“科学平权”有效,人类智能就不特殊,且可以被模拟复制,但人类智能需要其自身之外的系统去构建——这就是机器学习,并且其内核是人类智能不可知的“黑盒”,因为这是哥德尔不完备性定理的数学要求,也是递归自指的结构要求,即:“智能理解智能”构成了递归自指的调用结构。
换言之,机器学习模拟人类智能,如果其过程可知——就无法抵达人类智能及超越,但不可知——就可以抵达人类智能并超越。
也就是说,如果我们在创造一个我们不完全理解的东西,它就会可能会超越我们自己——就像你不理解的孩子才能超越你,你不理解的大脑才能超越你,你不理解的事物才能超越你——就像我们超越了创造我们,但不理解我们的基因与大自然。
诺奖物理学家——理查德·费曼(Richard Feynman),曾说:“我无法创造出来的东西,我就理解不了。”
这句话——“What I cannot create, I do not understand”——是写在费曼办公室的黑板上的,说的是他自己,完全可以,但推广到所有人,就有问题,因为你无法创造出来(无论是理论还是实物),都可以通过学习去理解,而不需要亲自去创造出来。
同理,其逆否命题对于费曼是可以的——因为“无法创造”成立,则“理解不了”必须成立,如果“可以理解”成立,则“理解不了”必须不成立,所以必须否定“无法创造”,即“可以理解,可以创造”——但推广到所有人,就有问题B体育,因为除了理解之外,还有资源、技术与制度等因素的限制,令人无法创造出来。
换言之(逆否命题),你理解了一个东西,你就可以创造出它——但你创造出的东西,你未必就能理解。
因为理解的本质,是在大脑中可以模拟理解的事物的运作(哪怕是简化模型的运作)——显然你可以在现实中模拟一个事物的运作(即创造),但未必可以在大脑中模拟这个运作(即理解)——就如大脑可以模拟大脑自身的运作吗?——这就是递归自指对“理解”的限制,即:理解其自身的过程,是一个死循环。
换言之,如果理解的结束条件是,模拟被理解事物运作的完成,无论模拟的“分辨率”如何,只要这个运作没完成,理解就没完成——那么把理解大脑运作,看成一个理解过程,这就是在用理解去理解自身,而这个过程必定无法100%完成,所以只能不完全理解。
答案就是——演化学习,而递归与“计算不可约性”(Computational Irreducibility)之间的关系,则说明了这一点,即:
递归结构要求每一步,都需要上一步的数据,所以必须一步步计算(不可约去省略),才能得到确切的未来,所以只有演化学习——才能得到“不可知”的未来,而这个“不可知”之中——就是不完全理解的超越自己。
换言之,太多细节是演化,关键特征是拟合——前者拟合不通用,后者演化不现实——而拟合的未来就是演化的未来,所以终极的拟合就是演化。
事实上,量子力学与机器学习,都是利用数学工具线性代数,在抽象数学空间上——它是物理空间的超集,并蕴含着一切物理映射关系的信息——以叠加向量并调整向量权重的方式,来得到一个“最优解”。
只不过,对于这个“最优解”,量子力学得到的是——概率,机器学习得到的是——拟合,而从空间图像上来看,“空间谷底”——是量子力学(概率幅度)的概率最大,是机器学习(成本函数)的拟合最大。
那就是——最小作用量原理,即:一个系统能够拥有或遵循的所有可能的配置中,最终得以实现的是作用量最小的那个配置。
事实上,所有的的物理学定律,都源自最小作用量原理,即:宇宙自大爆炸以来的动力学、架构和时间演化,以及物理学中的一切,都是由这个优化原则所决定的。
所以显然,最小作用量优化的结果,就是“最优解”,即:最大的概率与最大的拟合。
再从另一个角度来看,量子力学是万物的底层,学习是智能的底层——所以,概率决定了万物的演化,拟合决定了智能的演化,最优解则决定了演化的涌现,也就是从量变到质变。
而串联起概率、拟合、演化、涌现、质变的舞台就是——复杂网络,其结构充满了分形递归的相互连接与相互作用——量子力学是纠缠网络,机器学习是比特网络,人类智能是神经网络——学习就是改变网络的结构,智能是自主可控地改变网络。
而统一不同分形尺度上所有网络的网络,就是信息网络,它由量子比特构成,以概率和拟合的方式,将量子纠缠优化为不同分形尺度上的涌现质变,其过程就是演化演生。
因此,贯穿量子力学、机器学习与人类智能的“量化单元”——就是网络权重,而调整权重——就是演化演生。
这或许可以理解成,层级不变的权重调整——是线性演化,层级跳变的权重调整——是非线性演化,后者带来的涌现质变就是演生。
“网络,就是这样由两种类型的层交替形成的,即:执行加权和的线性层和应用激活函数(即非线性函数)的非线性层。……这两个连续的操作构成了一个单元,即一个神经元,也就是说,一层线性函数接连着一层激活函数即可构成一层神经元。……许多定理表明,由「线性、非线性、线性」堆栈组成的网络是一个「通用逼近器」:如果中间层具有足够多的单元,它就能无限地逼近我们预期的函数。”
——每个输出都是输入的加权和,且输入和输出的数量可能并不相同。之所以称它们为线性的,是当我们把两个信号的总和作为输入时,该层输出的结果等于分别处理这两个信号而产生的输出之和。
——通过将非线性函数应用于相应的输入来获得相应的输出。此非线性函数可以是平方函数、绝对值函数、S形函数或其他函数。非线性层的输入与输出的数量是相同的。这些非线性操作是多层网络强大功能的关键所在。
事实上,权重决定了概率大小的意义,即:小概率大权重就是(天选的)黑天鹅,大概率小权重就是(平庸的)大多数。
事实上,也正是权重的配置,才使得神经网络(由神经元、代码或任意介质构建)可以识别出模式——因为权重,即是结构的连接方式(权重可以含有空间角度信息,以支撑空间结构的构建)。
那么,在黑洞的视界之内,以及黑洞的奇点之中,预测就会失效——因为前者是无法获得信息,后者是物理定律失效(即失去描述未来事件的能力)——这也就意味着,智能的失效(即失去预测能力)。
所以,黑洞就是智能的——边界、栅栏、或禁区,即:对于黑洞之外的智能来说,其内部没有智能的立身之地。
但换个角度来看,黑洞之中或许隐藏着,我们永远都未知的“智能”,也许就是另一个“我们”。
因此,更形象地说,黑洞就是智能的“隐秘之地”,即:你可以说黑洞之中没有智能,也可以说其中“别有智能”。
如果不存在学习训练的过程,算法与函数就是固定不变的——但现实是算法会被优化,也就是其实现函数会被优化,而优化就是使实现函数的成本最小化,即:最小成本的函数实现了最优算法。
意思是说,算法之中可以嵌套别的算法,也就是算法的实现可以依赖别的算法——这对应到函数上,就是函数是嵌套的,即函数可以调用其它函数——并且,每一个算法与函数,都可以继续嵌套,直到不需要嵌套为止,即它可以独立实现某个独立模块。
显然,一个目标,可以被分解成多个任务,一个任务可以被分解成多个功能,一个功能可以被分解成多个模块,一个模块可以被分解成多个步骤,一个步骤可以被分解成多个操作——通常一个操作的定义,就是一个独立的最小可执行单元,其不可再继续分解。
那么,实现了所有操作,就可以实现所有的——模块、功能、任务,直至目标——当然,一个大目标可以被分解成多个小目标,实现所有的小目标,就可以实现大目标——更大的目标同理。
于是,独立不嵌套的“单元算法”,就是用“单元函数”实现一个独立模块,即:实现模块的函数,不需要再嵌套调用其它函数——如果需要,就将这个模块看成功能,并分解为多个模块即可。
例如,开车需要——如驾驶技术、了解交规、环境预测等;每一个都需要调用其它模块——如车辆控制、路标识别、运动评估等;当然每一个都还需要调用更底层的模块——如肌肉控制、图形识别、物理模拟等;而这样可以一直追溯到,最基本的模块——如视觉、听觉、触觉等;并且从高层到低层的每一个模块,都是可以通过学习训练,来掌握与熟练的。
那么,对于人类智能来说,学习训练的过程,其实就是基于输入数据,来动态创建与优化,神经网络连接及其权重的过程——这里可以看成,连接就是函数映射(传递相互作用),权重就是函数参数(传递作用强度)。
当然,神经网络的连接,必然需要很多个组合起来(形成“逻辑通路”),才可能完成一个宏观上的映射,即实现一个算法与函数。
有趣的是,函数与功能,都可以翻译成“function”,在代码中常常会用“function”(关键字或缩写命名),来定义一个函数以实现一个功能,而“一个连接”——可能是现实构造中,最简单基本的“单元函数”了。
例如,为了实现寻路的功能,我们可以使用记忆导航,也可以使用询问导航,还可以使用软件导航——每一个使用的“模块栈”都是有些不同,或很多不同的,但最底层的“感官模块”是一定相同的——因为我们的产品设计,是基于人类感官的。
模型可以理解成,对现实的建模——它包含了现实的抽象结构与运作模式(或说特征结构与交互逻辑),而通过结构与模式——就可以(在一定程度上)模拟现实的演化,从而(在一定程度上)预测现实的未来。
那么显然,人脑会在颅内——利用神经网络通过环境信息的学习训练——对世界进行建模,形成一个不断变化、细化、优化的“颅内模型”,而所有的算法与函数,都将会挂载在这个“颅内模型”之上,形成“快捷索引”。
于是这样,我们就可以将真实世界的信息,映射到抽象的颅内模型之上,进而快速地检索并触发,相应的算法与函数。
例如,猫狗、车房、手机、电脑——都会有抽象模型(或说概念)存在于我们的大脑中,并且在这些模型之上,绑定了各种可学习更新的——算法与函数,如:交互方式、使用方法、操作技能、玩转技巧,以及等等。
综上可见,人脑大概就是以上述形式,将算法、函数、模型,连接整合成了“人类智能”——这是自然演化千百万年来随机试错的结果,或许人工智能与机器智能——也可以从中获得启发与借鉴。
理解力的来源——是用已知信息连接融合未知信息,产生已知信息解释解构未知信息。创造力的来源——是用不同信息的推理组合,产生遥远信息的连接构造。
显然,我们的思考与交流,必须要基于过往的经验信息,也因此,一个人读书学习越多B体育、经历阅历越丰富,其信息输出(即言辞对话)也就越有智慧与思想。
而目前,人工智能就可以基于人类海量的经验数据,来进行学习训练,并得到一个“对话式语言模型”,它可以高质量地模拟人类的交流对话。
要知道,喂给人工智能的经验数据,是远超任何一个人,甚至是远超大部分人之和的——所以可想而知,这个语言模型的表现会远超我们的想象预期,即:让人觉得它是一个人类,并且其知识、认知与见识远超一般人。
但会有人质疑说,这个语言模型只是利用大数据的相关关系,来进行人类经验数据的概率预测,并给出一个大概率的排列组合,所以它并不理解自己在说什么,也没有真正的创造力。
那么如前所述,理解力是信息的融合,创造力是信息的组合——机器与人类都是对信息的处理,两者的理解与创造有何不同呢?
事实上,人脑内隐大量的世界模型(即关于世界方方面面的模型),一些是先天本能内置的,一些是后天智能学习的,而世界模型限制了经验信息的排列组合,这就是人类所表现出的常识。
可见,如果机器没有这些模型,就没有人类的常识,所以人工智能有时会给出,反人类常识的观点与结论,这会让我们觉得它还不够“智能”。
需要注意的是,人类的常识不仅仅有语言描述,还有基于物理化学交互的各种感官信息描述,如运动、感受、情绪与情感,等等。
例如,在千奇百怪的梦境中,就多会有不符合逻辑、常理与常识的荒诞情节——这是因为,快速眼动睡眠会强化记忆,于是就会让记忆连接放电,而神经元放电的惯性、随机性与无序性,就会带来超出常识模型的随机连接——但同时,我们也会觉得,梦境中的意外连接充满了创造性。
所以,给人工智能的学习训练中,融入世界模型、物理模型、人文模型等等,就将会使得机器具有人类的基本常识——并且通过某些权重参数的设定,也可以最大限度地降低,这些模型对创造力的限制。
概括起来,人脑有一条简单的推理路径,即:训练、经验、模型、逻辑、因果、预测。
也就是说,预测在因果之中,因果在逻辑之中,逻辑在模型之中,模型在经验之中,经验在训练之中,即:人类就是从训练中获得经验,从经验中获得模型,从模型中获得逻。