一万年前
最近身体一直不是很好,精力也有限,这篇文章是用语音输入之后,大部分都是直接用ai整理了一下,改正错误使句子更加通顺。所以读起来可能跟我之前的语言风格稍微有点差别。不过内容没有任何AI生成,只是简单整理了一下句式使之更通顺。
在人类的进化史上,大约一万年前是一个至关重要的转折点。在此之前漫长的岁月里,人类使用的工具都相当粗糙,往往只是简单地将石块击碎,利用其产生的尖锐边缘。然而,大约从一万年前开始,工具制造出现了显著的进步,例如经过精细打磨的石斧等更为复杂的器具开始涌现。
这一时期不仅见证了工具的革新,更标志着人类社会结构的根本性转变。人类开始驯化动植物,迈入了农业社会,并掌握了制作陶器的技术。这些变革共同催生了多样的文化与文明的曙光,人类由此真正进入了我们所说的历史时期。
古老的埃及文明便发端于七八千年前。中国的贾湖文化最早也出现在八九千年前,我们现在甚至在贾湖发现了一些早期刻画的文字符号。
数百万年前人类与大猩猩分道扬镳、开始直立行走后,其智力水平的增长在很长一段时间内并不显著。早期人类的智能行为,例如简单地砸碎石头制作工具,与某些动物所展现的初级智能相比,高出得并不多。
比如,大猩猩会用树枝把白蚁从洞里掏出来吃掉;为了取到高处的香蕉,它们会把箱子堆叠到下面,然后跳上去取香蕉;再比如我们所知道的著名的乌鸦喝水的故事,乌鸦会把石头丢到瓶子里,使水位升高,然后把嘴伸进去喝到水。
随着几百万年的进化,人类的智力可能逐步提高。从早期人类到现代意义的人类,经历了许多阶段。首先,人类变成了直立形态,解放了双手,从而能够使用灵巧的双手慢慢创造各种各样的工具。创造工具本身会对大脑的结构形成一种反向进化的选择——那些能够制造更强工具的早期人类被自然选择下来。
即便到了数十万年前的旧石器时代,人类对工具的使用依然相对原始。虽然出现了长矛等工具,但这与早期使用的棍棒相比,并非革命性的飞跃,更像是在原有基础上的改良,整体发展仍显缓慢。
因此,当我们审视整个人类发展历程时,会清晰地看到,正是在大约一万年前这个节点,人类的能力和创造力呈现出突飞猛进的态势。精细的石器、鱼叉等工具被制造出来,农业和畜牧业开始出现和发展,开始出现了早期的聚居并逐步进入文明社会。
值得注意的是,大约一万年前的人类,其天生的智力水平与现代人相比,并无本质差异。我们之间的区别,主要在于文明的积累和后天习得的知识。如果将一个一万年前的婴儿带到现代社会抚养成人,他的智力水平将与我们现代人类没有任何区别。
一万年前的这些变化是如此的剧烈,不禁让人去思考,到底是发生了什么使得这一切成为可能呢?我们的祖先似乎在一夜之间就好像从原始的生物变成了现代意义上的人类一样。
首先我们如何定义智力呢?生物的智能,究竟达到何种程度才算高级,何种程度又算低级?
比如,大猩猩能扭开矿泉水瓶,或者剥掉树枝的皮,伸进白蚁洞穴钓取白蚁。这难道不都是智能的行为吗?
乌鸦知道把石头丢到瓶子里以升高水位。这难道不是有一些简单的推理吗?或者说这是对我们这个世界因果关系的初步认知吗?
在1万年前到底发生了什么,使得人类能够与这些简单的智能区分开来呢?我们所定义的现代人类智力,究竟在哪个层面超越了这种对自然界因果关系的浅层分析呢?
其实我们可以仔细的看一下,人类在1万年前左右慢慢的开始驯化了植物,这是一个非常重要的标志。要实现植物驯化,人类需要具备怎样的智力基础?为什么大猩猩不会自己耕种呢?
我们假设一个场景,我们的祖先从山林中摘取果实食用,随手将果核丢弃在河边平地上,当时并未留意。然而,数月乃至数年后,当他发现当初丢弃果核的地方长出了一棵同样的果树时,他能否意识到这棵树源于他丢弃的果核?如果他能建立这种联系,我们便可以说,他已具备了相当的智力水平。
换言之,通过观察种子的生长过程,理解到播种即可收获树木,这本身就是一种非常高级的智力表现。甚至可以说,在某种程度上,这种智力水平与现代人类已无本质区别。这种能力,正是对长时间、长距离因果关系进行关联的智力水平。
当我们的祖先观察到丢弃的果核能长出同样的果树,并结出他曾食用的果实时,他们便具备了驯化植物的能力,进而发展出了现代意义上的农业文明。
也就是说,从早期类人猿进化到现代人类,这种建立长期因果关联的能力,是区分人与动物的核心标志之一。
这意味着,在进化过程中,人类大脑必然发生了某种非常重要的变化,使其能够建立这种长期的因果联系。诚然,如前述乌鸦喝水的例子所示,动物界也能建立简单的短期因果关联。但这种跨越数月乃至数年的长期、长距离因果关联能力,却是人类独有的、区别于其他动物的特质。正是这种能力,使人类观察到种子埋入土中便能生长结果。
同样,大脑的这种高级认知能力,也使人类不再像旧石器时代那样仅仅简单敲碎石头制造粗糙工具,而是能够对石料进行深加工,打磨成斧头、石锄等多样化的工具,并利用黏土烧制陶器以储存物品。
正是这些认知和行为上的飞跃,推动人类一步步迈向现代文明。人类不再单纯依赖四处狩猎,而是通过驯化植物、发展种植业获得了稳定的食物来源,摆脱了饥饱不均的生活,并逐渐定居下来。随后,又驯化了猪、羊等动物,逐步发展出现代意义上的文明。
以大约八九千年前的贾湖文化为例,那时的先民已经能够制作骨笛,并种植水稻等谷物。这表明,他们的智力水平与现代人并无本质差异,只是他们的知识的积累与传承跟我们现代社会还差很多。又经过几千年的持续演化,人类社会才逐渐发展出现代意义上的文字和国家形态。
那么,进入农业文明早期的人类,最可能选择在哪里定居呢?考虑到当时工具主要为石器,他们很可能居住在离山不远的地方,以便获取石料进行加工。同时,农业耕种需要大片平整的土地,这意味着他们倾向于在平原地区生活。此外,水源是生存之本,因此,沿河而居成为常态,河流不仅提供饮水,其捕捞的鱼类也能补充食物来源。
综上所述,早期人类的理想聚居地,大致轮廓便是:依山傍水、河谷平原。在进入有文字记载的文明时期之前,人类大多生活在这样的区域。
以此推论,我们或许可以对中国最早的王朝——夏朝(约公元前2000年)的活动范围进行一些推测。根据目前的考古学观点,青铜器在夏商之交,即夏朝晚期才逐渐普及。这意味着夏朝在很长一段时间内,仍大量依赖石制工具。因此,夏朝先民的活动区域,很可能也符合上述特征:靠近山脉的平原地带,并主要沿河流分布。
按照《史记》中的记载“颍川、南阳,夏人之所居也”,这条记载我感觉应该有较高的可信度。颍川和南阳(今河南部分地区)均位于山脉(如伏牛山、嵩山)东麓的平原之上,历史上这些地区河网密布,与早期人类理想的定居环境相符。值得一提的是,颍川地区今天的名字就叫禹州,不管是后人附会还是其他原因,都暗示着其与夏之间可能存在的历史渊源。
司马迁在《史记》中对殷商帝王世系的记载,跟现代考古发现吻合的很好,这增强了他关于夏人居于颍川、南阳一带记录的可信性——这些信息很可能源于可靠的古代口传史料或文献。
另一个值得注意的现象是,年代更早的贾湖文化(约公元前7000年-前5500年)其核心区域也大致在颍川、南阳附近。这不禁引人深思:中国早期的夏朝文明,是否与贾湖文化存在某种传承或联系?
由于早期聚落多沿河而建,易受洪水侵袭,许多遗址可能已被泥沙深埋地下,尚未被我们发现。但结合史料记载的地理位置与对古人活动模式的推测,或许能帮助我们更有针对性地缩小考古搜寻范围。
当然这些都是一些臆想猜测罢了,一切还有待历史学家和考古学家的研究发掘。
让我们回到人类智力的进化这一话题。
我们可以设想,人类大脑中对于所见所闻以及各种思绪,都存在着与之对应的“概念”,在语言中,这通常表现为一个“词”。
那么,究竟什么是智能呢?我们的智能,是否可以理解为对这些概念及其相互关系(例如前后关联、逻辑结构等)的认知与运用?比如,我们能从一个概念推理出另一个概念,或者将某些概念归纳到另一些概念之下。我们对这些概念进行操作,并理解它们之间复杂关系结构的能力,是否就构成了我们所谓的智能?
再来看动物。它们的大脑中是否也存在类似的概念,用以对应它们所感知的事物、世界的时空结构,乃至各种几何形体与物体呢?如果对概念进行操作和推理就能构成智能,那么动物为何未能发展出与人类相当的智能水平?
这是否意味着,除了概念间的关系处理能力外,人类还具备某些动物所不具备的特质?例如,对时间、空间等基本要素的深刻理解。又或者,当自然界中的物体与现象映射为大脑中的概念时,人类是否进行了一些独特的“加工”——在时间和空间维度上,或在某些认知结构上,产生了某种我们尚未察觉、却有别于动物的细微变化?
如果我们假设,人类和动物在将外界感官信息(如视觉、听觉)转化为大脑神经元所承载的概念这一基础过程上,差异并不显著。那么,人类所谓的高级智能,是否就意味着在更高层面上对这些概念进行操作时,发生了某些微妙的“变形”或质变,从而催生了这种高级智能?
乌鸦会将石头投入瓶中,使水面上升以便饮水。这是否表明,乌鸦已经能够将自然界的事物转化为大脑中的概念,并进行初步的推理?
就像我们之前说的,人类与动物之间最根本的差别,或许在于捕捉“长时程关联”的能力——即便是间隔很久的两个变量之间的联系。例如,几个月甚至几年前随意丢弃的一枚果核,在它日后发芽、长成小树时,人类能够意识到这与当初丢弃的果核存在因果关联。这种跨越长时间尺度的认知能力,它的进化需要怎样的生理结构作为支撑呢?
如果人类与动物的智力差异,主要就体现在这种远距离概念关联(即超长程因果链)的捕捉能力上,那么这种差异在大脑神经元的结构层面应有何体现?换言之,即便神经元本身的解剖结构差异不大,是否因为人类大脑中存在某种特殊机制,能够构建起连接远距离神经元的通路,从而使我们得以捕捉并理解这些长程的、跨越广泛上下文的因果关系?
根据目前的考古学研究,大约在五万年前,解剖学意义上的现代人类(如克罗马农人等),脑容量便已与现代人类相差无几。在此后的数万年间,大脑可能仍在逐步演化并产生了一些细微的结构变化,加上种群扩散,逐渐发展的新的工具使用和语言交流的改进,直到大约一万年前的关键节点,农业定居等等开始出现,才最终发生了剧烈社会变革。
这个问题讨论的有点远了,就到这里吧,下面我们再来看一下现在的人工智能大模型。
实际上如果人大脑内的一个个的概念,我们都用一个个的汉字来对应表示,那么智能就是对于这一个个汉字之间的关系结构进行深刻的理解洞察。
不管是单个句子还是一整篇文章,其核心都在于构成它的基本单元——汉字——之间的关系。具体来说,这包括一句话中字与字的关系,一篇文章中前后句子间的联系。这些字与字的关系,以及由它们组成的更高层级的词与词、句子与句子之间的关系,共同构成了文章的整体结构,包括文字的先后顺序。这些错综复杂的关系,便形成了我们所说的,大脑在某一时刻的思想。
实际上,一篇文章可以被视为人类大脑在特定时刻思想或想法的凝固形式。一篇文章所表达的想法、思想或智慧,都蕴含在字与字之间的联系与关联之中。
人工智能大模型研究的核心,也正是这些字与字之间的联系。通过学习海量的文本数据,大模型得以理解不同汉字在语言中的位置,进而推断出字与字、概念与概念之间的关系结构。
在大模型的进化历程中,我认为有几个关键节点至关重要。首先是每个汉字的表示,即我们所说的“词向量”(或字向量),它用一串数字来代表一个汉字。
其次,同样重要的是汉字与汉字之间的关系,也就是词向量(或字向量)之间的关系。具体到一句话,模型需要研究其中每个字与其它所有字之间的关联结构,这就是所谓的“注意力机制”attention,它关注的正是字与字之间的相互关联。
因此,核心要素有两个:一是字的表示,二是字与字之间的关系(即注意力机制)。就像那篇著名论文标题所说,“Attention is All You Need”。
现在的大模型的训练过程,实质上就是通过输入海量文章,来建立这些字与字、概念与概念之间的联系结构。这些联系结构以数字形式存储在某种数据结构中。例如,一个拥有数百亿(如200B,即两千亿)参数的大模型,在经过海量数据训练后,其字与字之间的关联结构就固化在这数百亿个参数(数字)之中。
于是有趣的事情就来了,按照我们前面人类进化的观点,模型能够关联的字与字之间的距离越长,其智能水平就越高。也就是说,大模型一次能处理的文本(输入)越长,其捕捉远距离依赖关系的能力就越强,智能水平也相应更高。这种处理长度在大模型中通常被称为“上下文长度”(Context Length)。值得注意的是,它并非总是指计算注意力矩阵时输入的实际序列长度,有时是通过特殊技术优化(如滑动窗口)后达成的有效长度。例如,一个号称拥有百万(1M)级别上下文长度的大模型,其在计算注意力矩阵时实际输入的序列长度可能只有8000左右。
之所以需要这些优化,是因为在注意力机制中,Query、Key、Value矩阵的运算(尤其是Q和K的点积)会将计算复杂度从线性O(n)提升到平方级别O(n²)。因此,简单地扩展输入序列的长度,会导致所需算力呈平方级增长,这在当前技术条件下难以直接实现大规模扩展。
相比之下,人类智能的独到之处,关键在于能够关联超长上下文,例如将几年前的事件与当前事物联系起来。这种进行宏观、长期规划与推理,以及组织和计算概念间关系的能力,是人类高阶智能的源泉。人类正是因为善于捕捉这些看似遥远或毫不相关的概念间的联系,才产生了高阶智慧,并具备了对长期任务进行规划、执行和关联的能力,这使我们区别于其他动物。
那么,对于大模型而言,我们是否可以引入类似长期记忆和短期记忆的机制,以实现超长上下文的关联呢?换言之,能否在现有transformer模型结构的基础上,增添长短期记忆模块,使其能够捕捉更远距离的依赖关系?
lstm这种rnn循环神经网络,本身就是设计用来捕捉长短期记忆的模型结构,那么我们为什么不尝试将其与transformer模型中的注意力机制结合起来呢?
这样就使得transformer拥有了超长的上下文捕捉的能力,同时又降低了计算的复杂度。看起来似乎是一种很好的解决方案。
我简单的搜索了一下,看来不光我这么想,这也是当前人工智能大模型领域的一个重要研究发展方向,已经有不少论文都在聚焦于这上面了,像rwkv和mamba都是这么玩的。
人类集体的智慧是可怕的,目前看来对于现在的主流的transformer大模型的改进空间还有很多,只要不停的去想去尝试去优化,总是能找到更好的解决方案的。
未来还是让我们拭目以待吧。