关于机器学习的一些思考
这篇文章本来是写在上一篇的结尾的,因为实在是太长了,单独拆分了出来。
我们再讨论一下transformer模型的能力极限吧,chatGPT刚出来的时候,很多人都感觉到非常的惊艳,似乎聊天机器人很可能实现类似人类水平的智能,整个世界都似乎被震撼到了,引起了AI行业的狂热。
然而这只是表象,我们这里仔细的观察讨论一下transformer最核心的原理和技术,然后再对他的能力极限的做出一个判断和预测。
依照技术的进化路径,我们先从词向量和RNN来说起。
什么是词向量或者说词嵌入呢?它的英文叫word embedding,原理就是用若干个数字来表示一个字或者词。比如道这个字,我们用256个数字来表示它,比如(0.2,0.6,0.8,.....,0.7),为什么要这样干呢?因为用一串数字来表示它的话,就可以表达很多细微的概念和意思,而且这些数字可以进行一些运算操作,比如king在英语里表示国王,women表示女人,man表示男人,那么我们进行一些数学运算,比如king减去man再加上women会得到什么结果呢?没错,跟我们的直觉是一样的,得到的结果就是queen,也就是女王。这是nlp领域里边非常著名的一个例子,一般讲词向量都会用这个来举例。
实际上词向量的核心思想就在于,每一个词都用若干个更基础的原始概念来表示,我们看到前面表示道字的256个数字,其实就是底层的256个概念每一个...