玩了下transformer
最近因为产品上的一个想法,决定尝试下能否用transformer来实现。 于是专门抽出了块时间仔细的写写代码玩了一下。其实产品上想法的验证是一方面,最主要还是GPT之类的火了这么久,之前虽然简单地了解过背后的原理技术,心里总是想找个时间写代码跑跑训练小模型试试,几个原因叠加在一起吧,最近也是难得抽出来一大块时间,仔细地跑了一下。
俗话说得好,纸上得来终觉浅,绝知此事要躬行。只有自己真的尝试去实现了,才能更深刻的把握其中的原理细节,搞清楚为什么要这样设计,发现当中的细微精妙之处,才能更好的去扩展应用和改进。 我这段时间不停的写代码调试训练的过程中,大脑中不断地不自主的索引到这句话,感触颇深。
另一个方面,自从毕业以后,游戏和图形图像相关的技术搞得比较多一点,NLP之类的就基本没怎么搞过了,很多新技术都没有具体的去了解过,也是趁着这次机会详细的又深入学习研究了一遍。
整个过程差不多花了半个多月的时间,超出了我当初打算投入的时间不少,大部分都花在了研究一些技术的细节上面,需要阅读很多资料文章甚至论文才能彻底搞明白。不过回头评估一下,我其实是很开心的,并没有觉得时间被浪费掉,而是很强的获得感。
好了,下面进入正题。
既然是测试评估,那就要写一个程序来玩玩,什么样的程序呢? 因为transformer最早是被用来解决机器翻译问题的,所以我用来试水的代码也是一个翻译的程序,比如把汉语...