重现当年AlphaGo神来之笔！DeepMind新AI发现提速70%排序算法

频道：犯罪电影日期：2023-06-15 14:13:13 来源

这一次，他们又一强化学习AI，在计算机领域最最最基础的两个算法上做了新突破：

另一个是哈希算法，也找到了速度提高30%的新方法。

不仅如此，该AI所用方法被称为“重现当年AlphaGo的神来之笔”，也就是看似违法直觉，实则一举击败人类高手李世石的那次。

而正是因为这一最新成果，十年都没有更新的LLVM标准C++库都更新了，并且数十亿人将会受益。

但这个游戏的挑战不仅在于搜索空间的大小（可组合指令数相当于宇宙中的粒子数），也在于奖励函数的性质，因为一条错误指令就可能会使整个算法失效。

其中，学习算法主要是在强大的AlphaZero上扩展的，它可以结合DRL和随机搜索优化算法来进行巨量的指令搜索；主要的表示函数则基于Transformer，它能够抓住汇编程序的底层结构，并表示成特殊的序列。

（3-5个元素的短序列排序其实使用非常广泛，因为它能够作为较大排序函数的一部分被多次调用。因此，只要改进了短序列，任意数量序列的整体排序速度都能得到提高。）

如下图所示，左边是利用了min(A,B,C)的原始sort3实现，右边是通过“AlphaDev Swap Move”，只需要min(A,B)的实现。能够发现可以省掉一步指令，还只需要算出A和B的最小值即可。

作者表示，这种新颖的方法让人想起当年AlphaGo的“第 37 步”——一种违反直觉的下法却直接击败传奇围棋选手李世石，让观众全都震惊不已。

同样，AlphaDev则是通过交换和复制移动，跳过了一个步骤，以一种看似错误但实际上是捷径的方式达成目标。

如下图所示，在对8个元素进行排序的算法中，AlphaDev也同样利用“AlphaDev Copy Move”，用max (B, min (A, C))替换了原始实现中更为复杂的max (B, min (A, C, D))指令，并且使整个算法的指令总数也减少了一步。

而在发现更快的排序算法后，作者也用AlphaDev试了试哈希算法，以此证明其通用性。

结果也没有让人失望，AlphaDev在9-16字节的长度范围内也实现了30%的速度提升。

关键词：重现