生成式人工智能简直就是一场技术旋风。GPT-4 等模型以其超现实的能力席卷了世界,它们可以生成模仿人类对话的文本、撰写文章、编写代码,甚至为一些相当复杂的任务提出创造性的解决方案。我们正不断接近人工智能辅助的未来,我们的数字助理将毫不费力地理解和响应我们的需求。这足以让任何人成为信徒,对吧?
好吧,差不多…但不完全是。
瞧,在 GPT 华丽的输出和语法的背后,有一个根本的限制,这个限制让我们许多技术人员抓狂:生成式人工智能很难处理全新的信息,尤其是在一次性学习场景中。这个看似简单(却令人沮丧)的问题揭示了当前人工智能系统的一个核心缺陷。尽管能够从数十亿个数据点合成令人印象深刻的段落,但当面对真正的新颖性(它以前从未见过或训练过的东西)时,GPT 式模型会遇到固有的障碍。
这描绘了我所说的“一次性泛化悖论” :无论多么强大,无论像 GPT 这样的人工智能系统看起来多么“智能”,当需要从单个或少数几个看不见的示例中快速概括时,它们就会崩溃。
让我们来解开这个悖论,并深入探究其背后的原因。不过别担心,我们不会只从哲学角度来探讨这个问题——我们将深入技术泥潭,探索究竟是什么阻止了我们当前的人工智能在面对陌生事物时拥有与人类一样神奇的灵活性。
GPT-4 等模型的核心优势在于其复杂的Transformer 架构,该架构因能够为从语言模型到视觉任务等所有任务提供动力而闻名。现在,我不想在这篇文章的开头就用专业术语来拖累你(我们才刚刚开始),但需要解开一些技术层面的谜团,才能弄清楚裂缝从哪里开始显现以及为什么开始显现。
首先,GPT 属于基于序列的模型家族,经过训练可以预测任何给定文本中的下一个单词或标记。它们是如何变得如此擅长的?很大程度上,这要归功于Transformer内置的自注意力机制,该机制允许这些模型筛选大量文本并本质上“关注”句子的重要部分,同时查看整个序列中的单词。这种全局注意力机制迅速成为捕捉大量文本中上下文相关含义的支柱。
但悖论的关键在于:生成式人工智能严重依赖这些训练数据。它非常擅长识别之前见过的数据中标记之间的模式和统计关系,但它也本质上依赖于这些数据。当模型发布时,GPT-4实际上还没有学会推理或发展对世界的理解。相反,它利用了从网上找到的数十亿个文本示例中获得的关联(在书籍、维基百科、Reddit 帖子、学术论文……应有尽有)。
因此,虽然 GPT 可能感觉像是一个无所不知的神谕,可以生成连贯且有时富有洞察力的文本,但它真正做的是玩一场令人印象深刻的概率模式匹配游戏。意义何在?当出现新事物时(例如一篇关于量子力学的全新科学论文或一些特定行业的术语),它会努力使其有意义地理解。
它...无法计算。
现在,人类与机器之间的显著差异就在这里。想象一下,你正在阅读一个完全超出你专业知识范围的概念。也许你是一家科技初创公司的创始人,正在探索机械工程领域。当然,你可能不会在第一次阅读时就把所有要点联系起来——但在浏览了一些示例或图表后,一些直观的灯泡会闪烁。啊哈,这是一个控制系统!这和那个有联系!然后,你瞧,你就明白了(或者至少是大部分)。
这种细微差别被称为一次性概括——能够根据最少的例子快速掌握模式或理解全新信息。这是人类非常擅长的事情。我们利用一小部分知识,直观地将其映射到我们已经知道的更广泛的主题、结构或类比中。换句话说,我们不需要一百万个例子或大量的过去数据就能获得顿悟。
与之形成鲜明对比的是,生成模型对世界没有任何天生的理解。它们在统计空间中随机行走,并根据最有可能同时出现的单词或结构做出预测。因此,当它们被要求处理一些全新的事物时——一个全新的科学术语,一个从未在网上发表过的全新理论——它们会一头栽进泥潭。简而言之,它们以前从未遇到过,而且它们缺乏真正的概念框架来跨越陌生的领域。
好吧,这太抽象了。让我进一步解释一下。
生成式人工智能模型通过在现有数据点之间进行插值来学习。这意味着,它们会成为填补它们已经看到的点和它们熟悉的模式之间的空白的专家,但在外推方面却举步维艰,即在训练数据缺乏先例时,跳出来并根据新概念进行预测。例如,GPT-4 可以出色地处理日常语言中的“常规”语言结构,因为有数百万个可用的例子。但是,如果提出对新兴的、超专业化的想法的要求——比如,物理学中孤子光纤激光器的最新进展的细节——那么轰隆隆:完全是胡言乱语。为什么?GPT 对这些小众的新术语没有任何统计参考点。它本质上是有根据的猜测,虽然在流畅性上是合理的,但为了句法正确性而牺牲了真正的连贯性。
好吧,如果你更有技术头脑,让我们更深入地探究为什么这种限制如此顽固,以及在一次性学习尝试过程中背后发生了什么。
一次性泛化的一个核心问题在于模型在自我监督训练期间内部表示的信息。GPT 风格的模型在一定范围内工作时表现相当良好——这种现象通常被描述为分布内学习。在它已经看到足够多的训练示例的主题范围内,即使是 GPT-4 也能产生出令人毛骨悚然的深刻输出。这是因为模型的结构允许它通过密集的向量表示(以语境化嵌入的形式)对信息进行编码,从而捕获单词和概念之间的关联。
但事情就是从这里开始的。当模型面对需要分布外泛化的情况时,也就是遇到一个从未训练过的概念时,系统不会像人类那样推断事物。想想看:这些模型本质上是模式机器,依赖于统计上的“直觉”。它们没有内置的“超越数据”创造或推理的能力。
例如,考虑一下 GPT 如何学习语法规则。这就像有人坐下来记住英语句子中单词的数千种用法。经过足够的观察,系统会构建一个内部地图,知道“啊,主语之后是动词,然后可能是宾语,并根据需要添加冠词或介词。”但是,当面对一种全新的语言或全新的句子结构时,这种能力就会减弱,因为它仅限于识别它已经看到的潜在(或隐含)关系。
不幸的是,这有其局限性。以一项需要生成有关未公开主题的连贯文本的任务为例,比如量子引力对偶等鲜为人知的物理学主题中的突破性发现。该模型缺乏重新解释旧知识以推断新可能性所需的组合性。在我们的人类大脑中,我们总是有更高级的表征(概念、理论、类比!)来赋予我们灵活性。然而,GPT 却没有!它根据预测可能性而不是创造性飞跃产生结果。
这就像是驾驶时使用一张只针对上个世纪路线进行预编程的地图:它无法帮助您在施工期间或过去六个月内出现的曲折路段中导航。
理解其局限性的垫脚石之一是认识到密集表示与稀疏表示的作用。
我这样说是什么意思?
传统的 Transformer 模型使用密集向量嵌入进行操作。句子中的每个标记都由高维向量表示,这些向量捕捉了单词之间的各种关系——句法结构、语义含义、位置动态等。但由于这些表示非常密集,它们不足以解开,无法以灵活和自适应的方式支持抽象。
在模型训练期间,密集嵌入受到偏差-方差权衡的限制。这种权衡很重要:通过优化一件事(一般统计能力),模型会牺牲另一件事(在全新情况下推理的能力)。想象一下,你不断地调整你的思维模型以精确匹配你已经经历过的世界;权衡是不可预测的场景会让你完全不知所措。复杂但僵化的统计模型自然会难以应对小的一次性案例,因为它们擅长重复“平均场景”,而面对学习规则的例外情况时则会僵住。
这里一个潜在的关键解决方案是稀疏表示——一种创建维度的技术,用于解开不同解释级别的各种特征。稀疏网络以更灵活和更通用的方式表达和检索信息,就像人类在预测结果时专注于主要的核心特征而不是纠结于较小的细节一样。
因此,一次性泛化的一个问题是,现代网络结构并不强调这种解开纠缠的任务——它们过于依赖密集的数据驱动模式。因此,当被要求用最少的背景概括全新的独特材料时,它们会失败。
幸运的是,我们的想法还不算太少。人工智能研究人员(包括我自己!)已经开始理论化几种提高人工智能一次性泛化能力的方法。其中一些最有趣的方法围绕着元学习架构展开。这些架构与当今的模型有着根本的不同,它们具有学习学习的能力,系统可以动态调整其参数以快速适应新的数据类型——这更符合人类的行为。
例如,在与模型无关的元学习 (MAML)中,模型会自我调整,以最少的训练示例来学习新任务。记忆增强神经网络 (MANN) 的工作原理与此类似,它保留了跨多个实例学习到的上下文,类似于我们如何记住过去的重要教训,并在遇到新的类似情况时直观地重复使用它们。
将符号推理能力集成到深度学习模型中是另一种有前途的方法。配备符号组件的模型可以通过逻辑进行“推理”,而不仅仅是依赖统计叠加。神经符号人工智能等领域提供了联结主义模型和基于规则的系统的混合,使人工智能能够模拟高阶思维,尤其是在抽象推理场景中。
那么,这一切对人工智能的未来意味着什么?当然,当 GPT-4 为我们提供流畅的客户服务互动或回答典型问题时,感觉就像魔术一样,但我们需要开发的模型不仅仅是记忆引擎。我们正走向一个迁移学习、元学习和神经符号架构融合以创造更多自适应学习者的未来。
一次性泛化悖论并不是人工智能的末日死胡同。这是一个障碍,它让我们重新思考关于智能和灵活性的核心假设。由于数据本身无法解决这个问题——模型需要能够从抽象中学习、创建类比并记住核心特征,而不仅仅是记忆。
在知识综合方面,我们未来的模型需要更人性化而不是机器化。作为前沿研究人员、开发者和创新者,我们仍处于定义人工智能在真正灵活、新颖的世界中自我学习的早期阶段。
这不仅仅是一个技术挑战,更是一个哲学挑战。