人工智能已经吸引了科技爱好者和行业专家的注意力一段时间了。在本文中,我们将深入探讨人工智能的发展,阐明它所带来的问题以及即将出现的新兴趋势。
随着我们观察到人工智能技术的迅猛发展,全面了解其功能以最大限度地发挥其潜在优势变得越来越重要。深入研究这个复杂的领域,ELEKS 数据科学办公室负责人 Volodymyr Getmanskyi 分享了他对这一热门话题的见解和专业知识。
首先,生成式人工智能是人工智能领域的一部分。人工智能主要专注于自动化或优化人类任务,而生成式人工智能则专注于创建不同的对象。典型的人工智能任务,如构建对话或决策代理、智能自动化、图像识别和处理以及翻译,都可以通过 GenAI 得到增强。它允许生成文本和报告、图像和设计、语音和音乐等。
因此,生成式人工智能与日常任务和工作流程的集成变得越来越无缝且影响深远。人们可能想知道哪种类型的数据生成最受欢迎。然而,答案并不简单。
多模态模型允许根据不同的输入生成不同类型的数据。因此,即使我们有使用情况统计数据,也很难确定最流行的数据类型。但是,根据当前的业务需求,大型语言模型是最受欢迎的。
这些模型可以处理文本和数字信息,可用于问答、文本转换(翻译、拼写检查、丰富)和生成报告等任务。与不太常见的图像或视频生成不同,此功能是各行业企业运营活动的重要组成部分。
大型语言模型(LLM)是巨大的 Transformer,是一种深度学习模型,或者简单地说是特定的神经网络。一般来说,LLM 有 80 亿到 700 亿个参数,并且是在大量数据上进行训练的。例如,最大的数据集之一 Crawl 包含过去十年的网页和信息,数据量达到数十 PB。
具体来说,泰坦尼克号数据集包含约 900 个样本,描述了哪些乘客在泰坦尼克号沉船事件中幸存下来,其大小不到 1 Mb,而能够有效预测生存概率的模型可能有大约 25 到 100 个参数。
LLM 也有很长的历史,并不是突然出现的。例如,ELEKS 数据科学部门在 2019 年使用 GPT-2 进行响应生成,而第一个 GPT(生成式预训练 Transformer)模型于 2018 年发布。然而,这也不是文本生成模型的首次出现。在 2017 年 Transformer 时代开始之前,文本生成等任务已经使用不同的方法来解决,例如:
2013 年就提出了类似 word2vec 这样的高效向量词嵌入,而更早的,在上个世纪就有基于概率和模式的生成的例子,比如 1964 年的 Eliza 聊天机器人。所以我们可以看到,自然语言生成(NLG)任务和尝试已经存在很多年了。
目前大多数 LLM 用户,例如 ChatGPT、GPT、Gemini、Copilot、Claude 等,可能没有意识到这一点,因为结果并不像 InstructGPT 首次发布后那么乐观,当时 OpenAI 提议公开访问并推广它。继 2022 年 11 月首次发布 ChatGPT 之后,它在社交媒体上获得了数百万次提及。
如今,人工智能社区在人工智能风险和合规需求方面存在分歧,一些人主张制定人工智能法规和安全控制,而另一些人则持反对态度。批评者之一是Meta(Facebook)AI负责人Yann LeCun,他表示,这种人工智能代理的智力甚至与狗的智力不相上下。
Meta AI 团队(前身为 Facebook AI Research)是 Detectron、Llama、SegmentAnything 和 ELF 等免费公开 AI 模型的开发者之一,这些模型可以免费下载和使用,只有一些商业限制。开放获取无疑受到了全球 AI 社区的欢迎。
这些系统仍然非常有限;它们不了解现实世界的根本现实,因为它们纯粹是基于文本(大量文本)进行训练的。
— Meta 首席人工智能科学家 Yann LeCun
官员们也对这些法规表示担忧。例如,法国总统埃马纽埃尔·马克龙警告称,与美国、英国和中国的竞争对手相比,旨在应对人工智能发展的具有里程碑意义的欧盟立法可能会阻碍欧洲科技公司的发展。
另一方面,也有人工智能监管支持者。特斯拉首席执行官埃隆·马斯克认为,人工智能是未来文明面临的最大风险之一。这与非公开/付费的人工智能代表是一样的,但在这里,这种职位的真正刺激因素可能是市场竞争——限制竞争性人工智能模型的传播。
2023 年,欧盟议会通过了《人工智能法案》,这是欧盟范围内第一套管理人工智能技术使用的综合规则。该法案为负责任且合乎道德的人工智能开发和实施开创了先例。
《欧盟人工智能法案》解决的关键问题:
模型准备、使用和其他隐藏活动存在许多问题和担忧。例如,用于模型训练的数据包括个人数据,这些数据未经授权用于此类目的。全球供应商提供专注于私人通信(电子邮件)或其他私人资产(照片、视频)的服务,这些服务可以在隐藏模式下用于模型训练,而无需任何通知。
最近有人向 OpenAI 的 CTO 询问有关使用私人视频进行 SORA 训练的问题,SORA 是一项非公开的 OpenAI 服务,用于根据文本查询生成视频,但她无法提供明确的答案。
另一个问题可能与数据标记和过滤有关——我们不知道相关专家的个人特征、技能、刻板印象和知识,这可能会将不必要的陈述/内容引入数据中。此外,还有一个道德问题——有消息称,一些全球 GenAI 提供商聘请了来自肯尼亚的标记员,并向他们支付了过低的报酬。
模型偏差和所谓的模型幻觉(即模型提供看似完美的错误或部分错误答案)也是问题所在。最近,ELEKS 数据科学团队致力于改进客户的检索增强生成 (RAG) 解决方案,该解决方案包括向模型显示一些数据,然后模型根据这些数据总结或提供答案。
在此过程中,我们的团队意识到许多现代的在线(较大但付费)或离线(较小且公开)模式混淆了企业名称和数字。
我们拥有包含几家公司的财务报表和审计信息的数据,并且要求显示公司 A 的收入。但是,公司 A 的收入并未直接包含在数据中,需要计算。大多数模型(包括 LLM Arena 基准中的领先者)都给出了属于公司 B 的错误收入水平。发生此错误的原因是公司名称中的字符组合部分相似,例如“Ltd”、“Service”等。
在这里,即使是提示学习也无济于事;添加诸如“如果您不确定或缺少某些信息,请回答不知道”之类的声明并不能解决问题。
另一件事是关于数字表示 - LLM 将数字视为标记,甚至许多标记,例如 0.33333 可以根据字节对编码方法编码为“0.3”和“3333”,因此如果没有额外的适配器,很难处理复杂的数字转换。
美国陆军退役将军保罗·M·中曾根 (Paul M. Nakasone) 最近被任命为 OpenAI 董事会成员,这引发了褒贬不一的反应。一方面,中曾根在网络安全和情报方面的丰富背景被视为一项重要资产,很可能实施强有力的战略来防御网络攻击,这对于一家从事人工智能研发的公司来说至关重要。
另一方面,由于中曾根的军事和情报背景(前美国国家安全局(NSA)和美国网络司令部负责人),人们担心他的任命可能带来影响,这可能会导致政府加强监视和干预。
人们担心,中曾根可能会让政府机构更广泛地访问 OpenAI 的数据和服务。因此,一些人担心这项任命可能会影响该服务的使用、数据、政府机构的请求以及该服务本身的局限性。
最后,还有其他问题,例如生成的代码漏洞、矛盾的建议、不适当的使用(通过考试或获得如何制造炸弹的指导)等等。
首先,确定是否有必要使用 LLM 以及它是否应该是通用的基础模型至关重要。在某些情况下,目的和分解的任务并不那么复杂,可以通过更简单的离线模型来解决,例如拼写错误、基于模式的生成和解析/信息检索。此外,通用模型可以回答与 LLM 集成的预期目的无关的问题。
有这样的例子,公司鼓励在线 LLM 集成(例如 GPT、Gemini),而无需任何额外的适配器(预处理器和后处理器),并遇到了意外行为。例如,用户要求汽车经销商聊天机器人编写 Python 脚本来求解 Navier-Stokes 流体流动方程,聊天机器人说:“当然可以!我会这样做。”
接下来的问题就是使用哪种 LLM——公立离线还是付费离线。决定取决于任务的复杂性和计算可能性。在线和付费模型更大,性能更高,而离线和公立模型需要大量托管费用,通常需要至少 40Gb 的 VRAM。使用在线模型时,必须严格控制与提供商共享的敏感数据。
通常,对于这样的事情,我们会构建预处理模块,它可以删除个人或敏感信息(例如财务详细信息或私人协议),而无需显著改变查询以保留上下文,并在需要时保留企业规模或大致位置等信息。
减少模型偏差和避免幻觉的第一步是选择正确的数据或上下文或对候选者进行排序(例如,对于 RAG)。有时,向量表示和相似度指标(例如余弦相似度)可能无效。这是因为微小的变化(例如“no”一词的存在或名称的细微差异(例如 Oracle 与 Orache))可能会产生重大影响。
至于后处理,我们可以指示模型在置信度较低时以“不知道”来回应,并开发一个验证适配器来检查模型响应的准确性。
LLM 领域存在许多研究方向,每周都会出现新的科学文章。这些文章涵盖一系列主题,包括 transformer/LLM 优化、鲁棒性、效率(例如如何在不显著增加模型大小或参数数量的情况下泛化模型)、典型的优化技术(如蒸馏)以及增加输入(上下文)长度的方法。
在各个方向中,近期比较突出的有 Mixture-of-tokens、Mixture-of-experts、Mixture-of-depth、Skeleton-of-thoughts、RoPE 和 Chain-of-thoughts prompting,我们来简单介绍一下这些方向的含义。
混合专家 (MoE)是一种不同的转换器架构。它通常具有一个动态层,由多个(在 Mixtral 中为 8 个)或多个代表不同知识的密集/扁平层组成。该架构包括切换或路由方法,例如,门控函数允许选择哪些令牌应由哪些专家处理,从而将每个令牌或令牌组的层数(“专家”)减少为一个专家(切换层)。
这允许有效的模型扩展,并且通过对输入部分使用不同的子模型(专家)来提高性能,使其比使用一个通用甚至更大的层更有效。
标记混合与提到的专家混合相关,我们根据标记对特定专家的重要性(softmax 激活)对标记进行分组。
深度混合技术也与上述 MoE 相关,特别是在路由方面。它旨在减少计算图(计算预算),将其限制为注意力机制中将使用的顶级标记。对于特定序列而言,被认为不太重要的标记(例如标点符号)将被跳过。这会导致动态标记参与,但 k(前 k 个标记)标记数是静态的,因此我们可以根据计算预算(或我们选择的 k)减少大小。
思想骨架对于 LLM 扩展非常有效,并且允许基于主要骨架请求并行生成完成的各个部分(模型响应),该骨架请求由可并行化的点组成。
还有其他挑战,例如输入大小。用户通常希望为 LLM 提供大量信息,有时甚至是整本书,同时保持参数数量不变。这里有两种已知方法ALiBi(具有线性偏差的注意层)和RoPE(旋转位置嵌入) ,它们可以使用动态位置编码和缩放因子推断或可能插入输入嵌入,从而允许用户增加上下文长度(与用于训练的长度相比)。
思路链提示是少样本提示的一个例子(用户在上下文中为 LLM 提供监督),旨在将问题分解为几个步骤。它主要应用于推理问题,例如当您可以将逻辑分解为一些计算计划时。来自原始论文的例子:“Roger 有 5 个网球。他又买了 2 罐网球。每个罐子里有 3 个网球。他现在有多少个网球?思路计划:Roger 一开始有 5 个球。2 罐 3 个网球,每罐 6 个网球。5 + 6 = 11。答案是 11。”
除此之外,还有许多其他方向,每周都有几篇新的重要论文围绕这些方向出现。有时,数据科学家在关注所有这些挑战和成就时,还会遇到额外的问题。
还有很多趋势,总结一下,可能会有更严格的人工智能规则,这将限制不同的解决方案,最终导致可用模型的泛化或领域覆盖。其他趋势主要是关于现有方法的改进,例如,减少所需的参数和内存数量(例如量化甚至 1 位 LLM - 其中每个参数都是三元的(可以取 -1、0、1 值))。
因此,我们可以期待离线 LLM 或 Diffusion Transformers(DiT - 现代 Diffusion 模型和 Visual Transformers 后继者(主要用于图像生成任务))甚至可以在我们的手机上运行(如今,有几个例子,例如,微软的 Phi-2 模型,在现代基于 Snapdragon 的 Android 设备上,生成速度约为每秒 3-10 个令牌)。
此外,个性化程度将进一步提高(利用所有以前的用户体验和反馈来提供更合适的结果),甚至达到数字孪生的程度。目前可用的许多其他东西也将得到改进——助手/模型定制和市场、一个模型适用于所有事物(多模式方向)、安全性(一种更有效的机制来处理个人数据、对其进行编码等)等等。
准备好为您的企业释放 AI 潜力了吗? 请联系 ELEKS 专家。