paint-brush
你会说向量吗?了解法学硕士和生成人工智能的语言经过@datastax
1,665 讀數
1,665 讀數

你会说向量吗?了解法学硕士和生成人工智能的语言

经过 DataStax4m2023/07/24
Read on Terminal Reader

太長; 讀書

阅读本文可以更清楚地了解向量、向量搜索以及可以存储和查询向量的数据库类型。
featured image - 你会说向量吗?了解法学硕士和生成人工智能的语言
DataStax HackerNoon profile picture

我们喜欢说没有数据就没有人工智能。但它不能是任何类型的数据。以大型语言模型(LLM)为例——深度学习模型,比如 OpenAI 的 GPT-4,它可以生成与人类书写的文本非常相似的文本。


为了让法学硕士“理解”单词,它们需要存储为文本“向量”——一种用数字捕获单词含义和使用模式的方法。你可能会说,向量是人工智能的通用语言。


向量已经存在了一段时间,但随着生成式人工智能接口 ChatGPT 的流行和可访问性,它们已经成为一个热门话题,特别是因为组织使用这些技术构建的最受欢迎的应用程序将通过编写自己的向量来利用法学硕士的私有数据。


但它们如何工作、如何存储、应用程序如何搜索它们以及它们如何帮助人工智能成为可能?让我们深入研究向量、向量搜索以及可以存储和查询向量的数据库类型。

向量

向量是指一段数据属性的数字表示。每个数据点都表示为具有多个数值的向量,其中每个值对应于数据的特定特征或属性。


当您将图像或文本等数据转换为矢量表示时,这称为“嵌入”。


例如,矢量搜索的图像嵌入的选择取决于各种因素,例如特定用例、可用资源和图像数据集的特征。


在电子商务或产品图像搜索应用中,使用专门针对产品图像训练的嵌入可能会很有帮助;另一方面,所谓的实例检索涉及在更大的场景或图像中搜索对象的实例。


将数据存储为矢量表示形式使您能够对数据执行各种操作和计算,最重要的是搜索。选择矢量属性对于您稍后想要提出的问题类型非常重要。


例如,如果您仅存储有关植物图像中颜色的信息,则无法询问护理要求。您只能找到外观相似的植物。

矢量搜索

通过将数据表示为向量,您可以利用数学技术来有效搜索和比较非常大的数据集,而无需精确匹配。


数百万个以向量表示的客户资料、图像或文章(捕捉每个项目关键特征的数字列表)可以通过向量相似性搜索(或“最近邻居搜索”)非常快速地进行梳理。


与传统的基于关键字的搜索根据特定术语的出现来匹配文档不同,矢量搜索侧重于查询的相似性;例如,它们的语义相似吗?


此功能可以根据矢量表示找到相似的项目。相似性搜索算法可以测量向量之间的“距离”或相似性,以确定它们的相关程度。


在推荐系统中,矢量搜索可用于根据偏好找到最相似和最不相似的项目或用户。在图像处理中,它可以实现对象识别和图像检索等任务。


例如,世界上最大的搜索引擎谷歌依靠矢量搜索来为谷歌图像搜索、YouTube 和其他信息检索服务的后端提供支持。 (了解有关矢量搜索的更多信息这里.)

载体和数据库

有独立的矢量搜索技术,包括 Elasticsearch 等。但向量需要存储在可扩展且快速的数据库中并从中检索,以提供人工智能应用程序所需的响应能力和规模。


如今有一些数据库提供矢量搜索功能。


支持矢量搜索的数据库的主要优点是速度。传统数据库必须将查询与数据库中的每个项目进行比较。


相比之下,集成矢量搜索支持某种形式的索引,并包含可大大加快流程的搜索算法,从而可以在标准数据库所需时间的一小部分内搜索大量数据。


在商业环境中,当使用人工智能应用程序推荐与过去购买类似的产品或识别类似于已知模式的欺诈交易或看起来与正常情况不同的异常时,这是非常有价值的。


DataStax 是提供矢量搜索的数据库的一个示例阿斯特拉数据库,它构建在高度可扩展、高吞吐量、开源 Apache Cassandra 之上。 Cassandra 已被 Netflix、Uber 和 Apple 等公司的 AI 应用程序大规模证明可以为 AI 提供支持。


矢量搜索的加入使 Astra DB 成为大规模数据库操作的一站式商店。


将矢量搜索与 Astra DB 等可扩展数据存储集成,可以直接在数据库内进行计算和排名,无需将大量数据传输到外部系统。


这可以减少延迟并提高整体查询性能。矢量搜索可以与 Astra DB 中的其他索引相结合,以实现更强大的查询。 (了解有关矢量数据库的更多信息这里.)

矢量搜索的重要性与日俱增

向量和存储向量的数据库在人工智能领域的高效搜索、相似性计算和数据探索方面发挥着重要作用。


随着组织扩大其生成式人工智能工作并希望利用其数据定制最终用户体验,矢量表示以及使用支持矢量搜索的可扩展、快速数据库的能力将变得越来越重要。


作者:Charna Parkey 博士,DataStax