ChatGPT 检索插件支持向量数据库:解锁数据库新机遇
北美时间2023年3月23日,openAI 宣布部份消除 ChatGPT 没法联网的限制,OpenAI 通过接入第三方插件让 ChatGPT 得以联网。OpenAI 还开源了一个知识库检索插件 chatgpt-retrieval-plugin,这个插件通过自然语言从各种数据源检索信息。有了开源代码后,开发者可以部署自己的插件版本。在这一知识库插件内,检索插件允许模型对向量数据库履行语义搜索,其中阿里云的 AnalyticDB PG 版本成为 Microsoft Azure 以后的第二个云厂商向量数据库产品。截止2023年7月18日,这一开源插件在 GitHub 上的 Star 数已到达 18.9K。
01
甚么是chatgpt-retrieval-plugin?
ChatGPT 检索插件存储库为使用自然语言查询的个人或组织进行文档的语义搜索和检索,提供了灵活的解决方案。存储库分为以下几个目录:
目录 | 描写 |
datastore | 包括使用各种向量数据库提供程序存储和查询文档嵌入的核心逻辑。 |
docs | 包括用于设置和使用每一个向量数据库提供程序、webhook 和删除未使用的依赖项的文档。 |
examples | 提供示例配置、身份验证方法和特定于提供商的示例。 |
local_server | 包括为本地主机测试配置的检索插件的实现。 |
models | 包括插件使用的数据模型,例如文档和元数据模型。 |
scripts | 提供用于处理和上传来自区别数据源的文档的脚本。 |
server | 包括主要的 FastAPI 服务器实现。 |
services | 包括用于分块、元数据提取和 PII 检测等任务的实用程序服务。 |
tests | 包括针对各种向量数据库提供程序的集成测试。 |
.well-known | 存储插件清单文件和 OpenAPI 架构,它们定义了插件配置和 API 规范。 |
ChatGPT 插件主要由检索实时信息、检索知识库信息和代表用户的履行操作三大功能组成,能够连接到第三方利用程序并与开发人员定义的 API 进行交互,从而增强 ChatGPT 的功能并允许履行更广泛的操作。
检索实时信息:例如,查询体育比赛比分、查询股票价格、查询最新消息等。
检索知识库信息:例如,检索公司文件、检索个人笔记等。
代表用户履行操作:例如,自动订机票、订餐等。
02
ChatGPT检索插件支持11个向量数据库
目前 ChatGPT 检索插件支持11个向量数据库。其中,阿里云的 AnalyticDB PG 版本同样成为了 open AI 官方正式推荐的产品。
数据库名称 | 简介 |
Pinecone | 其是一个全托管的 SaaS 向量数据库厂商(支持 GCP & AWS),专为速度、范围和快速部署到生产而设计。它支持混合搜索,是目前唯一原生支持 SPLADE 稀疏向量的数据存储。 |
Weaviate | 其是一个开源向量数据库。它允许用户存储来自喜欢的 ML 模型的数据对象和向量嵌入,并没有缝扩大到数十亿个数据对象。 |
Zilliz/Milvus | Milvus 是一个为可扩大的类似性搜索而建立的开源向量数据库,它基于 Facebook AI Similarity Search (Faiss), Non-Metric Space Library (NMSLIB) 和 Annoy,并额外扩大了它们的功能。 |
Qdrant | Qdrant是一个向量数据库,能够存储文档和矢量嵌入。它提供自托管和托管Qdrant Cloud部署选项,为具有区别需求的用户提供灵活性。 |
Redis | 其是一个实时数据平台,适用于各种用例,包括平常利用程序和 AI/ML 工作负载。通过使用Redis Stack docker container创建 Redis 数据库,它可以用作低延迟向量引擎。 |
LlamaIndex | 其是将开发人员的 LLM 与外部数据连接起来的中央接口。它为开发人员的非结构化和结构化数据提供了一套内存索引,供 ChatGPT 使用。与标准向量数据库区别,LlamaIndex 支持针对区别用例优化的广泛索引策略(例如树、关键字表、知识图)。它重量轻,易于使用,无需额外部署。 |
Chroma | Chroma 是一个用于构建带有嵌入向量的 AI 利用程序的数据库。它内置了入门所需的一切,并可以在机器上运行。 |
Azure Cognitive Search | Azure Cognitive Search是一个完全的检索云服务,支持向量搜索、文本搜索和混合搜索(向量 + 文本组合以产生两种方法中的最好方法)。 |
Supabase | Supabase通过 PostgreSQL 数据库的pgvector扩大提供了一种简单有效的方式来存储向量。开发人员可使用 Supabase CLI在本地或云端设置全部 Supabase 堆栈,或开发人员也能够使用docker-compose、k8s 和其他可用选项。 |
Postgres | PostgreSQL提供了一种简单有效的方法来通过pgvector扩大存储向量。要使用 pgvector,您需要设置一个启用了 pgvector 扩大的 PostgreSQL 数据库。例如,开发人员可使用 docker在本地运行。 |
AnalyticDB | AnalyticDB是一个散布式云原生向量数据库,专为存储文档和向量嵌入而设计。完全兼容PostgreSQL语法,阿里云托管。AnalyticDB 提供了一个强大的向量计算引擎,处理数十亿个数据向量,并提供诸如索引算法、结构化和非结构化数据能力、实时更新、距离度量、标量过滤和时间旅行搜索等特性。 |
03
ChatGPT与向量数据库的关系
向量数据库的主要特点是能够高效地存储和查询大范围的向量数据。它通常采取基于向量类似度的查询方式,即根据向量之间的类似度来检索数据。这类查询方式可以用于各种利用场景,例如图象搜索、音乐推荐、文本分类等。
向量数据库主要是能为 ChatGPT 提供“后勤服务”。大范围生成式 AI 模型需要大量的训练数据来捕捉复杂的语义和上下文信息。其生成的文本通常需要进行准确的类似性搜索和匹配,以提供精确的回复、推荐或匹配结果。另外,大范围生成式 AI 模型不但能处理文本数据,还可以处理图象和语音等多模态数据。可以说,向量数据库的特点与大范围生成式 AI 模型息息相关。向量数据库可让开发者以向量嵌入的方式来处理非结构化数据,这对使用和扩大大型语言模型(LLM)十分重要。
04
ChatGPT点燃向量数据库赛道
随着 AI 热潮的来袭,ChatGPT 也带火了向量数据库。ChatGPT 检索插件支持的11个数据库中,今年已有5个数据库陆续成功取得融资。
4月10日,Chroma 在Quiet Capital的Astasia Myers的带领下筹集了1800万美元的种子轮。
4月19日,开源向量数据库初创公司 Qdrant 宣布从主要投资者Unusual Ventures取得 750 万美元的种子融资。
4月22日,向量数据库平台(vector database)Weaviate宣布取得5000万美元(约3.5亿元)B轮融资。
4月28日,向量数据库平台 Pinecone 宣布取得1亿美元(约7亿元)B轮融资。
6月6日,总部位于加利福尼亚州旧金山的大型语言模型 (LLM) 数据框架提供商LlamaIndex筹集了 850 万美元的种子资金。本轮融资由 Greylock 牵头,Jack Altman、Lenny Rachitsky、Mathilde Collin(Front 的 CEO)、Raquel Urtasun(Waabi 的 CEO)、Joey Gonzalez 等人参与。
以上融资的5家企业实际上都属于初创公司,在 ChatGPT 还未火爆之前,向量数据库非常小众,但随着 ChatGPT 逐步落地利用,与“ChatGPT”大语言模型、利用、衍生品等的热度都有大幅提升。更有甚者,谷歌开发专家 Jeff Delaney 在他的节目上谈到在还没有任何收入、商业计划乃至是实际代码可以展现的情况下,他凭仗 Rektor 向量数据库初创项目让公司估值飙升至 4.2 亿美元,并呼吁大家为其投资。
图1:Rektor 项目
05
中国向量数据库发展概况
中国向量数据库在 AI 的催化下,也吸引了一波关注。根据墨天轮排行榜7月最新数据,已有6个中国向量数据库参与排名。本月向量数据库排名前三分别是 TensorDB、Milvus、Hippo。东北证券发布的报告预测,到2030年,全球向量数据库市场范围有望到达522亿美元,中国向量数据库市场空间或将到达253⑼49亿元。全球范围内来看,目前向量数据库以初创公司为主,包括Pinecone、Milvus、Weaviate、Vespa等。
图2:2023年7月中国向量数据库排行榜
海量数据的爆发产生了巨大的数据库需求。在互联网化趋势下,数据量呈爆炸式增长,同时随着数据大集中、数据发掘、商业智能、协同作业等大数据处理技术的日益成熟,数据价值呈指数上升趋势。根据墨天轮发布的 《2022年10月中国数据库行业分析报告-向量启航,引擎加持》,目前向量数据库赛道已有多个产品,未来将会面临剧烈的竞争。
图3:全球向量数据库产业图谱
相关内容
2023年6月国产数据库大事记
2023年10月中国数据库行业分析报告
点击下方查看2023年7月中国数据库流行度排行榜