本文的主图是由 HackerNoon 的AI Image Generator通过提示“使用旧台式电脑的机器人”生成的
人工智能领域出现了一些新事物。在这篇文章中,我将引导您完成安装和设置 PrivateGPT 的过程。
什么是私有 GPT?
一个强大的工具,允许您在本地查询文档而无需互联网连接。无论您是研究人员、开发人员,还是只是对探索文档查询工具感到好奇,PrivateGPT 都可以提供高效且安全的解决方案。本教程附带一个 Youtube 视频,您可以在其中找到安装过程的分步演示!
先决条件:
Python 3.10 或更高版本安装在您的系统或虚拟环境中
使用命令行界面 (CLI/Terminal) 的基本知识
已安装 Git
首先,让我们创建一个虚拟环境。您可以在桌面上创建一个文件夹。在下面的屏幕截图中,您可以看到我创建了一个名为“blog_projects”的文件夹。从该文件夹打开命令行或使用终端/命令行导航到该文件夹。按照以下步骤创建虚拟环境。
1.创建虚拟环境:
- 打开您的终端并导航到所需的目录。
- 运行以下命令创建虚拟环境(将 myenv 替换为您喜欢的名称):
python3 -m venv myenv
您的虚拟环境的名称将是“myenv”
2.激活虚拟环境:
- 在 macOS 和 Linux 上,使用以下命令:
来源 myenv/bin/activate
- 在 Windows 上,使用以下命令:
我的环境\脚本\激活
3. 运行 git clone 命令克隆存储库:
git 克隆 https://github.com/imartinez/privateGPT.git
通过在克隆存储库之前创建和激活虚拟环境,我们确保项目依赖项将在此环境中安装和管理。这有助于维护特定于此项目的干净且隔离的开发环境。
克隆存储库后,您可以继续安装项目依赖项并开始在激活的虚拟环境中处理项目。
然后从 Github 复制代码仓库,并进入您希望项目所在的目录或文件夹。打开终端或从命令行导航到您的文件夹。
加载所有内容后,您可以运行 install requirements 命令来安装所需的依赖项。
- 导航到要安装 PrivateGPT 的目录。
CD <文件夹名称>
- 运行以下命令以安装所需的依赖项:
pip install -r requirements.txt
- 接下来,下载 LLM 模型并将其放在您选择的目录中。默认模型是“ggml-gpt4all-j-v1.3-groovy.bin”,但如果您喜欢不同的 GPT4All-J 兼容模型,您可以下载它并在您的 .env 文件中引用它。
- 将“example.env”文件重命名为“.env”并适当编辑变量。
根据您使用的模型,将“MODEL_TYPE”变量设置为“LlamaCpp”或“GPT4All”。
- 将“PERSIST_DIRECTORY”变量设置为要存储矢量存储的文件夹。
- 将“MODEL_PATH”变量设置为 GPT4All 或 LlamaCpp 支持的 LLM 模型的路径。
- 将“MODEL_N_CTX”变量设置为 LLM 模型的最大令牌限制。
- 将“EMBEDDINGS_MODEL_NAME”变量设置为 SentenceTransformers 嵌入模型名称(请参阅https://www.sbert.net/docs/pretrained_models.html )。
确保在项目中创建模型文件夹以放置下载的模型。
PrivateGPT 附带一个示例数据集,该数据集使用“工会状态记录”作为示例。但是,您也可以摄取自己的数据集。让我告诉你怎么做。
- 将所有文件放入“source_documents”目录。
- 确保您的文件具有支持的扩展名之一:CSV、Word 文档(docx、doc)、EverNote (enex)、电子邮件 (eml)、EPub (epub)、HTML 文件 (html)、Markdown (md)、Outlook Message ( msg)、打开文档文本 (odt)、便携式文档格式 (PDF)、PowerPoint 文档(pptx、ppt)、文本文件 (txt)。
- 运行以下命令以摄取所有数据:
蟒蛇摄取.py
完美的!数据摄取过程完成。现在,让我们继续下一步!
如果你有这个错误: cannot import name 'DEFAULT_CIPHERS' from 'urllib3.util.ssl_'
,使用这个命令: python -m pip install requests "urllib3<2"
需要提及的关键一点是,如果您向 SOURCE_DOCS 添加新文档,则需要重新运行“python ingest.py”
---------------------------------------------- --------------
向您的文件主持人提问:
现在是激动人心的部分——使用 PrivateGPT 对您的文档提出问题。让我告诉你它是如何完成的。
- 打开终端或命令提示符。
- 导航到安装 PrivateGPT 的目录。
[项目目录'privateGPT',如果您在 CLI 中键入 ls,您将在几个文件中看到 READ.ME 文件。]
- 运行以下命令:
python 私有GPT.py
- 等待脚本提示您输入。
- 出现提示时,输入您的问题!
技巧和提示:
- 使用 python privategpt.py -s [ 从输出中删除源。因此,它不会显示答案和来源,而只会显示来源]
- 在第 33 行,在您看到“verbose=false”的命令末尾,输入“n threads=16”,这将使用更多功率以更快的速度生成文本!
PrivateGPT 最后的想法
- 这对于想要在本地计算机上理解复杂文档的任何人来说都非常有用。
- 这对于您不想向外泄露的私人数据非常有用。
- 这对于学生、行业新手、任何学习税收的人或任何学习任何他们需要帮助理解的复杂事物的人来说尤其有用。
- 但是,等待时间可能为 30-50 秒甚至更长,因为您是在本地计算机上运行它。