如何在本地(离线)使用PrivateGPT训练自定义AI聊天机器人

如何在本地(离线)使用PrivateGPT训练自定义AI聊天机器人

在之前的教程中,我们演示了如何使用ChatGPT API训练一个自定义的AI聊天机器人。虽然效果相当好,但我们知道,一旦你的免费OpenAI点数用完,你需要为API付费,这不是每个人都能负担得起的。此外,一些用户不愿意与OpenAI分享机密数据。因此,如果你想创建一个私人的人工智能聊天机器人,而不需要连接到互联网,也不需要为API访问支付任何费用,本指南就是为你准备的。PrivateGPT是一个新的开源项目,可以让你在AI聊天机器人界面中与你的文件进行私人互动。为了了解更多,让我们学习如何在本地使用PrivateGPT训练一个定制的人工智能聊天机器人。

在你的电脑上设置PrivateGPT的要求

1. 要在你的机器上本地运行PrivateGPT,你需要一台中高端的机器。你不能在老式笔记本电脑/台式机上运行它。为了给你一个简单的概念,我在一台配备英特尔第十代i3处理器的入门级台式电脑上测试了PrivateGPT,它需要接近2分钟来响应查询。请记住,PrivateGPT并不使用GPU。目前,它只依赖CPU,这使得性能更差。尽管如此,如果你想测试这个项目,你肯定可以去看看。

2. PrivateGPT可以离线使用,无需连接任何在线服务器,也无需从OpenAI或Pinecone添加任何API密钥。为了便于使用,它在你的电脑上本地运行一个LLM模型。因此,你必须在你的电脑上下载一个与GPT4All-J兼容的LLM模型。我在下面添加了详细的步骤供你参考。

设置环境来训练一个私人的AI聊天机器人

1. 首先,你需要在你的Windows、macOS或Linux电脑上安装Python 3.10或更高版本。你可以点击这个链接,立即下载Python。

安装Python 3.10或更高版本

2. 接下来,运行安装文件,确保启用 “Add Python.exe to PATH” 的复选框。之后,点击 “Install Now”,按照常规步骤安装Python。

按照常规步骤安装Python

3. 接下来,如果你使用的是Windows,你需要安装Visual Studio 2022。这样做是为了获得C++ CMake tool and UWP组件。点击这个链接,免费下载 “Community” 版本。

安装Visual Studio 2022

4. 现在,运行该安装程序,它将下载另一个安装程序。会出现一个窗口,你可以选择组件。向下滚动并选择 “Desktop Development with C++” 和 “Universal Windows Platform development”。

"Desktop Development with C++" 和 "Universal Windows Platform development"

5. 接下来,点击右下角的 “Install” 按钮。安装完成后,重新启动你的电脑。此后你不需要再使用Visual Studio,但要保持它的安装。

安装必须的组件

6. 最后,继续从这里下载默认模型(”groovy”)。其大小约为3.5GB。如果你有一个更强大的计算机,你可以从这个链接中下载其他模型。

下载默认模型("groovy")

如何在你的电脑上本地设置PrivateGPT

1. 首先,打开privateGPT仓库的GitHub链接,点击右侧的 “Code”。在这里,点击 “Download ZIP“。

下载privateGPT源代码

2. 现在,打开ZIP文件,提取名为 “privateGPT-main” 的文件夹。

"privateGPT-main" 解压文件夹

3. 接下来,打开 “privateGPT-main” 文件夹,创建一个名为 “models” 的新文件夹。

创建一个名为 "models" 的新文件夹

4. 在 “models” 文件夹下,粘贴你上面下载的 “groovy” 模型。

粘贴下载的 "groovy" 模型

5. 现在,回到主文件夹,你会发现一个 “example.env” 文件。将它重命名为”.env” 文件。

将它重命名为".env" 文件

6. 现在,右键单击”.env” 文件,用记事本打开它。

用记事本打开.env

7. 如果你已经下载了一个不同的模型,你可以在 “MODEL_PATH” 下定义它。因为我们使用的是默认模型,所以不需要改变。你现在可以关闭记事本。

在 "MODEL_PATH" 下定义模型

8. 接下来,打开 “source_documents” 文件夹。在这里,你可以添加各种文件来训练自定义AI聊天机器人。作为一个例子,开发者已经添加了TXT格式的国情咨文的记录。不过,你也可以在这里添加PDF、DOC、DOCX、CSV、EPUB、TXT、PPT、PPTX、ODT、MSG、MD、HTML、EML和ENEX文件。

打开 "source_documents" 文件夹

使用PrivateGPT训练一个自定义AI聊天机器人

1. 最后,是时候使用PrivateGPT训练一个自定义的人工智能聊天机器人了。在你的电脑上打开终端。如果你使用的是Windows,打开Windows终端或命令提示符。

电脑上打开终端

2. 现在,右键点击 “privateGPT-main” 文件夹,选择 “复制文件地址”。这将复制该文件夹的路径。

复制"privateGPT-main" 文件夹的路径

3. 现在,移回终端,输入 cd ,加一个空格,然后在终端窗口中右击,粘贴文件地址。它看起来会像下面这样。

cd "C:\Users\mearj\Downloads\privateGPT-main"

终端进入"privateGPT-main" 文件夹

4. 接下来,点击回车键,你将进入到privateGPT-main文件夹。

进入到privateGPT-main文件夹

5. 一旦你进入该文件夹,运行下面的命令,它将开始安装所有的软件包和依赖项。完成这一过程可能需要10到15分钟,所以请保持耐心。如果你遇到任何错误,再次运行下面的命令,确保Visual Studio和上面提到的两个组件被正确安装。

pip3 install -r requirements.txt

运行安装命令

6. 一旦所有的依赖被安装,运行下面的命令来创建本地嵌入和vectorstore。这个过程将需要几秒钟,这取决于添加到 “source_documents” 中的数据语料库。macOS和Linux用户可能需要在下面的命令中使用 python3 而不是 python

python ingest.py

运行下面的命令来创建本地嵌入和矢量商店

7. 最后,通过执行下面的命令运行PrivateGPT。你会被要求输入你的查询。输入你的问题并点击回车。

python privateGPT.py

运行PrivateGPT

8. 在我的英特尔第十代i3处理器的台式电脑上,回答一个问题需要将近2分钟。在每一个回答之后,它还会显示四个来源,它从那里得到了背景。

回答问题

9. 要停止对话,请输入 exit 并点击Enter。

停止对话

你也可以关闭互联网,但私人AI聊天机器人仍将工作,因为所有的事情都是在本地完成的。PrivateGPT还没有网络界面,所以你现在只能在命令行界面中使用它。此外,它目前没有利用GPU的优势,这是个遗憾。一旦引入GPU支持,性能会变得更好。最后,要加载PrivateGPT人工智能聊天机器人,如果你没有在源文件夹中添加新文件,只需运行 python privateGPT.py 即可。

评论留言

唇枪舌剑(2)

  • 蒋的头像

    2023.6.7 17:06

    ModuleNotFoundError: No module named ‘langchain’

    好多个模块找不到,怎么处理呢
    谢谢大佬

    回复
    • WBOLT_COM

      2023.6.7 17:06

      试试 python -m pip install langchain