生成式人工智能(GenAI)和代理式人工智能领域正在改变从创意内容生成到自主决策的一切。这些创新的核心是庞大的开源数据集,它们为模型的训练、测试和部署提供了动力。在本文中,我们列出了生成式 AI 和 AI 代理的顶级开源数据集,您可以用它们来训练您的模型。这些数据集涵盖多种模式–从广泛的文本和注释丰富的图像集合,到用于构建智能代理和解决复杂推理任务的专门资源。
1. The Pile
The Pile 是一个广泛、多样的数据集,包含约 800GB 的文本,其来源包括 ArXiv、GitHub、维基百科等。该数据集经过精心编译,提供了广泛的写作风格和主题,是训练大规模语言模型的理想之选。研究人员和开发人员可以利用 The Pile 将模型暴露在广泛的上下文环境中,从而提高自然语言理解和生成能力。
适用于:
- 训练大规模语言模型。
- 开发复杂的自然语言理解系统。
- 微调特定领域文本生成模型。
2. Common Crawl
Common Crawl 每月汇总数十亿个网页,提供真正的网络规模数据集。该数据集收集了互联网上的各种内容,是训练强大语言模型的基础资源。由于其全面性和持续更新性,该数据集对于从语言建模到大规模信息检索等任务都非常宝贵。
适用于:
- 建立网络规模的语言模型。
- 增强信息检索和搜索引擎功能。
- 分析在线内容趋势和用户行为。
链接:Common Crawl
3. WikiText
WikiText 是一个开源的语言建模数据集,源自高质量的维基百科文章。它保留了编辑内容中丰富的结构和语言的复杂性,为模型学习长距离依赖关系提供了一个具有挑战性的环境。它的词汇量也大得多,并保留了原始大小写、标点符号和数字。WikiText-2 数据集是第一个数据集的 2 倍多,而 WikiText-103 数据集是第一个数据集的 110 多倍。
适用于:
- 以长距离语境为重点训练语言模型。
- 对下一单词预测和文本生成任务进行基准测试。
- 为摘要和翻译应用微调模型。
4. OpenWebText
OpenWebText 是一项开源工作,旨在重新创建最初由 OpenAI 用于语言建模的 WebText 数据集。该数据集由 Reddit 上链接的网页编译而成,提供了高质量互联网文本的各种集合。该数据集对于训练需要广泛语言风格和当代网络话语的模型特别有价值,因此是大规模文本生成研究的理想之选。
适用于:
- 使用多样化的在线文本训练网络语言模型。
- 为文本生成和摘要任务微调模型。
- 利用最新网络数据研究自然语言理解。
5. LAION-5B
LAION-5B 是一个巨大的数据集,包含 58.5 亿个图像-文本对,为多模态人工智能提供了前所未有的资源。它的规模和多样性为稳定扩散和 DALL-E 等尖端文本到图像模型的训练提供了支持。视觉数据和文本数据的整合使研究人员能够构建有效地将语言转化为视觉内容的系统。
适用于:
- 训练文本到图像的生成模型。
- 开发多模态内容合成系统。
- 创建高级图像字幕和视觉故事应用程序。
链接:LAION-5B
Also Read: 20 Most Liked Datasets on HuggingFace
6. MS COCO
MS COCO 提供了丰富的图像集合,并附有用于物体检测、分割和字幕的详细注释。该数据集的复杂性对理解和生成视觉场景综合描述的模型提出了挑战。它广泛应用于学术和工业领域,推动图像理解和生成方面的进步。
适用于:
- 开发稳健的对象检测和分割模型。
- 为图像字幕和视觉描述训练模型。
- 创建上下文感知图像合成系统。
链接:MS COCO
7. Open Images数据集
Open Images Dataset 是一个由社区驱动的大规模图像集合,其中标注了标签、边界框和分割掩码。该数据集覆盖面广、内容多样,是训练通用图像生成和识别模型的理想工具。该数据集通过提供众多对象类别的详细视觉背景,支持计算机视觉领域的创新应用。该数据集的 V7 版本拥有超过 190 万张图像的密集注释和超过 900 万张图像的标签。
适用于:
- 训练通用图像生成系统。
- 增强物体检测和分割模型。
- 建立稳健的图像识别框架
8. RedPajama‑1T
RedPajama-1T 是 LLaMA 预训练数据集的开源复制品,由来自 CommonCrawl、Wikipedia、Books、GitHub、arXiv、C4 和 StackExchange 的 1.2 万亿个 token 组成。它采用了过滤技术(如用于网络数据的 CCNet)来提高质量。该数据集是完全透明的,所有预处理脚本均可重复使用。
适用于:
- 复制 LLaMA 的训练数据
- 开源 LLM 预训练
- 多领域数据集整理
链接:RedPajama-1T
9. RedPajama‑V2
RedPajama-V2 对 1T 数据集进行了改进,重点关注来自 84 个 CommonCrawl 快照的网络数据,总计超过 1 亿个文本文档。该数据集包括英语、法语、德语、西班牙语和意大利语,有 40 多个用于过滤和优化的高质量注释。这样就能对数据集进行动态策划,从而进行量身定制的预训练。
适用于:
- 高质量数据集过滤
- 多语言 LLM 开发
- 创建自定义预训练数据集
链接:RedPajama‑V2
10. OpenAI WebGPT数据集
OpenAI WebGPT 数据集是专为训练与网络动态交互的人工智能代理而定制的。它包含人类注释的数据,捕捉真实世界的网络浏览交互,这对于开发检索增强生成系统至关重要。该资源使人工智能模型能够理解、浏览和生成基于实时网络数据的上下文感知响应。
适用于:
- 训练网络浏览和信息检索代理。
- 开发检索增强型自然语言处理系统。
- 增强人工智能与网络内容交互并理解网络内容的能力。
11. Obsidian Agent数据集
Obsidian Agent Dataset 是一个合成集合,旨在模拟自主决策环境。它侧重于基于代理的推理,并为模型配备了测试复杂规划和决策技能的场景。对于开发必须在不可预测的环境中自主运行的人工智能代理的研究人员来说,这个数据集至关重要。
适用于:
- 训练自主决策模型。
- 在受控环境中模拟基于代理的推理。
- 为复杂的人工智能规划任务试验合成数据。
12. WebShop数据集
WebShop Dataset 是专为电子商务领域的人工智能代理设计的。它具有详细的产品描述、用户交互日志和浏览模式,可模仿真实世界的在线购物行为。该数据集是开发能够进行产品研究、推荐和自动购买决策的智能代理的理想选择。
适用于:
- 为电子商务导航和产品研究建立人工智能代理。
- 为网上购物者开发推荐系统。
- 实现产品比较和购买决策流程自动化。
13. Meta EAI数据集(Embodied AI)
Meta EAI Dataset 是为训练与虚拟和现实环境交互的人工智能代理而策划的。该数据集提供了详细的模拟场景,可为人工智能的发展提供支持,特别是在机器人和家庭任务规划方面。通过结合现实的交互挑战,该数据集有助于模型在动态环境中学习有效的规划和执行。
适用于:
- 训练交互式机器人代理执行真实世界的任务。
- 模拟家庭任务规划和执行。
- 开发虚拟环境中的人工智能应用。
14. MuJoCo
MuJoCo 是一个物理引擎,以创建高度逼真的物理交互模拟而闻名,尤其是在机器人领域。它提供了详细的基于物理的环境,使人工智能模型能够学习复杂的运动和控制任务。该数据集对于专注于开发需要准确呈现真实世界动态的模型的研究人员来说至关重要。
适用于:
- 用于现实机器人模拟的训练模型。
- 在模拟环境中开发先进的控制系统。
- 基于物理任务的人工智能算法基准测试。
链接:MuJoCo
15. Robotics数据集
Robotics Datasets 能捕捉真实世界的传感器数据和机器人交互,是人工智能研究不可或缺的工具。这些数据集提供了从工业自动化到服务机器人等各种机器人应用的丰富的上下文信息。有了这些数据集,就能训练出能以高可靠性导航复杂物理环境的模型。
适用于:
- 为真实世界的机器人交互训练人工智能。
- 开发基于传感器的决策系统
- 为动态环境中的人工智能性能设定基准。
16. Atari Games
Atari Games 是一个经典数据集,被用作强化学习算法的基准。它提供了一套游戏环境,让人工智能模型面临连续决策任务的挑战。该数据集仍然是在各种动态场景中测试和提高人工智能性能的常用工具。
适用于:
- 强化学习策略基准测试。
- 测试人工智能在不同游戏环境中的表现。
- 开发顺序决策算法。
链接:Atari Games
17. Web-crawled Interactions
Web-crawled interactions 包括从各种在线平台中提取的大规模用户行为数据。它们捕捉了真实的人类交互模式和参与度指标,为培训交互代理提供了宝贵的见解。该数据集对于开发能够理解和预测真实世界用户网络行为的人工智能特别有用。
适用于:
- 根据真实用户行为训练交互式代理。
- 利用动态交互数据增强推荐系统。
- 分析对话式人工智能的参与趋势。
18. AI2 ARC数据集
AI2 ARC 数据集是一系列具有挑战性的选择题,旨在评估人工智能的常识推理和解决问题的能力。它的问题涵盖各种主题和难度级别,是推理模型的严格基准。研究人员利用这个数据集来推动逻辑推理的发展,并评估生成式人工智能系统的理解深度。
适用于:
- 常识推理能力基准。
- 训练处理标准化测试问题的模型。
- 增强人工智能系统中的问题解决和逻辑推理能力。
19. MS MARCO
MS MARCO 是一个大型数据集,用于完成段落排序、问题解答和信息检索等任务。它汇编了真实世界的搜索查询和相关段落,用于训练和测试检索增强生成系统。该数据集有助于弥合信息检索与生成模型之间的差距,从而实现更具语境感知能力的搜索和答案生成。
适用于:
- 训练检索增强生成(RAG)模型。
- 开发先进的段落排序和问题解答系统。
- 利用真实世界数据增强信息检索管道。
链接:MS MARCO
20. OpenAI Gym
OpenAI Gym 是一个标准化的工具包,提供各种模拟环境,用于开发和测试强化学习算法。它提供了一系列场景–从简单的控制任务到更复杂的模拟–是训练代理行为的理想工具。它的易用性和广泛的社区支持使其成为强化学习研究的主要工具。
适用于:
- 强化学习算法基准测试。
- 为代理开发模拟训练环境。
- 在受控场景中快速创建代理行为原型。
链接:OpenAI Gym
汇总表
以下是上述讨论的生成式人工智能和代理式人工智能开源数据集汇总表。我提到了每个数据集的样本数量、文件大小和开发者,以及它们的下载链接。
#No. | 数据集 | 样本数 | 文件大小 | 开发者 | 最佳用途 |
1 | The Pile | 数百万文档(由 22 个子数据集汇总而成) | ~825 GB | EleutherAI | 训练大型语言模型。 |
2 | Common Crawl | ~25 亿网页 | ~60 TB (原始数据) | Common Crawl Foundation | 网络规模语言模型和内容分析。 |
3 | WikiText | ~28,475 篇文章 | ~500 MB | Salesforce Research | 长距离上下文建模和文本预测。 |
4 | OpenWebText | ~8 百万文档 | ~38 GB | Open-source community | 基于网络的文本生成和摘要。 |
5 | LAION-5B | 58.5 亿图像-文本对 | ~5 TB | LAION | 训练多模态人工智能和文生图模型。 |
6 | MS COCO | ~330,000 幅图像 | ~25 GB | Microsoft | 微软对象检测和图像标题。 |
7 | Open Images | ~9 百万张图像 | ~600 GB | 图像识别和分割研究。 | |
8 | RedPajama‑1T | 1.2 万亿个标记(从不同来源汇总) | ~1 TB | Together (RedPajama) | 大规模 LLM 预训练和数据集整理。 |
9 | RedPajama‑V2 | 超过 1,000 亿个词组 | ~200 GB | Together (RedPajama) | 多语种 LLM 开发和数据集过滤。 |
10 | OpenAI WebGPT Dataset | ~10,000 个带注释的网页浏览会话 | ~10 GB | OpenAI | 训练人工智能进行网页浏览和检索。 |
11 | Obsidian Agent Dataset | 100,000 个模拟场景 | ~5 GB | Obsidian Labs | 人工智能决策和规划模拟。 |
12 | WebShop Dataset | 100 万次产品交互 | ~20 GB | WebShop Open-Source | 开源电子商务人工智能和产品搜索优化。 |
13 | Meta EAI Dataset | 10,000 个模拟场景 | ~50 GB | Meta | 用于真实世界机器人技术的人工智能训练。 |
14 | MuJoCo | 数以千计的模拟情节 | ~1 GB | Roboti LLC / DeepMind | 模拟机器人控制和基于物理的人工智能。 |
15 | Robotics Datasets | 从各种来源汇总(数千个传感器记录) | ~100 GB (汇总) | 各研究小组 | 用于机器人交互和控制的人工智能。 |
16 | Atari Games | ~1 千万游戏帧 | ~10 GB | 各种学术资源 | 游戏中的强化学习基准。 |
17 | Web-crawled Interactions | 数以亿计的用户交互日志 | ~500 GB | 各种研究机构 | 训练交互代理和推荐人工智能。 |
18 | AI2 ARC | 7,787 道选择题 | ~100 MB | Allen Institute for AI | 常识推理和逻辑推理。 |
19 | MS MARCO | 超过 100 万个段落 | ~100 GB | Microsoft | 信息检索和问题解答。 |
20 | OpenAI Gym | 70 多个模拟环境 | N/A | OpenAI | 强化学习和AI代理培训。 |
注:样本数量和数据集大小可能因版本和应用的预处理而异。请通过提供的下载链接参阅官方文档,以获取最新、最准确的信息。
小结
以上重点介绍的开源数据集为开发尖端的生成式和代理式人工智能系统奠定了坚实的基础。无论您是在研究自然语言处理、计算机视觉、自主决策还是高级推理,这些资源都能提供推动创新所需的深度和多样性。通过利用这些数据集,研究人员和开发人员可以加速突破、完善模型性能并探索人工智能的新领域。
评论留言