您是一位 AI 工程师,正在苦苦思索如何获取能够检验您技能的资源吗?面对海量的信息,找到合适的解决方案可能并非易事。因此,我们整理了十个 GitHub 上的 LLM 代码库,每位 AI 工程师都应该熟悉它们。这些代码库并非仅仅是学术作业,而是由来自微软、Karpathy 和开源社区的专家开发的实践项目。
无论您是初入机器学习领域,还是深入研究大型语言模型,或是将 AI 代理部署到生产环境中,这些代码库都能提供简单的代码、指导性项目和行业领域供您探索。换句话说,从学习到构建再到部署,您都可以将其视为指南,助您更智能、更快速、更高效地运用 AI。
1. 机器学习入门
机器学习入门是由微软打造的为期12周的学习计划,旨在利用真实数据和scikit-learn库讲授机器学习的基础知识。该计划采用与课堂课程类似的系统化布局,涵盖监督学习、无监督学习、分类、回归、聚类和时间序列分析等课程。每个模块都包含交互式Jupyter笔记本、练习和测验,以巩固学员的理解。该资源库将复杂的机器学习概念分解成更易于理解的主题,使学员能够通过实践和实验学习到宝贵的技能。
适合于
- 希望以结构化方式开始学习机器学习的完全初学者;
- 教授应用机器学习的教育工作者;
- 希望从真实数据中学习并建立作品集的自学者。
GitHub 代码库:https://github.com/microsoft/ML-For-Beginners
2. 人工智能入门
人工智能入门是机器学习基础课程的延伸,旨在带领学生进入人工智能领域,探索深度学习、自然语言处理、计算机视觉模型和 Transformer 模型。这门课程同样由微软打造,为期 12 周,提供 PyTorch 和 TensorFlow 等工具,让学生通过动手实践和互动实验室学习人工智能基础知识。前者深入探讨算法原理,而后者则侧重于人工智能的伦理道德、模型部署以及实际应用的考量。虽然这门课程在两者之间取得了良好的平衡,但它更适合从标准机器学习过渡到人工智能的学生。
适合于
- 从机器学习过渡到人工智能的学生
- 希望摆脱神经网络和 Transformer 模型的开发者
- 希望获得现代人工智能应用经验和项目经验的学生
GitHub LLM 代码库:https://github.com/microsoft/AI-For-Beginners
3. 神经网络:从零到精通
《神经网络:从零到精通》由 Andrej Karpathy 创作,带您亲身探索深度学习的内在运作机制。本书重点讲解了如何仅使用 Python 和 NumPy,无需高级库,从零开始构建神经网络和 GPT 风格的模型。Karpathy 将反向传播、梯度下降和自注意力等复杂概念分解成易于学习的代码。真正的亮点在于其迷你 GPT 实现,它深入讲解了 Transformer 的底层工作原理。
适合于
- 希望从头开始学习深度学习的工程师和研究人员
- 希望从头开始实现神经网络的人士
- 热爱底层代码且充满好奇心的学习者
GitHub 代码库:https://github.com/karpathy/nn-zero-to-hero
4. 深度学习论文实现
这是一个精选的最新深度学习论文的 PyTorch 实现合集,涵盖 GAN、Transformer、扩散模型等。我们的目标是帮助那些希望在阅读深度学习论文之外更进一步,并推进论文实现的开发者。每个模型都经过清晰简洁的实现,通常能够达到与论文中引用相同的结果。借助此代码库,工程师可以复现实验、理解创新成果,并扩展生成式人工智能和计算机视觉领域的现代最先进架构。
适合于
- 复现领先机器学习论文的最优结果
- 使用实际代码学习新架构
- 扩展或修改高级深度学习模型
GitHub LLM 代码库:https://github.com/lucidrains
5. Made With ML
Made With ML 是一门涵盖机器学习整个生命周期的完整课程,涵盖从设计开发到部署和监控的整个生命周期。Made With ML 由 Goku Mohandas 打造,专注于实践技能,例如数据版本控制 (DVC)、持续集成、测试机器学习流水线、通过 API 提供模型以及监控生产环境中的机器学习系统。它还涵盖了关于负责任的人工智能 (Responsible AI) 和可重复性的概念。这是一个真正的 MLOps 训练营,对于在生产系统上工作的工程师尤其有用。
适合于
- 在现实世界中部署机器学习系统的 MLOps 和 AI 工程师
- 构建大型机器学习基础设施的团队
- 希望获得面向项目的端到端机器学习体验的学习者
GitHub 代码库:https://github.com/GokuMohandas/Made-With-ML
6. Hands-On大型语言模型
Hands-On LLMs 是一个用于构建和调优大型语言模型的工作流程。该代码库扩展了广受欢迎的 O’Reilly 书籍,并提供了用户可交互的笔记本,用于探索分词、注意力机制、Transformer 模块、RAG(检索辅助生成)、嵌入和评估方法。它使用 Hugging Face Transformers 和 LangChain 集成,为开发具有完全可解释性和模块化的实际应用奠定了基础,这些实际应用包括聊天机器人、摘要器和文档问答系统。
适合于
- 正在将 LLM 应用于实际应用的工程师;
- 需要针对特定领域任务微调模型的开发人员;
- 正在研究快速策略和评估指标的研究人员。
GitHub 代码库:https://github.com/pinecone-io/handbook-llms
7. 高级RAG技术
此代码库包含 30 多种检索增强生成 (RAG) 方法的改进版本,例如 HyDE、GraphRAG 以及更复杂的分块方法。使用它,可以对不同的嵌入模型、向量存储、文档拆分、重排序和性能基准测试进行实验。社区可以对不同的方法进行研究,以找到最适合每种情况的方法,并以文档类型和查询作为性能标准,从而优化 LLM 驱动的搜索和问答解决方案。
适合于
- 正在为行业设计和构建 RAG 系统的 AI 工程师
- 致力于在保持质量的同时加快知识检索速度的团队
- 正在对向量搜索、混合搜索和图搜索方法进行比较研究的科学家
GitHub 代码库:https://github.com/NirDiamant/RAG_Techniques
8. 面向初学者的AI代理
这个由微软全新推出的用户友好型代码库,旨在为学习者介绍 AI 代理。AI 代理是由 LLM 驱动的自主系统,能够规划、决策并采取行动。该代码库包含 11 个体验式实验室,所有实验室均使用 AutoGen、LangChain、OpenAI API 等技术来编写代理,使其能够执行多步骤、多轮次任务、调用工具、搜索知识并与其他代理协作。每个实验室都以清晰易懂且可复现的方式介绍了行动计划、工具链、记忆和快速工程等概念。
适合于
- AI 代理或代理工作流新手
- 希望开发基于代理的实践型 AI 课程的教育工作者
- 黑客正在从头开始构建自主任务代理
GitHub LLM 代码库:https://github.com/microsoft/AI-Agents
9. Agents Towards Production
Agents Towards Production 是一本全面的指南,指导如何将 AI 代理从概念验证推向生产环境。我们将涵盖编排、工具集成、错误处理、重试逻辑、安全性、内存(Redis、向量数据库)以及使用 FastAPI 和 Docker 进行部署的实现模式。人们对可扩展代理系统的兴趣日益浓厚,本代码库可作为向业界交付可靠且可扩展的代理工作流的模板。
适合于
- 在生产环境中部署 AI 代理的开发者
- 构建全栈代理基础设施的团队
- 使用 LangGraph、OpenAgents 或 AutoGen 的专业人士
GitHub LLM 代码库:https://github.com/NirDiamant/agents-towards-production
10. AI工程中心
AI 工程中心是一个庞大的精选库,包含 70 多个涵盖 LLM、RAG 和自主代理领域的真实项目、教程和模板。它专为希望通过实践经验提升技能的工程师而设计。网站上的每个项目都标注了难度和类别,并提供 Colab 链接、参考资料和定制建议。该中心是一个数字沙盒,可供您学习所有您一直想尝试的 AI 工具,并随时可以 fork 和 remix。
适合于
- 构建 GenAI 和基于代理的应用程序组合
- 以模块化方式实践高级 LLM 工作流程
- 尝试使用新的工具和框架
GitHub 代码库:https://github.com/ashishps1/learn-ai-engineering
小结
要想精通人工智能,仅仅阅读论文或学习教程是不够的;你需要使用合适的工具进行构建和迭代。我们讨论过的 GitHub LLM 代码库是一个完整的工具包。你可以从学习机器学习到与这些人工智能代理实时交互。如果你一直专注于深度学习、大型语言模型 (LLM)、检索增强生成 (RAG) 和/或代理编排,那么你有很多优秀的实际项目可以借鉴。
研究这些项目,fork 代码,修改模型,并构建你自己的项目。在人工智能这样一个快速发展的领域,积极主动就是学习,而这些代码库是保持积极主动的好方法。
评论留言