您是一位 AI 工程師,正在苦苦思索如何獲取能夠檢驗您技能的資源嗎?面對海量的資訊,找到合適的解決方案可能並非易事。因此,我們整理了十個 GitHub 上的 LLM 程式碼庫,每位 AI 工程師都應該熟悉它們。這些程式碼庫並非僅僅是學術作業,而是由來自微軟、Karpathy 和開源社羣的專家開發的實踐專案。
無論您是初入機器學習領域,還是深入研究大型語言模型,或是將 AI 代理部署到生產環境中,這些程式碼庫都能提供簡單的程式碼、指導性專案和行業領域供您探索。換句話說,從學習到構建再到部署,您都可以將其視為指南,助您更智慧、更快速、更高效地運用 AI。
1. 機器學習入門
機器學習入門是由微軟打造的為期12周的學習計劃,旨在利用真實資料和scikit-learn庫講授機器學習的基礎知識。該計劃採用與課堂課程類似的系統化佈局,涵蓋監督學習、無監督學習、分類、迴歸、聚類和時間序列分析等課程。每個模組都包含互動式Jupyter筆記本、練習和測驗,以鞏固學員的理解。該資源庫將複雜的機器學習概念分解成更易於理解的主題,使學員能夠透過實踐和實驗學習到寶貴的技能。
適合於
- 希望以結構化方式開始學習機器學習的完全初學者;
- 教授應用機器學習的教育工作者;
- 希望從真實資料中學習並建立作品集的自學者。
GitHub 程式碼庫:https://github.com/microsoft/ML-For-Beginners
2. 人工智慧入門
人工智慧入門是機器學習基礎課程的延伸,旨在帶領學生進入人工智慧領域,探索深度學習、自然語言處理、計算機視覺模型和 Transformer 模型。這門課程同樣由微軟打造,為期 12 周,提供 PyTorch 和 TensorFlow 等工具,讓學生透過動手實踐和互動實驗室學習人工智慧基礎知識。前者深入探討演算法原理,而後者則側重於人工智慧的倫理道德、模型部署以及實際應用的考量。雖然這門課程在兩者之間取得了良好的平衡,但它更適合從標準機器學習過渡到人工智慧的學生。
適合於
- 從機器學習過渡到人工智慧的學生
- 希望擺脫神經網路和 Transformer 模型的開發者
- 希望獲得現代人工智慧應用經驗和專案經驗的學生
GitHub LLM 程式碼庫:https://github.com/microsoft/AI-For-Beginners
3. 神經網路:從零到精通
《神經網路:從零到精通》由 Andrej Karpathy 創作,帶您親身探索深度學習的內在運作機制。本書重點講解了如何僅使用 Python 和 NumPy,無需高階庫,從零開始構建神經網路和 GPT 風格的模型。Karpathy 將反向傳播、梯度下降和自注意力等複雜概念分解成易於學習的程式碼。真正的亮點在於其迷你 GPT 實現,它深入講解了 Transformer 的底層工作原理。
適合於
- 希望從頭開始學習深度學習的工程師和研究人員
- 希望從頭開始實現神經網路的人士
- 熱愛底層程式碼且充滿好奇心的學習者
GitHub 程式碼庫:https://github.com/karpathy/nn-zero-to-hero
4. 深度學習論文實現
這是一個精選的最新深度學習論文的 PyTorch 實現合集,涵蓋 GAN、Transformer、擴散模型等。我們的目標是幫助那些希望在閱讀深度學習論文之外更進一步,並推進論文實現的開發者。每個模型都經過清晰簡潔的實現,通常能夠達到與論文中引用相同的結果。藉助此程式碼庫,工程師可以復現實驗、理解創新成果,並擴充套件生成式人工智慧和計算機視覺領域的現代最先進架構。
適合於
- 復現領先機器學習論文的最優結果
- 使用實際程式碼學習新架構
- 擴充套件或修改高階深度學習模型
GitHub LLM 程式碼庫:https://github.com/lucidrains
5. Made With ML
Made With ML 是一門涵蓋機器學習整個生命週期的完整課程,涵蓋從設計開發到部署和監控的整個生命週期。Made With ML 由 Goku Mohandas 打造,專注於實踐技能,例如資料版本控制 (DVC)、持續整合、測試機器學習流水線、透過 API 提供模型以及監控生產環境中的機器學習系統。它還涵蓋了關於負責任的人工智慧 (Responsible AI) 和可重複性的概念。這是一個真正的 MLOps 訓練營,對於在生產系統上工作的工程師尤其有用。
適合於
- 在現實世界中部署機器學習系統的 MLOps 和 AI 工程師
- 構建大型機器學習基礎設施的團隊
- 希望獲得面向專案的端到端機器學習體驗的學習者
GitHub 程式碼庫:https://github.com/GokuMohandas/Made-With-ML
6. Hands-On大型語言模型
Hands-On LLMs 是一個用於構建和調優大型語言模型的工作流程。該程式碼庫擴充套件了廣受歡迎的 O’Reilly 書籍,並提供了使用者可互動的筆記本,用於探索分詞、注意力機制、Transformer 模組、RAG(檢索輔助生成)、嵌入和評估方法。它使用 Hugging Face Transformers 和 LangChain 整合,為開發具有完全可解釋性和模組化的實際應用奠定了基礎,這些實際應用包括聊天機器人、摘要器和文件問答系統。
適合於
- 正在將 LLM 應用於實際應用的工程師;
- 需要針對特定領域任務微調模型的開發人員;
- 正在研究快速策略和評估指標的研究人員。
GitHub 程式碼庫:https://github.com/pinecone-io/handbook-llms
7. 高階RAG技術
此程式碼庫包含 30 多種檢索增強生成 (RAG) 方法的改進版本,例如 HyDE、GraphRAG 以及更復雜的分塊方法。使用它,可以對不同的嵌入模型、向量儲存、文件拆分、重排序和效能基準測試進行實驗。社羣可以對不同的方法進行研究,以找到最適合每種情況的方法,並以文件型別和查詢作為效能標準,從而最佳化 LLM 驅動的搜尋和問答解決方案。
適合於
- 正在為行業設計和構建 RAG 系統的 AI 工程師
- 致力於在保持質量的同時加快知識檢索速度的團隊
- 正在對向量搜尋、混合搜尋和圖搜尋方法進行比較研究的科學家
GitHub 程式碼庫:https://github.com/NirDiamant/RAG_Techniques
8. 面向初學者的AI代理
這個由微軟全新推出的使用者友好型程式碼庫,旨在為學習者介紹 AI 代理。AI 代理是由 LLM 驅動的自主系統,能夠規劃、決策並採取行動。該程式碼庫包含 11 個體驗式實驗室,所有實驗室均使用 AutoGen、LangChain、OpenAI API 等技術來編寫代理,使其能夠執行多步驟、多輪次任務、呼叫工具、搜尋知識並與其他代理協作。每個實驗室都以清晰易懂且可復現的方式介紹了行動計劃、工具鏈、記憶和快速工程等概念。
適合於
- AI 代理或代理工作流新手
- 希望開發基於代理的實踐型 AI 課程的教育工作者
- 駭客正在從頭開始構建自主任務代理
GitHub LLM 程式碼庫:https://github.com/microsoft/AI-Agents
9. Agents Towards Production
Agents Towards Production 是一本全面的指南,指導如何將 AI 代理從概念驗證推向生產環境。我們將涵蓋編排、工具整合、錯誤處理、重試邏輯、安全性、記憶體(Redis、向量資料庫)以及使用 FastAPI 和 Docker 進行部署的實現模式。人們對可擴充套件代理系統的興趣日益濃厚,本程式碼庫可作為向業界交付可靠且可擴充套件的代理工作流的模板。
適合於
- 在生產環境中部署 AI 代理的開發者
- 構建全棧代理基礎設施的團隊
- 使用 LangGraph、OpenAgents 或 AutoGen 的專業人士
GitHub LLM 程式碼庫:https://github.com/NirDiamant/agents-towards-production
10. AI工程中心
AI 工程中心是一個龐大的精選庫,包含 70 多個涵蓋 LLM、RAG 和自主代理領域的真實專案、教程和模板。它專為希望透過實踐經驗提升技能的工程師而設計。網站上的每個專案都標註了難度和類別,並提供 Colab 連結、參考資料和定製建議。該中心是一個數字沙盒,可供您學習所有您一直想嘗試的 AI 工具,並隨時可以 fork 和 remix。
適合於
- 構建 GenAI 和基於代理的應用程式組合
- 以模組化方式實踐高階 LLM 工作流程
- 嘗試使用新的工具和框架
GitHub 程式碼庫:https://github.com/ashishps1/learn-ai-engineering
小結
要想精通人工智慧,僅僅閱讀論文或學習教程是不夠的;你需要使用合適的工具進行構建和迭代。我們討論過的 GitHub LLM 程式碼庫是一個完整的工具包。你可以從學習機器學習到與這些人工智慧代理即時互動。如果你一直專注於深度學習、大型語言模型 (LLM)、檢索增強生成 (RAG) 和/或代理編排,那麼你有很多優秀的實際專案可以借鑑。
研究這些專案,fork 程式碼,修改模型,並構建你自己的專案。在人工智慧這樣一個快速發展的領域,積極主動就是學習,而這些程式碼庫是保持積極主動的好方法。
評論留言