和風網標誌

檢索增強產生:資訊檢索與文字產生的結合 – KDnuggets

日期:

檢索增強產生:資訊檢索與文字產生的結合
作者使用 Midjourney 創建的圖像
 

RAG簡介

在不斷發展的語言模型世界中,特別值得關注的堅定方法是檢索增強生成(RAG),這是一種在文本生成語言模型框架內結合資訊檢索(IR)元素的過程,以便生成類似人類的語言模型。我們將在這篇文章中介紹 RAG 的基本概念,並著眼於在後續文章中建立一些 RAG 系統。

RAG概述

我們使用大量通用資料集創建語言模型,這些資料集並非根據您自己的個人或自訂資料量身定制。為了應對這一現實,RAG 可以將您的特定數據與語言模型的現有「知識」結合。為了實現這一點,必須做的事情以及 RAG 所做的就是對資料建立索引以使其可搜尋。當執行由資料組成的搜尋時,將從索引資料中提取相關且重要的信息,並且可以在針對語言模型的查詢中使用該信息,以返回模型做出的相關且有用的回應。對於任何有興趣建立聊天機器人、現代資訊檢索系統或其他類型的個人助理的人工智慧工程師、資料科學家或開發人員,了解 RAG 以及了解如何利用自己的資料至關重要。

簡而言之,RAG 是一種透過輸入檢索功能豐富語言模型的新技術,它透過將IR 機制納入生成過程來增強語言模型,這些機制可以個性化(增強)用於生成目的的模型固有「知識」。

總而言之,RAG 涉及以下高階步驟:

  1. 從您的自訂資料來源檢索資訊
  2. 將此數據添加到您的提示中作為附加上下文
  3. 讓法學碩士根據增強提示產生回應

 
與模型微調替代方案相比,RAG 具有以下優點:

  1. RAG 不進行任何訓練,因此無需微調成本或時間
  2. 客製化資料與您創建的資料一樣新鮮,因此模型可以有效地保持最新狀態
  3. 具體的客製化資料文件可以在過程中(或之後)引用,因此系統更加可驗證和可信

仔細一看

經過更詳細的檢查,我們可以說 RAG 系統將經歷 5 個操作階段。

1.負載:從文字檔案、PDF、網頁、資料庫等收集原始文字資料是許多步驟中的第一步,將文字資料放入處理管道中,使其成為流程中的必要步驟。如果不載入數據,RAG 根本無法運作。

2.索引:您現在擁有的資料必須進行結構化和維護,以便檢索、搜尋和查詢。語言模型將使用從內容創建的向量嵌入來提供資料的數字表示,並使用特定的元資料來獲得成功的搜尋結果。

3.儲存:建立後,索引必須與元資料一起保存,確保不需要定期重複此步驟,以便更輕鬆地進行 RAG 系統擴展。

4.查詢:有了這個索引,就可以使用索引器和語言模型來遍歷內容,以根據各種查詢來處理資料集。

5。 評估:無論是在改變現有流程時還是在測試此類系統的固有延遲和準確性時,與其他可能的生成步驟相比評估效能都是有用的。

 

檢索增強生成過程
圖片由作者創建
 

一個簡短的例子

考慮以下簡單的 RAG 實作。想像一下,這是一個為回答客戶對虛構線上商店的詢問而創建的系統。

1。 載入中:內容將從產品文件、使用者評論和客戶輸入中產生,並以留言板、資料庫和 API 等多種格式儲存。

2.索引:您將為產品文件和使用者評論等產生向量嵌入,以及指派給每個資料點的元資料索引,例如產品類別或客戶評級。

3. 儲存:這樣開發的索引將保存在向量儲存中,這是一個用於儲存和最佳化向量檢索的專用資料庫,這就是嵌入的儲存方式。

4、查詢:當客戶查詢到達時,將根據問題文字進行向量儲存資料庫查找,然後使用語言模型透過使用該前體資料的來源作為上下文來產生回應。

5.評估:系統效能將透過將其效能與其他選項(例如傳統語言模型檢索)進行比較來評估,測量答案正確性、反應延遲和整體使用者滿意度等指標,以確保RAG 系統可以進行調整和磨練以提供卓越的性能結果。

這個範例演練應該讓您了解 RAG 背後的方法及其使用,以便在語言模型上傳達訊息檢索能力。

結論

本文的主題是引入檢索增強生成,它將文字生成與資訊檢索相結合,以提高語言模型輸出的準確性和上下文一致性。該方法允許提取和增強儲存在索引來源中的數據,並將其合併到語言模型的生成輸出中。與單純的語言模型微調相比,此 RAG 系統可以提供更高的價值。

我們 RAG 之旅的下一步將包括學習產業工具,以便實施我們自己的一些 RAG 系統。我們將首先專注於利用 LlamaIndex 的工具(例如資料連接器、引擎和應用程式連接器)來簡化 RAG 的整合及其擴展。但我們將其留到下一篇文章。

在即將到來的專案中,我們將建立複雜的 RAG 系統,並研究 RAG 技術的潛在用途和改進。希望能夠揭示人工智慧領域的許多新可能性,並利用這些不同的資料來源來建構更智慧和情境化的系統。
 
 

馬修·梅奧 (@馬特梅奧13)擁有電腦科學碩士學位和資料探勘研究生文憑。身為總編輯,Matthew 的目標是讓複雜的數據科學概念變得易於理解。他的專業興趣包括自然語言處理、機器學習演算法和探索新興人工智慧。他的使命是使數據科學界的知識民主化。馬修從 6 歲就開始編碼。

現貨圖片

最新情報

現貨圖片