LLM和RAG技术的比较探索

作者 | Ashok Gorantla

整理 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

在人工智能（AI）的动态环境中，两种开创性的技术——大型语言模型（LLM）和检索增强生成（RAG）——在理解和生成类人文本方面脱颖而出。本文开始了LLM和RAG之间的比较之旅，揭示了它们的机制、应用以及它们为人工智能领域提供的独特优势。

一、大型语言模型（LLM）：基础与应用

LLM，如GPT（Generative Pre-trained Transformer），凭借其在广泛的主题中生成连贯和上下文相关文本的能力，已经彻底改变了人工智能场景。LLM的核心是依靠大量的文本数据和复杂的神经网络架构，从他们接受过训练的文本内容中学习语言模式、语法和知识。

LLM的优势在于它们的泛化能力：它们可以在没有特定任务训练的情况下执行各种与语言相关的任务。这包括翻译语言、回答问题，甚至写文章。然而，LLM并非没有挑战。他们有时会产生听起来合理但不正确或无意义的答案，这种现象被称为“幻觉”。此外，他们的输出质量在很大程度上取决于他们训练数据的质量和广度。

核心方面规模：LLM的标志是其庞大的参数数量，达到数十亿，涵盖了广泛的语言范围。训练制度：他们对不同的文本数据进行预培训，随后针对量身定制的任务进行微调，深入理解语言的细微差别。实用范围：LLM可以在各个方面使用，从帮助内容创建到促进语言翻译。

示例：使用LLM生成文本

为了进行说明，请考虑以下使用LLM生成文本示例的Python代码片段：

from transformers import GPT2Tokenizer, GPT2LMHeadModel

# Input
prompt = "How long have Australia held on to the Ashes?" 
    
# Encode the inputs with GPT2 Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
inputs = tokenizer.encode(prompt, return_tensors='pt')  ## using pyTorch ('tf' to use TensorFlow)

# Generate outputs with gpt2 Model
model = GPT2LMHeadModel.from_pretrained('gpt2')
outputs = model.generate(inputs, max_length=25)

# Decode and print the result
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Generated text:", result)

这段代码使用GPT-2（一种流行的LLM）初始化文本生成管道，并根据给定的提示生成文本。

二、检索增强生成（RAG）：综述和使用案例

RAG通过将GPT等模型的生成能力与检索机制相结合，引入了一种新的方法。该机制实时搜索文本数据库（如维基百科），以找到可用于通知模型响应的相关信息。这种检索和生成的结合使RAG能够产生不仅与上下文相关，而且基于事实信息的答案。

与传统LLM相比，RAG的主要优势之一是能够通过参考最新来源提供更准确和具体的信息。这使得RAG对于信息的准确性和及时性至关重要的应用程序特别有用，例如在新闻报道或学术研究援助中。

然而，对外部数据库的依赖意味着，如果数据库不全面或检索过程效率低下，RAG的性能可能会受到影响。此外，将检索机制集成到生成过程中会增加模型的复杂性，可能会增加所需的计算资源。

Core Aspects核心方面混合性质：RAG模型首先检索相关文档，然后利用此上下文进行知情生成。动态知识访问：与LLM不同，RAG模型可以利用最新或特定领域的数据，提供更强的通用性。应用领域：RAG在需要外部知识的场景中大放异彩，如深度问答和事实内容生成。

示例：为信息检索实现RAG

以下是如何实现用于检索和生成文本的基本RAG系统的简化示例：

from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration 
 
# A sample query to ask the model
query = "How long have Australia held on to the Ashes?" 

tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq")  ## Get the tokenizer from the pretrained model
tokenized_text = tokenizer(query, return_tensors='pt', max_length=100, truncatinotallow=True) ## Encode/Tokenize the query

# Find results with RAG-Sequence model (uncased model) using wiki_dpr dataset
retriever = RagRetriever.from_pretrained("facebook/rag-sequence-nq", index_name="exact", use_dummy_dataset=True) ## Uses a pretrained DPR dataset (wiki_dpr) https://huggingface.co/datasets/wiki_dpr
model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence-nq", retriever=retriever) 
model_generated_tokens = model.generate(input_ids=tokenized_text["input_ids"], max_new_tokens=1000) ## Find the relavant information from the dataset (tokens)

print(tokenizer.batch_decode(model_generated_tokens, skip_special_tokens=True)[0]) ## Decode the data to find the answer

该代码利用Facebook的RAG模型来回答查询，首先对输入进行标记，然后根据实时检索到的信息生成响应。

三、LLM vs RAG

LLM和RAG之间的选择取决于特定的任务要求。以下是它们的组合方式：

1.知识可访问性

LLM依赖于其预训练语料库，可能导致信息过时。RAG具有检索功能，可确保访问最新的数据。

2.实施复杂性

RAG模型由于其双步骤性质，呈现出比LLM更高的复杂性和需要更多的资源。

3.灵活性和应用

这两种型号都具有广泛的应用潜力。LLM是各种NLP任务的坚实基础，而RAG模型在即时访问外部详细数据至关重要的情况下表现出色。

四、结论：驾驭LLM和RAG的取舍

LLM和RAG都代表着人工智能理解和生成类人文本能力的重大进步。在LLM和RAG模型之间进行选择需要权衡NLP项目的独特需求。LLM提供了多功能性和通用性，使其适用于广泛的应用程序和各种语言任务。相比之下，RAG的优势在于其提供准确、信息丰富的响应的能力，在知识密集型任务中尤其有价值，非常适合于最新或特定详细信息的整合至关重要的情况。

随着人工智能的不断发展，LLM和RAG的比较分析强调了为正确的任务选择正确工具的重要性。鼓励开发人员和研究人员在其特定需求的背景下权衡这些技术的优势和局限性，旨在充分利用人工智能在创建智能响应和上下文感知应用程序方面的潜力。

参考链接：https://dzone.com/articles/a-comparative-exploration-of-llm-and-rag

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/