News

Hugging Face: Neue Open-Source-RAG-Modelle

28. April 2026
7 Minuten Lesezeit
Equipe Ailog

Hugging Face veröffentlicht eine neue Familie von für RAG optimierten Modellen: embeddings, rerankers und spezialisierte LLMs. Ein umfassender Überblick.

Hugging Face erweitert das Open-Source RAG-Ökosystem

Hugging Face kündigt die Veröffentlichung einer neuen Modellfamilie an, die speziell für RAG-Anwendungen optimiert ist. Dieses Release umfasst embedding-Modelle, rerankers und LLMs, die für augmentierte Generierung angepasst sind.

"Unser Ziel ist es, RAG in Enterprise-Qualität zu demokratisieren", erklärt Clement Delangue, CEO von Hugging Face. "Diese Modelle bieten Leistungen, die mit proprietären Lösungen vergleichbar sind — als Open-Source."

Die neuen Modelle

Embeddings : HF-RAG-Embed

Eine neue Familie von embedding-Modellen, optimiert für RAG:

ModeleDimensionsContexteMTEB ScoreLicence
hf-rag-embed-small38451262.1Apache 2.0
hf-rag-embed-base768204865.8Apache 2.0
hf-rag-embed-large1024819268.4Apache 2.0
hf-rag-embed-xl20481638470.2Apache 2.0

Besonderheiten :

  • Speziell für retrieval von Dokumenten trainiert
  • Native Unterstützung für asymmetrische Abfragen (query vs document)
  • Optimiert für Multilingualität (100 Sprachen)
DEVELOPERpython
from sentence_transformers import SentenceTransformer model = SentenceTransformer("huggingface/hf-rag-embed-large") # Dokument-Embeddings doc_embeddings = model.encode( documents, prompt_name="document" # Automatisches Präfix ) # Query-Embeddings query_embedding = model.encode( query, prompt_name="query" )

Consultez notre guide sur le choix des modeles d'embeddings.

Rerankers : HF-RAG-Rerank

Leistungsfähige und leichte reranking-Modelle :

ModeleParametresLatence (P50)nDCG@10
hf-rag-rerank-tiny33M5ms58.2
hf-rag-rerank-small110M12ms64.7
hf-rag-rerank-base330M28ms68.9
hf-rag-rerank-large560M45ms71.3
DEVELOPERpython
from transformers import AutoModelForSequenceClassification, AutoTokenizer model = AutoModelForSequenceClassification.from_pretrained( "huggingface/hf-rag-rerank-base" ) tokenizer = AutoTokenizer.from_pretrained( "huggingface/hf-rag-rerank-base" ) # Reranking pairs = [(query, doc) for doc in candidate_docs] inputs = tokenizer(pairs, padding=True, return_tensors="pt") scores = model(**inputs).logits.squeeze()

Ces modeles complementent parfaitement notre guide sur le reranking.

LLMs : HF-RAG-LLM

LLMs, die speziell für RAG-Generierung angepasst sind:

ModeleParametresContexteRAGBench Score
hf-rag-llm-7b7B32K72.4
hf-rag-llm-13b13B64K76.8
hf-rag-llm-34b34B128K81.2

Einzigartige Merkmale :

  • Trainiert, systematisch Quellen zu zitieren
  • Weniger anfällig für Halluzinationen
  • Instruction-Following optimiert für RAG
DEVELOPERpython
from transformers import pipeline generator = pipeline( "text-generation", model="huggingface/hf-rag-llm-13b" ) response = generator( f"""<context> {retrieved_documents} </context> <question> {user_question} </question> Reponds en citant tes sources avec [1], [2], etc.""" )

Benchmarks

Vergleich mit der Konkurrenz

Embeddings (MTEB Retrieval)

ModeleScoreLatenceOpen-source
hf-rag-embed-large68.415msOui
Cohere Embed v571.245msNon
text-embedding-3-large67.440msNon
BGE-M364.812msOui

Rerankers

ModelenDCG@10LatenceOpen-source
hf-rag-rerank-base68.928msOui
Cohere Rerank 372.135msNon
ms-marco-MiniLM64.28msOui

LLMs (RAGBench)

ModeleScoreHallucinationsOpen-source
hf-rag-llm-34b81.22.8%Oui
GPT-4 Turbo84.52.4%Non
Claude 3 Opus86.11.8%Non
Mixtral 8x22B78.44.1%Oui

Deploiement

Options de deploiement

1. Hugging Face Inference Endpoints

DEVELOPERpython
from huggingface_hub import InferenceClient client = InferenceClient(model="huggingface/hf-rag-embed-large") embeddings = client.feature_extraction(texts)

Preis : $0.06/heure (GPU) a $0.60/heure (GPU haute perf)

2. Self-hosted avec vLLM

DEVELOPERbash
pip install vllm python -m vllm.entrypoints.openai.api_server \ --model huggingface/hf-rag-llm-13b \ --port 8000

3. Optimisation avec ONNX

DEVELOPERpython
from optimum.onnxruntime import ORTModelForSequenceClassification model = ORTModelForSequenceClassification.from_pretrained( "huggingface/hf-rag-rerank-base", export=True )

Gain de performance : 2-3x sur CPU

Pour les configurations de production, consultez notre guide sur le deploiement en production.

Quantification

Les modeles sont disponibles en versions quantifiees :

QuantificationTaillePerte qualite
FP16100%0%
INT850%-0.5%
INT425%-2%
GPTQ25%-1.5%

Integration avec les frameworks

LangChain

DEVELOPERpython
from langchain_huggingface import HuggingFaceEmbeddings embeddings = HuggingFaceEmbeddings( model_name="huggingface/hf-rag-embed-large" )

LlamaIndex

DEVELOPERpython
from llama_index.embeddings.huggingface import HuggingFaceEmbedding embed_model = HuggingFaceEmbedding( model_name="huggingface/hf-rag-embed-large" )

Ailog

Les modeles HF-RAG sont integres en tant qu'option dans la configuration Ailog.

Cas d'usage recommandes

Quand utiliser HF-RAG

Ideal pour :

  • Contraintes de souverainete des donnees
  • Budget limite (self-hosting)
  • Besoin de personnalisation/fine-tuning
  • Volume eleve de requetes

Moins adapte pour :

  • Equipes sans expertise ML
  • Besoin de la meilleure qualite absolue
  • Prototypes rapides

Fine-tuning

Les modeles sont concus pour le fine-tuning :

DEVELOPERpython
from transformers import Trainer, TrainingArguments training_args = TrainingArguments( output_dir="./fine-tuned-rag-embed", per_device_train_batch_size=32, num_train_epochs=3 ) trainer = Trainer( model=model, args=training_args, train_dataset=domain_dataset ) trainer.train()

Consultez notre guide sur le fine-tuning des embeddings.

Notre avis

Cette release represente une avancee majeure pour l'open-source :

Points forts :

  • Performances proches du proprietaire
  • Licence permissive (Apache 2.0)
  • Modeles optimises pour le RAG
  • Excellente documentation

Points d'attention :

  • Necessite expertise pour deployer
  • Couts infra si self-hosted
  • Pas de support commercial

Pour les organisations avec des contraintes de souverainete ou des volumes eleves, HF-RAG devient une alternative credible aux solutions proprietaires.

Les plateformes comme Ailog permettent d'utiliser ces modeles sans gerer l'infrastructure, combinant open-source et simplicite.

Consultez notre guide d'introduction au RAG pour demarrer.

FAQ

Les benchmarks montrent que les modeles HF-RAG atteignent des performances proches des solutions proprietaires. Par exemple, hf-rag-embed-large obtient 68.4 sur MTEB contre 67.4 pour text-embedding-3-large d'OpenAI. L'ecart se reduit significativement, surtout apres fine-tuning sur vos donnees.
Pour les embeddings, commencez par hf-rag-embed-base (equilibre taille/performance). Pour le reranking, hf-rag-rerank-base offre le meilleur rapport qualite/latence. Pour la generation, hf-rag-llm-13b est un bon compromis si vous avez le GPU necessaire.
Oui, avec la quantification INT8 ou INT4 et l'optimisation ONNX, les modeles d'embeddings et de reranking tournent correctement sur CPU avec une perte de qualite minimale (0.5-2%). Les LLMs necessitent idealement un GPU, mais les versions quantifiees GPTQ fonctionnent sur des configurations modestes.
Absolument. La licence Apache 2.0 permet l'usage commercial sans restriction, y compris la modification et la redistribution. C'est l'un des principaux avantages par rapport aux solutions proprietaires qui facturent a l'usage.
Hugging Face fournit une API simple via Trainer de transformers. Vous pouvez fine-tuner les embeddings avec vos paires query-document et les rerankers avec vos donnees de pertinence. Le fine-tuning ameliore typiquement les performances de 5-10% sur un domaine specifique.

Tags

RAGHugging Faceopen-sourceembeddingsLLM

Verwandte Artikel

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !