Hugging Face: Neue Open-Source-RAG-Modelle
Hugging Face veröffentlicht eine neue Familie von für RAG optimierten Modellen: embeddings, rerankers und spezialisierte LLMs. Ein umfassender Überblick.
Hugging Face erweitert das Open-Source RAG-Ökosystem
Hugging Face kündigt die Veröffentlichung einer neuen Modellfamilie an, die speziell für RAG-Anwendungen optimiert ist. Dieses Release umfasst embedding-Modelle, rerankers und LLMs, die für augmentierte Generierung angepasst sind.
"Unser Ziel ist es, RAG in Enterprise-Qualität zu demokratisieren", erklärt Clement Delangue, CEO von Hugging Face. "Diese Modelle bieten Leistungen, die mit proprietären Lösungen vergleichbar sind — als Open-Source."
Die neuen Modelle
Embeddings : HF-RAG-Embed
Eine neue Familie von embedding-Modellen, optimiert für RAG:
| Modele | Dimensions | Contexte | MTEB Score | Licence |
|---|---|---|---|---|
| hf-rag-embed-small | 384 | 512 | 62.1 | Apache 2.0 |
| hf-rag-embed-base | 768 | 2048 | 65.8 | Apache 2.0 |
| hf-rag-embed-large | 1024 | 8192 | 68.4 | Apache 2.0 |
| hf-rag-embed-xl | 2048 | 16384 | 70.2 | Apache 2.0 |
Besonderheiten :
- Speziell für retrieval von Dokumenten trainiert
- Native Unterstützung für asymmetrische Abfragen (query vs document)
- Optimiert für Multilingualität (100 Sprachen)
DEVELOPERpythonfrom sentence_transformers import SentenceTransformer model = SentenceTransformer("huggingface/hf-rag-embed-large") # Dokument-Embeddings doc_embeddings = model.encode( documents, prompt_name="document" # Automatisches Präfix ) # Query-Embeddings query_embedding = model.encode( query, prompt_name="query" )
Consultez notre guide sur le choix des modeles d'embeddings.
Rerankers : HF-RAG-Rerank
Leistungsfähige und leichte reranking-Modelle :
| Modele | Parametres | Latence (P50) | nDCG@10 |
|---|---|---|---|
| hf-rag-rerank-tiny | 33M | 5ms | 58.2 |
| hf-rag-rerank-small | 110M | 12ms | 64.7 |
| hf-rag-rerank-base | 330M | 28ms | 68.9 |
| hf-rag-rerank-large | 560M | 45ms | 71.3 |
DEVELOPERpythonfrom transformers import AutoModelForSequenceClassification, AutoTokenizer model = AutoModelForSequenceClassification.from_pretrained( "huggingface/hf-rag-rerank-base" ) tokenizer = AutoTokenizer.from_pretrained( "huggingface/hf-rag-rerank-base" ) # Reranking pairs = [(query, doc) for doc in candidate_docs] inputs = tokenizer(pairs, padding=True, return_tensors="pt") scores = model(**inputs).logits.squeeze()
Ces modeles complementent parfaitement notre guide sur le reranking.
LLMs : HF-RAG-LLM
LLMs, die speziell für RAG-Generierung angepasst sind:
| Modele | Parametres | Contexte | RAGBench Score |
|---|---|---|---|
| hf-rag-llm-7b | 7B | 32K | 72.4 |
| hf-rag-llm-13b | 13B | 64K | 76.8 |
| hf-rag-llm-34b | 34B | 128K | 81.2 |
Einzigartige Merkmale :
- Trainiert, systematisch Quellen zu zitieren
- Weniger anfällig für Halluzinationen
- Instruction-Following optimiert für RAG
DEVELOPERpythonfrom transformers import pipeline generator = pipeline( "text-generation", model="huggingface/hf-rag-llm-13b" ) response = generator( f"""<context> {retrieved_documents} </context> <question> {user_question} </question> Reponds en citant tes sources avec [1], [2], etc.""" )
Benchmarks
Vergleich mit der Konkurrenz
Embeddings (MTEB Retrieval)
| Modele | Score | Latence | Open-source |
|---|---|---|---|
| hf-rag-embed-large | 68.4 | 15ms | Oui |
| Cohere Embed v5 | 71.2 | 45ms | Non |
| text-embedding-3-large | 67.4 | 40ms | Non |
| BGE-M3 | 64.8 | 12ms | Oui |
Rerankers
| Modele | nDCG@10 | Latence | Open-source |
|---|---|---|---|
| hf-rag-rerank-base | 68.9 | 28ms | Oui |
| Cohere Rerank 3 | 72.1 | 35ms | Non |
| ms-marco-MiniLM | 64.2 | 8ms | Oui |
LLMs (RAGBench)
| Modele | Score | Hallucinations | Open-source |
|---|---|---|---|
| hf-rag-llm-34b | 81.2 | 2.8% | Oui |
| GPT-4 Turbo | 84.5 | 2.4% | Non |
| Claude 3 Opus | 86.1 | 1.8% | Non |
| Mixtral 8x22B | 78.4 | 4.1% | Oui |
Deploiement
Options de deploiement
1. Hugging Face Inference Endpoints
DEVELOPERpythonfrom huggingface_hub import InferenceClient client = InferenceClient(model="huggingface/hf-rag-embed-large") embeddings = client.feature_extraction(texts)
Preis : $0.06/heure (GPU) a $0.60/heure (GPU haute perf)
2. Self-hosted avec vLLM
DEVELOPERbashpip install vllm python -m vllm.entrypoints.openai.api_server \ --model huggingface/hf-rag-llm-13b \ --port 8000
3. Optimisation avec ONNX
DEVELOPERpythonfrom optimum.onnxruntime import ORTModelForSequenceClassification model = ORTModelForSequenceClassification.from_pretrained( "huggingface/hf-rag-rerank-base", export=True )
Gain de performance : 2-3x sur CPU
Pour les configurations de production, consultez notre guide sur le deploiement en production.
Quantification
Les modeles sont disponibles en versions quantifiees :
| Quantification | Taille | Perte qualite |
|---|---|---|
| FP16 | 100% | 0% |
| INT8 | 50% | -0.5% |
| INT4 | 25% | -2% |
| GPTQ | 25% | -1.5% |
Integration avec les frameworks
LangChain
DEVELOPERpythonfrom langchain_huggingface import HuggingFaceEmbeddings embeddings = HuggingFaceEmbeddings( model_name="huggingface/hf-rag-embed-large" )
LlamaIndex
DEVELOPERpythonfrom llama_index.embeddings.huggingface import HuggingFaceEmbedding embed_model = HuggingFaceEmbedding( model_name="huggingface/hf-rag-embed-large" )
Ailog
Les modeles HF-RAG sont integres en tant qu'option dans la configuration Ailog.
Cas d'usage recommandes
Quand utiliser HF-RAG
Ideal pour :
- Contraintes de souverainete des donnees
- Budget limite (self-hosting)
- Besoin de personnalisation/fine-tuning
- Volume eleve de requetes
Moins adapte pour :
- Equipes sans expertise ML
- Besoin de la meilleure qualite absolue
- Prototypes rapides
Fine-tuning
Les modeles sont concus pour le fine-tuning :
DEVELOPERpythonfrom transformers import Trainer, TrainingArguments training_args = TrainingArguments( output_dir="./fine-tuned-rag-embed", per_device_train_batch_size=32, num_train_epochs=3 ) trainer = Trainer( model=model, args=training_args, train_dataset=domain_dataset ) trainer.train()
Consultez notre guide sur le fine-tuning des embeddings.
Notre avis
Cette release represente une avancee majeure pour l'open-source :
Points forts :
- Performances proches du proprietaire
- Licence permissive (Apache 2.0)
- Modeles optimises pour le RAG
- Excellente documentation
Points d'attention :
- Necessite expertise pour deployer
- Couts infra si self-hosted
- Pas de support commercial
Pour les organisations avec des contraintes de souverainete ou des volumes eleves, HF-RAG devient une alternative credible aux solutions proprietaires.
Les plateformes comme Ailog permettent d'utiliser ces modeles sans gerer l'infrastructure, combinant open-source et simplicite.
Consultez notre guide d'introduction au RAG pour demarrer.
FAQ
Tags
Verwandte Artikel
LangChain v1: Stabile und ausgereifte Version
LangChain erreicht die stabile Version 1.0 nach 2 Jahren Entwicklung. API-Stabilität, neue Abstraktionen und Roadmap für die Zukunft.
Cohere Embed v4: Das erste produktionsreife multimodal Embedding
Cohere bringt Embed v4 Multimodal heraus, das erste Embeddings-Modell, das Text, Bilder und interleaved Dokumente vektorisieren kann. Revolution für multimodal RAG.
Embedding-Modelle 2026: Benchmark und Vergleich
Umfassender Vergleich der besten Embedding-Modelle 2026. MTEB-Benchmarks, mehrsprachige Leistungen und Empfehlungen für Ihre RAG-Anwendungen.