Hugging Face : Nouveaux modeles RAG open-source
Hugging Face publie une nouvelle famille de modeles optimises pour le RAG : embeddings, rerankers et LLMs specialises. Tour d'horizon complet.
Hugging Face enrichit l'ecosysteme RAG open-source
Hugging Face annonce la publication d'une nouvelle famille de modeles specialement optimises pour les applications RAG. Cette release comprend des modeles d'embeddings, des rerankers et des LLMs adaptes a la generation augmentee.
"Notre objectif est de democratiser le RAG enterprise-grade", explique Clement Delangue, CEO de Hugging Face. "Ces modeles offrent des performances comparables aux solutions proprietaires, en open-source."
Les nouveaux modeles
Embeddings : HF-RAG-Embed
Une nouvelle famille de modeles d'embeddings optimises RAG :
| Modele | Dimensions | Contexte | MTEB Score | Licence |
|---|---|---|---|---|
| hf-rag-embed-small | 384 | 512 | 62.1 | Apache 2.0 |
| hf-rag-embed-base | 768 | 2048 | 65.8 | Apache 2.0 |
| hf-rag-embed-large | 1024 | 8192 | 68.4 | Apache 2.0 |
| hf-rag-embed-xl | 2048 | 16384 | 70.2 | Apache 2.0 |
Particularites :
- Entraines specifiquement pour le retrieval documentaire
- Support natif des requetes asymetriques (query vs document)
- Optimises pour le multilingual (100 langues)
DEVELOPERpythonfrom sentence_transformers import SentenceTransformer model = SentenceTransformer("huggingface/hf-rag-embed-large") # Embeddings de documents doc_embeddings = model.encode( documents, prompt_name="document" # Prefix automatique ) # Embeddings de requetes query_embedding = model.encode( query, prompt_name="query" )
Consultez notre guide sur le choix des modeles d'embeddings.
Rerankers : HF-RAG-Rerank
Des modeles de reranking performants et legers :
| Modele | Parametres | Latence (P50) | nDCG@10 |
|---|---|---|---|
| hf-rag-rerank-tiny | 33M | 5ms | 58.2 |
| hf-rag-rerank-small | 110M | 12ms | 64.7 |
| hf-rag-rerank-base | 330M | 28ms | 68.9 |
| hf-rag-rerank-large | 560M | 45ms | 71.3 |
DEVELOPERpythonfrom transformers import AutoModelForSequenceClassification, AutoTokenizer model = AutoModelForSequenceClassification.from_pretrained( "huggingface/hf-rag-rerank-base" ) tokenizer = AutoTokenizer.from_pretrained( "huggingface/hf-rag-rerank-base" ) # Reranking pairs = [(query, doc) for doc in candidate_docs] inputs = tokenizer(pairs, padding=True, return_tensors="pt") scores = model(**inputs).logits.squeeze()
Ces modeles complementent parfaitement notre guide sur le reranking.
LLMs : HF-RAG-LLM
Des LLMs specialement adaptes pour la generation RAG :
| Modele | Parametres | Contexte | RAGBench Score |
|---|---|---|---|
| hf-rag-llm-7b | 7B | 32K | 72.4 |
| hf-rag-llm-13b | 13B | 64K | 76.8 |
| hf-rag-llm-34b | 34B | 128K | 81.2 |
Caracteristiques uniques :
- Entraines pour citer systematiquement les sources
- Sensibilite reduite aux hallucinations
- Instruction-following optimise pour le RAG
DEVELOPERpythonfrom transformers import pipeline generator = pipeline( "text-generation", model="huggingface/hf-rag-llm-13b" ) response = generator( f"""<context> {retrieved_documents} </context> <question> {user_question} </question> Reponds en citant tes sources avec [1], [2], etc.""" )
Benchmarks
Comparaison avec la concurrence
Embeddings (MTEB Retrieval)
| Modele | Score | Latence | Open-source |
|---|---|---|---|
| hf-rag-embed-large | 68.4 | 15ms | Oui |
| Cohere Embed v5 | 71.2 | 45ms | Non |
| text-embedding-3-large | 67.4 | 40ms | Non |
| BGE-M3 | 64.8 | 12ms | Oui |
Rerankers
| Modele | nDCG@10 | Latence | Open-source |
|---|---|---|---|
| hf-rag-rerank-base | 68.9 | 28ms | Oui |
| Cohere Rerank 3 | 72.1 | 35ms | Non |
| ms-marco-MiniLM | 64.2 | 8ms | Oui |
LLMs (RAGBench)
| Modele | Score | Hallucinations | Open-source |
|---|---|---|---|
| hf-rag-llm-34b | 81.2 | 2.8% | Oui |
| GPT-4 Turbo | 84.5 | 2.4% | Non |
| Claude 3 Opus | 86.1 | 1.8% | Non |
| Mixtral 8x22B | 78.4 | 4.1% | Oui |
Deploiement
Options de deploiement
1. Hugging Face Inference Endpoints
DEVELOPERpythonfrom huggingface_hub import InferenceClient client = InferenceClient(model="huggingface/hf-rag-embed-large") embeddings = client.feature_extraction(texts)
Prix : $0.06/heure (GPU) a $0.60/heure (GPU haute perf)
2. Self-hosted avec vLLM
DEVELOPERbashpip install vllm python -m vllm.entrypoints.openai.api_server \ --model huggingface/hf-rag-llm-13b \ --port 8000
3. Optimisation avec ONNX
DEVELOPERpythonfrom optimum.onnxruntime import ORTModelForSequenceClassification model = ORTModelForSequenceClassification.from_pretrained( "huggingface/hf-rag-rerank-base", export=True )
Gain de performance : 2-3x sur CPU
Pour les configurations de production, consultez notre guide sur le deploiement en production.
Quantification
Les modeles sont disponibles en versions quantifiees :
| Quantification | Taille | Perte qualite |
|---|---|---|
| FP16 | 100% | 0% |
| INT8 | 50% | -0.5% |
| INT4 | 25% | -2% |
| GPTQ | 25% | -1.5% |
Integration avec les frameworks
LangChain
DEVELOPERpythonfrom langchain_huggingface import HuggingFaceEmbeddings embeddings = HuggingFaceEmbeddings( model_name="huggingface/hf-rag-embed-large" )
LlamaIndex
DEVELOPERpythonfrom llama_index.embeddings.huggingface import HuggingFaceEmbedding embed_model = HuggingFaceEmbedding( model_name="huggingface/hf-rag-embed-large" )
Ailog
Les modeles HF-RAG sont integres en tant qu'option dans la configuration Ailog.
Cas d'usage recommandes
Quand utiliser HF-RAG
Ideal pour :
- Contraintes de souverainete des donnees
- Budget limite (self-hosting)
- Besoin de personnalisation/fine-tuning
- Volume eleve de requetes
Moins adapte pour :
- Equipes sans expertise ML
- Besoin de la meilleure qualite absolue
- Prototypes rapides
Fine-tuning
Les modeles sont concus pour le fine-tuning :
DEVELOPERpythonfrom transformers import Trainer, TrainingArguments training_args = TrainingArguments( output_dir="./fine-tuned-rag-embed", per_device_train_batch_size=32, num_train_epochs=3 ) trainer = Trainer( model=model, args=training_args, train_dataset=domain_dataset ) trainer.train()
Consultez notre guide sur le fine-tuning des embeddings.
Notre avis
Cette release represente une avancee majeure pour l'open-source :
Points forts :
- Performances proches du proprietaire
- Licence permissive (Apache 2.0)
- Modeles optimises pour le RAG
- Excellente documentation
Points d'attention :
- Necessite expertise pour deployer
- Couts infra si self-hosted
- Pas de support commercial
Pour les organisations avec des contraintes de souverainete ou des volumes eleves, HF-RAG devient une alternative credible aux solutions proprietaires.
Les plateformes comme Ailog permettent d'utiliser ces modeles sans gerer l'infrastructure, combinant open-source et simplicite.
Consultez notre guide d'introduction au RAG pour demarrer.
FAQ
Tags
Articles connexes
LangChain v1 : Version stable et maturite
LangChain atteint la version 1.0 stable apres 2 ans de developpement. Stabilite API, nouvelles abstractions et feuille de route pour l'avenir.
Cohere Embed v4 : Le premier embedding multimodal de production
Cohere lance Embed v4 Multimodal, le premier modele d'embeddings capable de vectoriser texte, images et documents interleaves. Revolution pour le RAG multimodal.
Modeles d'embedding 2026 : Benchmark et comparatif
Comparatif exhaustif des meilleurs modeles d'embedding en 2026. Benchmarks MTEB, performances multilingues et recommandations pour vos applications RAG.