Actualités

Hugging Face : Nouveaux modeles RAG open-source

28 avril 2026
7 min de lecture
Equipe Ailog

Hugging Face publie une nouvelle famille de modeles optimises pour le RAG : embeddings, rerankers et LLMs specialises. Tour d'horizon complet.

Hugging Face enrichit l'ecosysteme RAG open-source

Hugging Face annonce la publication d'une nouvelle famille de modeles specialement optimises pour les applications RAG. Cette release comprend des modeles d'embeddings, des rerankers et des LLMs adaptes a la generation augmentee.

"Notre objectif est de democratiser le RAG enterprise-grade", explique Clement Delangue, CEO de Hugging Face. "Ces modeles offrent des performances comparables aux solutions proprietaires, en open-source."

Les nouveaux modeles

Embeddings : HF-RAG-Embed

Une nouvelle famille de modeles d'embeddings optimises RAG :

ModeleDimensionsContexteMTEB ScoreLicence
hf-rag-embed-small38451262.1Apache 2.0
hf-rag-embed-base768204865.8Apache 2.0
hf-rag-embed-large1024819268.4Apache 2.0
hf-rag-embed-xl20481638470.2Apache 2.0

Particularites :

  • Entraines specifiquement pour le retrieval documentaire
  • Support natif des requetes asymetriques (query vs document)
  • Optimises pour le multilingual (100 langues)
DEVELOPERpython
from sentence_transformers import SentenceTransformer model = SentenceTransformer("huggingface/hf-rag-embed-large") # Embeddings de documents doc_embeddings = model.encode( documents, prompt_name="document" # Prefix automatique ) # Embeddings de requetes query_embedding = model.encode( query, prompt_name="query" )

Consultez notre guide sur le choix des modeles d'embeddings.

Rerankers : HF-RAG-Rerank

Des modeles de reranking performants et legers :

ModeleParametresLatence (P50)nDCG@10
hf-rag-rerank-tiny33M5ms58.2
hf-rag-rerank-small110M12ms64.7
hf-rag-rerank-base330M28ms68.9
hf-rag-rerank-large560M45ms71.3
DEVELOPERpython
from transformers import AutoModelForSequenceClassification, AutoTokenizer model = AutoModelForSequenceClassification.from_pretrained( "huggingface/hf-rag-rerank-base" ) tokenizer = AutoTokenizer.from_pretrained( "huggingface/hf-rag-rerank-base" ) # Reranking pairs = [(query, doc) for doc in candidate_docs] inputs = tokenizer(pairs, padding=True, return_tensors="pt") scores = model(**inputs).logits.squeeze()

Ces modeles complementent parfaitement notre guide sur le reranking.

LLMs : HF-RAG-LLM

Des LLMs specialement adaptes pour la generation RAG :

ModeleParametresContexteRAGBench Score
hf-rag-llm-7b7B32K72.4
hf-rag-llm-13b13B64K76.8
hf-rag-llm-34b34B128K81.2

Caracteristiques uniques :

  • Entraines pour citer systematiquement les sources
  • Sensibilite reduite aux hallucinations
  • Instruction-following optimise pour le RAG
DEVELOPERpython
from transformers import pipeline generator = pipeline( "text-generation", model="huggingface/hf-rag-llm-13b" ) response = generator( f"""<context> {retrieved_documents} </context> <question> {user_question} </question> Reponds en citant tes sources avec [1], [2], etc.""" )

Benchmarks

Comparaison avec la concurrence

Embeddings (MTEB Retrieval)

ModeleScoreLatenceOpen-source
hf-rag-embed-large68.415msOui
Cohere Embed v571.245msNon
text-embedding-3-large67.440msNon
BGE-M364.812msOui

Rerankers

ModelenDCG@10LatenceOpen-source
hf-rag-rerank-base68.928msOui
Cohere Rerank 372.135msNon
ms-marco-MiniLM64.28msOui

LLMs (RAGBench)

ModeleScoreHallucinationsOpen-source
hf-rag-llm-34b81.22.8%Oui
GPT-4 Turbo84.52.4%Non
Claude 3 Opus86.11.8%Non
Mixtral 8x22B78.44.1%Oui

Deploiement

Options de deploiement

1. Hugging Face Inference Endpoints

DEVELOPERpython
from huggingface_hub import InferenceClient client = InferenceClient(model="huggingface/hf-rag-embed-large") embeddings = client.feature_extraction(texts)

Prix : $0.06/heure (GPU) a $0.60/heure (GPU haute perf)

2. Self-hosted avec vLLM

DEVELOPERbash
pip install vllm python -m vllm.entrypoints.openai.api_server \ --model huggingface/hf-rag-llm-13b \ --port 8000

3. Optimisation avec ONNX

DEVELOPERpython
from optimum.onnxruntime import ORTModelForSequenceClassification model = ORTModelForSequenceClassification.from_pretrained( "huggingface/hf-rag-rerank-base", export=True )

Gain de performance : 2-3x sur CPU

Pour les configurations de production, consultez notre guide sur le deploiement en production.

Quantification

Les modeles sont disponibles en versions quantifiees :

QuantificationTaillePerte qualite
FP16100%0%
INT850%-0.5%
INT425%-2%
GPTQ25%-1.5%

Integration avec les frameworks

LangChain

DEVELOPERpython
from langchain_huggingface import HuggingFaceEmbeddings embeddings = HuggingFaceEmbeddings( model_name="huggingface/hf-rag-embed-large" )

LlamaIndex

DEVELOPERpython
from llama_index.embeddings.huggingface import HuggingFaceEmbedding embed_model = HuggingFaceEmbedding( model_name="huggingface/hf-rag-embed-large" )

Ailog

Les modeles HF-RAG sont integres en tant qu'option dans la configuration Ailog.

Cas d'usage recommandes

Quand utiliser HF-RAG

Ideal pour :

  • Contraintes de souverainete des donnees
  • Budget limite (self-hosting)
  • Besoin de personnalisation/fine-tuning
  • Volume eleve de requetes

Moins adapte pour :

  • Equipes sans expertise ML
  • Besoin de la meilleure qualite absolue
  • Prototypes rapides

Fine-tuning

Les modeles sont concus pour le fine-tuning :

DEVELOPERpython
from transformers import Trainer, TrainingArguments training_args = TrainingArguments( output_dir="./fine-tuned-rag-embed", per_device_train_batch_size=32, num_train_epochs=3 ) trainer = Trainer( model=model, args=training_args, train_dataset=domain_dataset ) trainer.train()

Consultez notre guide sur le fine-tuning des embeddings.

Notre avis

Cette release represente une avancee majeure pour l'open-source :

Points forts :

  • Performances proches du proprietaire
  • Licence permissive (Apache 2.0)
  • Modeles optimises pour le RAG
  • Excellente documentation

Points d'attention :

  • Necessite expertise pour deployer
  • Couts infra si self-hosted
  • Pas de support commercial

Pour les organisations avec des contraintes de souverainete ou des volumes eleves, HF-RAG devient une alternative credible aux solutions proprietaires.

Les plateformes comme Ailog permettent d'utiliser ces modeles sans gerer l'infrastructure, combinant open-source et simplicite.

Consultez notre guide d'introduction au RAG pour demarrer.

FAQ

Les benchmarks montrent que les modeles HF-RAG atteignent des performances proches des solutions proprietaires. Par exemple, hf-rag-embed-large obtient 68.4 sur MTEB contre 67.4 pour text-embedding-3-large d'OpenAI. L'ecart se reduit significativement, surtout apres fine-tuning sur vos donnees.
Pour les embeddings, commencez par hf-rag-embed-base (equilibre taille/performance). Pour le reranking, hf-rag-rerank-base offre le meilleur rapport qualite/latence. Pour la generation, hf-rag-llm-13b est un bon compromis si vous avez le GPU necessaire.
Oui, avec la quantification INT8 ou INT4 et l'optimisation ONNX, les modeles d'embeddings et de reranking tournent correctement sur CPU avec une perte de qualite minimale (0.5-2%). Les LLMs necessitent idealement un GPU, mais les versions quantifiees GPTQ fonctionnent sur des configurations modestes.
Absolument. La licence Apache 2.0 permet l'usage commercial sans restriction, y compris la modification et la redistribution. C'est l'un des principaux avantages par rapport aux solutions proprietaires qui facturent a l'usage.
Hugging Face fournit une API simple via Trainer de transformers. Vous pouvez fine-tuner les embeddings avec vos paires query-document et les rerankers avec vos donnees de pertinence. Le fine-tuning ameliore typiquement les performances de 5-10% sur un domaine specifique.

Tags

RAGHugging Faceopen-sourceembeddingsLLM

Articles connexes

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !