Hugging Face : Nouveaux modeles RAG open-source

Name: Ailog - RAG as a Service Platform
Availability: InStock
Rating: 4.8 (156 reviews)

Hugging Face enrichit l'ecosysteme RAG open-source

Hugging Face annonce la publication d'une nouvelle famille de modeles specialement optimises pour les applications RAG. Cette release comprend des modeles d'embeddings, des rerankers et des LLMs adaptes a la generation augmentee.

"Notre objectif est de democratiser le RAG enterprise-grade", explique Clement Delangue, CEO de Hugging Face. "Ces modeles offrent des performances comparables aux solutions proprietaires, en open-source."

Les nouveaux modeles

Embeddings : HF-RAG-Embed

Une nouvelle famille de modeles d'embeddings optimises RAG :

Modele	Dimensions	Contexte	MTEB Score	Licence
hf-rag-embed-small	384	512	62.1	Apache 2.0
hf-rag-embed-base	768	2048	65.8	Apache 2.0
hf-rag-embed-large	1024	8192	68.4	Apache 2.0
hf-rag-embed-xl	2048	16384	70.2	Apache 2.0

Particularites :

Entraines specifiquement pour le retrieval documentaire
Support natif des requetes asymetriques (query vs document)
Optimises pour le multilingual (100 langues)

DEVELOPERpython
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("huggingface/hf-rag-embed-large")

# Embeddings de documents
doc_embeddings = model.encode(
    documents,
    prompt_name="document"  # Prefix automatique
)

# Embeddings de requetes
query_embedding = model.encode(
    query,
    prompt_name="query"
)

Consultez notre guide sur le choix des modeles d'embeddings.

Rerankers : HF-RAG-Rerank

Des modeles de reranking performants et legers :

Modele	Parametres	Latence (P50)	nDCG@10
hf-rag-rerank-tiny	33M	5ms	58.2
hf-rag-rerank-small	110M	12ms	64.7
hf-rag-rerank-base	330M	28ms	68.9
hf-rag-rerank-large	560M	45ms	71.3

DEVELOPERpython
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained(
    "huggingface/hf-rag-rerank-base"
)
tokenizer = AutoTokenizer.from_pretrained(
    "huggingface/hf-rag-rerank-base"
)

# Reranking
pairs = [(query, doc) for doc in candidate_docs]
inputs = tokenizer(pairs, padding=True, return_tensors="pt")
scores = model(**inputs).logits.squeeze()

Ces modeles complementent parfaitement notre guide sur le reranking.

LLMs : HF-RAG-LLM

Des LLMs specialement adaptes pour la generation RAG :

Modele	Parametres	Contexte	RAGBench Score
hf-rag-llm-7b	7B	32K	72.4
hf-rag-llm-13b	13B	64K	76.8
hf-rag-llm-34b	34B	128K	81.2

Caracteristiques uniques :

Entraines pour citer systematiquement les sources
Sensibilite reduite aux hallucinations
Instruction-following optimise pour le RAG

DEVELOPERpython
from transformers import pipeline

generator = pipeline(
    "text-generation",
    model="huggingface/hf-rag-llm-13b"
)

response = generator(
    f"""<context>
{retrieved_documents}
</context>

<question>
{user_question}
</question>

Reponds en citant tes sources avec [1], [2], etc."""
)

Benchmarks

Comparaison avec la concurrence

Embeddings (MTEB Retrieval)

Modele	Score	Latence	Open-source
hf-rag-embed-large	68.4	15ms	Oui
Cohere Embed v5	71.2	45ms	Non
text-embedding-3-large	67.4	40ms	Non
BGE-M3	64.8	12ms	Oui

Rerankers

Modele	nDCG@10	Latence	Open-source
hf-rag-rerank-base	68.9	28ms	Oui
Cohere Rerank 3	72.1	35ms	Non
ms-marco-MiniLM	64.2	8ms	Oui

LLMs (RAGBench)

Modele	Score	Hallucinations	Open-source
hf-rag-llm-34b	81.2	2.8%	Oui
GPT-4 Turbo	84.5	2.4%	Non
Claude 3 Opus	86.1	1.8%	Non
Mixtral 8x22B	78.4	4.1%	Oui

Deploiement

Options de deploiement

1. Hugging Face Inference Endpoints

DEVELOPERpython
from huggingface_hub import InferenceClient

client = InferenceClient(model="huggingface/hf-rag-embed-large")
embeddings = client.feature_extraction(texts)

Prix : $0.06/heure (GPU) a $0.60/heure (GPU haute perf)

2. Self-hosted avec vLLM

DEVELOPERbash
pip install vllm
python -m vllm.entrypoints.openai.api_server \
    --model huggingface/hf-rag-llm-13b \
    --port 8000

3. Optimisation avec ONNX

DEVELOPERpython
from optimum.onnxruntime import ORTModelForSequenceClassification

model = ORTModelForSequenceClassification.from_pretrained(
    "huggingface/hf-rag-rerank-base",
    export=True
)

Gain de performance : 2-3x sur CPU

Pour les configurations de production, consultez notre guide sur le deploiement en production.

Quantification

Les modeles sont disponibles en versions quantifiees :

Quantification	Taille	Perte qualite
FP16	100%	0%
INT8	50%	-0.5%
INT4	25%	-2%
GPTQ	25%	-1.5%

Integration avec les frameworks

LangChain

DEVELOPERpython
from langchain_huggingface import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(
    model_name="huggingface/hf-rag-embed-large"
)

LlamaIndex

DEVELOPERpython
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

embed_model = HuggingFaceEmbedding(
    model_name="huggingface/hf-rag-embed-large"
)

Ailog

Les modeles HF-RAG sont integres en tant qu'option dans la configuration Ailog.

Cas d'usage recommandes

Quand utiliser HF-RAG

Ideal pour :

Contraintes de souverainete des donnees
Budget limite (self-hosting)
Besoin de personnalisation/fine-tuning
Volume eleve de requetes

Moins adapte pour :

Equipes sans expertise ML
Besoin de la meilleure qualite absolue
Prototypes rapides

Fine-tuning

Les modeles sont concus pour le fine-tuning :

DEVELOPERpython
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./fine-tuned-rag-embed",
    per_device_train_batch_size=32,
    num_train_epochs=3
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=domain_dataset
)
trainer.train()

Consultez notre guide sur le fine-tuning des embeddings.

Notre avis

Cette release represente une avancee majeure pour l'open-source :

Points forts :

Performances proches du proprietaire
Licence permissive (Apache 2.0)
Modeles optimises pour le RAG
Excellente documentation

Points d'attention :

Necessite expertise pour deployer
Couts infra si self-hosted
Pas de support commercial

Pour les organisations avec des contraintes de souverainete ou des volumes eleves, HF-RAG devient une alternative credible aux solutions proprietaires.

Les plateformes comme Ailog permettent d'utiliser ces modeles sans gerer l'infrastructure, combinant open-source et simplicite.

Consultez notre guide d'introduction au RAG pour demarrer.

FAQ

Les benchmarks montrent que les modeles HF-RAG atteignent des performances proches des solutions proprietaires. Par exemple, hf-rag-embed-large obtient 68.4 sur MTEB contre 67.4 pour text-embedding-3-large d'OpenAI. L'ecart se reduit significativement, surtout apres fine-tuning sur vos donnees.

Pour les embeddings, commencez par hf-rag-embed-base (equilibre taille/performance). Pour le reranking, hf-rag-rerank-base offre le meilleur rapport qualite/latence. Pour la generation, hf-rag-llm-13b est un bon compromis si vous avez le GPU necessaire.

Oui, avec la quantification INT8 ou INT4 et l'optimisation ONNX, les modeles d'embeddings et de reranking tournent correctement sur CPU avec une perte de qualite minimale (0.5-2%). Les LLMs necessitent idealement un GPU, mais les versions quantifiees GPTQ fonctionnent sur des configurations modestes.

Absolument. La licence Apache 2.0 permet l'usage commercial sans restriction, y compris la modification et la redistribution. C'est l'un des principaux avantages par rapport aux solutions proprietaires qui facturent a l'usage.

Hugging Face fournit une API simple via Trainer de transformers. Vous pouvez fine-tuner les embeddings avec vos paires query-document et les rerankers avec vos donnees de pertinence. Le fine-tuning ameliore typiquement les performances de 5-10% sur un domaine specifique.