Quand tu reçois un mail, MailBoss lui colle une catégorie en 0,8 seconde. Urgent, client, fournisseur, newsletter, notification, RH, juridique, interne, spam. Neuf cases, une décision. Derrière, il y a trois approches techniques qu'on combine, et un taux d'erreur qu'on assume publiquement : 8 % quand on utilise uniquement un LLM.
Cet article explique pourquoi, et surtout ce qu'on fait pour descendre à 1,5 % en production.
Approche 1 — Les règles déterministes
C'est le plus vieil outil de la boîte, et le plus sous-estimé en 2026. On regarde des signaux objectifs : domaine d'expéditeur, en-têtes SPF/DKIM, présence d'une adresse de désabonnement, présence de mots-clés dans la ligne Subject.
Ce que ça fait bien
- Newsletters. Le header
List-Unsubscribeest signé RFC 8058. Si tu le vois, tu sais à 99,9 % que c'est un envoi en masse. Pas besoin d'IA. - Notifications SaaS. Les patterns d'adresse (noreply@, support@, notifications@) couvrent 80 % des cas.
- Factures. Un PDF attaché avec des mots-clés « invoice », « facture », « HT », « TVA » dans les 300 premiers caractères → fiabilité 97 %.
Ce que ça rate
Un client qui t'écrit depuis son Gmail perso pour signer un devis urgent. Aucune règle ne peut deviner que c'est prioritaire. Les règles sont excellentes pour éliminer le bruit — pas pour hiérarchiser le signal.
Approche 2 — Embeddings et similarité
On passe chaque mail dans un modèle d'embedding (chez nous : voyage-3, parce que c'est l'un des meilleurs rapport qualité/coût du marché et qu'on n'envoie pas tes données chez OpenAI). On obtient un vecteur de 1 024 dimensions. Ensuite on compare ce vecteur à des centroïdes de catégories qu'on a appris sur 500 mails labellisés à la main par un dirigeant.
Avantage : c'est déterministe et bon marché. Un embedding coûte 0,000 02 € à générer et 0,5 ms à comparer contre 9 centroïdes. Sur le papier, c'est parfait.
La limite des embeddings
Ils sont très bons sur le sens général d'un mail, très mauvais sur le contexte utilisateur. Un mail qui dit « peux-tu regarder demain matin ? » peut être urgent si c'est ton associé qui écrit, anodin si c'est un fournisseur de café. Le vecteur ne sait pas distinguer — il n'a pas accès à ton graphe relationnel.
Approche 3 — Claude Sonnet en jury
Pour les 19 % que les embeddings n'arrivent pas à trancher, on envoie le mail à un LLM (Claude Sonnet 4.6 chez nous) avec un prompt structuré.
Ce qu'on met dans le prompt
- Un résumé en 3 lignes des 9 catégories MailBoss, avec pour chacune un exemple canonique.
- Le graphe relationnel de l'utilisateur, simplifié : « cet expéditeur t'a écrit 47 fois dans les 90 derniers jours, tu as répondu 42 fois, temps médian de réponse 2h ». Ça dit à Claude « c'est un contact actif, probablement important ».
- Le mail lui-même, tronqué à 2 000 caractères.
- L'instruction : sortir un JSON avec category, confidence (0-1), et un champ reasoning court.
Pourquoi 8 % d'erreurs quand même
Trois familles d'erreurs qu'on a cataloguées :
- L'ambiguïté utilisateur. 3,5 % des mails sont sincèrement difficiles — un dirigeant sur deux les classerait différemment. Le LLM « se trompe » dans le sens où il choisit une catégorie plausible, pas forcément celle que tu aurais choisie.
- Le context shifting. 2 % d'erreurs viennent de mails qui changent de nature en cours de thread. Un thread commencé en « support » peut virer en « commercial » après 5 échanges. Le LLM regarde le dernier message, pas toujours l'arc narratif.
- Les formulations piégeuses. 2,5 % sont des mails qui utilisent un vocabulaire trompeur. Un vrai client qui écrit « Cher support » à l'équipe commerciale, une newsletter déguisée en mail personnel.
Comment on descend à 1,5 % en combinant les trois
- Étape 1 — règles bloquantes. Newsletters et notifications partent directement dans leur lot. 40 % des mails sortis du pipeline avant d'être lus par un LLM. Gain : coût divisé par 2,5, latence divisée par 3.
- Étape 2 — embeddings pour les cas faciles. Si la distance cosinus au centroïde de la catégorie la plus proche est inférieure à 0,15 et que la 2e catégorie est à plus de 0,40, on valide sans LLM. Ça clôt encore 35 % des cas.
- Étape 3 — LLM en jury. Les 25 % restants vont à Claude avec graphe relationnel. C'est ici qu'on consomme 95 % du budget IA — c'est cohérent, c'est là qu'est la valeur.
- Étape 4 — feedback loop. Quand tu réassignes manuellement un mail dans une autre catégorie, on apprend. Après 2 semaines d'utilisation, la précision passe de 98,5 à 99,2 sur ton corpus personnel.
Pourquoi on te dit qu'on se trompe
Les concurrents annoncent 99,9 % de précision. C'est soit du marketing, soit une définition maison du mot « erreur ». Nous on mesure la précision de manière stricte : un mail mal catégorisé que tu corriges compte comme une erreur, point.
Un dirigeant qui reçoit 200 mails par jour et qui tolère 1,5 % d'erreurs corrigera 3 mails par jour. C'est honnête. C'est tenable. C'est pas zéro, et c'est OK.
La suite
Dans un prochain article, on te montrera l'arbre de décision des 9 catégories elles-mêmes — pourquoi on n'a pas choisi 7, pas choisi 12, et pourquoi l'ordre de priorité entre elles n'est pas arbitraire. En attendant, tu peux essayer MailBoss gratuitement pendant 14 jours et voir comment le moteur se comporte sur ton propre flux.
Prêt à essayer MailBoss ?
14 jours d'essai gratuit, sans carte bancaire. Tu connectes ta boîte en 90 secondes, tu vois les résultats dès le soir.