Pourquoi les SLM en local changent la donne RGPD pour les associations — et ce qu’il ne faut pas leur faire dire.
Le réflexe cloud et son angle mort
Quand une ASBL commence à utiliser l’IA générative, le geste par défaut consiste à coller du texte dans une interface en ligne : un compte rendu de réunion à résumer, une liste de membres à reformuler, un dossier de bénéficiaire à synthétiser. Dans la plupart des cas, ce texte part vers les serveurs d’un prestataire — souvent américain — et échappe alors au contrôle de l’organisation.
Pour une association qui manipule des données sensibles (situations sociales, données de santé, parcours migratoires, appartenances syndicales ou politiques), ce geste anodin soulève une vraie question : où vont ces données, qui peut y accéder, et sous quel régime juridique ?
C’est précisément là que les petits modèles de langage (SLM) ouvrent une voie intéressante : faire tourner l’IA localement, sur l’ordinateur de l’organisation, sans que la moindre donnée ne quitte la maison.
Petit rappel : qu’est-ce qu’un SLM ?
Un SLM repose sur la même architecture qu’un grand modèle (un GPT, un Claude), mais avec beaucoup moins de paramètres — typiquement de quelques centaines de millions à environ 7 milliards, contre des centaines de milliards pour les modèles de pointe. La contrepartie de cette taille réduite est précisément ce qui nous intéresse : ces modèles sont conçus pour tourner sur du matériel ordinaire, un portable récent ou un poste de bureau correctement équipé, sans cloud ni connexion permanente.
L’argument central : traitement local = pas de transfert
Le cœur du raisonnement tient en une phrase : si la donnée ne sort pas de votre machine, il n’y a pas de transfert vers un tiers.
Cela élimine d’un coup plusieurs des chantiers RGPD les plus pénibles pour une petite structure :
- Pas de sous-traitant au sens du règlement. Pas besoin de négocier ou d’auditer un contrat de sous-traitance (article 28) avec un fournisseur d’IA.
- Pas de transfert hors Union européenne. L’épineuse question des transferts vers les États-Unis — celle qui a fait tomber successivement le Safe Harbor puis le Privacy Shield — ne se pose tout simplement plus si rien ne traverse l’Atlantique.
- Surface d’exposition réduite. Moins de copies de la donnée circulant chez des tiers, c’est mécaniquement moins de risques de fuite, de réutilisation pour de l’entraînement, ou d’accès par une autorité étrangère.
Pour une fédération ou une ASBL, l’argument est aussi politique : il rejoint une logique de souveraineté numérique et de cohérence entre les valeurs portées et les outils employés. Difficile de défendre la protection des publics fragiles tout en confiant leurs données à un acteur sur lequel on n’a aucune prise.
Ce que le local résout — et ce qu’il ne résout pas
C’est le point sur lequel il faut être honnête, sous peine de vendre une fausse tranquillité.
Faire tourner un modèle en local ne vous met pas hors du champ du RGPD. Dès que vous traitez des données personnelles, le règlement s’applique, peu importe où le calcul a lieu. Vous devez donc toujours :
- disposer d’une base légale pour le traitement ;
- respecter la minimisation (ne traiter que ce qui est nécessaire) et la limitation des finalités ;
- garantir la sécurité de la machine qui héberge le modèle (un portable volé non chiffré reste un incident) ;
- tenir votre registre des traitements et pouvoir honorer les droits des personnes.
Autrement dit : le local supprime le maillon « transfert vers un tiers », qui est souvent le plus lourd et le plus juridiquement incertain. Il ne dispense pas du reste. C’est une simplification majeure, pas une exemption.
(À noter : je décris ici un cadre de raisonnement, pas un avis juridique. Pour un traitement sensible, l’arbitrage final relève de votre DPO ou d’un conseil spécialisé.)
Des cas d’usage réalistes pour une association
Les SLM ne remplacent pas un grand modèle pour tout. Ils excellent sur des tâches cadrées et répétitives, beaucoup moins sur le raisonnement complexe ou l’analyse de longs documents. Pour le secteur associatif, le bon périmètre ressemble à ceci :
- Résumer des comptes rendus, des procès-verbaux, des notes de terrain.
- Reformuler et corriger des brouillons (courriers, appels à projets, communiqués).
- Anonymiser ou pseudonymiser un document avant de le partager plus largement.
- Classer et trier des messages entrants, des demandes, des candidatures.
- Alimenter une FAQ interne ou répondre à des questions sur des procédures, à partir de vos propres documents.
Sur tout ce qui touche à des données identifiantes ou sensibles, le local devient le choix par défaut. Sur des tâches publiques et sans enjeu de confidentialité (rédiger un texte générique, brainstormer un titre), un grand modèle en ligne reste souvent plus performant et tout à fait acceptable. L’enjeu n’est pas « tout en local » mais savoir quelle tâche mérite quel outil.
La boîte à outils
La bonne nouvelle, c’est que l’installation est devenue triviale et gratuite. Un outil comme Ollama (libre et open source) permet de télécharger et lancer un modèle en quelques minutes, sans clé API ni compte cloud. Pour celles et ceux qui préfèrent une interface graphique plutôt que le terminal, LM Studio ou GPT4All offrent une expérience proche d’un chat classique.
Côté modèles, quelques familles dominent :
- Llama 3.2 (Meta) — décliné en versions très légères (1B et 3B), idéales pour un usage mobile ou un poste modeste.
- Gemma (Google) — bon rapport qualité/taille, multilingue.
- Phi (Microsoft) — réputé solide en raisonnement malgré sa petite taille.
- Mistral — modèle d’origine européenne, particulièrement apprécié pour le réglage fin (fine-tuning) sur des données métier.
- Qwen (Alibaba) — fort support multilingue mais… chinois.
Côté matériel, un portable récent doté d’une puce Apple M-series, ou un PC avec une carte graphique de milieu de gamme, fait tourner un modèle de 3 à 8 milliards de paramètres à une vitesse confortable. Inutile de viser une infrastructure lourde pour démarrer.
À vérifier — « entraîné sur des données licites »
Cet argument est de plus en plus mis en avant, notamment par les éditeurs européens de modèles, les projets se présentant comme « éthiques » et les fournisseurs visant les secteurs régulés (santé, juridique, public). Deux précautions s’imposent. D’une part, licite et fiable ne sont pas synonymes : un corpus du domaine public peut être parfaitement légal sans être à jour ni de qualité. D’autre part, l’affirmation est presque toujours invérifiable de l’extérieur. La plupart des modèles dits « ouverts » (Llama, Gemma, Mistral) ne publient que leurs poids, jamais le détail de leur corpus d’entraînement — impossible donc de l’auditer. Avant de retenir un tel argument, exigez la documentation du modèle (model card) décrivant sources et licences ; son absence est en soi un signal. En somme : une revendication à vérifier sur pièces, et rarement étayée. La charge de la preuve incombe au fournisseur, jamais à vous.
Limites et points de vigilance
Pour rester honnête avec votre public :
- La qualité a un plafond. Sur des tâches exigeant plusieurs étapes de raisonnement, un SLM décroche par rapport à un grand modèle. À tester avant de déployer.
- La sécurité du poste devient centrale. Le local déplace le risque : il n’est plus chez un prestataire, il est sur votre machine. Chiffrement, mots de passe, gestion des accès deviennent non négociables.
- Le local n’est pas une baguette magique RGPD. On l’a dit : le cadre reste à respecter dans son entièreté.
- L’effet d’annonce. « On fait de l’IA souveraine » ne doit pas masquer l’absence de politique de données. L’outil ne remplace pas la gouvernance.
En somme
Les petits modèles de langage offrent au secteur associatif quelque chose de rare : une IA utile, gratuite à l’usage, et compatible avec une exigence forte de protection des données. Ils ne couvrent pas tous les besoins, mais ils couvrent précisément ceux où la confidentialité est non négociable — c’est-à-dire le cœur de métier de beaucoup d’organisations qui accompagnent des personnes.
Le message à faire passer en formation n’est pas « remplacez tout par du local », mais « reprenez la main sur vos données les plus sensibles, et gardez les grands modèles pour ce qui peut sortir sans risque ». C’est une posture de discernement, pas de dogme — et c’est sans doute ce qui la rend défendable.
