City skyline at night — Photo by Nicolas HIPPERT on Unsplash

Un interlocuteur qui parle physique, données et produit.

Vos projets Data & IA croisent trois mondes qui communiquent mal : la physique de votre installation, l'ingénierie des données et l'intelligence artificielle. Le physicien parle en phénomènes, le data engineer en flux, le product owner en valeur. Personne ne traduit.

Je suis ce traducteur. Ingénieur Data & IA spécialisé dans les domaines contraints, je cadre et prototype des solutions où la physique et les règles métier contraignent l'algorithme — et je fais le pont entre vos experts métier, vos architectes données et vos product owners.

Ce que vous vivez

La réunion cours de rattrapage

L'équipe data qualité impute les trous de toutes les séries temporelles avec la même méthode. Sauf qu'un trou dans le bore (cinétique lente) et un trou dans la puissance (dynamique rapide) ne se comblent pas de la même façon. Le data engineer ne le sait pas. Le physicien ne sait pas l'expliquer en termes de pipeline. La réunion tourne en rond.

Le prototype techniquement correct mais physiquement faux

Le data scientist livre un modèle performant sur les métriques ML. Sauf qu'il prédit de la puissance quand les grappes sont chutées. Personne dans l'équipe n'a vu le problème avant la recette métier.

Le turnover qui remet le compteur à zéro

Le consultant data part au bout de 6 mois. Le suivant passe 3 mois à comprendre le domaine. L'expertise métier repart à zéro à chaque rotation — et c'est le client qui paie la montée en compétence.

Les trois langues qui ne se parlent pas

Le physicien parle en phénomènes. Le data engineer parle en flux. Le product owner parle en valeur. Personne ne traduit — le projet avance en silos et converge trop tard.

Pourquoi ça échoue

Ce n'est pas un problème de compétence. C'est un problème de structure.

L'expertise est distribuée sur une chaîne de sous-traitance où chaque maillon couvre un domaine. Le consultant data n'a pas de formation en physique des réacteurs. Le physicien métier n'a pas le vocabulaire des pipelines de données. Chacun excelle dans sa langue — mais personne ne traduit entre les trois.

La physique est traitée comme un post-traitement : on construit le pipeline, on entraîne le modèle, puis on vérifie "si ça colle" avec le métier. Quand ça ne colle pas, on itère — à la charge du client.

Le vrai levier n'est pas un outil de plus. C'est un profil qui couvre les trois mondes — physique industrielle, ingénierie des données, IA — et qui sait traduire entre eux dès la conception.

Ce que je fais différemment

La traduction

Je parle au neutronicien, au data architect et au product owner dans leur langue respective. Ce n'est pas une métaphore : j'ai conçu des pipelines où chaque variable est imputée selon sa dynamique physique propre, des Knowledge Graphs qui encodent l'ontologie métier, et des assistants IA contraints par ces graphes — en dialogue constant avec les experts de chaque domaine.

Les trois mondes

Je travaille à la croisée de la physique industrielle, l'ingénierie des données et l'intelligence artificielle. Mon métier : cadrage stratégique et prototypage Data/IA sous contrainte — physique, réglementaire ou métier — pour les domaines critiques.

Le Filtre CAP

Avant chaque engagement, le projet passe trois questions. Si le projet ne passe pas les trois, je ne le prends pas.

Contraint — Le problème est-il borné par une loi physique, une réglementation ou un domaine de règles formelles ?
Aride — Le sujet est-il techniquement négligé ?
Prouvable — Puis-je livrer un prototype fonctionnel ou un livrable actionnable en moins de 3 mois ?

Le livrable

Un cadrage stratégique actionnable ou un prototype fonctionnel validé — pas un slide deck ni un démonstrateur jetable. Chaque livrable est conçu pour que l'équipe qui prend la suite parte d'une base solide.

Les Résultats

Depuis mi-2024, j'interviens en cadrage Data & IA pour la surveillance des réacteurs nucléaires du parc français.

	Résultat
Validation automatique	96,4 % des incohérences physiques résolues sur 11 réacteurs, 3 paliers — sans intervention humaine
Diagnostic IA expert	< 2 secondes en langage naturel, contraint par l'ontologie physique du domaine
Couverture de tests	270+ tests unitaires couvrant chaque règle physique, chaque module, chaque cas limite

→ Méthodologie détaillée : voir La Preuve

L'Offre — Cadrage & Prototypage Data/IA sous Contrainte Physique

Chaque situation décrite ci-dessus, je l'ai rencontrée — et résolue. Je dé-risque vos projets Data & IA en livrant un cadrage stratégique actionnable et/ou un prototype fonctionnel qui valide l'approche par la preuve, pas par le slide.

Cadrage "First Principles" — Je passe votre projet au Filtre CAP. Si le problème n'est pas contraint (physique, réglementation, règles formelles), négligé techniquement et prouvable en < 3 mois, je vous le dis avant de facturer.
Cadrage Stratégique IA — Votre produit intègre (ou veut intégrer) de l'IA, mais vous n'avez pas d'architecture cible, pas de roadmap, et le risque de faux départ est élevé. Je produis un livrable de cadrage complet : diagnostic du gap entre ambition et réalité, analyse build vs buy, recommandation architecturale (Knowledge Graph, RAG, agents), roadmap en 3 horizons avec critères go/no-go, estimation des coûts et des compétences requises. Le cadrage protège de 10 à 20 fois son prix en erreurs évitées.
Pipeline de validation physique — Ingestion, nettoyage, imputation et validation de vos données de capteurs. Les règles physiques de votre domaine sont codées comme contraintes de premier rang. Le prototype est conçu avec une exigence de production pour faciliter l'intégration par votre équipe de delivery.
Knowledge Graph métier — Modélisation de l'ontologie de votre installation : équipements, capteurs, paramètres physiques, règles de cohérence, corrélations. Ce graphe devient le socle de vérité qui contraint tout raisonnement IA en aval.
Assistant IA expert — Interface conversationnelle où un LLM interroge vos données à travers le Knowledge Graph. L'assistant ne peut pas halluciner sur votre domaine : il n'a accès qu'aux faits validés par la physique. Il diagnostique, recommande, extrait — en langage naturel, en temps réel.

Ce que vous obtenez : Un livrable actionnable — cadrage stratégique, prototype fonctionnel ou les deux — et la preuve mesurable que l'approche tient avant d'investir dans l'industrialisation. Preuve de valeur en moins de 3 mois.

Forfait au livrable, pas au temps passé. Je facture la valeur du cadrage et du prototype, pas les heures passées à les produire. Chaque engagement est un forfait ancré dans le résultat livré.

Pour qui : - Exploitants de systèmes critiques (nucléaire, énergie, chimie, aéronautique) - Ingénieries et bureaux d'études avec des données de procédés en séries temporelles - Startups et éditeurs SaaS dont le produit opère dans un domaine réglementé ou contraint par des règles formelles - Tout acteur dont les données ou les décisions doivent respecter des lois physiques ou réglementaires avant d'alimenter un modèle IA

Qui je suis

Boris Guarisma — Ingénieur Data & AI, micro-entreprise Qognito.io.

Mon parcours m'a placé à l'intersection de la physique nucléaire, du data engineering haute performance et de l'IA cognitive — un croisement que peu de profils couvrent. C'est cette position qui me permet de parler au neutronicien, au data architect et au product owner dans leur langue respective, et de traduire entre eux.

Ma conviction : dans les domaines contraints — industrie critique, réglementation, règles formelles — la physique et les règles doivent valider l'IA, pas l'inverse. Je ne vends pas du temps. Je facture la valeur du cadrage et du prototype, pas les heures passées à les produire. Chaque livrable protège de 10 à 20 fois son prix en erreurs architecturales, réglementaires ou techniques évitées.

Dans le nucléaire français depuis mi-2024.

Un problème de données critiques où l'IA doit parler physique ? → [email protected]

LA PREUVE

Q: Qu'est-ce que l'IA sous contrainte physique ?

L'IA sous contrainte physique est une approche où les lois de la physique (thermodynamique, neutronique, cinétique chimique) sont encodées comme des contraintes de premier rang dans l'architecture de l'algorithme — et non comme de simples post-traitements. L'IA ne peut pas proposer de résultat qui viole les lois physiques du domaine. Chez Qognito.io, cela se traduit par un Knowledge Graph métier qui encode l'ontologie physique de l'installation et contraint tout raisonnement IA en aval.

Q: Pourquoi les LLM hallucinent-ils dans l'industrie critique ?

Les LLM généralistes sont des modèles probabilistes entraînés sur du langage. Ils ne connaissent pas les lois physiques d'une installation spécifique : ils ne savent pas quel capteur correspond à quel paramètre, quelle règle de cohérence s'applique, ni quelles corrélations physiques sont pertinentes. Sans contrainte métier, ils produisent des réponses plausibles linguistiquement mais fausses physiquement. La solution : contraindre le LLM par un graphe de connaissances qui encode la physique du domaine, de sorte que l'IA n'ait accès qu'aux faits validés.

Q: Qu'est-ce que le Filtre CAP ?

Le Filtre CAP est une méthodologie de qualification de projets Data & IA développée par Qognito.io. Chaque projet doit satisfaire trois critères avant engagement : Contraint (le problème est borné par une loi physique), Aride (le sujet est techniquement négligé et pas encore commoditisé), Prouvable (un prototype fonctionnel est livrable en moins de 3 mois). Si le projet ne passe pas les trois critères, il n'est pas pris.

Q: Qu'est-ce qu'un Knowledge Graph métier pour l'industrie ?

Un Knowledge Graph métier est un graphe de connaissances qui modélise l'ontologie d'une installation industrielle : équipements, capteurs, paramètres physiques, règles de cohérence, corrélations quantifiées entre variables. Chez Qognito.io, ce graphe est implémenté sur Neo4j et sert de socle de vérité qui contraint tout raisonnement IA. Par exemple, pour le nucléaire : 11 réacteurs, 10 paramètres physiques, 9+ capteurs par réacteur, 5 règles physiques, 5 corrélations quantifiées, avec des requêtes en moins de 100 ms.

Q: Comment valider physiquement des données de capteurs nucléaires ?

La validation physique des données capteurs nucléaires passe par un pipeline ETL structuré en couches (Bronze, Silver, Gold). Chaque transformation est contrainte par la physique du réacteur : bornage des valeurs selon les limites physiques connues, détection d'impossibilités neutroniques, vérification de cohérence chimique, recalage du boremètre par assimilation de données chimistes. L'imputation respecte la dynamique propre de chaque variable : inertie thermique pour les températures, cinétique lente pour le bore, mouvement discret par crans pour les grappes de contrôle. Chez Qognito.io, cette approche a résolu automatiquement 96,4 % des incohérences physiques sur 11 réacteurs du parc français.

Q: Quelle est la différence entre un prototype fonctionnel et un démonstrateur ?

Un démonstrateur prouve un concept mais n'est généralement pas conçu pour être intégré en production. Un prototype fonctionnel selon l'approche Qognito.io est conçu avec une exigence de production dès le départ : tests unitaires (270+), validation physique systématique, architecture pérenne et documentée. L'objectif est que l'équipe de delivery qui l'intègre dans le produit final parte d'une base solide — pas d'un démonstrateur jetable. C'est une preuve de valeur mesurable livrée en moins de 3 mois.

Q: Qu'est-ce qu'un Physics-Informed VAE (PI-VAE) ?

Un Physics-Informed Variational Auto-Encoder (PI-VAE) est un modèle génératif qui produit des données synthétiques en respectant les contraintes physiques du domaine. Contrairement à un VAE classique évalué sur l'erreur de reconstruction, un PI-VAE est évalué sur la conservation des corrélations physiques dans les données générées. L'architecture combine un encodeur GRU (pour capturer les dépendances temporelles longues et courtes), un échantillonnage MCMC dans l'espace latent (pour la continuité physique), et une validation physique de la génération. L'application visée : générer des données nucléaires synthétiques pour l'entraînement de modèles ML sans accès aux données réelles sensibles.

Q: Pour quelles industries l'IA sous contrainte physique est-elle pertinente ?

L'IA sous contrainte physique est pertinente pour tout secteur où l'erreur algorithmique a un coût physique réel : le nucléaire (surveillance de réacteurs, données de capteurs), l'énergie (réseaux électriques, optimisation de production), la chimie (procédés, cinétique de réaction), l'aéronautique (systèmes embarqués critiques), et plus largement toute industrie dont les données capteur doivent respecter des lois physiques avant d'alimenter un modèle prédictif ou un outil d'aide à la décision.

Le contexte

J'interviens en cadrage (Discovery) de produits numériques pour la surveillance des réacteurs nucléaires du parc français. Mon rôle : concevoir et livrer des prototypes fonctionnels qui valident l'approche Data & IA avant l'investissement d'industrialisation — dé-risquer par la preuve, pas par le slide.

Chaque prototype est conçu avec une exigence de production (tests, validation physique, architecture pérenne) pour que l'équipe de delivery qui l'intègre dans le produit final parte d'une base solide, pas d'un démonstrateur jetable.

Prototype 1 — Pipeline de Validation Physique

Le problème

Les données de capteurs nucléaires (puissance, température, bore, grappes de contrôle) arrivent brutes, incomplètes et parfois physiquement incohérentes. Des concentrations de bore négatives, de la puissance affichée quand les grappes sont chutées, des écarts entre le boremètre en ligne et les prélèvements chimistes. Sans validation physique en amont, ces données ne peuvent alimenter aucun modèle ni outil de surveillance fiable.

L'approche

Un pipeline ETL (Bronze → Silver → Gold) où chaque transformation est contrainte par la physique du réacteur — pas par des heuristiques statistiques.

Nettoyage : chaque variable est imputée selon sa dynamique physique propre — pas de méthode générique appliquée aveuglément
Validation : 3 règles de cohérence physique détectent les incohérences (bornage, impossibilité neutronique, cohérence chimique)
Correction : bornage, recalage du boremètre par assimilation de données chimistes, arbitrage des arrêts mécaniques et chimiques
Enrichissement : filtrage Kalman calibré par phase, gradients cinétiques, classification automatique de 7 phases opérationnelles

Le résultat

Pipeline validé sur 11 réacteurs du parc, 3 paliers (900, 1300, 1450 MWe). 96,4 % des incohérences physiques résolues automatiquement. 270+ tests unitaires. Architecture prête pour intégration produit.

Détails techniques

Data Lake Medallion sur Apache Arrow partitionné, moteur DuckDB zero-copy (32 threads, 32 GB RAM). Millions de points en sub-seconde.

4 modules d'imputation physique : LOCF pour les grappes (mouvement discret par crans), spline cubique pour la puissance (dynamique continue), redondance spatiale pour les températures (4 boucles corrélées), interpolation linéaire pour le bore (cinétique lente).

Filtrage Kalman (package dlm) : ordre 0 (random walk, p_factor=4.0) pour la stabilité thermique EPN, ordre 1 (linear growth, p_factor=1.5) pour le suivi de rampes en montée en puissance.

Arbre de décision physique classifiant 7 phases opérationnelles (EPN, MEP, CYCLE, TRANSIENT, STRETCH, SHUTDOWN, INVALID) à partir de ~30 constantes calibrées REP 900 MWe sur 6 domaines (neutronique, mécanique, chimie, thermohydraulique, déformation flux, cinétique).

Prototype 2 — Assistant IA Expert Nucléaire

Le problème

Un ingénieur de surveillance veut interroger les données d'un réacteur en langage naturel : "La température primaire semble instable, que faire ?" Les LLM généralistes ne connaissent pas l'ontologie nucléaire — ils ne savent pas quel capteur correspond à "puissance", quelle règle physique s'applique, quel capteur corrélé surveiller. Sans contrainte métier, l'IA hallucine.

L'approche

Un assistant conversationnel où le LLM ne raisonne pas seul — il interroge un graphe de connaissances qui encode la physique du domaine.

Knowledge Graph modélisant l'ontologie nucléaire : réacteurs, capteurs, paramètres physiques, règles, corrélations quantifiées
3 outils spécialisés (Tool Calling) : recherche sémantique de capteurs, extraction haute performance de séries temporelles, diagnostic d'anomalies via les règles physiques
Intelligence métier : substitution automatique selon la phase opérationnelle, recommandation de capteurs corrélés pour le diagnostic, adaptation au palier du réacteur

Le résultat

L'ingénieur pose une question en français, l'assistant identifie le capteur, applique la règle physique, extrait les données, recommande le capteur corrélé — en moins de 2 secondes. L'assistant ne peut pas halluciner : il n'a accès qu'aux faits validés par le graphe. Prototype validé, en attente d'intégration produit.

→ Méthodologie de conception du Knowledge Graph : lire l'article complet

Détails techniques

Knowledge Graph Neo4j : 11 réacteurs, 10 paramètres physiques, 9+ capteurs par réacteur, 5 règles physiques, 5 corrélations quantifiées. Contraintes d'unicité et index sémantiques. Requêtes < 100ms.

LLM : Claude 3.5 Haiku via ellmer (orchestration Tool Calling). Prompt système expert calibré sur le domaine nucléaire.

Visualisation : Dashboard Shiny haute performance, graphiques dygraphs interactifs, shading automatique des phases opérationnelles, marqueurs d'anomalies.

Sécurité : validation anti-injection SQL, données filtrées par le Knowledge Graph, aucun accès direct du LLM aux données brutes.

Cas d'Étude — Cadrage Stratégique IA

Le contexte

Une startup SaaS RH opère dans un domaine réglementé (droit social, conventions collectives). Son produit gère les arrêts de travail pour des entreprises clientes. L'équipe fondatrice veut intégrer de l'IA pour automatiser le parcours, mais n'a ni architecture IA cible, ni compétence interne, ni visibilité sur les risques techniques.

Le gap : l'équipe se positionne comme une "app IA native" alors que le produit repose sur un moteur de règles statique. Sans cadrage, le risque de faux départ technique est élevé — mauvaise architecture, mauvais modèle, mauvais séquencement.

L'approche

Le projet passe le Filtre CAP : Contraint (droit social, RGPD données de santé), Aride (pas de solution IA sur étagère pour ce domaine), Prouvable (livrable actionnable en 3 semaines).

Mission de cadrage complet :

Diagnostic du gap aspirationnel : ce que l'équipe dit être vs ce qu'elle a réellement construit
Analyse SWOT build vs buy : IA propriétaire (Knowledge Graph + LLM) vs solutions SaaS génériques, avec 8 critères de décision
Recommandation architecturale : Knowledge Graph plutôt que RAG — le domaine est régi par des règles formelles à chaînage conditionnel, pas par des documents à rechercher
Arbitrage souveraineté LLM : données de santé RGPD Art. 9 → recommandation d'un LLM souverain européen
Ontologie de référence : modélisation complète du domaine (7 types de nœuds, 9 relations, exemples instanciés)
Roadmap 3 horizons avec critères go/no-go entre chaque étape — du premier assistant simple à l'architecture multi-agents

Le résultat

Livrable de cadrage complet livré en 3 semaines. L'équipe fondatrice dispose d'une architecture cible validée, d'une roadmap séquencée avec estimation des coûts par horizon, et d'une ontologie de référence prête à être implémentée. Le cadrage protège la startup d'un estimé de 80 à 160 k€ de risque sur 12-18 mois (mauvaise architecture, embauche prématurée, perte de différenciation).

Les Principes de Conception

Ces principes ne sont pas des slogans. Ce sont les règles de conception que j'applique. Chacune est adossée à un choix technique vérifiable.

La Physique avant le Verbe (Physics First)

L'IA actuelle est probabiliste ; l'industrie est déterministe. Pour les systèmes critiques, la statistique ne suffit pas.

Physics First formula — Photo by Bozhin Karaivanov on Unsplash

En pratique : Aucune donnée brute n'est confiée à un algorithme. Le pipeline valide d'abord par la physique (bornage, cohérence neutronique, recalage chimique par assimilation de données), puis impute selon la dynamique propre de chaque variable (inertie thermique, cinétique du bore, mouvement discret des grappes). L'IA intervient après cette couche de vérité physique — contrainte par un graphe de connaissances qui encode les lois du domaine.

La Sobriété comme Architecture (Data Sobriety)

Une mauvaise architecture de données est une dette énergétique et cognitive. Les détails arides — nettoyage, optimisation de flux, structures de partitionnement — sont là où se trouve l'impact réel.

En pratique : Architecture zero-copy traitant des téraoctets sans duplication mémoire. Partitionnement intelligent réduisant les données scannées d'un facteur 10 à 100x. Sub-seconde pour 1 million de points. Pas de GPU, pas de cluster — un seul serveur bien architecturé.

Le Filtre CAP (Pragmatisme de Combat)

Avant chaque engagement, trois questions.

Contraint — Le problème est-il borné par une loi physique, une réglementation ou un domaine de règles formelles ? Thermodynamique, neutronique, droit social, cinétique chimique — si la réalité impose une borne que l'algorithme ne peut pas ignorer, c'est mon terrain. Si le problème est purement narratif, l'IA générique suffit.
Aride — Le sujet est-il techniquement négligé ? La valeur réelle se cache dans les problèmes ingrats : nettoyage de séries temporelles, recalage de capteurs, validation de cohérence physique, encodage de règles métier. Si tout le monde s'y précipite, c'est déjà commoditisé.
Prouvable — Puis-je démontrer la faisabilité par un prototype fonctionnel ou un livrable actionnable en moins de 3 mois ? Si la donnée existe et le domaine est modélisable, je livre une preuve — pas une promesse.

Stack Technique

Couche	Technologies
Data Engineering	Apache Arrow, DuckDB (zero-copy, 32 threads), Parquet partitionné, architecture Medallion (pins)
Validation Physique	Règles déterministes (neutronique, chimique, thermique), filtrage Kalman (dlm), gradients cinétiques
Knowledge Graph	Neo4j (ontologie métier, règles physiques, corrélations, contraintes d'unicité, index sémantiques)
IA Cognitive	Anthropic Claude (Tool Calling), ellmer (orchestration LLM), RAG contraint par graphe
Visualisation	Shiny Dashboard, dygraphs (séries temporelles interactives), Plotly
Qualité	testthat (270+ tests), renv (reproductibilité), validation anti-injection SQL
Langages	R, Python (reticulate)

RECHERCHE

PI-VAE — Données Synthétiques Physiquement Cohérentes

Programme de recherche personnel, distinct des engagements clients.

Le problème

Les données nucléaires sont sensibles, restreintes, et les phases opérationnelles rares (transitoires, arrêts à chaud) sont sous-représentées. Entraîner des modèles ML sur ces données est soit impossible (compliance), soit biaisé (déséquilibre de classes).

L'approche — Physics-Informed Variational Auto-Encoder

Architecture PI-VAE — Scientific Reports (Sci Rep) ISSN 2045-2322 (online)

Encodeur GRU capturant les dépendances temporelles longues (cycle de combustible) et courtes (transitoires, suivi de charge)
Échantillonnage MCMC dans l'espace latent pour garantir la continuité physique entre séquences générées
Validation physique de la génération : le modèle est évalué sur la conservation des corrélations physiques — pas sur l'erreur de reconstruction

Le statut

Stade VAE (architecture de base). Prochaine étape : intégration des contraintes physiques dans la fonction de perte et validation sur données Gold.

La valeur à terme

Un générateur synthétique validé physiquement ouvre la porte à l'entraînement de modèles sans accès aux données réelles (export, formation), à la simulation de scénarios opérationnels (stress tests), et à l'augmentation de datasets pour les phases rares.

Vision

En cours — Mission de cadrage Data & IA dans le nucléaire français. Cadrage stratégique IA pour des startups et éditeurs SaaS en domaine réglementé. Développement du PI-VAE.

À terme — Extension de l'offre (cadrage stratégique + pipeline + Knowledge Graph + assistant) comme solution reproductible pour d'autres domaines contraints. Poursuite de la R&D vers un générateur synthétique industrialisable.