
Projet de recherche P4S/251/KG4J (Action de recherche P4S)
L’Institut National de Criminalistique et de Criminologie (INCC) joue un rôle scientifique dans le système de justice pénale belge. D’une part, il fournit une expertise forensique dans des domaines tels que l’ADN, la toxicologie et les drogues. D’autre part, il mène des recherches criminologiques, par exemple sur la récidive et les carrières criminelles. Pour cela, il traite une grande quantité de données. Pourtant, beaucoup de ces données sont fragmentées ou sous-utilisées. Des informations précieuses restent cachées.
Proposition
Le projet Knowledge Graphs for Justice (KG4J) vise à résoudre ce problème. Comment ? En construisant et exploitant des systèmes d’analyse de données fondés sur la théorie des graphes, les graphes de connaissances et l’intelligence artificielle (IA), notamment les grands modèles de langage (LLM). Et en définissant une politique de gouvernance des données et de l’IA.
Qu’est-ce que la théorie des graphes ?
Les graphes constituent un moyen naturel de représenter des données connectées. Les entités deviennent des nœuds reliés par des relations. Imaginez un plan de métro : Chaque station est un nœud, chaque ligne une relation. Quelle est la distance la plus courte entre deux stations ? Quelle est la station la plus connectée ? La théorie des graphes répond à ce type de questions.
Qu’est-ce qu’un graphe de connaissances ?
L’ajout d’informations sémantiques — c’est-à-dire des définitions de sens — transforme un graphe en graphe de connaissances. Ils deviennent lisibles par machine, interprétables et interrogeables. Les systèmes d’IA modernes peuvent alors les exploiter pour répondre à des questions.
Qu’est-ce qu’un grand modèle de langage ?
Un LLM est le moteur des agents conversationnels modernes. Il a été entraîné à prédire le discours humain à partir de grandes quantités de textes. Il peut dialoguer avec nous et aider à accomplir d’autres tâches, comme la programmation.
Ce que nous ferons avec cette technologie
Le projet KG4J appliquera la théorie des graphes, les graphes de connaissances et les LLM à des cas d’usage sélectionnés, afin de révéler la valeur des données existantes et fournir de nouvelles capacités.
Recherche criminologique
L’INCC a déjà utilisé un graphe pour examiner la récidive et les carrières criminelles à partir de sources de données déconnectées. L’objectif est maintenant de traiter ce graphe pour découvrir de nouveaux motifs. Et de le transformer en graphe de connaissances enrichi par l’IA. Cela permettra des requêtes avancées et une exploration plus simple des trajectoires criminelles.
Expertise forensique
L’INCC traite généralement les données forensiques de manière tactique, sans analyse ultérieure reliant les éléments entre eux. Par exemple les banques de données ADN associent des profils ADN entre affaires, puis s’arrêtent là. Transformer ces données en graphe permettrait de révéler des schémas de co-délinquance. Et de découvrir des réseaux criminels. Relier les preuves soutient à la fois les enquêtes en cours et la politique criminelle à long terme.
Données non structurées
Transcriptions d’auditions, notes d’experts, enregistrements : la quantité de données non structurées est immense. Grâce à l’IA — et particulièrement aux LLM — il devient possible de les convertir en graphe de connaissances. Ce graphe pourra alors répondre à des questions sur ces contenus.
Objectifs
Construire une infrastructure de graphes de connaissances (KGI) intégrant données criminologiques et forensiques, interrogeable via une interface intuitive.
Démontrer des cas d’usage : statistiques sur la récidive, découverte de nouveaux motifs et applications forensiques.
Développer des méthodes de traitement des données non structurées : extraction de graphes depuis le texte, analyse de discours et reconstruction de trajectoires criminelles, avec capacités conversationnelles des LLM.
Définir un modèle de gouvernance des données et de l’IA conforme aux valeurs institutionnelles et aux exigences légales.
Conclusion
Le projet KG4J permettra à l’INCC de produire un renseignement criminologique et forensique renforcé. Il relie les données fragmentées, valorise les données existantes, développe de nouvelles capacités via graphes et IA, et établit des pratiques fiables en matière de données et d’IA au service de la justice.