Analyser un fonds documentaire avec des outils IA

IA poldoc

L’article qui suit est une transcription (largement) éditée automatiquement par divers bots (Kimi K2 instruct et ChatGPT_5_Thinking notamment) de la vidéo ci-dessous. Le style est donc assez « mauvais », je m’en excuse.

Les diverses productions évoquées dans la vidéo sont en lien dans l’article. Bon visionnage.

Cet article décrit une méthode d’analyse d’un fonds documentaire avec l’appui d’outils d’IA. L’objectif est
de décrire l’ensemble du processus de manière suffisamment détaillée pour permettre à une lectrice ou
un lecteur de suivre l’intégralité des opérations sans disposer des images.
On suit la progression réelle du travail : clarification du besoin, préparation des données, nettoyage,
configuration d’un agent d’analyse « recherche approfondie », lecture critique des résultats, export et
mise en forme, précautions RGPD et limites opérationnelles.

Finalité et résultat attendu

Le projet vise la production d’un rapport d’analyse de fonds exploitable par une direction ou une équipe
métier. Le livrable attendu est un document structuré, éditable et sourcé, intégrant des graphiques, des
indicateurs synthétiques et des recommandations opérationnelles différenciées selon les segments du
fonds.
L’outil génère typiquement un rapport d’une vingtaine de pages pour un fonds moyen, et peut dépasser
les quatre-vingt lorsqu’il s’agit d’un fonds documentaire étendu ou multi-sites.
L’ambition n’est pas de se substituer au jugement professionnel, mais de réduire la complexité d’un
volume important de données et de proposer des repères objectivés afin d’éclairer la décision.

Données indispensables : distinguer le stock du flux

L’analyse s’appuie sur deux familles de données extraites du SIGB.
D’une part, le stock : un inventaire des documents du fonds concerné (ici, un fonds documentaire
d’environ 8 200 documents), comprenant a minima la cote de classement. Les cotes Dewey constituent
le pivot recommandé pour un travail par segments homogènes.


D’autre part, le flux : l’historique des prêts sur une période de référence (ici, l’année civile 2024). Cette
dissociation est essentielle : le stock offre une photographie des étagères, le flux révèle l’usage réel.
L’alignement de ces deux vues permet d’estimer l’adéquation entre l’offre et la demande.
On peut évidemment fusionner les deux fichiers ensemble, il faudra alors préciser le nombre de prêt
sur l’année pour chaque document.


NB : ce type d’analyse suppose que le fond est à peu près constant sur la période analysée. Si vous avez
renouvelé 30% du fonds ou procédé à un désherbage conséquent, il sera compliqué d’interpréter les résultats.

Prétraitement et hygiène des données

Avant toute modélisation, un nettoyage rigoureux s’impose. Il s’agit, en priorité, de garantir
l’homogénéité des cotes. Un tri croissant sur la colonne « Cote » fait apparaître immédiatement les
anomalies : lignes dépourvues de cote, cotes non Dewey pour des supports qui n’entrent pas dans le
périmètre (par exemple des BD adultes cotées alphabétiquement) ou documents relevant d’un autre
type documentaire.


Ces cas doivent être exclus du corpus d’analyse afin d’éviter des regroupements incohérents et des
erreurs de code côté IA. La règle est simple : l’agent d’analyse « n’aime pas » les exceptions silencieuses ;
plus le jeu de données est propre et homogène, plus le résultat sera fiable.


Le nettoyage se matérialise par quelques opérations élémentaires : filtrage des lignes non cotées,
suppression des supports hors périmètre, enregistrement d’une version « propre » des deux fichiers
(stock et prêts) qui servira de base à l’analyse.


NB : le nettoyage des fichiers dépend évidemment de votre connaissance du fond et de nombreuses autres
sources d’erreurs sont possible (par exemple, un document ou un segment du fond massivement emprunté
par une seule personne).

Choix et configuration de l’agent d’analyse

L’analyse est conduite avec un agent de type « recherche approfondie » (Deep Research) capable
d’exécuter du code, de regrouper des données et de générer un rapport complet.


En pratique, on uploade dans l’interface les deux fichiers nettoyés et active le mode d’analyse avancée.
Selon les modèles utilisés, la version payante offre un comportement plus méthodique et une
exploration plus poussée, tandis que des variantes gratuites restent exploitables pour des corpus moins
complexes.
Le point crucial n’est pas l’outil en soi, mais la qualité du cahier des charges transmis à l’agent.


NB : les outils de recherche avancée sont disponibles sur quasiment tous les chatbots disponibles en Europe
(ChatGPT, Gemini, Mistral, Deepseek, Kimi…) mais leur qualité varie beaucoup selon les cas. Dans mon
expérience, c’est la version payante de ChatGPT qui donne les meilleurs résultats mais n’hésitez pas à en tester d’autres !

Cadrage méthodologique transmis à l’IA

Le prompt de cadrage confère à l’agent le rôle d’un directeur ou d’une directrice de bibliothèque qui
met en regard l’offre et la demande, identifie les segments surdimensionnés ou sous-dotés et formule
des recommandations concrètes (achats, pilon, mise en réserve, création éventuelle de sous-fonds).


Plusieurs exigences sont précisées :

  • Périmètre : se limiter au fonds documentaire papier ; éviter les digressions sur l’animation
    culturelle, hors sujet ici.
  • Granularité : analyser par dizaines Dewey (600, 610, 620, etc.) afin de préserver la lisibilité
    entre domaines distincts (par exemple, médecine et cuisine).
  • Regroupements : autoriser la concaténation de segments adjacents si l’un d’eux est trop peu
    fourni, tout en fixant des frontières à ne pas franchir (traitement à part du 790 « sports », non
    fusionné avec 800 « littérature »).
  • Exceptions : ignorer les enregistrements non Dewey ou les supports hors périmètre (BD,
    romans) qui perturberaient les regroupements.
  • Production attendue : synthèse globale, indicateurs, graphiques et recommandations
    opérationnelles segmentées.

Ce cadrage peut être affiné par quelques paramètres (par exemple un seuil de prêts annuels en deçà
duquel un segment est considéré sous-utilisé), l’agent posant au besoin des questions de clarification.
Une fois validé, l’exécution est lancée.

Le prompt exact :

Voici la liste des 8140 documentaires de mon fonds ainsi que la liste des 5000 prêts de cette partie du fonds sur 2024.
Agis comme un directeur de bibliothèque afin de mettre en regard l’offre et la demande, identifie les fonds trop imposants et ceux pas assez fournis.
Formule des recommandations pour l’avenir (achat, pilon, mise en réserve, création de nouveaux fonds).
Ton but est de rédiger une note la plus complète et détaillée possible concernant l’adéquation entre le fonds et les attentes des lecteurs, 20 pages minimum (textes et graphiques).
Prends en considération les données des deux fichiers ainsi que les bonnes pratiques de la profession.
La note ne concerne que le fonds documentaire papier (pas d’allusion à la fiction, au jeux, aux animations). Segmente le fond à la dizaine dewey (de 00 à 09.999 puis de 010 à 019.999 etc etc).
Certains segments comporteront très peu de documents, si un segment comporte moins de 10 documents, concatène avec le(s) suivant(s) jusqu’à obtenir un ensemble d’au moins 50 documents.
Tu ne dois pas concaténer de segments dont la centaine dewey est différente (par exemple ne joins pas 790 et 800, mais tu peux joindre 800 et 810).
Traite le sport comme un fonds à part des arts. Certains documents sont de la bd (cote bda) ou des romans (cote R), ignore les.

Le (très long et trés détaillé) rapport complet est visible ici : ChatGPT – Shared Content

Nature des résultats et lecture critique

Sur un cas représentatif, l’agent produit un rapport conséquent structuré en : vue d’ensemble, analyses
par tranches Dewey, graphiques et commentaires. Un indicateur global typique peut faire ressortir une
moyenne d’environ 0,3 prêt par document sur la période, chiffre qui alerte sur un probable
surdimensionnement relatif du fonds au regard de la demande.


La force de l’approche réside dans la cohérence interne des résultats : par exemple, le 640 (cuisine)
ressort généralement comme l’un des segments les plus dynamiques dans de nombreuses
bibliothèques publiques, ce que l’analyse confirme. À l’inverse, si un segment inattendu apparaissait
comme « leader » (par exemple un 200 « religion » sur-performant de manière inexplicable), cela
constituerait un signal d’audit du code ou un indice d’anomalie de données. Une lecture critique
s’impose donc systématiquement, segment par segment, afin de confronter la sortie de l’IA aux
connaissances de terrain.


Il convient de souligner une limite volontaire : l’analyse porte sur des segments de cotes, non sur le
titre-à-titre. Elle oriente la décision (désherbage, renforcement, repositionnement), mais ne peut
trancher à la place d’une vérification « physique » et bibliothéconomique des exemplaires (état matériel,
obsolescence, attractivité, cohérence de collection).


NB : pour une analyse plus fine et basée sur les documents, un autre article est en préparation.

Cas d’usage parallèle : fonds de romans

La méthode s’adapte à un fonds de romans en l’absence d’un pivot Dewey pertinent. Dans ce cas,
l’agent s’appuie sur d’autres variables (genres, aires culturelles des auteurs et autrices) pour établir un
panorama de la circulation et du dimensionnement relatif des sous-ensembles.


Il peut également proposer des listes d’acquisitions thématiques ou « audacieuses », à condition
d’exiger des sources et de procéder ensuite à une vérification par échantillonnage. Le principe
demeure : l’IA suggère, le professionnel valide.


NB : les bibliothécaires avisés gagneront à explorer en détail la section des suggestions d’achats (et évaluer
leur pertinence). La méthodologie consistant à demander à l’agent de se baser sur des sites pro, billets de
blogs, vlogs et autres ressources disponibles en ligne permet de se prémunir contre l’hallucination de titres.

Le (non moins long et détaillé) rapport sur les romans est lisible là : ChatGPT – Shared Content

Export, conformité et partage

Les rapports générés sont exportables en PDF et en DOCX. Le format DOCX facilite la relecture, la
correction ponctuelle d’encadrés et l’ajout d’éléments contextuels.


Des liens de partage peuvent être proposés par les plateformes ; il est recommandé de ne pas publier
des livrables contenant des données sensibles et, de manière générale, de s’assurer que les documents
partagés ne comportent aucune donnée à caractère personnel.
Les exports de SIGB doivent être minimisés et conformes au RGPD ; en cas de doute, privilégier un
circuit interne maîtrisé.


NB : les liens générés par les chatbots sont parfois indexables par Google (et donc retrouvables par une
personne non invitée) mais ça change souvent. Une bonne pratique est donc de considérer que si vous créez
un lien de partage, les informations qui s’y trouvent deviennent publiques…

Mise en forme en présentation

Pour la restitution, plusieurs options coexistent. Certains agents « présentation » génèrent un
diaporama directement à partir du rapport. D’autres services en ligne permettent d’importer un DOCX/
PDF, d’appliquer une charte, d’obtenir un diaporama HTML puis d’exporter en PDF ou PPTX.


Il est possible de remplacer des illustrations génériques mal adaptées en modifiant la source HTML des
diapositives. Ces éditeurs tendent parfois à réécrire la diapositive lors d’une retouche ; il convient
d’intégrer cette contrainte dans le temps de finition.


NB : Ici aussi la technologie évolue très vite. Les premiers à se positionner comme performants sur ce créneau
étaient Manus, Z.ai a rendu la technologie gratuite quelques mois plus tard avant que Kimi lui emboîte le pas.

La (nettement plus digeste) présentation est lisible : https://chat.z.ai/space/r0ngr72z4qr1-ppt

Bonnes pratiques, seuils et limites

Plusieurs principes guident un usage responsable :

  • Définir explicitement des seuils de sous-usage par segment (par exemple, un nombre minimal de prêts annuels rapporté au volume du segment) et les documenter pour assurer la comparabilité d’une année sur l’autre.
  • Ne pas déléguer à l’IA la décision de pilon : croiser toujours les signaux statistiques avec l’examen matériel et la politique documentaire.
  • Exiger des sources lorsque l’agent propose des listes d’acquisition, puis vérifier un échantillon afin de détecter erreurs ou biais de popularité.
  • Maintenir une hygiène de données stricte : des exceptions non contrôlées sur les cotes entraînent des regroupements trompeurs.
  • Respecter la conformité : proscrire toute diffusion publique de fichiers contenant des données personnelles et maîtriser la chaîne de partage.

Comments

No comments yet. Why don’t you start the discussion?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *