Résumés des interventions

Le Rhône aménagé vu du ciel : constitution d’une base de données iconographiques obliques pour documenter la trajectoire socio-environnementale du fleuve contemporain (1910-1960)

La photographie aérienne est un support clé pour étudier les dynamiques de changements des territoires. Les vues verticales sont couramment utilisées dans les études géo-historiques des fleuves et rivières. Les vues obliques, quant à elles, offrent une meilleure perception des formes paysagères, mais elles restent peu exploitées. Une base de données contenant plus de 300 photographies aériennes obliques du fleuve Rhône (1910-1960) a été constituée, à partir du matériel en libre accès du portail Remonter le temps de l'IGN. Géolocalisée, référencée par des métadonnées enrichies et accessible via une photothèque interactive, cette base de données iconographiques offre de nombreuses perspectives interdisciplinaires, pour mieux comprendre la trajectoire d’évolution biophysique du Rhône, documenter les transformations paysagères profondes induites par l’urbanisation et l’industrialisation dans la vallée du Rhône, mettre en évidence les aspects patrimoniaux et architecturaux, et offrir des supports pédagogiques originaux.

La base Jean Nicolas : la rébellion française, 1661-1789

Cette intervention vise à présenter la base de données « Jean Nicolas ». Élaborée à partir des fiches manuscrites issues d’une enquête collective dirigée par l’historien Jean Nicolas pendant près de 30 ans, cette base de données détaille les modalités d’environ 8 500 événements rébellionnaires ayant eu lieu en France entre 1661 et 1789 — hors Révolution française. Au-delà de la description du contenu de la base de données, cette intervention décrit le processus concret (et complexe) de construction de cette enquête collective, des premières publications de Jean Nicolas sur le sujet en 1973-1974 à son ouvrage final paru en 2002. Elle vise aussi à mettre en place un appareil critique quantitatif permettant d’évaluer la représentativité des événements présents dans la base.

D’ESLO à ESLO-FLEU : enjeux méthodologiques de la structuration de données pour la linguistique et la didactique du FLE

Le corpus ESLO (Enquêtes SocioLinguistiques à Orléans) est un vaste corpus oral du français (600h d’enregistrements), constitué en deux phases (ESLO 1 : 1968-71, ESLO 2 : depuis 2008) et rendu disponible sur différentes infrastructures (Ortolang, Cocoon). Initialement conçu par une équipe franco-britannique pour l’enseignement du français, il documente également les discours des locuteurs et la diversité des situations de communication. ESLO 2 met davantage l’accent sur cette diversité et repose sur une typologie des interactions basée sur un continuum variationnel entre proximité et distance communicative. Depuis 2022, le projet ESLO-FLEU adapte ce corpus à l’enseignement du FLE. Un sous-corpus de 150 extraits a été constitué pour une consultation simplifiée, en vue de sa didactisation et d’une initiation à la linguistique de corpus. Le corpus, préparé à partir d’une version annotée sous TXM, est disponible au format html et permet d’écouter la donnée sonore, de consulter les métadonnées et d’afficher des annotations linguistiques. Le corpus peut être interrogé en ligne sur notre site institutionnel ou téléchargé sur Ortolang pour un usage ne nécessitant aucune connexion internet.

Cartographier l’écosystème web médiatique français : enjeux de curation et de définition des médias

Le maintien d’un espace médiatique diversifié est souvent présenté comme un enjeu démocratique important garantissant la pluralité de l’information et la tenue des débats contradictoires dans l’espace public. L’ensemble des traces générées par la numérisation des médias offre davantage de prises pour représenter les structures et les dynamiques d’un paysage médiatique en transformation permanente. Afin de cartographier l’espace médiatique français, nous avons constitué une base de données comprenant 747 sites web de médias actifs, traditionnels et alternatifs, auxquels sont associés un ensemble de métadonnées (topologie web, métriques Twitter, statut administratif, fact checking, etc.). Notre communication vise à rendre compte du processus et des enjeux méthodologiques dans la constitution de ce corpus : la définition de ce qu’est un média, les méthodes basées sur l’extraction du web, l’enrichissement des métadonnées à partir de sources hétérogènes.

Recueil non supervisé de données audio massives à l’école maternelle : de l’enregistrement au développement d’un logiciel d’enrichissement et d’analyse

Le projet DyLNet (Dynamiques langagières, apprentissages linguistiques et sociabilité à l’école maternelle : apport des capteurs de proximité pour le recueil de données massives) est un projet interdisciplinaire réunissant des linguistes, des éthologistes et des chercheurs en science des réseaux dont l’objectif est d’examiner les relations entre socialisation enfantine et apprentissage du langage oral pendant la maternelle.
Pendant 2,5 ans, une semaine par mois, les enfants et intervenants pédagogiques d’une école maternelle (≈ 200 individus) ont porté des boitiers incluant des capteurs de proximité et des micros qui ont permis de collecter 1,7 million d’interactions et ≈ 35 000 heures d’enregistrements audio. Parmi celles-ci, un peu plus de 800 ont été annotées et transcrites. Elles sont en cours de dépôt sur ORTOLANG.
Dans cette communication, nous exposerons les dispositifs de traitement des signaux audio ainsi que la procédure de transcription et d’annotation. Nous présenterons également le logiciel EAF² qui permet 2 grands types de traitements : a) nettoyage, normalisation et enrichissement des transcriptions ; b) extraction d’informations langagières en vue de l’analyse quantitative et qualitative des données.

Les campagnes disparues : indexation et exploration des archives du web électoral français

Depuis le début des années 2000, la Bibliothèque nationale de France (BnF) collecte au titre du dépôt légal des sélections de sites internet à l’occasion des grandes échéances électorales. Ces collections sont une opportunité de capturer la façon dont les enjeux sociétaux du moment sont débattus en ligne. On y trouve des indicateurs sur la vie politique française des vingt-cinq dernières années sans pour autant être confronté au prisme déformant de la captation des espaces médiatiques par les élites. Ces données sont restées jusqu’à maintenant difficile d’accès pour les chercheuses et les chercheurs en SHS du fait des nombreux défis techniques qu’elles soulèvent. Pour faire face à cette difficulté, un nouvel appareil méthodologique a été déployé en 2024. Il repose d’une part sur la production d’un nouveau jeu de données par l’indexation plein texte des collections des archives électorales (jusqu’en 2010, avec pour objectif de rejoindre à terme le présent), et le déploiement du logiciel open-source PANDORÆ qui permet d’interroger ces index, d’en extraire des corpus, et de les explorer de façon exhaustive.

Collecte et valorisation de données dans le cadre du projet ANR LIFRANUM (LIttératures FRAncophones NUMériques)

Nous présentons la méthodologie de constitution d’un corpus de production littéraire web et les données qui en résultent. La littérature web caractérise l’ensemble de la production de création de contenus littéraires publiés sur le web, indépendamment des circuits d’édition papier.
La méthodologie repose sur un processus d’identification des œuvres fondé sur le principe de la reconnaissance mutuelle entre auteurs. Il permet, par une utilisation raisonnée des moteurs de recherche, de constituer une première liste structurée de racines (URL), qui permet ensuite de réaliser un crawl en profondeur (temporelle) et d’une étendue limitée (restriction du nombre de sauts du robot). La couverture du corpus pourra être évaluée.
Le résultat est une archive à vocation patrimoniale et culturelle, qui constitue un corpus unique de cette littérature, par ailleurs disséminée. Nous présenterons alors les usages de ce corpus, notamment à partir de SolrWayback, puis les limites des formats de données WARC. Enfin, nous présenterons certaines possibilités en matière d’analyse et d’indexation des productions littéraires.

Vie privée | Accessibilité