Résumés des interventions

Le Rhône aménagé vu du ciel : constitution d’une base de données iconographiques obliques pour documenter la trajectoire socio-environnementale du fleuve contemporain (1910-1960)

La photographie aérienne est un support clé pour étudier les dynamiques de changements des territoires. Les vues verticales sont couramment utilisées dans les études géo-historiques des fleuves et rivières. Les vues obliques, quant à elles, offrent une meilleure perception des formes paysagères, mais elles restent peu exploitées. Une base de données contenant plus de 300 photographies aériennes obliques du fleuve Rhône (1910-1960) a été constituée, à partir du matériel en libre accès du portail Remonter le temps de l'IGN. Géolocalisée, référencée par des métadonnées enrichies et accessible via une photothèque interactive, cette base de données iconographiques offre de nombreuses perspectives interdisciplinaires, pour mieux comprendre la trajectoire d’évolution biophysique du Rhône, documenter les transformations paysagères profondes induites par l’urbanisation et l’industrialisation dans la vallée du Rhône, mettre en évidence les aspects patrimoniaux et architecturaux, et offrir des supports pédagogiques originaux.

La base Jean Nicolas : la rébellion française, 1661-1789

[Résumé à venir]

D’ESLO à ESLO-FLEU : enjeux méthodologiques de la structuration de données pour la linguistique et la didactique du FLE

Le corpus ESLO (Enquêtes SocioLinguistiques à Orléans) est un vaste corpus oral du français (600h d’enregistrements), constitué en deux phases (ESLO 1 : 1968-71, ESLO 2 : depuis 2008) et rendu disponible sur différentes infrastructures (Ortolang, Cocoon). Initialement conçu par une équipe franco-britannique pour l’enseignement du français, il documente également les discours des locuteurs et la diversité des situations de communication. ESLO 2 met davantage l’accent sur cette diversité et repose sur une typologie des interactions basée sur un continuum variationnel entre proximité et distance communicative. Depuis 2022, le projet ESLO-FLEU adapte ce corpus à l’enseignement du FLE. Un sous-corpus de 150 extraits a été constitué pour une consultation simplifiée, en vue de sa didactisation et d’une initiation à la linguistique de corpus. Le corpus, préparé à partir d’une version annotée sous TXM, est disponible au format html et permet d’écouter la donnée sonore, de consulter les métadonnées et d’afficher des annotations linguistiques. Le corpus peut être interrogé en ligne sur notre site institutionnel ou téléchargé sur Ortolang pour un usage ne nécessitant aucune connexion internet.

Cartographier l’écosystème web médiatique français : enjeux de curation et de définition des médias

[Résumé à venir]

Recueil non supervisé de données audio massives à l’école maternelle : de l’enregistrement au développement d’un logiciel d’enrichissement et d’analyse

[Résumé à venir]

Les campagnes disparues : indexation et exploration des archives du web électoral français

Depuis le début des années 2000, la Bibliothèque nationale de France (BnF) collecte au titre du dépôt légal des sélections de sites internet à l’occasion des grandes échéances électorales. Ces collections sont une opportunité de capturer la façon dont les enjeux sociétaux du moment sont débattus en ligne. On y trouve des indicateurs sur la vie politique française des vingt-cinq dernières années sans pour autant être confronté au prisme déformant de la captation des espaces médiatiques par les élites. Ces données sont restées jusqu’à maintenant difficile d’accès pour les chercheuses et les chercheurs en SHS du fait des nombreux défis techniques qu’elles soulèvent. Pour faire face à cette difficulté, un nouvel appareil méthodologique a été déployé en 2024. Il repose d’une part sur la production d’un nouveau jeu de données par l’indexation plein texte des collections des archives électorales (jusqu’en 2010, avec pour objectif de rejoindre à terme le présent), et le déploiement du logiciel open-source PANDORÆ qui permet d’interroger ces indexes, d’en extraire des corpus, et de les explorer de façon exhaustive.

Collecte et valorisation de données dans le cadre du projet ANR LIFRANUM (LIttératures FRAncophones NUMériques)

Nous présentons la méthodologie de constitution d’un corpus de production littéraire web et les données qui en résultent. La littérature web caractérise l’ensemble de la production de création de contenus littéraires publiés sur le web, indépendamment des circuits d’édition papier.
La méthodologie repose sur un processus d’identification des œuvres fondé sur le principe de la reconnaissance mutuelle entre auteurs. Il permet, par une utilisation raisonnée des moteurs de recherche, de constituer une première liste structurée de racines (URL), qui permet ensuite de réaliser un crawl en profondeur (temporelle) et d’une étendue limitée (restriction du nombre de sauts du robot). La couverture du corpus pourra être évaluée.
Le résultat est une archive à vocation patrimoniale et culturelle, qui constitue un corpus unique de cette littérature, par ailleurs disséminée. Nous présenterons alors les usages de ce corpus, notamment à partir de SOLRWAYBACK, puis les limites des formats de données WARK. Enfin, nous présenterons certaines possibilités en matière d’analyse et d’indexation des productions littéraires.

Personnes connectées : 3 Vie privée | Accessibilité
Chargement...