Description de l'analyse textométrique du corpus de Mussolini

 

Nous présentons ici la démarche statistique pour construire notre analyse du corpus des Oeuvres complètes de Mussolini. Pour en savoir plus sur le contexte de cette analyse, vous pouvez revenir sur la page d'accueil de la présentation de ce travail.

 

La modélisation thématique (Topic Modelling)

Notre approche relève de la medélisation thématique (topic modelling). Cette approche d'un corpus de texte tente - à partir des simples occurences des mots dans les différents textes du corpus - de reconstruire une analyse thématique. Il s'agit pour cela et dans un même mouvement de définir des thèmes (tels que présentés ici) et de décrire pour chaque texte en quelles proportions apparaissent les différents thèmes.

Plusieurs algorithmes existent pour effectuer cette modélisation thématique. Nous avons choisi d'utiliser la NMF (Nonnegative Matrix Factorisation). Les détails de cette approche (utilisant un langage mathématique, niveau Licence) sont sur cette page.

 

En pratique, un certain nombre d'étapes sont nécessaires à la réalisation de cette analyse. Une présentation concrète, avec notamment les moyens informatiques utilisés, se trouvent sur cette page.

 

 

 

Theme by Danetsoft and Danang Probo Sayekti inspired by Maksimer