PIERRE LAFON
UNITÉ D'INFORMATIQUE
INSTITUT DE LA LANGUE FRANÇAISE, PARIS
Sur la variabilité de la fréquence des formes dans un corpus*
Présentation du problème
L'opération d'indexation automatique d'un corpus attribue une fréquence à chacune des formes qui y sont présentes. Ce résultat brut, considéré isolément, éclaire une lecture minutieuse du texte. L'attention du lecteur est attirée par les termes dont la fréquence se révèle élevée, alors que leur répétition n'avait pas forcément été perçue au cours d'une lecture antérieure. Pour d'autres termes, au contraire attendus, c'est leur rareté ou leur absence qui ressort. La hiérarchie des usages obtenue et la comparaison des fréquences d'emploi peuvent déjà donner lieu à des commentaires. Arrêtée là, cette pratique purement descriptive ne relève absolument pas de la statistique.
Mais, presque toujours, cette démarche trouve un prolongement naturel dans la confrontation des résultats obtenus à partir de plusieurs textes réunis dans un même corpus, ou de diverses parties d'un même texte. Ce problème, comparer plusieurs discours par le biais des fréquences de leur vocabulaire, revient à apprécier les variations de la fréquence de chaque
* Texte modifié de la communication faite au 4e colloque de l'Association for literary and linguistic computing, Oxford, 4-5 avril 1976.

















