Linguistique de corpus
Master Traduction et interprétationParcours Technologies des langues - Traitement automatique des langues, informatique et traduction

Description

Cet enseignement aborde le traitement des documents numériques (définition, formats divers, encodage et manipulation), la définition et les critères de constitution d'un corpus, les sources (bases textuelles, corpus disponibles sur Internet, Factiva). Dans ce cours seront présentés les outils d'exploration de corpus (concordanciers) disponibles en ligne (Frantext, FrWaC, SketchEngine), mais également indépendants (AntConc, TXM). Les mesures statistiques utilisées par les outils d'exploration de corpus seront abordés (information mutuelle, Loglikelihood). Une dernière partie du cours présente des outils d'exploitation des corpus étiquetés (TXM) et annotés en dépendances (la plateforme Grew-Match).

Compétences visées

- savoir créer un corpus selon des critères bien définis

- extraire des données à partir de corpus à l’aide des expressions regulières

- maîtriser les outils de type concordancier (AntConc, SketchEngine) et de textométrie (TXM)

- connaître le langage CQL

Disciplines

  • Sciences du langage
  • Informatique

Informations complémentaires

  • Responsable pédagogique : Amalia Todirascu

Email : todiras@unistra.f

Contacts

Responsable pédagogique