• Cours (CM) -
  • Cours intégrés (CI) -
  • Travaux dirigés (TD) 12h
  • Travaux pratiques (TP) -
  • Travail étudiant (TE) -

Langue de l'enseignement : Français

Enseignement proposé : en présentiel enrichi de ressources pédagogiques numériques

Description du contenu de l'enseignement

  • Collecte de données à partir du web : développement de programmes pour télécharger, analyser la structure hiérarchique et extraire le contenu textuel principal de pages HTML.
  • Traitement de données avec la bibliothèque pandas : nettoyage et prétraitement des données, analyse univariée, analyse bivariée, visualisation.
  • Vectorisation de textes : décomposition des textes en unités, normalisation et autres prétraitements, visualisations, pondération tf-idf.

Compétences à acquérir

  • Collecter des corpus de textes à partir du web.
  • Nettoyer, prétraiter, analyser et visualiser des données tabulées.
  • Traiter des données textuelles pour obtenir des représentations vectorielles.

Contact

Faculté des langues

22, rue René Descartes
67084 STRASBOURG CEDEX

Formulaire de contact

Responsable

Delphine Bernhard

Intervenants

Delphine Bernhard


Parcours : Technologies des langues - Traitement automatique des langues, informatique et traduction