Analyse de données
Master Traduction et interprétationParcours Technologies des langues - Traitement automatique des langues, informatique et traduction
Description
Collecte de données à partir du web : développement de programmes pour télécharger, analyser la structure hiérarchique et extraire le contenu textuel principal de pages HTML.
Traitement de données avec la bibliothèque pandas : nettoyage et prétraitement des données, analyse univariée, analyse bivariée, visualisation.
Vectorisation de textes : décomposition des textes en unités, normalisation et autres prétraitements, visualisations, pondération tf-idf.
Compétences visées
Collecter des corpus de textes à partir du web.
Nettoyer, prétraiter, analyser et visualiser des données tabulées.
Traiter des données textuelles pour obtenir des représentations vectorielles.
Développer des programmes informatiques dédiés au Traitement automatique de la langue
Développer des programmes informatiques pour l’analyse, la structuration des données (analyse statistique, méthodes de représentation graphique)
Utiliser des outils d’annotation automatique simples (étiqueteurs, analyseurs syntaxiques)
Collecter et organiser des données linguistiques, les formaliser, les représenter dans un format normalisé
Exploiter des données linguistiques avec des outils spécialisés (outils de traitement statistique)
Disciplines
- Informatique
Informations complémentaires
Responsable pédagogique Delphine Bernhard
Email dbernhard@unistra.fr