Ce site utilise des cookies. Pour en savoir plus sur notre politique d'utilisation des cookies, cliquez Politique d'utilisation des cookies

Stage - Enconvertisseur UNL du français pour la traduction automatique H/F - Le Plessis-Robinson - CS

Publiée le: 2/2/2018

Résumé de l'offre

Description de l'offre

Dans le domaine du contrôle du trafic aérien, les contrôleurs interagissent avec les contrôleurs à travers d’échanges vocaux. Dans ce contexte, CS conçoit et réalise une gamme de produits : systèmes de communication vocale (VCS), enregistreurs et simulateurs. Pour d’autres applications comme la recherche d’informations de parole dans des enregistrements, les services de communication multilingue pour les compagnies aériennes ou la traduction multilingue de grosses documentations techniques (Rafale pour l’Inde/l’Égypte..., par exemple), il est nécessaire de traiter non seulement la voix (signal audio) mais aussi la parole, c’est à dire le contenu sémantique du signal audio, ou le texte écrit.

Dans ce but, nous souhaitons étudier la faisabilité d’un enconvertisseur du français, c'est-à-dire un analyseur produisant des graphes UNL (Universal Networking Language) à partir de textes en français. Cet enconvertisseur nous permettra par la suite d’évaluer la pertinence des graphes UNL à la fois comme représentation source pour générer du texte dans plusieurs langues (déconversion) ou pour faire des inférences (ontologies) et aussi comme interlingua pour de la traduction automatique (enconversion + déconversion).

Pour transformer des phrases en graphes UNL, nous suivons la méthode du GETA : utiliser un transducteur générique  qui produit les graphes UNL à partir des représentations profondes (« structures  multiniveaux de Vauquois », ou plus simplement « arbres de Vauquois ») obtenues par des analyseurs existants. Plusieurs tels analyseurs produisant des structures de Vauquois ont été développés sous Ariane  et sont disponibles en sources ouvertes.

1) Transducteur générique « arbre de Vauquois graphe UNL »

Après une phase de prise de connaissance des principes d’UNL et des structures multiniveaux de Vauquois, le stagiaire étudiera l’algorithme simplifié du transducteur actuellement utilisé pour transformer les structures multilniveaux en graphes UNL dans l’enconvertisseur du français. Il  l’étendra ensuite :
•    en intégrant un traitement actuellement réalisé sous Ariane (transfert),
•    en prenant en compte les scopes, qui sont des entités sémantiques autonomes actuellement non prises en compte.
le stagiaire clarifiera les éventuelles contraintes que doivent respecter les structures multiniveaux présentées en entrée du transducteur arbre-graphe puis il programmera l’algorithme spécifié.

2) Génération automatique d’un analyseur du français à partir d’un dictionnaire français-UNL

D’importantes ressources bilingues NL-UNL, avec NL = anglais (83507 entrées), russe (63287 entrées), français (51352 entrées),  hindi (50391 entrées),  malais (31406 entrées),  espagnol (21874 entrées), vietnamien (10150 entrées) sont maintenues par Vyacheslav Dikonov, au laboratoire LCL de l’institut IPPI de l’Académie des Sciences de Moscou . Dans le but de tirer le meilleur parti de ces dictionnaires, le stagiaire étudiera un programme générant automatiquement les fichiers source d’un analyseur morphologique Ariane du français cohérent avec ces données en croisant les dictionnaires français-UNL de l’IPPI avec (1) des ressources lexicales libres telles que Lexique 3.81 (http://www.lexique.org/) et (2) les mots présents dans des corpus techniques de CS. Pour cela, il pourra s’appuyer sur des programmes déjà existants, générant des analyseurs morphologiques Ariane à partir de bases de données lexicales.

3) Expérimentations (selon le temps disponible)

Le stagiaire testera ensuite la chaîne d’analyse intégrant (1) l’analyse morphologique qu'il aura produite, (2) l’analyse structurale qui produit les structures de Vauquois (phase existante) et (3) la transformation arbre-graphe qui produira les graphes UNL des phrases soumises à l’analyseur.

Résultats attendus :
• Rapport d’étude sur l’algorithme du transducteur arbre-graphe.
• Programme implémentant l’algorithme du transducteur arbre-graphe.
• Base lexicale extraite des corpus techniques de CS.
• Programme de génération de l’analyseur morphologique.
• Rapport d'évaluation de la chaîne français-UNL (selon le temps disponible).

Profil requis

Vous êtes en 4ème ou 5ème année en informatique, école d’ingénieur ou équivalent universitaire.

Vous avez idéalement les compétences techniques suivantes :

  • C
  • C++
  • JAVA