Ce site utilise des cookies. Pour en savoir plus sur notre politique d'utilisation des cookies, cliquez Politique d'utilisation des cookies

Stage - Enconvertisseur UNL du français pour la traduction automatique H/F - Le Plessis-Robinson - CS

Publiée le: 9/18/2018

Résumé de l'offre

Description de l'offre

Avec 1800 collaborateurs pour un chiffre d'affaires de 170 millions d'euros en 2017, CS s'affirme comme un concepteur, intégrateur et opérateur de systèmes critiques de tout premier plan. Nos clients européens et mondiaux sont dans les secteurs de la Défense, de l’Aéronautique, du Spatial, de l’Énergie, du Transport, des secteurs public et privé. CS réalise environ 80% de ses projets au forfait et est coté sur le marché Euronext Paris.

Afin de renforcer notre équipe parisienne de la Business Unit Défense, Sécurité & ATM, nous recherchons un stagiaire - Enconvertisseur UNL du français pour la traduction automatique (H/F).

Dans le domaine du contrôle du trafic aérien, les contrôleurs interagissent avec les contrôleurs à travers d’échanges vocaux. Dans ce contexte, CS conçoit et réalise une gamme de produits : systèmes de communication vocale (VCS), enregistreurs et simulateurs. Pour d’autres applications comme la recherche d’informations de parole dans des enregistrements, les services de communication multilingue pour les compagnies aériennes ou la traduction multilingue de grosses documentations techniques (Rafale pour l’Inde/l’Égypte..., par exemple), il est nécessaire de traiter non seulement la voix (signal audio) mais aussi la parole, c’est à dire le contenu sémantique du signal audio, ou le texte écrit.

Dans ce but, nous souhaitons étudier la faisabilité d’un enconvertisseur du français, c'est-à-dire un analyseur produisant des graphes UNL (Universal Networking Language) à partir de textes en français. Cet enconvertisseur permettra par la suite d’évaluer la pertinence des graphes UNL à la fois comme représentation source pour générer du texte dans plusieurs langues (déconversion) ou pour faire des inférences (ontologies) et aussi comme interlingua pour de la traduction automatique (enconversion + déconversion).

Pour transformer des phrases en graphes UNL, nous suivons la méthode du GETA : utiliser un transducteur générique qui produit les graphes UNL à partir des représentations profondes (« structures  multiniveaux de Vauquois », ou plus simplement « arbres de Vauquois » développés sous Ariane) obtenues par des analyseurs existants.

1) Transducteur générique « arbre de Vauquois graphe UNL »

  • Étudier l’algorithme simplifié du transducteur actuellement utilisé
  • Étendre l'algorithme :
    •   en intégrant un traitement actuellement réalisé sous Ariane (transfert),
    •     en prenant en compte les scopes, qui sont des entités sémantiques autonomes actuellement non prises en compte.
  • Clarifier les éventuelles contraintes que doivent respecter les structures multiniveaux
  • Programmer l’algorithme spécifié.


2) Génération automatique d’un analyseur du français à partir d’un dictionnaire français-UNL

Étudier un programme générant automatiquement les fichiers source d’un analyseur morphologique Ariane du français cohérent avec ces données

 

3) Expérimentations (selon le temps disponible)

Tester la chaîne d’analyse intégrant (1) l’analyse morphologique produite, (2) l’analyse structurale qui produit les structures de Vauquois (phase existante) et (3) la transformation arbre-graphe qui produira les graphes UNL des phrases soumises à l’analyseur.

 

Votre mission aura pour objectif les réalisations suivantes :

  • Rapport d’étude sur l’algorithme du transducteur arbre-graphe.
  • Programme implémentant l’algorithme du transducteur arbre-graphe.
  • Base lexicale extraite des corpus techniques de CS.
  • Programme de génération de l’analyseur morphologique.
  • Rapport d'évaluation de la chaîne français-UNL (selon le temps disponible).

Profil requis

Étudiant(e) en 4ème ou 5ème année en informatique, école d’ingénieur ou équivalent universitaire, vous êtes à la recherche d'un stage.

Vous disposez idéalement les compétences techniques suivantes :

  • C
  • C++
  • JAVA