Ce site utilise des cookies. Pour en savoir plus sur notre politique d'utilisation des cookies, cliquez Politique d'utilisation des cookies

Stage - Maquettage d'un analyseur structural du français (H/F) - Paris - CS

Publiée le: 4/6/2018

Résumé de l'offre

  • Type de contrat:
    Alternance / Stage
  • Lieu:
    Paris

Description de l'offre

Dans le domaine du contrôle du trafic aérien, les contrôleurs interagissent avec les pilotes au travers d’échanges vocaux. Dans ce contexte, CS conçoit et réalise une gamme de produits : systèmes de communication vocale (VCS), enregistreurs et simulateurs.

Dans ce contexte, nous souhaitons industrialiser le développement des systèmes de traduction automatique sous Ariane , et en particulier transformer l’analyseur du français existant (FR3) pour qu’il puisse bénéficier des avantages de la nouvelle version des compilateurs Ariane-H, ainsi que des derniers progrès obtenus dans la modélisation des correspondances chaîne-arbre. La nouvelle version de l’analyseur a en sus pour vocation de servir de modèle pour les futurs développements d’analyseurs sous Ariane, tant du français que d’autres langues.

Plus concrètement, le système de traduction automatique français-anglais FR3-AN3 auquel appartient l’analyseur FR3 est composé de :
• Une analyse (monolingue, en langue source), constituée de :
- une analyse morphologique,
- une analyse structurale,
• Un transfert (bilingue, en langues source et cible), constitué de :
- un transfert lexical,
- un transfert structural,
• Une génération (monolingue, en langue cible), constituée de :
- une génération structurale,
- une génération morphologique.

Le sujet concerne l’analyse morphologique (AM FR3) et l’analyse structurale (AS FR3) de ce système (en gras ci-dessus). Les principales limitations du système FR3-AN3 actuel, et en particulier des deux modules d’analyse, sont liées au nombre de variables utilisables. Ce problème du nombre de variables utilisables a contraint les linguistes qui ont programmé le système à recourir à des astuces qui rendent le programme plus compliqué et moins puissant qu’il ne devrait. Un autre problème, ayant lui un impact sur la maintenabilité du système, provient de l’écart entre la spécification des phases structurales et la programmation qui en a été faite. La spécification du système est un ensemble de règles appelé grammaire statique. Les conditions particulières que le projet a connues à l’époque ont fait que l’AS ne respecte pas entièrement la grammaire statique. De plus, la grammaire statique du français utilisée dans le développement de l’AS FR3 a été revue dans le cadre du projet ANR Traouiero en 2012, et par ailleurs, des progrès sur la modélisation des grammaires statiques ont été faits depuis. En conséquence, l’analyseur FR3 nécessite une reprise pour gagner en performance et en maintenabilité. Pour pouvoir servir de modèle pour d’autres développement, le nouvel analyseur devra aussi être parfaitement documenté.


Travail à réaliser :

Le stage aura pour but de réaliser une nouvelle version de l’analyseur FR3 du français, version à vocation essentiellement pédagogique et donc limitée au petit corpus qui sera fourni en début de stage. L’analyseur réalisé sera mis en Open Source, de manière à ce que puisse se développer une communauté qui le complète.