STAGE BAC+5 - Développement de Modèles de Langage Statistiques (H/F)

Country
France
Town
Paris
Contract
internship
Company
Parrot Faurecia Automotive
Description
Vous souhaitez intégrer une entreprise française, innovante et agile ?

Rejoignez Parrot Faurecia Automotive, alliant un esprit start-up à un équipementier automobile de 1er rang, pour développer le cockpit du futur !

Au cœur de Paris, nos équipes conçoivent des technologies innovantes en développant des interfaces homme-machine sous Android pour offrir au client final une expérience intuitive, et nos solutions électroniques embarquées sont dotées de processeurs graphiques multi-cœur puissants afin de répondre plus rapidement à diverses instructions simultanées.

Relevez avec nous l'un des plus grands challenges de l'industrie automobile !


Stage BAC+5 - Développement de Modèles de Langage Statistiques (H/F)


CONTEXTE

Ce stage s'effectue au sein de l'équipe en charge de l'intégration de la reconnaissance et de la synthèse vocale, de la navigation et des traductions du département R&D Software de Parrot Faurecia Automotive.
Vous serez sous la responsabilité du manager et en étroite relation avec les membres de l'équipe.
La reconnaissance vocale est un domaine en plein essor dans l'industrie automobile. Le contrôle des fonctions non vitales du véhicule à la voix fait partie des activités dominantes de l'équipe et de nombreux axes de développement et travaux d'améliorations s'ouvrent au fur et à mesure des années.


MISSION

Le but du stage est de créer et évaluer un modèle de langage statistique (Statistical Language Model, SLM, en anglais) adapté au contexte automobile. Ces modèles permettent de transcrire de la parole naturelle de façon robuste. Ils sont typiquement composés de n-grams, qui décrivent les probabilités d'apparition et d'enchaînement des mots. Ils sont créés par des algorithmes d'apprentissage, sur de grandes quantités de données.

Les tâches principales pour y parvenir seront :

- La création d'un corpus textuel et d'un corpus audio pour les tests, orientés automobile, en français. Ils pourront être constitués de données disponibles, créées au sein de l'équipe, ou collectées sur Internet.
- L'entraînement des modèles, en se basant sur divers outils libres.
- L'évaluation des modèles. Les performances seront mesurées grâce à un moteur de reconnaissance vocale, sur le corpus audio.?
- Suivant la qualité des modèles obtenus, le stagiaire pourra construire un outil de compréhension du langage naturel (Natural Language Understanding, NLU, en anglais), pour en extraire la sémantique.
Il faudra là encore :
o Créer un corpus d'entraînement, si possible en augmentant le corpus du SLM.
o Créer des modèles NLU, sur un ou plusieurs framework libres.
o Évaluer les performances.


PROFIL

Vous êtes étudiant(e) en dernière année d'école d'ingénieur et avez des connaissances en :
- Traitement de la parole, traitement du langage naturel, ou apprentissage automatique
- Python, de l'environnent Linux, de Git


DUREE

6 mois