Un modèle syllabique du français et de l’anglais pour la reconnaissance de l’écriture - Normandie Université Accéder directement au contenu
Article Dans Une Revue Document numérique - Revue des sciences et technologies de l'information. Série Document numérique Année : 2016

Un modèle syllabique du français et de l’anglais pour la reconnaissance de l’écriture

Thierry Paquet

Résumé

Dans cet article nous introduisons une nouvelle méthode de modélisation du texte pour la reconnaissance de l’écriture. Une méthode de syllabation orthographique supervisée est proposée pour la construction d’un vocabulaire de syllabes. Un modèle de langage statistique en n-gram combinant syllabes et caractères est appris sur un corpus Wikipédia. Le système de reconnaissance d’écriture fondé sur des modèles optiques HMM de caractères procède alors à un décodage en deux passes en exploitant le modèle syllabique proposé. L’évaluation est réalisée pour le français et l’anglais, sur les bases RIMES et IAM respectivement, en analysant les performances pour différents taux de couverture des modèles syllabiques. Nous comparons le modèle proposé à un modèle lexical ainsi qu’à un modèle de caractères. L’approche proposée permet d’atteindre des performances intéressantes grâce à sa capacité à couvrir une proportion importante des mots hors lexique en travaillant avec un lexique de syllabes de taille limitée combiné à un modèle de n-gram d’ordre raisonnable.
Fichier non déposé

Dates et versions

hal-02075749 , version 1 (21-03-2019)

Identifiants

Citer

Wassim Swaileh, Thierry Paquet. Un modèle syllabique du français et de l’anglais pour la reconnaissance de l’écriture. Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, 2016, 19 (2-3), pp.117-134. ⟨10.3166/DN.19.2-3.117-134⟩. ⟨hal-02075749⟩
54 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More