Un modèle syllabique du français et de l’anglais pour la reconnaissance de l’écriture

Wassim Swaileh; Thierry Paquet

doi:10.3166/DN.19.2-3.117-134

Article Dans Une Revue Document numérique - Revue des sciences et technologies de l'information. Série Document numérique Année : 2016

Un modèle syllabique du français et de l’anglais pour la reconnaissance de l’écriture

(1) , (1)

Wassim Swaileh

Fonction : Auteur

Equipe Apprentissage

Thierry Paquet

Fonction : Auteur
PersonId : 16353
IdHAL : thierry-paquet
ORCID : 0000-0002-2044-7542
IdRef : 068943229

Equipe Apprentissage

Résumé

Dans cet article nous introduisons une nouvelle méthode de modélisation du texte pour la reconnaissance de l’écriture. Une méthode de syllabation orthographique supervisée est proposée pour la construction d’un vocabulaire de syllabes. Un modèle de langage statistique en n-gram combinant syllabes et caractères est appris sur un corpus Wikipédia. Le système de reconnaissance d’écriture fondé sur des modèles optiques HMM de caractères procède alors à un décodage en deux passes en exploitant le modèle syllabique proposé. L’évaluation est réalisée pour le français et l’anglais, sur les bases RIMES et IAM respectivement, en analysant les performances pour différents taux de couverture des modèles syllabiques. Nous comparons le modèle proposé à un modèle lexical ainsi qu’à un modèle de caractères. L’approche proposée permet d’atteindre des performances intéressantes grâce à sa capacité à couvrir une proportion importante des mots hors lexique en travaillant avec un lexique de syllabes de taille limitée combiné à un modèle de n-gram d’ordre raisonnable.

Mots clés

syllabation reconnaissance de l'écriture manuscrite modèle de langage syllabification handwriting recognition language model

Domaines

Informatique [cs] Vision par ordinateur et reconnaissance de formes [cs.CV]

Thierry PAQUET : Connectez-vous pour contacter le contributeur

https://normandie-univ.hal.science/hal-02075749

Soumis le : jeudi 21 mars 2019-15:43:10

Dernière modification le : vendredi 22 décembre 2023-15:16:05

Dates et versions

hal-02075749 , version 1 (21-03-2019)

Identifiants

HAL Id : hal-02075749 , version 1
DOI : 10.3166/DN.19.2-3.117-134

Citer

Wassim Swaileh, Thierry Paquet. Un modèle syllabique du français et de l’anglais pour la reconnaissance de l’écriture. Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, 2016, 19 (2-3), pp.117-134. ⟨10.3166/DN.19.2-3.117-134⟩. ⟨hal-02075749⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSA-ROUEN LITIS COMUE-NORMANDIE UNIROUEN UNILEHAVRE INSA-GROUPE

54 Consultations

0 Téléchargements

Un modèle syllabique du français et de l’anglais pour la reconnaissance de l’écriture

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager