Towards End-to-end Handwritten Document Recognition

Denis Coquenet

Résumé

Handwritten text recognition has been widely studied in the last decades for its numerous applications. Nowadays, the state-of-the-art approach consists in a three-step process. The document is segmented into text lines, which are then ordered and recognized. However, this three-step approach has many drawbacks. The three steps are treated independently whereas they are closely related. Errors accumulate from one step to the other. The ordering step is based on heuristic rules which prevent its use for documents with a complex layouts or for heterogeneous documents. The need for additional physical segmentation annotations for training the segmentation stage is inherent to this approach. In this thesis, we propose to tackle these issues by performing the handwritten text recognition of whole document in an end-to-end way. To this aim, we gradually increase the difficulty of the recognition task, moving from isolated lines to paragraphs, and then to whole documents. We proposed an approach at the line level, based on a fully convolutional network, in order to design a first generic feature extraction step for the handwriting recognition task. Based on this preliminary work, we studied two different approaches to recognize handwritten paragraphs. First, we designed a one-shot approach which aims at aligning the predictions of the whole paragraph in a two-dimensional space to preserve the nature of the the input image. Second, we designed a recurrent approach in which text lines are processed iteratively. We reached state-of-the-art results at paragraph level on the RIMES 2011, IAM and READ 2016 datasets and outperformed the line-level state of the art on these datasets. We finally proposed the first end-to-end approach dedicated to the recognition of both text and layout, at document level. Characters and layout tokens are sequentially predicted following a learned reading order. We proposed two new metrics we used to evaluate this task on the RIMES 2009 and READ 2016 dataset, at page level and double-page level. For reproducibility, transparency and scientific sharing purposes to which we are attached, all codes and weights of the models are publicly available online.

La reconnaissance de textes manuscrits a été largement étudiée au cours des dernières décennies pour ses nombreuses applications. Aujourd'hui, l'approche à l'état de l'art repose sur un processus en trois étapes. Le document est segmenté en lignes de texte, qui sont ensuite ordonnées et reconnues. Cependant, cette approche en trois étapes présente de nombreux inconvénients. Les trois étapes sont traitées indépendamment alors qu'elles sont étroitement liées. Les erreurs s'accumulent d'une étape à l'autre. L'étape d'ordonnancement est basée sur des règles heuristiques qui empêchent son utilisation pour des documents à la mise en page complexe ou pour des documents hétérogènes. L'étape de segmentation nécessite ses propres annotations supplémentaires. Dans cette thèse, nous proposons de résoudre ces problèmes en effectuant la reconnaissance du texte du document en une seule étape, de bout en bout. Pour ce faire, nous augmentons progressivement la difficulté de la tâche de reconnaissance, en passant de lignes isolées à des paragraphes, puis à des documents entiers. Nous avons proposé une approche au niveau ligne, basée sur un réseau entièrement convolutif, afin de concevoir un premier module générique d'extraction de caractéristiques pour la tâche de reconnaissance d'écritures manuscrites. Sur la base de ce travail préliminaire, nous avons étudié deux approches différentes pour reconnaître des paragraphes manuscrits. D'une part, nous avons conçu une approche non récurrente qui vise à aligner les prédictions du paragraphe entier dans un espace 2D afin de préserver la nature de l'image d'entrée. D'autre part, nous avons conçu une approche récurrente dans laquelle les lignes de texte sont traitées de manière itérative. Nous avons obtenu des résultats à l'état de l'art au niveau paragraphe sur les jeux de données RIMES 2011, IAM et READ 2016 et nous avons également dépassé l'état de l'art au niveau ligne sur ces jeux de données. Nous avons enfin proposé la première approche de bout en bout dédiée à la reconnaissance à la fois du texte et de la mise en page, au niveau document. Les caractères et les symboles représentant la mise en page sont prédits séquentiellement en suivant un ordre de lecture appris. Nous avons proposé deux nouvelles métriques que nous avons utilisées pour évaluer cette tâche sur les jeux de données RIMES 2009 et READ 2016, au niveau page et double page. Dans une optique de reproductibilité, de transparence et de partage scientifique auquel nous sommes attachés, tous les codes et poids des modèles sont publiquement disponibles en ligne.

Towards End-to-end Handwritten Document Recognition

Vers la reconnaissance de bout-en-bout de documents manuscrits

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Lien texte intégral

Citer

Exporter

Collections

Partager