JM2L 2020

Salle: Flavientris

Conference:

25 nov. 2017 - 11:30 à 12:30

uchardet: détection de codage et de langage

uchardet est une bibliothèque initialement créée par Mozilla pour la détection de codage de caractère dans Firefox, et abandonné depuis. Le code fut repris par d'autres mais très peu amélioré au fil des ans. J'en ai donc repris la charge et en suis maintenant le mainteneur officiel. Après diverses corrections, améliorations, et surtout des scripts de génération automatique de modèles de langage à partir de Wikipédia, cette librairie prend en charge désormais énormément plus de couple langage/codage et est bien plus fiable que son implémentation originelle, et commence à être utilisé (mpv pour les sous-titres, NextCloud sur téléphone, gedit en cours…).

Cette reprise de projet est né de mon exaspération face à la détection quasi inexistante des bons codages de sous-titres. Je présenterai donc uchardet, son usage très simple et les projets à venir, dont la détection de langage (dont les bases sont déjà là).

Association

LILA

Intervenant Jehan Pagès.

Ce profil n'a pas été complété.

Créé le 30 sept. 2017

uchardet: détection de codage et de langage

Association

LILA