Blogounage

Aller au contenu | Aller au menu | Aller à la recherche

Mot clé - encoding

Fil des billets - Fil des commentaires

jeudi 19 novembre 2009

Encoding par défaut avec XML : UTF-8

Nous gérons en ce moment un petit problème d'intégration avec des WebServices d'une entreprise qui ne s'attend qu'à du iso-8859-1. XML a pourtant été conçu pour gérer plus simplement les problèmes de jeux de caractères et d'encodage utilisé, mais ce qui a été fait ne respecte tout simplement pas la spécification.

En effet, notre code envoie une requête SOAP dans un tube HTTP annonçant de l'UTF-8. Comme ça ne marchait pas, nous avons carrément ajouté l'attribut encoding au prologue XML et retesté avec Soapui, mais ça n'a rien donné.

Alors, comme il faut que quelqu'un corrige son code, j'ai vérifié la spécification[1], voici ce qui est indiqué :

Bref, attendre de l'iso-8859-1 lorsque rien n'est indiqué est au minimum une bizarrerie, et au pire une erreur par rapport à ce que dit la spécification.

Notes

[1] Non-Normative

jeudi 10 septembre 2009

Encodages/jeux de caractères : Vincent et Hadrien, un grand merci !

Non, ce billet n'est pas une nouvelle tentative d'explication de ce que sont encodages et jeux de caractères. Je garde toujours dans un coin de ma tête de chercher un jour à écrire moi aussi un billet sur le sujet. Qu'est-ce j'aimerais pouvoir faire comprendre ce sujet à la fois simple et complexe à tous en quelques mots...

Non, ce billet est là pour remercier Vincent et Hadrien pour leurs pages récapitulant les jeux de caractères les plus courants en France. Je viens de m'en servir à l'instant pour expliquer une nouvelle fois le sujet.

Un autre site bien pratique, qui permet notamment d'avoir la valeur hexadécimale du stockage d'un point de code Unicode en UTF-8 : FileFormat.Info. Par exemple, le î (''LATIN SMALL LETTER I WITH CIRCUMFLEX'').

Et encore un rappel d'articles en français que je vous conseille sur le sujet :