Cette page est traduite automatiquement.
Nous nous excusons pour toute erreur.

Quels sont les codages de caractères et comment ils diffèrent?

Écrit par Stefano | 14 Mars, 2011 8:00

ASCII, UTF-8, ISO-8859 ... Vous avez peut être déjà vu ces acronymes étranges autour, mais vraiment ce qu'ils veulent dire? Lire la suite et je vais vous expliquer ce que le codage des caractères et la manière dont ces symboles sont reliés au texte standard que nous voyons sur l'écran.

Les fondamentaux

Quand nous parlons de la langue écrite, parler des lettres, Puisque les parties des mots, qui a ensuite construire des phrases, paragraphes et ainsi de suite. Les lettres sont des symboles qui représentent des sons. Quand vous parlez de la langue, C 'est parler des groupes de sons qui se combinent pour former une sorte de sens. Chaque système de la langue a un ensemble complexe de règles et de définitions qui régissent ces significations. Un mot est inutile si vous ne connaissez pas la langue d'appartenance et de ne pas l'utiliser avec d'autres personnes qui parlent cette langue.

(Comparaison des script Granth, Tulu e Malayalam, imageWikipedia)

Dans le calcul, nous utilisons le terme “caractère”. Un personnage est un concept abstrait, définie par des paramètres spécifiques, mais est l'unité fondamentale de sens. La “un” L'Amérique latine n'est pas le même que le grec “alpha” ou en arabe “alif” parce qu'ils ont des contextes différents, proviennent de différentes langues et se prononcent de façon légèrement différente, on peut donc dire qu'ils sont des caractères différents. La représentation visuelle d'un personnage appelé “glyphe” et autre jeu de glyphes de police sont appelés. Les jeux de caractères appartenant à un “ensemble” l' “répertoire”.

Lorsque vous tapez un paragraphe et modifier la police, ne changent pas les valeurs phonétiques des lettres, vous changer leur apparence. C'est juste un changement cosmétique (mais non négligeable!). Certaines langues, que les anciens égyptiens et chinois, idéogrammes utilisation; Ce sont des idées plutôt que des sons, et leurs décisions peuvent varier dans le temps et le lieu. Si vous remplacez un caractère par un autre, vous remplacez une idée. Il est plus qu'un simple changement de lettres, elle change de caractère.

Codage des caractères

(Photo par Wikipedia)

Lorsque vous tapez quelque chose sur le clavier, ou charger un fichier, comment l'ordinateur sait ce qu'il faut afficher? C'est ce que l'encodage des caractères. Le texte sur l'ordinateur n'est pas vraiment composé de lettres, est une série de paires de valeurs alphanumériques. Le codage de caractères à interpréter ces actes comme des personnages clés correspondant à ces valeurs, dans une grande partie de la même manière que l'orthographe indique ce qui semble correspondre à ce qui lettres. l' Morse Code est une sorte de codage de caractères. Il montre comment des groupes d'unités longues et courtes (que les sons ou vif) être interprété pour former des caractères. Dans le code Morse, les personnages ne sont que des lettres et des chiffres anglais. Il existe de nombreux codages de caractères pour les ordinateurs qui se traduisent par des lettres, numéros, des accents, ponctuation, symboles internationaux, etc.

Il est souvent utilisé la notion de “page de code“. Ils sont essentiellement des codages de caractères utilisée par certaines entreprises, souvent avec des modifications mineures. par exemple, la page Windows-1252 code (anciennement connu sous ANSI 1252) est une forme modifiée de la norme ISO-8859-1. Ils sont principalement utilisés en tant que standard de référence interne à des codages de caractères spécifiques pour les mêmes systèmes. Il ya quelque temps ", l'encodage des caractères n'est pas si important car les ordinateurs ne communiquent pas les uns avec les autres. Avec une connexion à Internet et des ordinateurs dans l'augmentation, normes de codage sont de plus en plus important dans notre vie quotidienne sans nous rendre compte que même.

Beaucoup de différents types de codages

(Photo par Sosiak sarah)

Il existe de nombreux codages de caractères différents, et il ya beaucoup de bonnes raisons à cela. Quel personnage de codage à utiliser dépend de ce que vous avez besoin de nous. Si vous communiquez en russe, logique d'utiliser un codage de caractères qui prend en charge le bien cyrilliques. Si vous communiquez en coréen, J'ai besoin d'un bon représentant Hangul et Hanja. Si vous êtes un mathématicien, J'en veux un qui a tous les symboles mathématiques et scientifiques, ainsi que des glyphes grecs et latins. E, si vous voulez l'ensemble de ces documents peuvent être consultés par quiconque, veulent un code qui est assez commun et facilement accessible.

Examinons quelques-unes des plus courantes.

(Extrait de la table ASCII, image à partir de asciitable.com)

  • ASCII - L'American Standard Code for Information Interchange est l'un des codages de caractères plus. Il a été conçu sur la base du code télégraphique et a évolué au fil du temps pour inclure plus de symboles, et certains caractères non-imprimables sont désormais obsolètes. Il est sans doute le codage de base que vous pouvez avoir dans modernes, parce qu'elle a une limite à l'alphabet latin sans accents. Le codage 7 bit ne peut 128 caractères, pourquoi il existe plusieurs versions non officielles en usage dans le monde entier.
  • ISO-8859 -Le groupe le plus largement utilisé des codages de caractères de l'Organisation internationale de normalisation est le nombre 8859. Chaque codage spécifique est indiquée par un, souvent précédée par un acronyme descriptif, Par exemple, ISO-8859-3 (Latin-3), ISO 8859-6 (Latine / arabe). Il est un super-AX, ce qui signifie que le premier 128 valeurs de codage sont les mêmes AX. Toutefois, il s'agit d'un code 8 peu, et permet donc 256 personnages et comprend un éventail beaucoup plus large de caractères, chacun avec un codage spécial sur un ensemble de critères différents. Le Latin-1 comprend de nombreuses lettres accentuées et les symboles, mais a été récemment remplacé par un ensemble connu sous le nom latin-9 révisé, qui inclut le symbole Euro glyphes mis à jour.

(Récupérée tibétaine alphabet, Unicode v4, des unicode.org)

  • Unicode Cette norme de codage vise à l'universalité. Il comprend maintenant 93 organisé en blocs de script différents, avec beaucoup d'autres dans les œuvres. Les fonctions Unicode différemment des autres jeux de caractères que, plutôt que de coder directement un glyphe, chaque valeur est une conséquence directe “point de code”. Ce sont les valeurs hexadécimales correspondant aux caractères, mais les glyphes se sont assurés indépendamment des programmes, tels que les navigateurs web. Ces points de code sont communément décrite comme suit: U 0040 (qui se traduit par “@”). En vertu de la norme de codage spécifique Unicode UTF-8 et UTF-16. L'UTF-8 essaie de maintenir une compatibilité maximale avec l'ASCII. Il est 8 bit, mais permet à tous les personnages à travers un mécanisme de paires de change et la valeur pour carattere.L multiples’ UTF-16 renonciation à la parfaite compatibilité avec l'ASCII pour une compatibilité plus complète avec la normepeu bit.
  • ISO-10646 ce n'est pas un véritable code, un seul jeu de caractères Unicode qui a été normalisé par l'ISO. Il est particulièrement important parce que c'est le répertoire de caractères utilisé par le langage HTML. Manque de quelques-unes des fonctionnalités les plus avancées qui permettent la comparaison prévue dall'Unicode et l'écriture de droite à gauche ainsi que de gauche à droite. Quoi qu'il en soit cela fonctionne très bien pour une utilisation sur l'Internet car il permet l'utilisation d'une grande variété de script et permet au navigateur d'interpréter les glyphes. Cela en fait un peu’ une localisation plus facile.

Que dois-je utiliser le codage?

ASCII fonctionne pour les anglophones, mais pas pour grand chose d'autre. Le plus souvent utiliser la norme ISO-8859-1, il fonctionne avec la plupart des langues d'Europe occidentale. D'autres versions de la norme ISO-8859 de travailler avec cyrilliques, Arabe, du grec ou d'autres langues spécifiques. Cependant,, si vous souhaitez afficher plusieurs langues dans le même document ou sur la même page, UTF-8 permet une meilleure compatibilité. Il fonctionne également très bien pour les personnes qui utilisent la ponctuation correcte, symboles mathématiques ou des caractères spéciaux, Par exemple ☐ ☒ ☑.

(langues multiples en un seul document, Screenshot digujaratsamachar.com)

Mais il ya des inconvénients à l'utilisation de chaque ensemble. ASCII est limité dans sa ponctuation, il ne fonctionne pas très bien pour le texte typographiquement correct. Souvent, vous copier / coller à partir de Word juste pour avoir une étrange combinaison de glyphes? Ceci a l'inconvénient de la norme ISO-8859, ou plus exactement, son interopérabilité présumés avec la page de code du système d'exploitation spécifiques (Je parle de vous Microsoft!). Le principal inconvénient dell'UTF-8 est le manque de soutien adéquat dans les applications d'édition et de publication à partir de. Un autre problème est que les navigateurs ne sont souvent pas correctement interpréter et d'afficher l'ordre des octets d'un caractère UTF-8. Cela se traduit par l'affichage de côté les glyphes. Et bien sûr,, Etat d'utiliser un codage des caractères et l'utilisation d'un autre sans avoir à déclarer / correctement référencé sur une page web, il est très difficile pour le navigateur affiche les pages correctement pour les moteurs de recherche de l'indice les correctement.

Pour vos documents, manuscrits, etc, vous pouvez utiliser tout ce qu'il faut pour faire le travail correctement. Comme pour le web, mais, il semble que la plupart des gens sont d'accord sur l'utilisation d'une version de l'UTF-8, qui ne fait pas usage de byte order mark (l'ordre des octets marque), mais il n'est pas accepté à l'unanimité. Comme vous pouvez le voir, chaque code de caractère a son propre usage, contexte, forces et les faiblesses.

Laisser un commentaire