Esta página se traduce automáticamente.
Pedimos disculpas por cualquier error.

¿Cuáles son las codificaciones de caracteres y cómo se diferencian?

Escrito por Stefano | 14 De marzo, 2011 8:00

ASCII, UTF-8, ISO-8859 ... Es posible que ya han visto estas siglas extrañas alrededor, pero en realidad lo que quieren decir? Sigue leyendo y te lo explicaré lo que la codificación de caracteres y cómo estos símbolos están conectados con el texto estándar que vemos en la pantalla.

La fundamentales

Cuando hablamos de la lengua escrita, Discusión sobre las letras, Dado que las partes de las palabras, que a su vez construir oraciones, párrafos y así sucesivamente. Las letras son símbolos que representan sonidos. Cuando se habla sobre el lenguaje, Hablando de grupos de sonidos que se combinan para formar una especie de sentido. Cada sistema de la lengua tiene un complejo conjunto de reglas y definiciones que rigen los significados. Una palabra no sirve para nada si no conocen el idioma de pertenencia y no usarlo con otras personas que hablan ese idioma.

(La comparación de secuencia de comandos de Granth, Tulu e Malayalam, imagenWikipedia)

En informática, usamos el término “carácter”. Un personaje es un concepto abstracto, definido por parámetros específicos, pero es la unidad básica de significado. La “Un” América Latina no es el mismo que el griego “alfa” o árabe “alif” porque tienen diferentes contextos, proceden de diferentes idiomas y se pronuncian de manera ligeramente diferente, por lo que podemos decir que son personajes diferentes. La representación visual de un personaje llamado “glifo” y diverso sistema de glifos de la fuente se llaman. Los conjuntos de caracteres peLatenecen a un “conjunto” o “repertorio”.

Al escribir un párrafo y cambiar la fuente, no cambia los valores fonéticos de las letras, de cambiar su aspecto. Es sólo un cambio cosmético (pero no insignificante!). Algunos idiomas, como los antiguos egipcios y los chinos, ideogramas uso; Estas son las ideas en vez de sonidos, y sus decisiones pueden variar con el tiempo y el lugar. Si reemplaza un personaje con otro, va a sustituir una idea. Es algo más que cambiar las letras, está cambiando un carácter.

Codificación de caracteres

(Imagen por Wikipedia)

Cuando usted escriba algo en el teclado, o cargar un archivo, ¿cómo el equipo sabe lo que desea mostrar? Eso es lo que la codificación de caracteres. El texto en el equipo realmente no se componen de letras, es una serie de pares de valores alfanuméricos. La codificación de caracteres para interpretar tales actos como personajes clave correspondiente a estos valores, en gran parte la misma manera que la ortografía indica que los sonidos que corresponden a las letras. La Código Morse es una especie de codificación de caracteres. Se muestra cómo los grupos de unidades de larga y corta (como sonidos o brillante) debe interpretarse en forma de caracteres. En el código Morse, los personajes son sólo letras y números de Inglés. Hay muchas codificaciones de caracteres para los ordenadores que traducen las letras, números, acentos, puntuacion, símbolos internacionales, etc.

A menudo se utiliza el concepto de “código de la página“. Son esencialmente las codificaciones de caracteres utilizados por determinadas sociedades mercantiles, a menudo con cambios menores. por ejemplo,, la página de códigos de Windows-1252 (anteriormente conocido como ANSI 1252) es una forma modificada de la norma ISO-8859-1. En su mayoría son utilizados como una referencia estándar interno a la codificación de las características específicas de los mismos sistemas. Hace algún tiempo ', la codificación de caracteres no era tan importante porque los equipos no se comunican entre sí. Con conexión a internet y computadoras en el aumento de, normas de codificación son cada vez más importante en nuestra vida cotidiana sin que nos demos cuenta de que.

Hay muchos tipos de codificaciones

(Imagen por sosiak sarah)

Hay muchos diferentes codificaciones de caracteres, y hay muchas buenas razones para ello. ¿Qué codificación de caracteres a utilizar depende de lo que nos necesitan. Si usted se comunica en ruso, sentido utilizar una codificación de caracteres que admite el pozo cirílico. Si usted se comunica en coreano, Necesito una buena representación de Hangul y Hanja. Si eres un matemático, Yo quiero uno que tiene todos los símbolos matemáticos y científicos, así como glifos griegos y latinos. E, si desea que todos estos documentos pueden ser vistos por cualquier persona, quieres un código que es bastante común y de fácil acceso.

Echemos un vistazo a algunos de los más comunes.

(Extracto de la tabla ASCII, basada en asciitable.com)

  • ASCII - El Código Estándar Americano para Intercambio de Información es una de las codificaciones de caracteres mayores. Originalmente se diseñó sobre la base del código telegráfico y ha evolucionado con el tiempo para incluir más símbolos, y algunos caracteres de control de no impresión se han quedado obsoletas. Es probablemente la base de codificación que puede tener en la actual, porque tiene una limitada al alfabeto latino sin acentos. La codificación 7 poco sólo se puede 128 personajes, por qué hay varias versiones no oficiales en uso en todo el mundo.
  • ISO-8859 -El grupo más utilizado codificaciones de caracteres de la Organización Internacional de Normalización es el número 8859. Cada una codificación específica es identificado por un, a menudo precedida por un acrónimo descriptivo, Por ejemplo, ISO-8859-3 (América-3), ISO 8859-6 (Latina y el árabe). Es un superconjunto AX, lo que significa que la primera 128 valores de codificación son las mismas AX. Sin embargo, es un código 8 poco, y por lo tanto permite 256 caracteres e incluye una gama mucho más amplia de personajes, cada uno con codificación especializados en un conjunto diferente de criterios. El Latin-1 incluye muchas letras acentuadas y símbolos, pero fue reemplazado recientemente con un conjunto conocido como Latin-9 revisada, que incluye el símbolo del euro glifos en su versión actualizada.

(Obtenido tibetano alfabeto, Unicode v4, de unicode.org)

  • Unicode Este estándar de codificación tiene por objeto a la universalidad. Se comprende ahora 93 organizado en bloques de secuencias de comandos diferentes, con muchos otros en las obras. Las funciones Unicode de manera diferente que los otros juegos de caracteres como, en lugar de hacerlo directamente codificar un glifo, cada valor es un directo “código de punto”. Estos son los valores hexadecimales que coinciden con los personajes, pero los glifos mismos se proporcionan de forma independiente de los programas, tales como los navegadores web. Estos puntos de código suelen describirse como sigue: U 0040 (que se traduce en “@”). Bajo el estándar de codificación específica Unicode UTF-8 y UTF-16. La UTF-8 trata de mantener la máxima compatibilidad con el ASCII. Es 8 bit, pero permite que todos los personajes a través de un mecanismo de intercambio de parejas y el valor de múltiples carattere.L’ UTF-16 la renuncia a la perfecta compatibilidad con ASCII para una compatibilidad más completa a la norma 16pocot.
  • ISO-10646 esto no es una verdadera codificación, es sólo un conjunto de caracteres Unicode que ha sido estandarizado por la norma ISO. Es especialmente importante porque es el repertorio de caracteres utilizados por HTML. Carece de algunas de las características más avanzadas que permiten la comparación prevista dall'Unicode y la escritura de derecha a izquierda como de izquierda a derecha. De todos modos funciona muy bien para su uso en Internet, ya que permite el uso de una amplia variedad de secuencias de comandos y permite que el navegador de interpretar los glifos. Esto hace que sea un poco’ más fácil la localización.

¿Qué debo usar la codificación?

ASCII trabaja para anglófonos, pero no para mucho más. Más a menudo que no utilice la norma ISO-8859-1, funciona con la mayoría de idiomas europeos occidentales. Otras versiones de la norma ISO-8859 trabaja con caracteres cirílicos, Árabe, el griego u otras lenguas específicas. Sin embargo, si desea mostrar varios idiomas en el mismo documento o en la misma página, UTF-8 permite una mejor compatibilidad. También funciona muy bien para la gente que utiliza la puntuacion correcta, símbolos matemáticos o caracteres especiales, Por ejemplo ☐ ☑ ☒.

(Múltiples idiomas en un solo documento, Captura de pantalla digujaratsamachar.com)

Pero también hay desventajas en el uso de cada sistema. ASCII es limitado en su puntuacion, no funciona muy bien para el texto tipográficamente correctos. Frecuencia con la que copiar / pegar desde Word sólo para tener alguna extraña combinación de glifos? Esto tiene la desventaja de la norma ISO-8859, o más correctamente, su presunta relación con la interoperabilidad de la página de códigos específicos del sistema operativo (Estoy hablando de que Microsoft!). La principal desventaja dell'UTF-8 es la falta de apoyo adecuado en las aplicaciones de edición y publicación de. Otro problema es que los navegadores no suelen interpretar correctamente y mostrar el orden de bytes de un carácter codificado con UTF-8. Esto se traduce en la pantalla de lado glifos. Y, por supuesto, Estado de utilizar una codificación de caracteres y el uso de otro sin declarar / hace referencia correctamente en una página web, hace que sea muy difícil para el navegador muestra las páginas correctamente para el índice de los motores de búsqueda de manera adecuada.

Para sus documentos, manuscritos, etc, puede usar lo que sea necesario para hacer el trabajo correcto. En cuanto a la web, pero, parece que la mayoría de personas están de acuerdo sobre el uso de una versión de UTF-8, que no hace uso de marca de orden de bytes (de orden de bytes marca), pero no se aceptó por unanimidad. Como se puede ver, cada código de personaje tiene su propio uso, contexto, fortalezas y debilidades.

Deja una respuesta