martes, 17 de abril de 2018

Receta Python 3 No. 2-9: Normalizar Texto Unicode a una Representación Estándar

1. Problema

Asegurar que cadenas de caracteres Unicode tengan la misma representación subyacente para operaciones comunes (e.g., comparación).

2. Solución

Los caracteres de un texto se pueden representar con códigos del estándar Unicode. Por ejemplo, la letra ñ, como en la palabra niño, se puede representar de estas dos formas:

\u00f1
\u0303


La primera forma (U+00F1) se refiere a la letra ñ compuesta; mientras que la segunda (U+F0303) es el símbolo de crema ~ antecedido por la letra n.


Sin embargo, esto significa un problema pues al comparar dos cadenas con esos dos caracteres el resultado de la evaluación es False.

3. Código Python 3


Prueba de ejecución:

False
True

4. Literatura & Enlaces

Beazly D, Jones B. K. (2013). Python Cookbook, Third Edition. United States: O'Reilly Media.

O

No hay comentarios:

Publicar un comentario

Envíe sus comentarios, dudas, sugerencias, críticas. Gracias.