miércoles, 18 de abril de 2018

Receta Python 3 No. 2-10: Usar Caracteres Unicode en Expresiones Regulares

1. Problema

Usar caracteres Unicode en expresiones regulares para el procesamiento de texto.

2. Solución

El módulo re permite la especificación de caracteres Unicode para la búsqueda de coincidencias en texto. Para caracteres ASCII se puede utilizar el token \d+. Pero en el caso de dígitos arábigos es posible especificar códigos Unicode; por ejemplo:

\u0661
\u0662
\u0663

3. Código Python 3


Prueba de ejecución:

<_sre.SRE_Match object; span=(0, 3), match='987'>
<_sre.SRE_Match object; span=(0, 3), match='١٢٣'>


Ambos resultados muestran la detección del contenido de las cadenas en ASCII y con códigos Unicode.

4. Literatura & Enlaces

Beazly D, Jones B. K. (2013). Python Cookbook, Third Edition. United States: O'Reilly Media.

O

No hay comentarios:

Publicar un comentario

Envíe sus comentarios, dudas, sugerencias, críticas. Gracias.