jueves, 26 de abril de 2018

Receta Python 3 No. 2-18: Tokenizar Texto

1. Problema

Parsear una cadena de texto para obtener las partes integrales.

2. Solución

Por medio de expresiones regulares es posible establecer un mecanismo de tokenización  de texto (Beazly, Jones, 2013).

3. Código Python 3

Se parte de una cadena de caracteres que representa una sentencia en Python:

texto = "resultado = 13 + 43 * 5"


Luego se pretente generar las partes integrales de esa sentencia identificando operandos, operadores, variables, etc. Al final se pretende tener algo como esto:

tokens = [('NOMBRE', 'resultado'), ('EQUAL', '='), ('OPERANDO', '13'), ('SUMA', '+'), ('NUMERO', '43'), ('PRODUCTO', '*'), ('NUMERO', '5')]

Archivo Python tokenizar-texto.py [enlace alternativo]:

Prueba de ejecución:

<_sre.SRE_Match object; span=(0, 8), match='variable'>

4. Literatura & Enlaces

Beazly D, Jones B. K. (2013). Python Cookbook, Third Edition. United States: O'Reilly Media.

O

No hay comentarios:

Publicar un comentario

Envíe sus comentarios, dudas, sugerencias, críticas. Gracias.