1. Problema
Parsear una cadena de texto para obtener las partes integrales.
2. Solución
Por medio de expresiones regulares es posible establecer un mecanismo de tokenización de texto (Beazly, Jones, 2013).
3. Código Python 3
Se parte de una cadena de caracteres que representa una sentencia en Python:
texto = "resultado = 13 + 43 * 5"
Luego se pretente generar las partes integrales de esa sentencia identificando operandos, operadores, variables, etc. Al final se pretende tener algo como esto:
tokens = [('NOMBRE', 'resultado'), ('EQUAL', '='), ('OPERANDO', '13'), ('SUMA', '+'), ('NUMERO', '43'), ('PRODUCTO', '*'), ('NUMERO', '5')]
Archivo Python tokenizar-texto.py [enlace alternativo]:
Prueba de ejecución:
<_sre.SRE_Match object; span=(0, 8), match='variable'>
4. Literatura & Enlaces
Beazly D, Jones B. K. (2013). Python Cookbook, Third Edition. United States: O'Reilly Media.
O
No hay comentarios:
Publicar un comentario
Envíe sus comentarios, dudas, sugerencias, críticas. Gracias.