Agregar ejemplos y ejercicios sobre expresiones regulares, metacaracteres, cuantificadores y conjuntos en Python

midudev · midudev · commit 0310da6200bb · 2025-02-19T19:49:24.000+01:00
diff --git a/05_regex/01_re.py b/05_regex/01_re.py
@@ -0,0 +1,106 @@
+##
+# 01 - Expresiones regulares
+# 
+
+""" Las expresiones regulares son una secuencia de caracteres que forman un patrón de búsqueda.
+    Se utilizan para la búsqueda de cadenas de texto, validación de datos, etc. """
+
+
+""" ¿Por qué aprender Regex?
+
+- Búsqueda avanzada: Encontrar patrones específicos en textos grandes de forma rápida y precisa. (un editor de Markdown sólo usando Regex)
+
+- Validación de datos: Asegurarte que los datos que ingresa un usuario como el email, teléfono, etc. son correctos.
+
+- Manipulación del texto: Extraer, reemplazar y modificar partes de la cadena de texto fácilmente
+"""
+
+# 1. Importar el módulo de expresiones regulares "re"
+import re
+# 2. Crear un patrón, que es una cadena de texto que describe lo que queremos encontrar
+pattern = "Hola"
+# 3. El texto donde queremos buscar
+text = "Hola mundo"
+# 4. Usar la función de búsqueda de "re"
+result = re.search(pattern, text)
+
+if result:
+  print("He encontrado el patrón en el texto")
+else:
+  print("No he encontrado el patrón en el texto")
+
+# .group() devuelve la cadena que coincide con el pattern
+print(result.group())
+
+# .start() devolver la posición inicial de la coincidencia
+print(result.start())
+
+# .end() devolver la posición final de la coincidencia
+print(result.end())
+
+# EJERCICIO 01
+# Encuentra la primera ocurrencia de la palabra "IA" en el siguiente texto
+# e indica en que posición empieza y termina la coincidencia.
+text = "Todo el mundo dice que la IA nos va a quitar el trabajo. Pero solo hace falta ver cómo la puede cagar con las Regex para ir con cuidado"
+pattern = "IA"
+found_ia = re.search(pattern, text)
+
+if found_ia:
+  print(f"He encontrado el patrón en el texto en la posición {found_ia.start()} y termina en la posición {found_ia.end()}")
+else:
+  print("No he encontrado el patrón en el texto")
+
+# -----------------------
+
+### Encontrar todas las coincidencias de un patrón
+# .findall() devuelve una lista con todas las coincidencias
+
+text = "Me gusta Python. Python es lo máximo. Aunque Python no es tan difícil, ojo con Python"
+pattern = "Python"
+
+matches = re.findall(pattern, text)
+
+print(len(matches))
+
+# -------------------------
+
+# iter() devuelve un iterador que contiene todos los resultados de la búsqueda
+
+text = "Me gusta Python. Python es lo máximo. Aunque Python no es tan difícil, ojo con Python"
+pattern = "Python"
+
+matches = re.finditer(pattern, text)
+
+for match in matches:
+  print(match.group(), match.start(), match.end())
+
+# EJERCICIO 02
+# Encuentra todas las ocurrencias de la palabra "midu" en el siguiente texto e indica en que posición empieza y termina cada coincidencia y cuantas veces se encontró.
+text = "Este es el curso de Python de midudev. ¡Suscríbete a midudev si te gusta este contenido! midu"
+
+### Modificadores
+
+# Los modificadores son opciones que se pueden agregar a un patrón para cambiar su comportamiento
+
+# re.IGNORECASE: Ignora las mayúsculas y minúsculas
+
+text = "Todo el mundo dice que la IA nos va a quitar el trabajo. Pero la ia no es tan mala. ¡Viva la Ia!"
+pattern = "IA"
+found = re.findall(pattern, text, re.IGNORECASE)
+
+if found: print(found)
+
+# EJERCICIO 03
+# Encuentra todas las ocurrencias de la palabra "python" en el siguiente texto, sin distinguir entre mayúsculas y minúsculas.
+text = "Este es el curso de Python de midudev. ¡Suscríbete a python si te gusta este contenido! PYTHON"
+
+### Reemplazar el texto
+
+# .sub() reemplaza todas las coincidencias de un patrón en un texto
+
+text = "Hola, mundo! Hola de nuevo. Hola otra vez."
+pattern = "hola"
+replacement = "Adiós"
+
+new_text = re.sub(pattern, replacement, text, flags=re.IGNORECASE)
+print(new_text)
diff --git a/05_regex/02_metachars.py b/05_regex/02_metachars.py
@@ -0,0 +1,127 @@
+###
+# 02 - Meta caracteres
+# Los metacaracteres son simbolos especiales con significados especificos en las expresiones regulares
+###
+
+import re
+
+# 1. El punto (.)
+# Coincidir con cualquier caracter excepto una nueva linea
+
+text = "Hola mundo, H0la de nuevo, H$la otra vez"
+pattern = "H.la" # Hola, H0la, H$la
+
+found = re.findall(pattern, text)
+
+if (found):
+  print(found)
+else:
+  print("No se ha encontrado el patrón")
+
+
+text = "casa caasa cosa cisa cesa causa"
+pattern = "c.sa"
+
+matches = re.findall(pattern, text)
+print(matches)
+
+# --------------------
+
+text = "Hola mundo, H0la de nuevo, H$la otra vez"
+pattern = r"H.la" # Hola, H0la, H$la
+
+found = re.findall(pattern, text)
+
+if (found):
+  print(found)
+else:
+  print("No se ha encontrado el patrón")
+
+
+# Cómo usar la barra invertida para anular el significado especial de un símbolo
+text = "Mi casa es blanca. Y el coche es negro."
+pattern = r"\."
+
+matches = re.findall(pattern, text)
+
+print(matches)
+
+# \d: coincide con cualquier dígito (0-9)
+
+text = "El número de teléfono es 123456789"
+found = re.findall(r'\d{9}', text)
+
+print(found)
+
+# Ejercicio: Detectar si hay un número de España en el texto gracias al prefijo +34
+
+text = "Mi número de teléfono es +34 688999999 apúntalo vale?"
+pattern = r"\+34 \d{9}"
+found = re.search(pattern, text)
+if found: print(f"Encontré el número de teléfono {found.group()}")
+
+# \w: Coincide con cualquier caracter alfanumerico (a-z, A-Z, 0-9, _)
+
+text = "el_rubius_69"
+pattern = r"\w"
+found = re.findall(pattern, text)
+print(found)
+
+# \s: Coincide con cualqueir espacio en blanco (espacio, tabulación, salto de línea)
+text = "Hola mundo\n¿Cómo estás?\t"
+pattern = r"\s"
+matches = re.findall(pattern, text)
+print(matches)
+
+# ^: Coincide con el principio de una cadena
+username = "423_name%22" 
+pattern = r"^\w" # validar nombre de usuario
+
+valid = re.search(pattern, username)
+
+if valid: print("El nombre de usuario es válido")
+else: print("El nombre de usuario no es válido")
+
+phone = "+34 688999999"
+pattern = r"^\+\d{1,3} "
+
+valid = re.search(pattern, phone)
+
+if valid: print("El número de teléfono es válido")
+else: print("El número de teléfono no es válido")
+
+# $: Coincide con el final de una cadena
+text = "Hola mundo."
+pattern = r"mundo$"
+
+valid = re.search(pattern, text)
+
+if valid: print("La cadena es válida")
+else: print("La cadena no es válida")
+
+# EJERCICIO
+# Valida que un correo sea de gmail
+text = "miduga@hotmail.com"
+pattern = r"@gmail.com$"
+valid = re.search(pattern, text)
+
+if valid: print("El correo es gmail válido")
+else: print("El correo no es válido")
+
+# EJERCICIO:
+# Tenemos una lista de archivos, necesitamos saber los nombres de los ficheros con extension .txt
+files = "file1.txt file2.pdf midu-of.webp secret.txt"
+
+# \b: Coincide con el principio o final de una palabra
+text = "casa casada cosa cosas casado casa"
+pattern = r"\bc.sa\b"
+
+found = re.findall(pattern, text)
+print(found)
+
+# |: Coincidr con una opción u otra
+fruits = "platano, piña, manzana, aguacate, palta, pera, aguacate, aguacate"
+pattern = r"palta|aguacate|p..a|\b\w{7}\b"
+
+matches = re.findall(pattern, fruits)
+print(matches)
diff --git a/05_regex/03_quantifiers.py b/05_regex/03_quantifiers.py
@@ -0,0 +1,57 @@
+###
+# 03 - Quantifiers
+# Los cuantificadores se utilizan para especificar cuántas ocurrencias de un carácter o grupo de caracteres se deben encontrar en una cadena.
+###
+
+import re
+
+# *: Puede aparecer 0 o más veces
+text = "aaaba"
+pattern = "a*"
+matches = re.findall(pattern, text)
+print(matches)
+
+# Ejercicio 1:
+# ¿Cuantas palabras tienen de 0 a más "a" y después una b?
+
+# +: Una a más veces
+text = "dddd aaa ccc a bb aa casa"
+pattern = "a+"
+matches = re.findall(pattern, text)
+print(matches)
+
+# ?: Cero o una vez
+text = "aaabacb"
+pattern = "a?b"
+matches = re.findall(pattern, text)
+print(matches)
+
+# Ejercicio: Haz opcional que aparezca un +34 en el siguiente texto
+phone = "+34 688999999"
+
+# {n}: Exactamente n veces
+text = "aaaaaa         aa   aaaa"
+pattern = "a{3}"
+matches = re.findall(pattern, text)
+
+print(matches)
+
+# {n, m}: De n a m veces
+text = "u uu uuu u"
+pattern = r"\w{2,3}"
+matches = re.findall(pattern, text)
+print(matches)
+
+# Ejercicio:
+# Encuentra las palabras de 4 a 6 letras en el siguiente texto
+words = "ala casa árbol león cinco murcielago"
+pattern = r"\b\w{4,6}\b"
+matches = re.findall(pattern, words)
+print(matches)
+
+# Ejercicio
+# Encuentra las palabras de más de 6 letras
+words = "ala fantastico casa árbol león cinco murcielago"
+pattern = r"\b\w{6,}\b"
+matches = re.findall(pattern, words)
+print(matches)
diff --git a/05_regex/04_sets.py b/05_regex/04_sets.py
@@ -0,0 +1,53 @@
+import re
+
+# [:] Coincide con cualquier caracter dentro de los corchetes
+
+username = "rub.$ius_69+"
+pattern = r"^[\w._%+-]+$"
+
+match = re.search(pattern, username)
+if match:
+  print("El nombre de usuario es válido: ", match.group())
+else:
+  print("El nombre de usuario no es válido")
+
+
+# Buscar todas las vocales de una palabra
+text = "Hola mundo"
+pattern = r"[aeiou]"
+matches = re.findall(pattern, text)
+print(matches)
+
+# Una Regex para encontrar las palabras man, fan y ban
+# pero ignora el resto
+text = "man ran fan ñan ban"
+pattern = r"[mfb]an"
+
+matches = re.findall(pattern, text)
+print(matches)
+
+# Ejercicio:
+# Nos han complicado el asunto, porque ahora hay palabras que encajan pero no empiezan por esas letras.
+# Solo queremos las palabras man, fan y ban
+text = "omniman fanatico man bandana"
+# \b 
+
+text = "22"
+pattern = r"[4-9]"
+
+matches = re.findall(pattern, text)
+print(matches)
+
+
+# Ejercicio final con todo lo aprendido
+# Mejorar esto: https://www.computerhope.com/jargon/r/regular-expression.png
+
+## Buscar corner cases que no pasa y arreglarlo:
+"lo.que+sea@shopping.online"
+"michael@gov.co.uk"
+
+# [^]: Coincide con cualquier caracter que no esté dentro de los corchetes
+text = "Hola mundo"
+pattern = r"[^aeiou]"
+matches = re.findall(pattern, text)
+print(matches)