No se si te ha sucedido a ti, pero a mi si me ha sucedido…
📚 Concepto de “Dataset”
Un dataset (en español, conjunto de datos) es una colección estructurada de datos que se organiza generalmente en forma de tabla, donde:
- Cada fila representa una observación o registro individual.
- Cada columna representa una variable o atributo especÃfico.
😎 Les cuento mi situación
Me encuentro estudiando diferentes técnicas y herramientas para el procesado y análisis de los datos, y para esto, muchas veces necesito contar para mis ejercicios o pruebas prácticas, con conjuntos de datos considerables, que en lo posible posean ciertas caracterÃsticas en la información almacenada.
Si bien en la Internet, hay muchos repositorios de libre acceso donde descargar datasets, se pierde mucho tiempo buscando, y no siempre se encuentra lo que realmente se buscaba.
🎇 Idea
Entonces, fue que se me ocurrió recurrir a GPT-4o y a GPT-o4-mini a efecto de utilizar como punto de partida un prompt, solicitar se generase un dataset con datos de la clase que yo necesitaba, de forma rápida.
Para mi sorpresa, el resultado ha sido maravilloso. Funciona muy bien.

😉 Conclusión
Aplicando ingenierÃa de prompt / prompt engineering es posible controlar los tipos de datos, la aleatoriedad de los mismos, la recurrencia de valores, y todos los parámetros que se les puedan ocurrir.
Claramente, no son datasets con datos de “la realidad”, pero para interactuar en laboratorios con herramientas durante el aprendizaje o en una etapa de prototipado de un proyecto, sirven y mucho.
¿Ya lo habÃan utilizado?