Tipos de Datos
Los datos se dividen en dos categorías: estructurados (los tradicionales) y no estructurados (Big Data). Las herramientas modernas para manejar Big Data han dado lugar a nuevas subcategorías.
Datos Estructurados
La mayoría de las fuentes de datos tradicionales consisten en datos estructurados, es decir, datos que siguen un formato o esquema predefinido con campos determinados. En estas fuentes, los datos están organizados en un formato claro y detallado que establece las bases para las bases de datos relacionales. Los datos estructurados se encuentran, principalmente, en bases de datos relacionales, hojas de cálculo y archivos. Estos datos están formados por piezas de información que ya se conocen de antemano, siguen un formato específico y se disponen en un orden particular. Estos formatos hacen más sencillo el trabajo con dichos datos. Algunos ejemplos comunes son la fecha de nacimiento (día, mes, año), el número de documento de identidad o pasaporte (como 8 dígitos y una letra), o el número de cuenta bancaria (20 dígitos), entre otros.
Concepto corto:
Datos con formato o esquema fijo que poseen campos fijos. Son los datos de las bases de datos relacionales, las hojas de cálculo y los archivos, fundamentalmente.
Datos Semi-estructurados
Los datos semiestructurados siguen un flujo lógico y pueden tener un formato definido, aunque no siempre es fácil de entender para el usuario. A diferencia de los datos con esquemas fijos, los datos semiestructurados no siguen un formato rígido, pero incluyen etiquetas y otros marcadores que permiten identificar y separar sus distintos elementos. Para interpretar este tipo de datos, es necesario aplicar reglas más complejas que indiquen cómo procesar cada pieza de información. Un ejemplo común de datos semiestructurados son los registros de *web logs* de conexiones a Internet. Un *web log* está compuesto por varias piezas de información, cada una con un propósito específico. Entre los ejemplos más conocidos están las etiquetas de los lenguajes XML y HTML.
Concepto corto:
Datos que no siguen un formato fijo, pero incluyen etiquetas y marcadores que separan sus elementos. Ejemplos típicos son las etiquetas en XML y HTML.
Datos No Estructurados
Los datos no estructurados son aquellos que no tienen un tipo o formato predefinido. Se almacenan como “documentos” u “objetos” que no siguen una estructura uniforme, lo que implica un control limitado o inexistente sobre su organización. Ejemplos de estos datos incluyen texto, video, audio y fotografías. Por ejemplo, las imágenes se categorizan según su resolución en píxeles. A diferencia de los datos estructurados, los datos no estructurados no contienen campos fijos. Entre los ejemplos comunes están el audio, video, fotografías, documentos impresos, cartas, hojas de cálculo, imágenes digitales, formularios especializados, correos electrónicos, mensajes de texto y otros formatos de texto libre, como mensajes instantáneos de aplicaciones como WhatsApp, Line, Joyn, Viber, WeChat o Spotbros.
Se estima que alrededor del 80% de la información dentro de las organizaciones no está en bases de datos relacionales o archivos estructurados, sino que está dispersa por toda la organización en forma de datos no estructurados. Estos datos son particularmente difíciles de manejar para los analistas, pero su crecimiento constante ha impulsado la creación de herramientas diseñadas para su procesamiento, como MapReduce, Hadoop y bases de datos NoSQL.
Ejemplos de datos no estructurados:
Ejemplos típicos de datos que no tienen campos fijos incluyen audio, video, fotografías, o formatos de texto libre como correos electrónicos, mensajes instantáneos SMS, artículos, libros, y mensajes de mensajería instantánea de aplicaciones como WhatsApp y Viber, entre otros.
0 Comments