Almacén de datos - Data warehouse

Descripción general del almacén de datos
La arquitectura básica de un almacén de datos

En informática , un almacén de datos ( DW o DWH ), también conocido como almacén de datos empresariales ( EDW ), es un sistema que se utiliza para informes y análisis de datos y se considera un componente central de la inteligencia empresarial . Los DW son repositorios centrales de datos integrados de una o más fuentes dispares. Almacenan datos actuales e históricos en un solo lugar que se utilizan para crear informes analíticos para los trabajadores de toda la empresa.

Los datos almacenados en el almacén se cargan desde los sistemas operativos (como marketing o ventas). Los datos pueden pasar a través de un almacén de datos operativos y pueden requerir limpieza de datos para operaciones adicionales a fin de garantizar la calidad de los datos antes de que se utilicen en el DW para la generación de informes.

Extraer, transformar, cargar (ETL) y extraer, cargar, transformar (ELT) son los dos enfoques principales utilizados para construir un sistema de almacenamiento de datos.

Almacenamiento de datos basado en ETL

La típica de extracción, transformación, carga (ETL) basado en usos de almacenamiento de datos puesta en escena , la integración de datos y capas de acceso para albergar sus funciones clave. La capa de ensayo o la base de datos de ensayo almacena datos sin procesar extraídos de cada uno de los distintos sistemas de datos de origen. La capa de integración integra los conjuntos de datos dispares transformando los datos de la capa de preparación, a menudo almacenando estos datos transformados en una base de datos de almacenamiento de datos operativos (ODS). Luego, los datos integrados se mueven a otra base de datos, a menudo denominada base de datos de almacenamiento de datos, donde los datos se organizan en grupos jerárquicos, a menudo denominados dimensiones, y en hechos y hechos agregados. La combinación de hechos y dimensiones a veces se denomina esquema en estrella . La capa de acceso ayuda a los usuarios a recuperar datos.

La fuente principal de datos se limpia , se transforma, se cataloga y se pone a disposición de los gerentes y otros profesionales comerciales para la minería de datos , el procesamiento analítico en línea , la investigación de mercado y el apoyo a la toma de decisiones . Sin embargo, los medios para recuperar y analizar datos, extraer, transformar y cargar datos y administrar el diccionario de datos también se consideran componentes esenciales de un sistema de almacenamiento de datos. Muchas referencias al almacenamiento de datos utilizan este contexto más amplio. Por lo tanto, una definición ampliada de almacenamiento de datos incluye herramientas de inteligencia empresarial , herramientas para extraer, transformar y cargar datos en el repositorio y herramientas para administrar y recuperar metadatos .

Almacenamiento de datos basado en ELT

Arquitectura de almacén de datos basada en ELT

El almacenamiento de datos basado en ELT elimina una herramienta ETL separada para la transformación de datos. En cambio, mantiene un área de preparación dentro del propio almacén de datos. En este enfoque, los datos se extraen de sistemas de origen heterogéneos y luego se cargan directamente en el almacén de datos, antes de que ocurra cualquier transformación. A continuación, todas las transformaciones necesarias se gestionan dentro del propio almacén de datos. Finalmente, los datos manipulados se cargan en tablas de destino en el mismo almacén de datos.

Beneficios

Un almacén de datos mantiene una copia de la información de los sistemas de transacciones de origen. Esta complejidad arquitectónica brinda la oportunidad de:

  • Integre datos de múltiples fuentes en una sola base de datos y modelo de datos. Más congregación de datos en una sola base de datos, por lo que se puede usar un solo motor de consulta para presentar datos en un ODS.
  • Mitigue el problema de la contención de bloqueo del nivel de aislamiento de la base de datos en los sistemas de procesamiento de transacciones causado por los intentos de ejecutar consultas de análisis grandes y de larga duración en las bases de datos de procesamiento de transacciones.
  • Mantenga el historial de datos , incluso si los sistemas de transacciones de origen no lo hacen.
  • Integre datos de múltiples sistemas de origen, lo que permite una vista centralizada en toda la empresa. Este beneficio siempre es valioso, pero especialmente cuando la organización ha crecido por fusión.
  • Mejore la calidad de los datos proporcionando códigos y descripciones coherentes, marcando o incluso corrigiendo datos incorrectos.
  • Presentar la información de la organización de forma coherente.
  • Proporcione un único modelo de datos común para todos los datos de interés, independientemente del origen de los datos.
  • Reestructura los datos para que tengan sentido para los usuarios comerciales.
  • Reestructura los datos para que ofrezcan un excelente rendimiento de consultas, incluso para consultas analíticas complejas, sin afectar los sistemas operativos .
  • Agregue valor a las aplicaciones comerciales operativas, especialmente a los sistemas de gestión de relaciones con el cliente (CRM).
  • Facilite la redacción de consultas de apoyo a la toma de decisiones.
  • Organizar y eliminar la ambigüedad de los datos repetitivos

Genérico

El entorno para almacenes de datos y mercados incluye lo siguiente:

  • Sistemas de origen que proporcionan datos al almacén o mercado;
  • Tecnología y procesos de integración de datos necesarios para preparar los datos para su uso;
  • Diferentes arquitecturas para almacenar datos en el almacén de datos de una organización o en los data marts;
  • Diferentes herramientas y aplicaciones para una variedad de usuarios;
  • Los metadatos, la calidad de los datos y los procesos de gobernanza deben estar implementados para garantizar que el almacén o mercado cumpla con sus propósitos.

Con respecto a los sistemas de origen enumerados anteriormente, R. Kelly Rainer afirma, "Una fuente común para los datos en los almacenes de datos son las bases de datos operativas de la empresa, que pueden ser bases de datos relacionales".

Con respecto a la integración de datos, Rainer afirma que "es necesario extraer datos de los sistemas de origen, transformarlos y cargarlos en un data mart o almacén".

Rainer analiza el almacenamiento de datos en el almacén de datos de una organización o en los data marts.

Los metadatos son datos sobre datos. "El personal de TI necesita información sobre fuentes de datos; bases de datos, tablas y nombres de columnas; programas de actualización y medidas de uso de datos".

Hoy en día, las empresas más exitosas son aquellas que pueden responder de manera rápida y flexible a los cambios y oportunidades del mercado. Una clave de esta respuesta es el uso eficaz y eficiente de los datos y la información por parte de analistas y gerentes. Un "almacén de datos" es un depósito de datos históricos que está organizado por el sujeto para apoyar a los tomadores de decisiones en la organización. Una vez que los datos se almacenan en un data mart o almacén, se puede acceder a ellos.

Sistemas relacionados (data mart, OLAPS, OLTP, análisis predictivo)

Un data mart es una forma simple de un almacén de datos que se centra en un solo tema (o área funcional), por lo que extraen datos de un número limitado de fuentes como ventas, finanzas o marketing. Los mercados de datos a menudo son construidos y controlados por un solo departamento dentro de una organización. Las fuentes pueden ser sistemas operativos internos, un almacén de datos central o datos externos. La desnormalización es la norma para las técnicas de modelado de datos en este sistema. Dado que los data marts generalmente cubren solo un subconjunto de los datos contenidos en un data warehouse, a menudo son más fáciles y rápidos de implementar.

Diferencia entre data warehouse y data mart
Atributo Almacén de datos Mercado de datos
Alcance de los datos en toda la empresa en todo el departamento
Número de áreas temáticas múltiple soltero
Que dificil de construir difícil fácil
Cuanto tiempo lleva construir más menos
Cantidad de memoria mas grande limitado

Los tipos de mercados de datos incluyen mercados de datos dependientes , independientes e híbridos.

El procesamiento analítico en línea (OLAP) se caracteriza por un volumen relativamente bajo de transacciones. Las consultas suelen ser muy complejas e implican agregaciones. Para los sistemas OLAP, el tiempo de respuesta es una medida eficaz. Las aplicaciones OLAP son ampliamente utilizadas por técnicas de minería de datos . Las bases de datos OLAP almacenan datos históricos agregados en esquemas multidimensionales (generalmente esquemas en estrella ). Los sistemas OLAP suelen tener una latencia de datos de unas pocas horas, a diferencia de los data marts, donde se espera que la latencia sea más cercana a un día. El enfoque OLAP se utiliza para analizar datos multidimensionales de múltiples fuentes y perspectivas. Las tres operaciones básicas en OLAP son Roll-up (consolidación), Drill-down y Slicing & Dicing.

El procesamiento de transacciones en línea (OLTP) se caracteriza por una gran cantidad de transacciones breves en línea (INSERTAR, ACTUALIZAR, ELIMINAR). Los sistemas OLTP enfatizan el procesamiento de consultas muy rápido y el mantenimiento de la integridad de los datos en entornos de acceso múltiple. Para los sistemas OLTP, la efectividad se mide por el número de transacciones por segundo. Las bases de datos OLTP contienen datos detallados y actualizados. El esquema utilizado para almacenar bases de datos transaccionales es el modelo de entidad (generalmente 3NF ). La normalización es la norma para las técnicas de modelado de datos en este sistema.

La analítica predictiva consiste en encontrar y cuantificar patrones ocultos en los datos utilizando modelos matemáticos complejos que se pueden utilizar para predecir resultados futuros. El análisis predictivo es diferente de OLAP en que OLAP se enfoca en el análisis de datos históricos y es de naturaleza reactiva, mientras que el análisis predictivo se enfoca en el futuro. Estos sistemas también se utilizan para la gestión de relaciones con el cliente (CRM).

Historia

El concepto de almacenamiento de datos se remonta a finales de la década de 1980, cuando los investigadores de IBM, Barry Devlin y Paul Murphy, desarrollaron el "almacén de datos comerciales". En esencia, el concepto de almacenamiento de datos estaba destinado a proporcionar un modelo arquitectónico para el flujo de datos desde los sistemas operativos a los entornos de soporte de decisiones . El concepto intentó abordar los diversos problemas asociados con este flujo, principalmente los altos costos asociados con él. En ausencia de una arquitectura de almacenamiento de datos, se requería una enorme cantidad de redundancia para admitir múltiples entornos de soporte de decisiones. En las corporaciones más grandes, era típico que los entornos de soporte de decisiones múltiples operaran de forma independiente. Aunque cada entorno sirvió a diferentes usuarios, a menudo requerían gran parte de los mismos datos almacenados. El proceso de recopilación, limpieza e integración de datos de diversas fuentes, generalmente de sistemas operativos existentes a largo plazo (generalmente denominados sistemas heredados ), generalmente se replicaba en parte para cada entorno. Además, los sistemas operativos se reexaminaban con frecuencia a medida que surgían nuevos requisitos de apoyo a la toma de decisiones. A menudo, los nuevos requisitos requerían recopilar, limpiar e integrar nuevos datos de " data marts " que se adaptaron para que los usuarios pudieran acceder fácilmente a ellos.

Además, con la publicación de The IRM Imperative (Wiley & Sons, 1991) por James M. Kerr, la idea de administrar y poner un valor en dólares a los recursos de datos de una organización y luego reportar ese valor como un activo en un balance se hizo popular. . En el libro, Kerr describió una forma de poblar bases de datos de áreas temáticas a partir de datos derivados de sistemas basados ​​en transacciones para crear un área de almacenamiento donde los datos resumidos podrían aprovecharse aún más para informar la toma de decisiones ejecutivas. Este concepto sirvió para promover un pensamiento más profundo sobre cómo se podría desarrollar y administrar un almacén de datos de una manera práctica dentro de cualquier empresa.

Desarrollos clave en los primeros años del almacenamiento de datos:

  • Década de 1960: General Mills y Dartmouth College , en un proyecto de investigación conjunto, desarrollan los términos dimensiones y hechos .
  • Década de 1970: ACNielsen e IRI proporcionan mercados de datos dimensionales para las ventas minoristas.
  • Década de 1970: Bill Inmon comienza a definir y discutir el término Almacén de datos.
  • 1975 - Sperry Univac presenta MAPPER (Mantenimiento, preparación y producción de informes ejecutivos), un sistema de gestión y generación de informes de bases de datos que incluye el primer 4GL del mundo . Es la primera plataforma diseñada para construir centros de información (un precursor de la tecnología de almacenamiento de datos contemporánea).
  • 1983 - Teradata presenta la computadora de base de datos DBC / 1012 diseñada específicamente para soporte de decisiones.
  • 1984 - Metaphor Computer Systems , fundada por David Liddle y Don Massaro, lanza un paquete de hardware / software y una GUI para que los usuarios comerciales creen un sistema analítico y de administración de bases de datos.
  • 1985 - Sperry Corporation publica un artículo (Martyn Jones y Philip Newman) sobre centros de información, donde introducen el término almacén de datos MAPPER en el contexto de centros de información.
  • 1988 - Barry Devlin y Paul Murphy publican el artículo "Una arquitectura para un sistema empresarial y de información" donde introducen el término "almacén de datos empresariales".
  • 1990 - Red Brick Systems, fundada por Ralph Kimball , presenta Red Brick Warehouse, un sistema de administración de bases de datos específicamente para el almacenamiento de datos.
  • 1991 - Autores de James M. Kerr The IRM Imperative, que sugiere que los recursos de datos podrían informarse como un activo en un balance general, fomentando el interés comercial en el establecimiento de almacenes de datos.
  • 1991 - Prism Solutions, fundada por Bill Inmon , presenta Prism Warehouse Manager, software para desarrollar un almacén de datos.
  • 1992 - Bill Inmon publica el libro Building the Data Warehouse .
  • 1995 - Se funda el Data Warehousing Institute, una organización con fines de lucro que promueve el almacenamiento de datos.
  • 1996 - Ralph Kimball publica el libro The Data Warehouse Toolkit .
  • 2000 - Dan Linstedt lanza al dominio público el modelado de bóveda de datos , concebido en 1990 como una alternativa a Inmon y Kimball para proporcionar almacenamiento histórico a largo plazo de datos provenientes de múltiples sistemas operativos, con énfasis en rastreo, auditoría y resistencia al cambio. del modelo de datos de origen.
  • 2008 - Bill Inmon , junto con Derek Strauss y Genia Neushloss, publica "DW 2.0: La arquitectura para la próxima generación de almacenamiento de datos", explicando su enfoque de arriba hacia abajo para el almacenamiento de datos y acuñando el término almacenamiento de datos 2.0.
  • 2012 - Bill Inmon desarrolla y hace pública la tecnología conocida como "desambiguación textual". La desambiguación textual aplica contexto al texto sin formato y reformatea el texto sin formato y el contexto en un formato de base de datos estándar. Una vez que el texto sin procesar pasa por la desambiguación textual, se puede acceder y analizar de manera fácil y eficiente mediante tecnología de inteligencia empresarial estándar. La desambiguación textual se logra mediante la ejecución de ETL textual. La desambiguación textual es útil dondequiera que se encuentre texto sin formato, como en documentos, Hadoop, correo electrónico, etc.

Almacenamiento de informacion

Hechos

Un hecho es un valor, o medida, que representa un hecho sobre la entidad o sistema gestionado.

Se dice que los hechos, según lo informado por la entidad informante, se encuentran en un nivel bruto; Por ejemplo, en un sistema de telefonía móvil, si una BTS ( estación transceptora base ) recibe 1.000 solicitudes de asignación de canales de tráfico, asigna 820 y rechaza el resto, informará tres hechos o mediciones a un sistema de gestión:

  • tch_req_total = 1000
  • tch_req_success = 820
  • tch_req_fail = 180

Los hechos en el nivel bruto se agregan aún más a niveles superiores en varias dimensiones para extraer más información relevante para el servicio o la empresa. Estos se denominan agregados o resúmenes o hechos agregados.

Por ejemplo, si hay tres BTS en una ciudad, entonces los hechos anteriores se pueden agregar desde el BTS al nivel de la ciudad en la dimensión de red. Por ejemplo:

  • tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3
  • avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) / 3

Enfoque dimensional versus normalizado para el almacenamiento de datos

Hay tres o más enfoques principales para almacenar datos en un almacén de datos; los enfoques más importantes son el enfoque dimensional y el enfoque normalizado.

El enfoque dimensional se refiere al enfoque de Ralph Kimball en el que se establece que el almacén de datos debe modelarse utilizando un modelo dimensional / esquema en estrella . El enfoque normalizado, también llamado modelo 3NF (tercera forma normal), se refiere al enfoque de Bill Inmon en el que se establece que el almacén de datos debe modelarse utilizando un modelo ER / modelo normalizado.

Enfoque dimensional

En un enfoque dimensional , los datos de transacciones se dividen en "hechos", que generalmente son datos de transacciones numéricos, y " dimensiones ", que son la información de referencia que da contexto a los hechos. Por ejemplo, una transacción de venta se puede dividir en hechos como el número de productos pedidos y el precio total pagado por los productos, y en dimensiones como la fecha del pedido, el nombre del cliente, el número de producto, el envío del pedido y la facturación. ubicaciones y vendedor responsable de recibir el pedido.

Una ventaja clave de un enfoque dimensional es que el almacén de datos es más fácil de entender y utilizar para el usuario. Además, la recuperación de datos del almacén de datos tiende a funcionar muy rápidamente. Las estructuras dimensionales son fáciles de entender para los usuarios comerciales, porque la estructura se divide en medidas / hechos y contexto / dimensiones. Los hechos están relacionados con los procesos comerciales y el sistema operativo de la organización, mientras que las dimensiones que los rodean contienen un contexto sobre la medición (Kimball, Ralph 2008). Otra ventaja que ofrece el modelo dimensional es que no involucra una base de datos relacional en todo momento. Por lo tanto, este tipo de técnica de modelado es muy útil para las consultas del usuario final en el almacén de datos.

El modelo de hechos y dimensiones también puede entenderse como un cubo de datos . Donde las dimensiones son las coordenadas categóricas en un cubo multidimensional, el hecho es un valor correspondiente a las coordenadas.

Las principales desventajas del enfoque dimensional son las siguientes:

  1. Para mantener la integridad de los hechos y las dimensiones, cargar el almacén de datos con datos de diferentes sistemas operativos es complicado.
  2. Es difícil modificar la estructura del almacén de datos si la organización que adopta el enfoque dimensional cambia la forma en que hace negocios.

Enfoque normalizado

En el enfoque normalizado, los datos en el almacén de datos se almacenan siguiendo, hasta cierto punto, las reglas de normalización de la base de datos . Las tablas están agrupadas por áreas temáticas que reflejan categorías de datos generales (por ejemplo, datos sobre clientes, productos, finanzas, etc.). La estructura normalizada divide los datos en entidades, lo que crea varias tablas en una base de datos relacional. Cuando se aplica en grandes empresas, el resultado son docenas de tablas que están unidas por una red de combinaciones. Además, cada una de las entidades creadas se convierte en tablas físicas separadas cuando se implementa la base de datos (Kimball, Ralph 2008). La principal ventaja de este enfoque es que es sencillo agregar información a la base de datos. Algunas desventajas de este enfoque son que, debido a la cantidad de tablas involucradas, puede ser difícil para los usuarios unir datos de diferentes fuentes en información significativa y acceder a la información sin una comprensión precisa de las fuentes de datos y de la estructura de datos. del almacén de datos.

Tanto los modelos normalizados como los dimensionales se pueden representar en diagramas entidad-relación, ya que ambos contienen tablas relacionales unidas. La diferencia entre los dos modelos es el grado de normalización (también conocido como formas normales ). Estos enfoques no son mutuamente excluyentes y existen otros enfoques. Los enfoques dimensionales pueden implicar la normalización de datos hasta cierto punto (Kimball, Ralph 2008).

En Negocios impulsados ​​por la información , Robert Hillard propone un enfoque para comparar los dos enfoques en función de las necesidades de información del problema empresarial. La técnica muestra que los modelos normalizados contienen mucha más información que sus equivalentes dimensionales (incluso cuando se usan los mismos campos en ambos modelos), pero esta información adicional tiene un costo de usabilidad. La técnica mide la cantidad de información en términos de entropía de información y usabilidad en términos de la medida de transformación de datos de Small Worlds.

Métodos de diseño

Diseño de abajo hacia arriba

En el enfoque ascendente , los mercados de datos se crean primero para proporcionar capacidades analíticas y de informes para procesos comerciales específicos . Estos mercados de datos se pueden integrar para crear un almacén de datos completo. La arquitectura del bus del almacén de datos es principalmente una implementación del "bus", una colección de dimensiones conformadas y hechos conformados , que son dimensiones que se comparten (de una manera específica) entre hechos en dos o más data marts.

Diseño de arriba hacia abajo

El enfoque de arriba hacia abajo está diseñado utilizando un modelo de datos empresarial normalizado . Los datos "atómicos" , es decir, los datos con el mayor nivel de detalle, se almacenan en el almacén de datos. Los almacenes de datos dimensionales que contienen los datos necesarios para procesos comerciales específicos o departamentos específicos se crean a partir del almacén de datos.

Diseño híbrido

Los almacenes de datos (DW) a menudo se parecen a la arquitectura de hub y radios . Los sistemas heredados que alimentan el almacén a menudo incluyen la gestión de relaciones con los clientes y la planificación de recursos empresariales , lo que genera grandes cantidades de datos. Para consolidar estos diversos modelos de datos y facilitar el proceso de carga de transformación de extracción , los almacenes de datos a menudo utilizan un almacén de datos operativos , cuya información se analiza en el DW real. Para reducir la redundancia de datos, los sistemas más grandes suelen almacenar los datos de forma normalizada. A continuación, se pueden construir mercados de datos para informes específicos sobre el almacén de datos.

Una base de datos híbrida DW se mantiene en la tercera forma normal para eliminar la redundancia de datos . Sin embargo, una base de datos relacional normal no es eficiente para informes de inteligencia empresarial donde prevalece el modelado dimensional. Los pequeños mercados de datos pueden comprar datos del almacén consolidado y utilizar los datos específicos filtrados para las tablas de hechos y las dimensiones requeridas. El DW proporciona una única fuente de información desde la que los data marts pueden leer, proporcionando una amplia gama de información comercial. La arquitectura híbrida permite que un DW sea reemplazado por un repositorio de gestión de datos maestros donde podría residir información operativa (no estática).

Los componentes de modelado de la bóveda de datos siguen la arquitectura de concentradores y radios. Este estilo de modelado es un diseño híbrido, que consta de las mejores prácticas tanto de la tercera forma normal como del esquema en estrella . El modelo de bóveda de datos no es una verdadera tercera forma normal y rompe algunas de sus reglas, pero es una arquitectura de arriba hacia abajo con un diseño de abajo hacia arriba. El modelo de bóveda de datos está diseñado para ser estrictamente un almacén de datos. No está diseñado para ser accesible para el usuario final, lo que, cuando se construye, aún requiere el uso de un centro de datos o un área de lanzamiento basada en un esquema en estrella para fines comerciales.

Características del almacén de datos

Hay características básicas que definen los datos en el almacén de datos que incluyen orientación por tema, integración de datos, datos variables en el tiempo, datos no volátiles y granularidad de datos.

Orientado al sujeto

A diferencia de los sistemas operativos, los datos en el almacén de datos giran en torno a temas de la empresa. La orientación al sujeto no es la normalización de la base de datos . La orientación al tema puede ser realmente útil para la toma de decisiones. La recopilación de los objetos necesarios se denomina orientada al sujeto.

Integrado

Los datos que se encuentran dentro del almacén de datos están integrados. Dado que proviene de varios sistemas operativos, se deben eliminar todas las inconsistencias. Las coherencias incluyen convenciones de nomenclatura, medición de variables, estructuras de codificación, atributos físicos de los datos, etc.

Variante de tiempo

Si bien los sistemas operativos reflejan los valores actuales, ya que respaldan las operaciones diarias, los datos del almacén de datos representan un horizonte de tiempo prolongado (hasta 10 años), lo que significa que almacenan principalmente datos históricos. Está destinado principalmente a la minería de datos y la previsión. (Por ejemplo, si un usuario está buscando un patrón de compra de un cliente específico, el usuario debe consultar los datos de las compras actuales y pasadas).

No volátil

Los datos del almacén de datos son de solo lectura, lo que significa que no se pueden actualizar, crear ni eliminar (a menos que exista una obligación reglamentaria o legal de hacerlo).

Opciones de almacenamiento de datos

Agregación

En el proceso de almacenamiento de datos, los datos se pueden agregar en mercados de datos en diferentes niveles de abstracción. El usuario puede comenzar a mirar las unidades de venta totales de un producto en toda una región. Luego, el usuario mira los estados de esa región. Por último, pueden examinar las tiendas individuales en un estado determinado. Por lo tanto, por lo general, el análisis comienza en un nivel superior y profundiza en niveles más bajos de detalles.

Arquitectura de almacenamiento de datos

Los diferentes métodos utilizados para construir / organizar un almacén de datos especificado por una organización son numerosos. El hardware utilizado, el software creado y los recursos de datos que se requieren específicamente para la funcionalidad correcta de un almacén de datos son los componentes principales de la arquitectura del almacén de datos. Todos los almacenes de datos tienen múltiples fases en las que se modifican y ajustan los requisitos de la organización.

Versus sistema operativo

Los sistemas operativos están optimizados para la preservación de la integridad de los datos y la velocidad de registro de las transacciones comerciales mediante el uso de la normalización de la base de datos y un modelo entidad-relación . Los diseñadores de sistemas operativos generalmente siguen las 12 reglas de normalización de bases de datos de Codd para garantizar la integridad de los datos. Los diseños de bases de datos completamente normalizados (es decir, aquellos que satisfacen todas las reglas de Codd) a menudo dan como resultado que la información de una transacción comercial se almacene en docenas o cientos de tablas. Las bases de datos relacionales son eficaces para gestionar las relaciones entre estas tablas. Las bases de datos tienen un rendimiento de inserción / actualización muy rápido porque solo una pequeña cantidad de datos en esas tablas se ve afectada cada vez que se procesa una transacción. Para mejorar el rendimiento, los datos más antiguos se eliminan periódicamente de los sistemas operativos.

Los almacenes de datos están optimizados para patrones de acceso analítico. Los patrones de acceso analítico generalmente implican la selección de campos específicos y, rara vez select *, o nunca , que selecciona todos los campos / columnas, como es más común en las bases de datos operativas. Debido a estas diferencias en los patrones de acceso, las bases de datos operativas (en general, OLTP) se benefician del uso de un DBMS orientado a filas, mientras que las bases de datos analíticas (en general, OLAP) se benefician del uso de un DBMS orientado a columnas . A diferencia de los sistemas operativos que mantienen una instantánea del negocio, los almacenes de datos generalmente mantienen un historial infinito que se implementa a través de procesos ETL que migran periódicamente los datos de los sistemas operativos al almacén de datos.

Evolución en el uso de la organización

Estos términos se refieren al nivel de sofisticación de un almacén de datos:

Almacén de datos operativos fuera de línea
Los almacenes de datos en esta etapa de evolución se actualizan en un ciclo de tiempo regular (generalmente diario, semanal o mensual) desde los sistemas operativos y los datos se almacenan en una base de datos integrada orientada a la generación de informes.
Almacén de datos sin conexión
Los almacenes de datos en esta etapa se actualizan a partir de los datos de los sistemas operativos de forma regular y los datos del almacén de datos se almacenan en una estructura de datos diseñada para facilitar los informes.
Almacén de datos a tiempo
El almacenamiento de datos integrado en línea representa la etapa de los almacenes de datos en tiempo real, los datos en el almacén se actualizan para cada transacción realizada en los datos de origen
Almacén de datos integrado
Estos almacenes de datos recopilan datos de diferentes áreas de negocio, para que los usuarios puedan buscar la información que necesitan en otros sistemas.

Referencias

Otras lecturas