HPCC - HPCC

HPCC
HPCCSystems.png
Desarrollador (es) HPCC Systems, LexisNexis Risk Solutions
Versión inicial 15-06-2011
Lanzamiento estable
7.4.18-1 / 13-09-2019
Repositorio https://github.com/hpcc-systems
Escrito en C ++ , ECL
Sistema operativo Linux
Licencia Licencia Apache 2.0
Sitio web hpccsystems .com

HPCC (High-Performance Computing Cluster), también conocido como DAS (Supercomputadora de análisis de datos), es una plataforma de sistema informático de código abierto con uso intensivo de datos desarrollada por LexisNexis Risk Solutions . La plataforma HPCC incorpora una arquitectura de software implementada en clústeres de computación básica para proporcionar procesamiento paralelo de datos de alto rendimiento para aplicaciones que utilizan big data . La plataforma HPCC incluye configuraciones de sistema para admitir tanto el procesamiento de datos por lotes en paralelo (Thor) como las aplicaciones de consulta en línea de alto rendimiento que utilizan archivos de datos indexados (Roxie). La plataforma HPCC también incluye un lenguaje de programación declarativo centrado en datos para el procesamiento de datos en paralelo llamado ECL .

El lanzamiento público de HPCC se anunció en 2011, después de diez años de desarrollo interno (según LexisNexis). Es una alternativa a Hadoop y otras plataformas de Big Data .

Arquitectura del sistema

Figura 2. Clúster de procesamiento de Thor

La arquitectura del sistema HPCC incluye dos entornos de procesamiento de clúster distintos, Thor y Roxie , cada uno de los cuales se puede optimizar de forma independiente para su propósito de procesamiento de datos en paralelo.

La primera de estas plataformas se llama Thor , una refinería de datos cuyo propósito general es el procesamiento general de volúmenes masivos de datos sin procesar de cualquier tipo para cualquier propósito, pero que se usa típicamente para la limpieza e higiene de datos , procesamiento ETL ( extracción, transformación, carga ) de los datos sin procesar, la vinculación de registros y la resolución de entidades, el análisis complejo ad-hoc a gran escala y la creación de datos e índices con clave para admitir consultas estructuradas de alto rendimiento y aplicaciones de almacenamiento de datos. El nombre de la refinería de datos Thor es una referencia al mítico dios nórdico del trueno con el gran martillo que simboliza la trituración de grandes cantidades de datos sin procesar en información útil. Un clúster Thor es similar en su función, entorno de ejecución, sistema de archivos y capacidades a las plataformas Google y Hadoop MapReduce .

La Figura 2 muestra una representación de un clúster de procesamiento Thor físico que funciona como un motor de ejecución de trabajos por lotes para aplicaciones informáticas escalables con uso intensivo de datos. Además de los nodos maestro y esclavo de Thor, se necesitan componentes auxiliares y comunes adicionales para implementar un entorno de procesamiento HPCC completo.

Figura 3. Clúster de procesamiento de Roxie

La segunda de las plataformas de procesamiento de datos en paralelo se llama Roxie y funciona como un motor de entrega de datos rápida . Esta plataforma está diseñada como una plataforma de análisis y consultas estructuradas de alto rendimiento en línea o un almacén de datos que ofrece los requisitos de procesamiento de acceso a datos en paralelo de las aplicaciones en línea a través de interfaces de servicios web que admiten miles de consultas y usuarios simultáneos con tiempos de respuesta inferiores a un segundo. Roxie utiliza un sistema de archivos indexado distribuido para proporcionar procesamiento paralelo de consultas utilizando un entorno de ejecución optimizado y un sistema de archivos para procesamiento en línea de alto rendimiento. Un clúster de Roxie es similar en su función y capacidades a ElasticSearch y Hadoop con capacidades de HBase y Hive agregadas, y proporciona latencias de consulta predecibles casi en tiempo real. Los clústeres de Thor y Roxie utilizan el lenguaje de programación ECL para implementar aplicaciones, lo que aumenta la continuidad y la productividad del programador.

La Figura 3 muestra una representación de un clúster de procesamiento de Roxie físico que funciona como un motor de ejecución de consultas en línea para aplicaciones de almacenamiento de datos y consultas de alto rendimiento. Un clúster de Roxie incluye varios nodos con procesos de servidor y trabajador para procesar consultas; un componente auxiliar adicional llamado servidor ESP que proporciona interfaces para el acceso de clientes externos al clúster; y componentes comunes adicionales que se comparten con un clúster Thor en un entorno HPCC. Aunque un clúster de procesamiento de Thor se puede implementar y utilizar sin un clúster de Roxie, un entorno HPCC que incluye un clúster de Roxie también debe incluir un clúster de Thor. El clúster de Thor se utiliza para crear los archivos de índice distribuidos utilizados por el clúster de Roxie y para desarrollar consultas en línea que se implementarán con los archivos de índice en el clúster de Roxie.

Figura 4. Arquitectura del software HPCC

Arquitectura de software

La arquitectura del software HPCC incorpora los clústeres Thor y Roxie, así como componentes de middleware comunes , una capa de comunicaciones externas, interfaces de cliente que brindan servicios para el usuario final y herramientas de administración del sistema, y ​​componentes auxiliares para respaldar el monitoreo y facilitar la carga y el almacenamiento del sistema de archivos. datos de fuentes externas. Por lo general, un entorno de HPCC incluye solo clústeres de Thor, o clústeres de Thor y Roxie, aunque ocasionalmente se utiliza Roxie para crear sus propios índices. La arquitectura general del software HPCC se muestra en la Figura 4.

Sistemas HPCC

HPCC Systems (Grupo de Computación de Alto Rendimiento) es parte de LexisNexis Risk Solutions y se formó para promover y vender el software HPCC. En junio de 2011, anunció la oferta del software bajo un modelo de licencia dual de código abierto.

HPCC Systems ofrece tanto una Community Edition como una Enterprise Edition. La Community Edition se puede descargar gratis, incluye el código fuente y se publica bajo la licencia Apache 2.0. Enterprise Edition está disponible bajo una licencia comercial paga e incluye capacitación, soporte, indemnización y módulos adicionales. En noviembre de 2011, HPCC Systems anunció la disponibilidad de su Thor Data Refinery Cluster en Amazon Web Services . En enero de 2012, HPCC Systems anunció algoritmos de aprendizaje automático distribuidos .

Ver también

Referencias

enlaces externos