Glosario BIG DATA

Conocer la terminología de Big Data es, por lo general, un difícil reto para quienes toman contacto por primera vez con los grandes datos y, en cierto modo, también para quienes están más familiarizados con ellos, pues se trata de una amplia y nueva terminología en constante crecimiento que puede resultar complicada.

Existen muchísimas herramientas para tratar con Big Data. Nombres como Hadoop, NoSQL, Cassandra, Business Intelligence, Machine Learning, MapReduce… son sólo algunos de los más conocidos, pero existen muchas más. Aquí dejamos un glosario con términos y herramientas recopiladas por la fundación española Big Data:

 

DENOMINACIÓN
CATEGORÍA
LOGOTIPO Y LINK
DESCRIPCIÓN
Acunu Analytics MapReduce Facilita la creación de aplicaciones Big Data en tiempo real.

Ofrece una plataforma de análisis de baja latencia que es escalable, robusta y rentable. Se puede Implementar y escalar en el hardware estándar de la industria o en la nube.

Gestiona la captura y el almacenamiento de datos a alta velocidad, monitoriza la infraestructura y realiza el análisis de datos en tiempo real.

Amazon Elastic MapReduce Hadoop infraestructura como servicio
Apache Accumulo Base de datos operacional Se basa en Google BigTable.Se sitúa en la parte superior de Hadoop, Zookeeper, y Thrift.
Apache Ambari Es una interfaz web que permite implementar y administrar clústeres de Apache Hadoop. Su desarrollo está siendo dirigido por ingenieros de Hortonworoks, que incluyen en su plataforma de datos “Ambari Hortonworks”
Apache Drill SQL en Hadop
Apache Flume MapReduce Es un marco para aportar datos a Hadoop. Los agentes residen en toda la infraestructura de TI como servidores web, servidores de aplicaciones y dispositivos móviles, para recoger esos datos e integrarlos en Hadoop.
Apache Giraph SQL en Hadop
Apache Hama Project Framework
Apache Hive MapReduce Es un sistema de almacenamiento de datos sobre Hadoop al os que añade metadata para facilitar su manejo, creando lo que se llama un almacén, desarrollado originalmente por Facebook. Permite a los usuarios escribir consultas SQL en un lenguaje denominado HiveQL, que luego se convierte en MapReduce.Esto permite a los programadores de SQL sin experiencia en MapReduce consultar los datos guardados en el almacén, y hace que sea más fácil de integrar con la parte de BI y las herramientas de visualización tales como Microstrategy, Tableau, Analytics Revolutions, etc
Apache Kafka Es un sistema distribuido de publicación-suscripción de mensajería que ofrece una solución capaz de manejar toda la actividad del flujo de datos y procesar estos datos en un sitio web de gran consumo.
Apache Mesos Software de gestión
Apache Oozie MapReduce Es un sistema de gestión de WorkFlows (flujos de trabajo) que permite a los usuarios definir una serie de trabajos escritos en varios lenguajes, como MapReduce, Pig y Hive, creando entre ellos un flujo de procesos (jobs) con lógica.Oozie permite a los usuarios especificar, por ejemplo, que una determinada consulta sólo debe iniciarse después de determinados trabajos previos en los que se basa para recoger datos que se han completado.
Apache Tez Incubator Framework
Apache Thrift Framework Es un marco de software para el desarrollo de los servicios entre lenguajes escalable. Combina una pila de software con un motor de generación de código para crear servicios que funcionan de manera eficiente y sin problemas entre C + +, Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C #, Cacao, JavaScript, Node.js, Smalltalk, OCaml y Delphi y otros lenguajes.
Apache ZooKeeper Base de datos No SQL Provee un servicio de configuración centralizada y registro de nombres de código abierto para grandes sistemas distribuidos. ZooKeeper es un subproyecto de Hadoop.
Avro Serielización Es un sistema de serialización de datos optimizado para Hadoop/MapReduce.Tiene la ventaja de ser compacto, flexible y admitir varios lenguajes de programación, lo cual lo posiciona como una alternativa muy buena a los SequenceFiles (de Hadoop) o ProtoBuf (de Google).
Azkaban MapReduce
BigSheets Tratamiento Desarrollado por IBM es una aplicación web que permite a los usuarios sin conocimientos técnicos gestionar fuentes de datos no estructurados en línea e internos y analizarlos para crear informes y visualizaciones.
BigTable Base de datos No SQL
Bigtop Es un esfuerzo para crear un proceso más formal o marco de referencia para las pruebas de paquetización e interoperabilidad de subproyectos Hadoop y sus componentes relacionados, con el objetivo de mejorar la plataforma Hadoop en su conjunto.
Boilerpipe NLP
Brontobyte Almacenamiento Unidad de almacenamiento de información cuyo símbolo es BB, equivale a 1027 bytes
BSON Serielización
Caffeine MapReduce
Cascading MapReduce Un software de capa de abstracción para Hadoop.Cascading, permite a los usuarios crear y ejecutar flujos de trabajo de procesamiento de datos en clústeres Hadoop usando cualquier lenguaje basado en JVM. Su objetivo es ocultar la complejidad subyacente de los trabajos de MapReduce. Cascading ha sido diseñado por Chris Wensel como alternativa API a MapReduce. A menudo se utiliza para la orientación de los anuncios, registro de análisis de archivos, bioinformática, máquina de aprendizaje, análisis predictivo, minería de contenido web y aplicaciones ETL.

El soporte comercial para Cascading es ofrecido por Concurrent, una empresa fundada por Wensel después de que él desarrolló Cascading. Entre las empresas que utilizan Cascading están Twitter y Etsy. Cascadin está disponible bajo la General Public License de GNU.

Cascading (Concurrent) Framework
Cascalog MapReduce
Cassandra NoSQL Databases Otra tienda de datos NoSQL, Apache Cassandra, es un sistema de gestión distribuido de bases de datos desarrollado por Facebook para potenciar su función de búsqueda en la bandeja de entrada.Facebook abandonó a Cassandra en favor de HBase en el 2010, pero Cassandra todavía es utilizada por varias compañías, incluyendo Netflix, que utiliza Cassandra como la base de datos back-end para sus servicios de streaming.

Casandra está disponible bajo la licencia Apache 2.0.

Ceph Alternativa HDFS
Chukwa Es un subproyecto dedicado a la carga masiva de varios ficheros texto dentro de un Cluster Hadoop (ETL).Chukwa se construye bajo el sistema de archivos distribuido (HDFS) y el marco MapReduce y hereda la escalabilidad y robustez de Hadoop.

Chukwa también incluye un conjunto de herramientas flexible y potente para la visualización y análisis de los resultados.

Citus Data SQL en Hadop
Cleversafe Alternativa HDFS
Cloudera Distribución
Corona Software de gestión
CouchDB Base de datos No SQL Apache CouchDB es una base de datos NoSQL. Utiliza JSON para almacenar datos, JavaScript como lenguaje de consulta y MapReduce y HTTP como API.CouchDB fue creado en el 2005 por el ex desarrollador de IBM Lotus Notes, Damien Katz, como un sistema de almacenamiento para una base de datos de objetos grandes.

La BBC utiliza CouchDB para sus plataformas de contenidos dinámicos, mientras que el departamento de productos de Credit Suisse lo utiliza para almacenar los detalles de configuración de su mercado de datos.

CouchDB está disponible Apache License 2.0.

Data Direct Networks Hadoop reeenvasado
Datameer Aplicación analítica Está dirigido al mercado de la inteligencia de negocios, utilizando Hadoop para impulsar su procesamiento.Ofrece un programa simplificado para que los operadores puedan especificar el tipo de análisis que quieren y, a continuación la conversión en puestos de trabajo utilizando MapReduce.
Disco Plataforma alternativa
Drawn to Scale Base de datos operacional
Dremel Es un sistema de consultas interactivo para el análisis de datos anidados de sólo-lectura.El sistema escala a miles de CPUs y petabytes de datos, y cuenta con miles de usuarios en Google.

El proyecto se fusionó con Apache Drill.

EC2 Servidores
Elastic Beanstalk Servidores
ElasticSearch Tratamiento Desarrollado por Shay Banon y basado en Apache Lucene, ElasticSearch es un servidor de búsqueda distribuido.Es una solución escalable que soporta la búsqueda casi en tiempo real y multiusuario, sin una configuración especial.

Ha sido adoptado por un número de compañías, incluyendo StumbleUpon y Mozilla. ElasticSearch está disponible bajo Apache License 2.0.

EMC Greenplum Distribución
EMC Isilon Alternativa HDFS
Exabyte Almacenamiento Unidad de almacenamiento de información cuyo símbolo es EB y equivale a 1018 bytes
Facebook Scribe Servidores Scribe es un servidor desarrollado por Facebook y lanzado en el 2008. Está destinado para agregar registros de datos transmitidos en tiempo real desde un gran número de servidores.Facebook lo diseñó para cumplir con sus propios desafíos de escala, y ahora utiliza Scribe para manejar decenas de miles de millones de mensajes al día. Está disponible bajo Apache License 2.0.
Flume MapReduce Vease Apache Flume
Fusion Tables Visualización
Geopbyte Almacenamiento Unidad de almacenamiento de información cuyo símbolo es GeB, equivale a 1030 bytes
Gephi Visualización
GoGrid Hadoop infraestructura como servicio
Google App Engine Servidores
Google Refine Captura
GraphViz Visualización
Greenplum MapReduce
Hadapt SQL en Hadop
Hadoop MapReduce Apache Hadoop es un marco de software de código abierto para aplicaciones intensivas de datos distribuidos, originalmente creado por Doug Cutting para apoyar su trabajo en Nutch, un motor web de código abierto.Para cumplir con los requisitos de procesamiento multimáquina de Nutch, Cutting implementó un centro de MapReduce y un sistema de archivos distribuido que en conjunto se convirtieron en Hadoop. Él le puso el nombre del elefante de juguete de su hijo.

A través de MapReduce, Hadoop distribuye los datos en grandes piezas sobre una serie de nodos que se ejecutan en hardware de consumo.

En la actualidad, Hadoop se encuentra entre las tecnologías más populares para el almacenamiento de los datos estructurados, semi estructurados y no estructurados que forman parte de los grandes volúmenes de datos. Hadoop está disponible bajo Apache License 2.0.

Hadoop Distributed File System Almacenamiento
Hama Es una plataforma de computación distribuida basada en técnicas computación paralela masiva para, por ejemplo cálculos científicos, matriz, gráfico y algoritmos de redes.
HBase Base de datos No SQL Escrito en Java y el modelado con BigTable de Google.Apache HBase es una base de datos no relacional distribuida en columnas, diseñada para ejecutarse en la parte superior de Hadoop Distributed Filesystem (HDFS).

Proporciona tolerancia a fallas de almacenamiento y un rápido acceso a grandes cantidades de datos dispersos. HBase es uno de los muchos almacenes de datos de NoSQL que se han vuelto disponibles en los últimos años.

En el 2010, Facebook adoptó HBase para servir a su plataforma de mensajería. Está disponible bajo Apache License 2.0.

HCatalog Ofrece una capa de abstracción de acceso a los datos.Permite a los usuarios de Hive, Pig o MapReduce acceder facilmente a cualquier fichero en HDFS sin preocuparse del formato que puede tener este fichero (sea CSV, SequenceFile, JSON etc).

Se trata de un proyecto inicialmente desarrollado por Hortonworks.

HDFS (Hadoop Distributed File System) Es la capa de almacenamiento de Hadoop, es un sistema de fichero distribuido escrito en java, escalable, tolerante a fallos.Aunque Hadoop pueda funcionar con varios sistemas de ficheros (sistema de ficheros locales de Linux, GlusterFS, S3 de Amazon…)

HDFS se desmarca de ellos por ser totalmente compatible con MapReduce y ofrecer la optimización de “localidad de los datos”, lo cual lo convierte en la solución “natural” de Hadoop.

Heroku Distribución Permite construir, generar, desplegar y ejecutar aplicaciones desarrolladas en Ruby, Node.js, Python y Java.
Hive MapReduce Vease Apache Hive
Hortonworks Distribución
HPCC Systems Plataforma alternativa
HStreaming Aplicación analítica
Hue (Hadoop User Experience) Es proyecto de código abierto que crea un interfaz web, el cual facilita el uso de Apache Hadoop.Cuenta con un explorador de archivos para HDFS; una aplicación para la creación de flujos de trabajo en Oozie; un diseñador de trabajo para MapReduce; una interfaz de usuario Impala; una colección de Hadoop API; y mucho más.
Hypertable Base de datos No SQL Propiedad de Google es un modelo de base de datos altamente escalable y alto rendimiento distribuido como fuente abierta.
IBM GPFS Alternativa HDFS
IBM Infosphere BigInsights Hadoop infraestructur a como servicio
Impala Es el nuevo motor de query desarrollado por Cloudera.Inspirado del software Dremel de Google, permite realizar consultas SQL muy parecidas a la sintaxis HQL de Hive, pero sin pasar por ningún proceso MapReduce.

Esto le permite en varias ocasiones ser hasta 50 veces más rápido que Hive y lo transforma en la herramienta ideal para acceder a los datos en tiempo real.

Infochimps Hadoop infraestructura como servicio Ofrece sistemas Big Data con una velocidad sin precedentes, escala y flexibilidad a las empresas de la empresa.Se han construido tres servicios analíticos críticos requeridos por prácticamente todas las aplicaciones empresariales de próxima generación: procesamiento en tiempo real y análisis de datos , análisis de lotes y análisis ad hoc – todo para información procesable, y todo ello controlado por estándares abiertos.
Joyent Hadoop infraestructura como servicio Es una infraestructura cloud de alto rendimiento para análisis de grandes volúmenes de datos y utilización de aplicaciones móviles.
JSON Serielización Acrónimo de JavaScript Object Notation, es un formato ligero para el intercambio de datos.JSON es un subconjunto de la notación literal de objetos de JavaScript que no requiere el uso de XML.
Kafka MapReduce Originalmente fue construido para conectar el sitio web de LinkedIn con su backend de sistemas.Funcionalmente de posiciona en algún lugar entre S4 y Flume.
Karmasphere Aplicación analítica Está diseñado para equipos de analistas para explorar y analizar grandes volúmenes de datos en Hadoop, y descubrir ideas de negocios acerca de sus clientes que se pueden aplicar a todos los puntos de captación de clientes.
Kiji Tratamiento Proporciona un marco para la creación de aplicaciones Big Data.Kiji es un conjunto de componentes modulares que pueden combinarse según sea necesario. El primer proyecto es Kiji KijiSchema, que proporciona una API Java simple para almacenar y gestionar datos con tipo en HBase con Avro serialización.

KijiSchema incluye un DDL sencillo para definir y gestionar diseños y esquemas y soporta tipos de datos complejos, claves de columna y de series de tiempo.

También gestiona la evolución de esquemas a nivel celular y ofrece nativa entrada MapReduce / Formatos de salida.

Kontagent Hadoop como servicio Plataforma de análisis móvil, de redes sociales y datos
Lily Base de datos operacional Es una plataforma de gestión de grandes volúmenes de datos, su almacenamiento, indexación y búsqueda en línea así como el control de su uso en tiempo real, análisis de audiencias y recomendaciones de contenido.
Lingual (Cascading) SQL en Hadop
Lustre Alternativa HDFS Proviene de la contracción de L (inux) y (cl) uster.Proporciona sistemas de archivos de alto rendimiento para clusters de ordenadores que van desde grupos de trabajo pequeños grupos a grupos de gran escala, multisitio. Se encuentra disponible bajo la Licencia Pública General de GNU.
Mahout Machine Learning Es una librería de algoritmos de machine learning.En ella están los algoritmos de minería de datos más populares para llevar a cabo la agrupación, pruebas de regresión y modelos estadísticos implementados usando MapReduce para que puedan ejecutarse sobre Hadoop
MapReduce MapReduce Es un marco de software que sirve como capa informática de Hadoop. Los trabajos MapReduce se dividen en dos:

  • La función “Map” divide una consulta en múltiples partes y procesa los datos a nivel de nodo.
  • “Reduce”, como su nombre indica, reduce los agregados función de los resultados de la función “Map” para determinar la “respuesta” a la consulta.
Mechanical Turk Tratamiento
Microsoft Windows Azure Hadoop infraestructura como servicio
MongoDB Base de datos No SQL Es un sistema de base de datos NoSQL orientado a documentos, es un proyecto de código abierto.Al ser de tipo documentos, las estructuras de datos se guardan en documentos con un esquema dinámico pero siguiendo la notación de JSON, estas estructuras dinámicas que son denominadas por MongoDB como BSON, lo que implica que no exista un esquema predefinido, pudiendo un documento no tener todos los campos definidos para ese documento lo que lo hace que la integración de los datos en ciertas aplicaciones sea más fácil y rápida.

Fue creado por los fundadores de DoubleClick, MongoDB es otro popular almacén de datos NoSQL. Almacena los datos estructurados en documentos tipo JSON con esquemas dinámicos llamados BSON (por Binary JSON).

MongoDB ha sido adoptado por un número de grandes empresas, incluyendo MTV Networks, craigslist, Disney Interactive Media Group, The New York Times y Etsy. Está disponible bajo la GNU Affero General Public License, con idiomas disponibles bajo Apache License. La empresa 10gen ofrece licencias comerciales de MongoDB.

Mortar Data Hadoop infraestructur a como servicio
Mrjob MapReduce
Natural Language Toolkit NLP
Needlebase Captura
Neo4j Es una base de datos de gráficos, de código abierto soportada por Neo Technology.Neo4j almacena los datos en nodos conectados por relaciones dirigidas y tipificadas, con las propiedades de ambos, también conocidas como Gráfico de Propiedad (Property Graph).
NetApp (NetApp Open Solution for Hadoop) Alternativa HDFS
NGData Aplicación analítica
Nutanix Hadoop reeenvasado
Oozie MapReduce Vease Apache Oozie
OpenCalais NLP
OpenNLP NLP
Oxdata Aplicación analítica
Packetloop Hadoop como servicio
PacketPig Aplicación analítica
Pentaho Plataforma alternativa Es una plataforma de BI “orientada a la solución” y “centrada en procesos” que incluye todos los principales componentes requeridos para implementar soluciones basados en procesos. Incluye herramientas integradas para generar informes, minería de datos, ETL, etc.
Pervasive Software (DataRush) Plataforma alternativa
Petabyte Almacenamiento Unidad de almacenamiento de información cuyo símbolo es PB, y equivale a 1015 bytes
Phoenix (Force.com) SQL en Hadop
Pig MapReduce Es un lenguaje de programación de alto nivel desarrollado por Yahoo para facilitar la programación de MapReduce sobre hadoop.Es relativamente fácil de aprender(pues es muy expresivo y legible) y es eficiente frente a grandes flujos de datos.
Pivotal HD (Greenplum) SQL en Hadop
Platfora Aplicación analítica
Protocol Buffers Serielización
Protovis Visualización
Quancast File System Alternativa HDFS
Qubole Hadoop como servicio
R Tratamiento R es un lenguaje de programación de código abierto y entorno de software, diseñado para el cálculo estadístico y visualización. R fue diseñado por Ross Ihaka y Robert Gentleman en la universidad de Auckland, Nueva Zelanda, a comienzos de 1993, y se está convirtiendo rápidamente en la herramienta a seguir para el análisis estadístico grandes series de datos.Es comercializado por una empresa llamada Revolution Analytics, que está llevando a cabo un modelo de servicios y soporte inspirado en el respaldo de Red Hat para Linux. R está disponible bajo la General Public License de GNU.
Radoop Aplicación analítica
RainStor SQL en Hadop
Red Hat (Almacenamiento / GlusterFS) Alternativa HDFS
Redis Base de datos No SQL
Riak Base de datos No SQL Es una base de datos NoSQL inspirada en Dynamo, de código abierto, distribuida y que cuenta con una versión comercial.Base de datos clave-valor con algunos metadatos, sin esquema de almacenamiento, tipo de datos agnósticos, lenguaje agnóstico que soporta a través de una api REST y PBC31 varios tipos de lenguaje (Eralng, Javascript, Java, PHP, Python, Ruby…), masterless ya que todos los nodos son iguales, escalable, eventualmente consistente y utiliza map/reduce y “link”.

Riak está diseñado para resolver una nueva clase de problemas de gestión de datos, específicamente los relacionados con la captura, almacenamiento y procesamiento de datos dentro de entornos TI distribuidos y modernos como la nube.

S3 Almacenamiento
S4 MapReduce Fue creada por Yahoo S4 para tomar decisiones sobre la elección y el posicionamiento de anuncios pero posteriormente se ha visto su utilidad para el tratamiento arbitrario de corrientes de eventos.
Scalding (Twitter) Framework
scikits.learn Machine Learning
ScraperWiki Captura
SGI Hadoop reeenvasado
Skytap Hadoop infraestructur a como servicio Ofrece a las empresas una forma rápida, fácil y segura para crear entornos informáticos complejos en la nube.
Solr/Lucene Tratamiento Lucene es una biblioteca Java que administra indexación y búsqueda de grandes colecciones de documentos y Solr es una aplicación que utiliza la biblioteca para crear un servidor de motores de búsqueda.Son proyectos originalmente separados que se fusionaron recientemente en uno único.

Está diseñado para manejar cantidades muy grandes de datos con escalabilidad horizontal a través de un conjunto de máquinas.

Spark/Shark Plataforma alternativa
Splice Machine Base de datos operacional
Sqoop Es una herramienta de conectividad para mover datos de Hadoop, tales como bases de datos relacionales y almacenes de datos.Permite a los usuarios especificar la ubicación de destino dentro de Hadoop e instruir Sqoop para mover datos de Oracle, Teradata u otras bases de datos relacionales para cumplir el objetivo marcado.
Sqrrl Base de datos operacional Se utiliza para alimentar aplicaciones en tiempo real que utilizan grandes volúmenes de datos y con altos requisitos de seguridad o privacidad como salud, finanzas, seguridad cibernética, telecomunicaciones y gobierno.
Stack IQ Software de gestión
Storm Es un sistema de computación distribuida en tiempo real, libre y de código abierto, nacido en el seno de Twitter.Storm hace fácil procesar de manera fiable flujos no estructurados de datos, haciendo en el ámbito del procesamiento en tiempo real, lo que hizo Hadoop para el procesamiento por lotes.
Sungard Hadoop infraestructura como servicio Plataforma de análisis de datos de nivel empresarial basado en Apache Hadoop totalmente gestionado.Libera a las organizaciones de tener que gestionar su propia infraestructura de análisis de datos y que puedan centrarse en el negocio Big Data proporcionando hardware, software y redes necesarias. para el análisis de Big Data de cada cliente.
Tableau Visualización
TempoDB Bases de datos operacionales Es un servicio de base de datos especialmente diseñada para almacenar y analizar los flujos masivos de datos de series de tiempo.
Terabyte Almacenamiento Unidad de almacenamiento de información cuyo símbolo es TB, y equivale a 1012 bytes
Teradata/Aster Data Hadoop reeenvasado
The Stinger Initiative (Hortonworks) SQL en Hadop
Thrift Serielización Vease Apache Thrift
Tinkerpop Tratamiento Un grupo de desarrolladores que trabajan en el software gráfico de código abierto, Tinkerpop tiene producida una suite integrada de herramientas.Semejante a la pila LAMP para el procesamiento gráfico, que están diseñando un conjunto de servicios que funcionan bien juntos para realizar común operaciones como interfaz con bases de datos de gráficos especializados
Treasure Data Hadoop como servicio Software que permite navegar por los datos independientemente si son estructurados o no.
Tresata Aplicación analítica
VertiCloud Hadoop infraestructur a como servicio
VMWare Cetas Hadoop como servicio
Voldemort Base de datos No SQL Es un sistema de almacenamiento distribuido basado en key-value.Se utiliza en LinkedIn para ciertos problemas de almacenamiento de alta escalabilidad donde la partición funcional simple no es suficiente.
WANdisco Software de gestión
WEKA Machine Learning
WibiData Aplicación analítica Ayuda a las organizaciones utilizar los datos para crear mejores experiencias de aplicación.Se basa en un marco de código abierto llamado Kiji.
Yahoo! Pipes Tratamiento
Yottabyte Almacenamiento Unidad de almacenamiento de información cuyo símbolo es YB, equivale a 1024 bytes
Zettabyte Almacenamiento Unidad de almacenamiento de información cuyo símbolo es ZB, equivale a 1021 bytes
Zettaset Software de gestión Es una solución de software de gestión empresarial que se ocupa de los problemas comunes en implementación de Hadoop con interfaces y herramientas sofisticadas y fáciles de usar.Simplifica y acelera la instalación y gestión de clusters Hadoop con una solución disponible para la empresa

Agregar un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *