A medida que en el Big Data los conjuntos de datos crecen en billones de bytes y más, esto crea problemas en la informática de alto rendimiento, por lo que es muy difícil utilizar los ordenadores a plena capacidad. Un nuevo algoritmo desarrollado por una estudiante de Queen’s University en Belfast es extremadamente valioso para muchas organizaciones que procesan grandes volúmenes de datos. Su técnica acelera el análisis de gráficos hasta 10 veces, lo que cambia las reglas del juego para muchas organizaciones, permitiéndoles acceder a análisis que nunca antes han utilizado y a un ritmo mucho más rápido
Jiawen Sun, una estudiante en la Escuela de Electrónica, Ingeniería Eléctrica e Informática y el Instituto de Electrónica, Comunicaciones y Tecnologías de la Información (ECIT) en Queen’s, ha estado trabajando durante los últimos tres años para crear un sistema de software que pueda analizar datos estructurados de forma eficiente.
A través de su investigación, Jiawen estudió cómo presentar los datos en la memoria de una computadora y cómo asignar partes de la computación a diferentes procesadores.
También se le ocurrieron dos soluciones para cambiar el orden de cómo se procesan los datos, lo que permite que la computadora se utilice en toda su capacidad. La primera solución cambia el orden en que se procesan los bordes de los gráficos, dividiendo el gráfico de forma que no haya interferencia entre los procesadores, haciendo que el proceso sea más eficiente. La segunda solución cambia el orden de los vértices de procesamiento, permitiendo que el análisis se complete más rápido.
Aplicación del algoritmo en el mundo de los Seguros
El Dr. Hans Vandierendonck, quien supervisó el proyecto, dice que los hallazgos tendrán un impacto positivo para muchas organizaciones en todo el mundo, empezando por las compañías de seguros. Al examinar los datos de una organización, el software puede detectar rápidamente el fraude de seguros.
Fuente: Queen’s University Belfast
Trabajar con gráficas complejas y Big Data
El trabajo de Jiawen supera a muchos trabajos de última generación, incluidos los proyectos Apache Open Source GraphX (Spark) por 21x, Giraph por 55x y GraphLab por 37x. Supera a los sistemas académicos GraphChi (EPFL) en 1386x y Ligra (Universidad Carnegie Mellon) en 3x, al calcular la importancia y popularidad de los sitios web en el dominio .uk utilizando el algoritmo PageRank de Google.
La necesidad de supergráficos para procesar grandes cantidades de datos es mayor que nunca. El algoritmo PageRank de Google, que clasifica los sitios web en el motor de búsqueda de Google, es un buen ejemplo.
Representa la web como un gráfico gigante, con nodos que representan cada página web individual y los bordes que representan los enlaces de una página a otra. El procesador gráfico Apache Giraph de Facebook mapea a todos los usuarios del sitio de redes sociales con más de mil millones de nodos. Sus conexiones entre ellos alcanzan más de 1 billón de bordes.

Una evaluación de rendimiento más rápida de ‘súper gráficos’. Crédito: DGIST
El rendimiento de algoritmos y sistemas de gráficos gigantes debe ser probado, pero esto requiere la disponibilidad de datos. Los datos reales no se pueden usar debido a las leyes de privacidad. Por lo tanto, se requieren datos fabricados o sintéticos. Pero los datos sintéticos no siempre siguen las mismas reglas relacionales que los datos reales. Además, los generadores de gráficos sintéticos actualmente disponibles requieren el uso de supercomputadoras, utilizando varios miles de servidores conectados a través de una red de alta velocidad debido a la cantidad excepcionalmente grande de datos que se analizan.
Himchan Park y Min-Soo Kim de DGIST han desarrollado TrillionG, un modelo de computadora que genera datos sintéticos para simular aplicaciones del mundo real que usan gráficos gigantes.
TrillionG es más rápido que los generadores de gráficos sintéticos actualmente disponibles y utiliza menos recursos de computadora, como memoria y ancho de banda de red.
Park y Kim han propuesto un nuevo modelo para la generación de gráficos. Es un compromiso entre otros dos modelos actualmente disponibles que requieren un tiempo computacional significativo y espacio de memoria. El nuevo modelo reutiliza datos que se guardan en una forma muy compacta y en una memoria caché de computadora muy rápida durante la generación de gráficos, haciéndolos más eficientes y efectivos que los modelos existentes.
TrillionG genera datos sintéticos más realistas que los dos modelos anteriores y también puede generar gráficos más grandes. Además, puede generar gráficos de un billón de bordes de tamaño similar en un período de tiempo más corto (dos horas) utilizando menos recursos informáticos (10 computadoras personales estándar).
El equipo espera que TrillionG pueda generar gráficos sintéticos del tamaño del conectoma del cerebro humano, que consiste en 100 billones de conexiones entre neuronas, usando 240 computadoras personales estándar. Las empresas de TI y las universidades también podrían usar gráficos sintéticos a gran escala como una herramienta esencial para desarrollar y evaluar nuevos algoritmos y sistemas de gráficos.
Descargar el paper original: TrillionG: A Trillion-scale Synthetic Graph Generator using a Recursive Vector Model
Fuente: Eurekalert