Estudiar las redes de redes para entender un mundo interconectado
La revista Nature Communications publica dos artículos del grupo de investigación Alephsys Lab de la URV que explican cómo optimizar el tratamiento de big data en sistemas complejos
El grupo Alephsys Lab de la URV ha encontrado cómo simplificar los sistemas complejos al máximo, pero con la mínima pérdida de información, lo que permite tratar los datos de forma fidedigna y eficiente. Estos sistemas pueden representar las estructuras y relaciones que encontramos en el mundo, y su estudio ayudará a entender y resolver grandes problemas de ámbitos tan diversos como la biología, la tecnología o la sociología.
¿Por qué Gangnam Style tiene 2,3 mil millones de visitas en YouTube, es decir, una de cada tres personas que viven en la Tierra? Más allá del contenido en sí, la viralidad de cualquier información se puede estudiar desde el punto de vista estructural: eso quiere decir fijarnos en la estructura sobre la que se difunde la información, y no en si el videoclip es divertido o la canción es pegadiza. En este caso, la estructura está formada por las personas que comparten el vídeo con sus contactos que, a su vez, lo vuelven a compartir. Se dibuja así una red donde las personas son nodos y las relaciones entre ellas (amigos, familiares, compañeros de trabajo...) son las conexiones entre estos nodos.
Entender el mundo y sus problemas a través de la conectividad entre sus elementos es lo que hacen investigadores como Alex Arenas, del grupo de investigación Alephsys Lab de la Universitat Rovira i Virgili (URV) de Tarragona. En su grupo estudian sistemas complejos, es decir, sistemas formados por unidades en interacción que presentan un comportamiento global, que no es la suma directa de sus comportamientos individuales. Esta interacción forma una red donde las unidades o nodos (que pueden ser personas, pero también células, o medicamentos, u ordenadores...) tienen conexiones muy heterogéneas. Estos sistemas, por tanto, sirven para representar problemas en campos muy diferentes, tales como la biología, la tecnología o la sociedad.
Pero la realidad es compleja y, para representarla, los sistemas complejos deben serlo aún más: "Las redes no son únicas, sino que en la naturaleza, en la tecnología... encontramos diferentes redes que están conectadas entre ellas", explica el investigador Alex Arenas. Pensemos, por ejemplo, en Facebook y Twitter: ambas son redes que conectan personas, pero las conexiones (la lista de amigos, por decirlo de forma sencilla) no son las mismas en una y otra red. Cuando esto ocurre, decimos que la red tiene varias capas.
"En los últimos años hemos llegado a un nuevo nivel de conocimiento en este campo, que es considerar el mundo como un conjunto de redes, todas ellas interconectadas entre sí, con diferentes significados y funciones, pero que no se pueden estudiar de forma aislada", explica Arenas. Esto permite entender los sistemas de forma fidedigna, pero tiene un problema: cuanta más información haya (y, volviendo al ejemplo de Facebook y Twitter, ¡estamos hablando de miles y miles de terabytes de información!), más lento, difícil y costoso se volverá procesarla.
Simplificar un problema para hacerlo más fácil
Es aquí donde entran en juego los últimos avances del Alephsys Lab, que ha logrado identificar los nodos y las capas más relevantes en cualquier red para simplificar el sistema al máximo, pero perdiendo la mínima información. "Lo que hacemos es una reducción estructural de esta información", explica Alex Arenas: "analizamos cuáles de estas capas se pueden fusionar para llegar al punto óptimo en el que la cantidad de información es máxima con el mínimo de capas". A grandes rasgos, aquellas capas que son más redundantes entre ellas son las que se pueden fusionar.
"Hoy en día tenemos acceso a datos como nunca en la historia y tenemos herramientas para procesar datos. El problema es el encaje entre este volumen de datos de que disponemos y el volumen que las herramientas pueden procesar ", explica el investigador. El tratamiento masivo de datos (lo que se conoce como big data) será uno de los grandes retos de este siglo. "La solución pasa por reducir primero estos datos masivas, para luego procesarlos", concluye. Es decir, trabajar para empequeñecer el problema antes de trabajar para solucionarlo.
El nodo más versátil
Pero, volviendo a Gangnam Style y la viralidad, si queremos que nuestro video sea visto y compartido por el mayor número posible de personas, deberemos difundirlo a través del nodo más central de la red. El nodo más central es, explicado de forma sencilla, aquél que cuando transmite información llega a más gente, y que se entera de todo antes que nadie. Este nodo es fácil de identificar en una única red, pero ¿qué ocurre cuando la red tiene varias capas? Una persona, por ejemplo, puede ser muy activa y muy influyente en Twitter, pero no tanto en Facebook, o viceversa.
Una solución pasa por no buscar el nodo más central en cada capa, sino aquél que queda más compensado entre todas las capas. Esto, en el Alephsys Lab, lo llaman el nodo más versátil, y han determinado como encontrarlo. "Con ello podríamos cambiar totalmente los sistemas de ranking y la forma como entendemos la navegación en un sistema multicapa", explica el investigador Alex Arenas. Las aplicaciones son muchas: desde cómo los buscadores indexan y jerarquizan las páginas web hasta cómo funcionan los sistemas de recomendación. "El objetivo, al final, es enriquecer el acceso global a la información y, en definitiva, dar al usuario más capacidad de explorar el mundo", concluye Arenas.
La investigación del Alephsys Lab es aplicable a cualquier tipo de sistema complejo. Sus resultados se han publicado en la revista Nature Communications y ya pueden utilizarse para el tratamiento de datos, tanto en el caso de reducir la estructura de redes multicapa como de encontrar nodos versátiles en redes multicapa interconectadas. Estos estudios forman parte del proyecto Plexmath, del 7º Programa Marco (FP7) europeo. Además, el grupo pone a disposición una herramienta libre, llamada MuxViz, que permite analizar datos de sistemas complejos e incorpora estos dos últimos avances.