WO2012004425A1

WO2012004425A1 - Método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo

Info

Publication number: WO2012004425A1
Application number: PCT/ES2010/070471
Authority: WO
Inventors: Rubén LARA HERNÁNDEZ; Rafael PELLÓN GÓMEZ-CALCERRADA; Arturo CANALES GONZÁLEZ; David MILLÁN RUIZ; Rocío MARTÍNEZ LÓPEZ
Original assignee: Telefonica, S.A.
Priority date: 2010-07-08
Filing date: 2010-07-08
Publication date: 2012-01-12
Also published as: US20130198191A1

Abstract

La presente invención se refiere a un método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo. Se construyen comunidades núcleo (2) y de forma iterativa se van agrupando en comunidades de más alto nivel (3) hasta que el algoritmo converge (se cumple una condición de parada)(4). Además, este proceso permite trazar fácilmente cómo van formándose las comunidades, resultando en un modelo fácilmente explicable yque también permite la detección de comunidades que estén solapadas. El presente método se inicia a partir de datos que representan las interacciones sociales entre los individuos,construyendo un grafo social ponderado (1) donde los vértices representan a los individuos y los enlaces representan las relaciones sociales entre los individuos.

Description

MÉTODO DE DETECCIÓN DE COMUNIDADES EN REDES SOCIALES MASIVAS MEDIANTE UN ENFOQUE AGLOMERATIVO

OBJETO DE LA INVENCIÓN

La presente invención, tal y como se expresa en el enunciado de esta memoria descriptiva, se refiere a un método para la detección de comunidades y grupos sociales en redes sociales de gran tamaño, mediante un enfoque aglomerativo . Aunque la presente invención se puede aplicar a muchos dominios, los principales campos de aplicación son la sociología, la biología, la informática y las telecomunicaciones. El problema de la detección de comunidades es altamente complejo y no se ha resuelto satisfactoriamente hasta el momento, especialmente para redes sociales muy voluminosas.

ANTECEDENTES DE LA INVENCIÓN

Los algoritmos existentes de detección de comunidades se pueden dividir en dos categorías: Métodos aglomerativos o increméntales y métodos de división o partición. Las técnicas de partición consideran toda la red social y, de forma iterativa, la dividen en sub- comunidades, mientras que las técnicas increméntales agrupan nodos progresivamente en comunidades de mayor tamaño hasta que se cumple la condición de parada. Otros autores clasifican la detección de comunidades en dos categorías: a) métodos que permiten detectar comunidades solapadas, es decir, cada nodo puede pertenecer a más de una comunidad y b) métodos que requieren que cada nodo pertenezca como máximo (o exactamente) a una comunidad. Enfoques tales como el descrito en el artículo "Extracción de comunidades densas a partir de grafos de llamadas telefónicas" no son ni aglomerativos ni de división, sino que realizan la búsqueda de comunidades basándose en la maximización de alguna medida como por ejemplo, la densidad. Por otro lado, el articulo "Comparando la identificación de las estructura de la comunidad" proporciona un buen resumen y comparativa de los enfoques existentes.

Además, hay algunos patrones de grafos, ampliamente estudiados, que corresponden a subgrupos cohesionados de individuos :

Componente: un componente conectado de un grafo no dirigido es un subgrafo en el que cualquier pareja de vértices está conectada entre si por algún camino, y al que no se pueden añadir más vértices o aristas preservando, al mismo tiempo, su conectividad .

Clique: un subgrafo en el que cada vértice está conectado al resto de vértices del subgrafo.

- Ciclo: camino que tiene como comienzo y fin el mismo nodo de partida.

También, se han propuesto definiciones alternativas a los conceptos previamente descritos, tales como las mostradas en el documento "Introducción a métodos de redes sociales":

- N-clique: es una comunidad en la que cada nodo se debe poder alcanzar en menos de "n" pasos (por lo general, en dos pasos) . Básicamente, esto implica una relajación de la condición de un clique en el que cada vértice es accesible desde el resto de vértices.

N-clan: es un N-clique limitado que no permite conexiones a través de nodos que no están contenidos en

N-clan. Se debe tener en cuenta que en un N-clique, la conexión puede hacerse a través de nodos que se encuentran fuera del N-clique. - K-plex: En un K-Plex, un vértice es un miembro de una comunidad si está directamente conectado a todos los otros vértices de la comunidad, excepto a "k" de ellos.

Se han identificado las siguientes patentes relacionadas con la presente invención:

- En US2009228296 y US7499965, las relaciones sociales y la comunicación social no definen las comunidades, sino que los intereses comunes de las personas son los que permiten agruparlas.

- La patente US2009248434 relaciona transacciones entre clientes (comportamiento) con las relaciones sociales implícitas y explícitas entre ellos (influencia) . Esta patente no utiliza la información de la comunidad social.

- La patente US2009233629 enlaza datos de localización GPS y redes sociales, pero usando una lista de amigos definida explícitamente por el usuario, y entiende como grupo social la lista de los amigos declarados por el usuario .

Las soluciones existentes en la actualidad presentan, al menos, uno de los siguientes problemas:

- Particiones de grafos como comunidades sociales: muchos métodos reducen la detección de comunidades a un problema de partición en el que todos los nodos pertenecen a alguna comunidad forzosamente. En general, no es una estrategia adecuada el forzar a los individuos artificialmente a ser miembros de una comunidad sin tener pruebas suficientes de esta relación porque la cohesión del grafo disminuye, dando lugar a comunidades dispersas que no reflejan la estructura social real.

- Comunidades demasiado cohesionadas: algunos enfoques dan una definición demasiado restrictiva de la comunidad (comunidades definidas como diques en el caso extremo o aquellas que sólo realizan una iteración de fusión de diques, como por ejemplo el algoritmo de percolación de diques) . Estos enfoques sólo permiten la identificación parcial de un subconjunto de las comunidades que se pueden encontrar en la red social.

- Comunidades no solapadas: otros enfoques no permiten la detección de comunidades solapadas. Sin embargo, las personas suelen pertenecer a varias comunidades (grupos de amigos, familiares, clubes, etc.)

- Resultados no explicables: la mayoría de los enfoques no nos permiten trazar el proceso de detección de comunidades ni explicar de manera intuitiva cómo se han detectado los grupos. Esto comúnmente ocurre en los enfoques basados en la maximización de alguna medida global, por ejemplo, modularidad o densidad.

- Falta de flexibilidad: los métodos existentes son a menudo demasiado rígidos para ser combinados con otras técnicas, y no hay un control suficiente sobre los parámetros que configuran la definición de comunidad utilizada .

- Comunidades demasiado específicas: algunas técnicas está desarrolladas exclusivamente para unos objetivos específicos .

Escalabilidad : Muchos enfoques no son viables para manejar redes sociales con millones de personas y relaciones.

Arquitectura de un solo bloque: La mayoría de los enfoques se articulan en un bloque monolítico único, como los algoritmos basados en agrupamiento . Sin embargo, los métodos multi-bloque permiten diferentes configuraciones en las que las "piezas pequeñas" de la arquitectura pueden ser intercambiadas sin modificar la estructura general y su funcionamiento. Eficiencia: el tiempo de cálculo es un obstáculo importante en muchos casos.

- Enlaces ponderados: La mayoría de los métodos no tienen en cuenta la fuerza de la relación entre individuos en el proceso de detección de comunidades. Algunos métodos distinguen entre relaciones sociales fuertes y débiles, pero no utilizan la fuerza exacta de la relación o, simplemente, descartan los vínculos sociales débiles.

Ninguna invención, hasta la fecha, ha solucionado simultáneamente todos los problemas anteriormente planteados .

Desde el punto de vista comercial, las redes sociales son una fuente de información que permite a las empresas mejorar sus productos, servicios y relación con sus clientes. Por lo tanto, el objeto de la presente patente es describir un nuevo esquema de conocimiento del usuario, que combina de manera conjunta el análisis de las interacciones de los usuarios en cada contexto social. Se debe tener en cuenta que el usuario se comporta de manera diferente dependiendo de cada contexto social .

La comprensión de las interacciones entre usuarios ofrece a las compañías nuevas oportunidades para mejorar la comunicación con sus usuarios y público en general.

La presente invención puede ser empleada por distribuidores de publicidad dirigida, es decir, para enviar anuncios personalizados a cada cliente. De esta manera, la presente invención ofrece la posibilidad de encontrar a un cliente potencial que pueda estar interesado en un producto y así encontrar una vía de comunicación directa entre la empresa de venta y el cliente final. Asimismo, se pueden centrar en las comunidades de usuarios que tienen los mismos gustos. Además, esta información se puede explotar para una amplia gama de aplicaciones tales como: comunicación de marcas, recomendación de los productos, servicios o actividades sociales, detección de eventos, etc.

DESCRIPCIÓN DE LA INVENCIÓN

Para lograr los objetivos y evitar los inconvenientes indicados anteriormente, esta patente describe un método flexible y eficiente de detección de comunidades en redes sociales a gran escala, el cual puede clasificarse como un método de aglomeración. Los nodos de la red social no se agrupan en comunidades en un solo paso. En su lugar, se comienza construyendo comunidades núcleo y de forma iterativa se van agrupando formando comunidades de más alto nivel hasta que el algoritmo converge (se cumple una condición de parada) . Además, este proceso permite observar sin esfuerzo cómo las comunidades crecen, dando lugar a un modelo fácilmente explicable.

El método descrito permite además la detección de comunidades solapadas, ya que un individuo puede tener diferentes circuios sociales. Por otra parte, algunas personas pueden no pertenecer a ninguna comunidad, ya que las redes sociales se construyen, en muchos casos, a partir de observaciones parciales de interacciones sociales. Por lo tanto, puede haber personas para las que no hay suficientes datos que permitan determinar cuáles son sus circuios sociales. En general, obligar a una persona a pertenecer a alguna comunidad no es una estrategia adecuada porque la cohesión del grafo disminuye, lo que implica que las comunidades estén más dispersas y, como resultado, las comunidades detectadas pueden no ajustarse a los verdaderos grupos sociales.

El presente método comienza a partir de datos que representan las interacciones sociales entre los individuos de uno o ^xk' periodos de tiempo no solapados. Las relaciones sociales se pueden extraer de estos datos de interacción social, por ejemplo, las llamadas telefónicas o mensajes de correo electrónico, construyendo un grafo social ponderado donde los vértices representan a los individuos y los enlaces (también llamados aristas) representan las relaciones sociales entre los individuos y la intensidad de la relación. En el método aquí descrito, se permite la combinación ponderada de los datos correspondientes a las interacciones sociales en diferentes periodos de tiempo, de modo que no sólo las interacciones más recientes, sino también los datos históricos, pueden ser tenidos en cuenta. El resultado es que la red social creada y las comunidades detectadas representan mejor las relaciones sociales y, por tanto, son más estables y robustas .

El enfoque de la presente invención es diferente de los ya existentes porque, en primer lugar, se detectan las comunidades núcleo o diques (comunidades densamente conectadas) y a continuación se combinan para obtener comunidades de mayor nivel de un modo iterativo teniendo en cuenta la fortaleza de las relaciones entre los individuos (los pesos de los enlaces del grafo social) . Esto permite encontrar comunidades que no están ni demasiado cohesionadas ni demasiado dispersas; los amigos de mis amigos no son siempre mis amigos como presuponen los N- cliques o los N-clans. A veces, la cohesión global de una comunidad permitirá que algunos vértices pertenezcan a la comunidad a pesar de que no estén conectados directamente a todos los demás miembros de la comunidad. Se supone que la comunidad está lo suficientemente cohesionada como para que pueda haber otras formas de comunicación entre estos vértices. Aunque, por ejemplo, una definición de comunidades basada en "diques" tenga los valores deseados de densidad y ruta más larga entre cada par de nodos, estos deben cumplir una condición demasiado estricta porque todos los nodos deben estar vinculados al resto de nodos.

El diseño del método sigue una estrategia configurable multibloque donde las diferentes etapas (construcción del grafo social, detección de diques, fusión de comunidades e inclusión de miembros asociados) están diseñadas como bloques funcionales, con una entrada y una salida bien definida. Esto hace que los bloques puedan ser sustituidos en cualquier momento con el fin de satisfacer las necesidades particulares del ámbito de aplicación, y que los parámetros para el funcionamiento de cada bloque sean conocidos y se puedan ajusfar para ofrecer una solución flexible.

En esta invención, algunos bloques se pueden sustituir por otros que tengan un funcionamiento similar.

Por tanto, como se ha comentado con anterioridad, la presente invención se refiere a un método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo . Las comunidades y grupos sociales están formadas por individuos, usuarios o miembros que interactúan entre si y estos nodos están representados en un grafo social mediante los nodos o vértices de dicho grafo mientras que los enlaces representan la interacción social entre los usuarios o miembros que conectan. Las interacciones sociales entre individuos serán llamadas telefónicas, emails, SMS, MMS, interacciones sociales virtuales distintas de las anteriores y susceptibles de ser analizadas, asi como una combinación de éstas.

Previamente, un usuario establecerá unos parámetros de configuración en un rango tal que: d≥l, NM≥2, j>0, 0≤const≤l, 0≤vt≤l, >0 y τ>0. Se define, además, un dique como un subgrafo completamente conectado. Así, las fases principales del mencionado método son:

1) construir un grafo social a partir de la información obtenida de cada interacción social entre pares de individuos pertenecientes a una misma red social asignando un peso a cada enlace entre pares de individuos. Dicho peso representa la intensidad social y se calcula en base a la cantidad de interacciones sociales entre ambos individuos;

2) analizar y detectar los diques existentes en dicho grafo social, siendo dichos diques comunidades completamente conectadas, formadas por al menos 3 individuos y siendo los enlaces entre dichos individuos aquellos que presentan un valor de fuerza del enlace por encima del parámetro "a"; y,

3) fusionar los diques, en primera instancia, y las comunidades en segundo lugar, de forma iterativa hasta cumplir una condición de parada, siendo dichas comunidades y diques las que presentan un valor de una función cohesión por encima del parámetro "j" y habiendo seleccionando previamente dichas comunidades y diques para ser fusionadas mediante el análisis y detección de la fase 2) de dichas comunidades en cada iteración .

A su vez, para la fase de construcción del grafo social, se tiene como entrada un conjunto "I" de datos relativos a interacciones sociales entre usuarios. Cada interacción se define como "γ" perteneciente a "I" y dicha "γ" se describe como una tupia (vi, Vj , t , pi, .. , p_n) donde ⁿv±" y ν ' son dos individuos cualesquiera que interactúan entre sí, "t" es el momento en que dicha interacción social ocurre y pi, .. ,p_n" son las propiedades de la interacción social, que en una realización preferente serán el tipo de interacción, el tipo de canal de comunicación y la información de localización .

La fase de construcción del grafo social comprende los siguientes pasos:

- comparar los valores "t" de cada interacción social e identificar un ⁿt_m±_ri" como el momento en el que ocurre la primera interacción social y un "t_max" como el momento en el que ocurre la última interacción social;

- dividir el intervalo de tiempo [t_m±_n, t_max] en un número finito "d" de intervalos de tiempo de la misma amplitud;

- asignar un valor de la fuerza del enlace, comprendido entre "0" y "MVf", a los enlaces entre individuos mediante una función S(v_it v^), que combina los valores de una función "5_t" para cada intervalo de tiempo "d", definida por:

S{vi,V_j) = S_t(v_i, v_j, 0). w_o +^••• + 5_t (i7¿, i7_y, d). w_d

y donde,

d

^ w_r = 1

r=0

siendo S_t:V_xV_x [0 ,d]→ [0 ,NM] la función que define el peso de un enlace entre dos individuos en cada uno de los "d" intervalos de tiempo en los que se divide

[tminr t_max] y siendo "w_r " definido por el usuario;

- crear un conjunto de enlaces fuertes, denominado ".E_s", con los enlaces cuya intensidad está por encima de "a",

- crear un conjunto de enlaces débiles, denominado "E„", con los enlaces cuya intensidad está por debajo de "a"; y,

- generar un grafo social, con los valores de la fuerza de enlace obtenidos, G=(V,E) donde "V" es un conjunto de individuos del grafo y contenido en "y²" es el conjunto de enlaces del grafo social resultado de la unión de los conjuntos ⁿE_s" y ⁿE_w" .

La fase de selección de diques, dado como parámetro de entrada el grafo G=(V,E), comprende los siguientes pasos :

• crear un conjunto vacio, denominado "L";

• detectar los diques máximos contenidos en "G", siendo dichos diques máximos, aquellos diques cuyos enlaces están contenidos en E_s" , mediante un algoritmo de detección de diques y donde los vértices de dichos diques son individuos pertenecientes a la red social;

• almacenar dichos diques en "L".

Una vez obtenido el grafo social y de manera preferente se continúa con la fase de fusión de diques que se realiza de manera iterativa. Previamente, se ha creado el conjunto vacio "Ω_{ί +}i " con i:0...M donde "M" es el número de iteraciones realizadas. Además, como parámetros de entrada se emplea el conjunto de diques máximos "L" detectados en la fase de detección de diques y se define en la primera iteración de esta fase de fusión de diques Qo=L. Este subproceso se lleva a cabo hasta que se cumple una condición de parada que preferentemente consistirá en un número fijo de iteraciones definidas por el usuario, "M" o que se cumpla que -¾₊ι = Ω±". Asi, la fase de fusión de diques comprende las siguientes etapas:

- seleccionar, para cada comunidad " C_j " perteneciente a "Ω_ί" , un conjunto "í¾" contenido en de todas las comunidades que incluyen algún individuo de " C_j " ;

- calcular un valor de cohesión del resultado de fusionar " C_j " con cada comunidad de "í¾" mediante una función definida como: e— m* vt

cohesion(C_kUj) = donde "C_kuj" es la comunidad resultado de unir la comunidad "C," con "C_k" , siendo " C_k" una comunidad perteneciente a "ί¾", "z" es el número de individuos de "C_kuj" , "e" es la suma de los valores de fuerza de los enlaces entre los individuos de "C_kuj" , "m" el número de enlaces con un valor de la fuerza de enlace igual a 0 y "h" el número de enlaces entre ambas comunidades calculado mediante la función:

y seleccionar aquellas comunidades que dan un valor de cohesión por encima del parámetro "j" previamente definido por el usuario, y;

crear un conjunto y almacenar en las comunidades seleccionadas en la etapa previa y realizar las siguientes subetapas para cada comunidad de " Vi_j " e incrementar el contador "i" con cada iteración :

o construir un grafo G±_j= (V±_j ,E±_j) donde los vértices son las comunidades de y el conjunto de enlaces entre dichas comunidades;

o detectar los diques contenidos en ⁿG±_j", siendo dichos diques máximos aquellos diques cuyos enlaces están contenidos en E_s" y que no están contenidos en otros diques de mayor tamaño, mediante un algoritmo de detección de diques, donde los vértices de dichos diques son las comunidades de V±_j" ;

o almacenar las comunidades resultantes en un conjunto, ⁿL±_j"; y,

o añadir dichas comunidades contenidas en L±_j" al conjunto ⁿQ±₊₁" . En otra realización preferente, en la fase de inclusión de miembros asociados, se emplea como parámetro de entrada que es el conjunto de comunidades resultantes de la fusión realizada en la fase anterior y el grafo G=(V,E). Dicha fase de inclusión comprende las siguientes etapas:

• crear para cada comunidad "Cj" perteneciente a un conjunto "¡¥j" donde se almacenan los miembros asociados a cada comunidad, siendo dichos miembros asociados aquellos miembros que presentan enlaces débiles con dicha comunidad) e inicializar cada uno de estos conjuntos como conjuntos vacíos; y,

• seleccionar para cada individuo, "v" perteneciente a "V", que pertenezca a menos de "IV" comunidades, siendo "ΛΓ' un parámetro definido por el usuario, un conjunto "Ϊ⁷" contenido en de comunidades que incluyen algún individuo que tengan un enlace con "v" y que no incluyan a "v" y realizar las siguientes subetapas de forma iterativa con cada una de las comunidades "Cj": o crear un conjunto de individuos Dif (Cj ,Ψ) =Cj-W compuesto de los individuos de "Cj" que no pertenecen a ψ" ;

o crear un conjunto de individuos Inters (Cj ,Ψ) =

compuesto de los individuos de "Cj", tal que sí están en ψ" ;

o calcular un valor de intensidad de cada individuo

"v" con cada comunidad "Cj" mediante la función definida como:

, ,

intensidad(y, C_j) =

donde el parámetro "const" establece el umbral de penalización para "no-enlaces" y está previamente definida por el usuario, el valor "Je" es la suma de los valores de la fuerza de los enlaces de los individuos de Inters(Cj,W) con "v", y donde el operador " | C/ | " denota el número de individuos del conjunto "C '; y,

o incluir los individuos "v", para los que el valor de la función intensidad es igual o mayor a un parámetro "r" definido por el usuario, en el conjunto "¡¥ ' asociado a la comunidad "Cj" que le corresponda .

En otra realización preferente, se lleva a cabo una fase adicional de inclusión de dyads, siendo dichos dyads comunidades de dos miembros, que comprende las siguientes etapas :

• detectar comunidades de dos individuos contenidas en el grafo "G" que no pertenezcan a comunidades de más de dos individuos; y,

• almacenar dichas comunidades en la lista de comunidades encontradas en el conjunto _¾₊ι " .

En otra realización preferente y aunque como se ha dicho con anterioridad se pueden emplear diferentes algoritmos de detección de diques, se ha empleado este algoritmo concretamente a modo de ejemplo. Dicho algoritmo de detección de diques, emplea como parámetro de entrada el grafo D=(A,B), estando el conjunto A de vértices del grafo seleccionado entre un conjunto de individuos y un conjunto de comunidades y estando el conjunto B de enlaces del grafo seleccionado entre un conjunto de enlaces entre individuos y un conjunto de enlaces entre comunidades Dicho algoritmo comprende los siguientes pasos:

• seleccionar un subgrafo " D ' contenido en "D", siendo " i" el grafo de un vértice "i", y una matriz triangular "M ' asociada a "¾", siendo dicha matriz "Mi" la matriz de comunicaciones entre el vértice "i" y los vértices con los que tiene enlaces, y; • ejecutar las siguientes subfases para cada vértice de "Mi" con los que tiene enlaces el vértice "i":

o seleccionar un dique "Q" contenido en D±" y un conjunto de vértices, "P" contenido en "A", cuyos vértices son vecinos de los vértices de "Q";

o verificar que la unión de "Q" con cada uno de los vértices de "P" es también un dique;

o añadir los vértices que verifican la fase anterior a "Q"; y,

o incluir "Q" en "L" cuando no queden vértices que añadir a "Q".

Los principales problemas con las soluciones existentes que se han superado en la presente invención son los siguientes:

- Las comunidades son configurables : el enfoque expuesto permite múltiples estrategias, dependiendo del ámbito de aplicación. De esta manera, no se obliga a las personas a pertenecer a ninguna comunidad, ya que es posible encontrar usuarios aislados, en la mayoría de los casos como consecuencia de las escasas observaciones disponibles de las interacciones sociales.

- Las comunidades están solapadas: este enfoque permite que las comunidades se solapen. Esto quiere decir que un individuo puede pertenecer a más de una comunidad.

- Trazabilidad : este proceso nos permite rastrear cómo se van generando las comunidades.

- Comprensible: es un procedimiento muy claro a la hora de entender cómo se obtienen las comunidades.

Flexible: fácil de combinar con otras técnicas. - Genéricos: No es ni ad-hoc, ni depende de objetivos específicos .

Escalable: es capaz de manejar cantidades cada vez mayores de nodos de una manera ágil. - Arquitectura multi -bloque: loe bloques de la arquitectura se pueden sustituir por otros módulos que realicen una función similar.

- Eficiencia: los reducidos tiempos de cálculo permiten trabajar casi en tiempo real.

- Enlaces ponderados: este método tiene en cuenta la fuerza de la comunicación entre los individuos.

BREVE DESCRIPCIÓN DE LAS FIGüRAS

Figura 1,- Muestra el diagrama de flujo del procedimiento general de la invención.

Figura 2.- Muestra el diagrama de flujo de un procedimiento de detección de diques.

Figura 3.- Muestra el diagrama de flu o de un procedimiento de fusión de comunidades y grupos sociales.

Figura 4.- Muestra un ejemplo de realización de la fusión de una comunidad.

Figura 5.- Muestra un procedimiento de inclusión de miembros asociados.

Figura 6.- Muestra un ejemplo de realización de una inclusión de un miembro asociado.

DESCRIPCIÓN DE UN EJEMPLO DE REALIZACIÓN

Seguidamente se realizan, con carácter ilustrativo y no limitativo, una descripción de un ejemplo de realización de la invención, haciendo referencia a la numeración adoptada en las figuras.

El primer bloque ¡1) de la figura 1 construye el grafo social que representa a los individuos y sus relaciones sociales, extraídas a partir de diferentes fuentes de datos .

Las entradas para este bloque son los datos que describen un conjunto "I" de interacciones sociales, capturadas desde cualquier fuente que proporcione información de interacciones sociales entre individuos: lo que los individuos interactúan, cuando ocurre esta interacción, y los atributos de la interacción como el tipo (por ejemplo, por teléfono, SMS, correo electrónico, reuniones) o la ubicación. Cada interacción "/ G /" puede ser descrita por una tupia (vi, V_j , t , pi, .. , p_n) , donde "vi" y "v " son dos individuos interactuando, "t" es el momento en que ocurrió esta interacción, y "pi, ..,p_n" son las propiedades de la interacción, como el canal de comunicación o la localización de la información.

La salida de este bloque funcional es un grafo ponderado y no dirigido "G=(V,E)" que representa la red social extraída de los datos de la interacción recibidos como entrada. En este grafo, "V" es el conjunto de vértices o nodos, que corresponden a los usuarios o individuos, y "E contenido en "v² " representa el conjunto de los enlaces de la gráfica, representando las relaciones sociales entre los individuos. Para cada enlace (vi,V_j) se define un peso o fuerza de la relación.

Teniendo en cuenta el conjunto de interacciones que se reciben como entrada, se denotará como ⁿt_m±_ri" el momento en que ocurre la primera interacción, es decir "^Ύ = (v_i,V_j,t,p_i,..,p_v) El,t≥t_min" , Y "t_max" el momento en que ocurre la última interacción, es decir,

"V γ = (v_itV_j,t,Pi, .. , p_n) £ /,t < t_max" . Se divide el intervalo de tiempo " [tminr t_max] "^', correspondiente al período de observación, en un número finito "d" de intervalos o períodos de igual duración, con d≥l .

Sin embargo, el período de observación puede no ser continuo, por ejemplo, se han observado interacciones en dos meses no consecutivos, o se quiere dividir el período de observación en intervalos de diferente duración. Por estas razones la invención permite dividir el conjunto de datos de interacción en intervalos de tiempo.

Teniendo en cuenta el conjunto de interacciones "I" y la partición del periodo de observación en intervalos "d", los enlaces que representan las relaciones sociales se obtienen mediante la aplicación de una función sobre el número de interacciones sociales entre cada par de vértices (personas) por cada periodo de tiempo, y las propiedades de tales interacciones. Esta función puede aplicar diferentes pesos a las interacciones en diferentes intervalos de tiempo. De esta manera, los datos históricos pueden ser ponderados de manera que las interacciones más antiguas son menos relevantes que las recientes.

Se denota "I (vi, V_j , r) contenido en I" al subconjunto de las interacciones entre dos individuos "(vi,V )", durante el intervalo de tiempo "r". Se define una función arbitraria en este subgrupo de interacciones que asigna un valor de fuerza para la relación social entre los individuos y, en este periodo de tiempo, basado en las interacciones que se han producido. Esta función "5_t: V_xV_x[0,d]→[0,NM] " puede definir la fuerza de la relación, por ejemplo como el número total de las interacciones sociales de cualquier tipo entre "(vi,V )" en el intervalo considerado, como el número de correos electrónicos intercambiados, o utilizando cualquier otra función arbitraria sobre el conjunto de las interacciones entre los individuos considerados, posiblemente teniendo en cuenta las propiedades de estas interacciones.

Sobre la base de esta función, se define la función de la fuerza general, que combina los valores de para "5_t" todos los intervalos de tiempo definidos:

S{vi,Vj) = S_t(v_i, v_j, 0). w_o +••• + 5_t (i7¿, i7_y, d). w_d

De esta manera, el valor de un enlace varía de 0 a "NM", siendo 0 la ausencia de relación social entre dos individuos en la definición de relación social dada por las funciones "S_t" y "S".

Se distinguen dos tipos de relaciones, dependiendo de la fuerza de la relación social. Se denomina "relaciones fuertes" a las relaciones "(vi,V_j)" tal que "S (vi, V_j )≥ " , donde "a" es un umbral configurable, y se denomina "relaciones débiles" a aquellas cuya fuerza definida por la función "S" está por debajo de este umbral "a". Intuitivamente, las relaciones débiles representan las interacciones ocasionales entre cada par de individuos y las fuertes corresponden a interacciones frecuentes y permanentes. Se denota como "-E_s" el subconjunto de "E" cuyas relaciones son fuertes, y como ⁿE_w" el subconjunto de "E" cuyas relaciones son débiles, de tal manera que "E= E_S\ E_W

En el segundo bloque (2) de la figura 1, se construyen las comunidades "semilla" que tienen al menos 3 miembros, es decir, grupos de personas para las que se tienen, de la red social construida, la mayor evidencia posible de su conexión social. Estas comunidades, dadas por lo que definimos como "diques fuertes", constituyen el núcleo de las comunidades que se encuentran en las etapas subsiguientes.

La entrada para este bloque (2) de detección de diques es el grafo social ponderado "G=(V,E)" que representa las relaciones sociales entre los individuos.

La salida de este bloque es el conjunto "L" de "diques máximos", posiblemente serán también diques fuertes solapados que se encuentran en el grafo social "G". Un dique en la teoría de gratos es un subgrafo (o un subconjunto de vértices) "Q contenido en G", en el que cada vértice "viGQ" está conectado a todos los otros vértices "v_jGQ", es decir, "Vt>¿, v¡ E Q(v_it v) E E" . El tamaño de un clique "Q", que se denota ^{es e}l número de vértices que contiene y en una realización preferente son 3 miembros como mínimo.

La razón de buscar diques en este paso es que los diques son los grupos de vértices más fuertemente conectados que se pueden encontrar en un grafo, es decir, son los grupos de personas para las que se puede observar la posible conexión social más fuerte. Sin embargo, en el grafo ponderado aquí calculado, el peso de un enlace representa la fuerza de la relación social. Por lo tanto, se puede pensar en una definición más detallada del clique que tenga en cuenta esta fuerza.

En particular, se define un "clique fuerte", "Q_s contenido en G", como un subgrafo en el que cada vértice "viGQ_s" está conectado a cada otro vértice "vj£Q_s", con una relación fuerte como la descrita más arriba, es decir, "Vv_itVj E Q_s(_Vi,Vj) E E" donde "G=(V,E)" y ^ΛΈ= E_SJE„" .

El objetivo es encontrar diques fuertes máximos, es decir, los diques fuertes cuyos vértices no están contenidos en un único clique de mayor tamaño, permitiendo que estén solapados, es decir, el mismo vértice puede pertenecer a más de un clique fuerte.

Dado un clique fuerte "Q_s" y un vértice "vi" exterior a "Q_s", se establece "vi" como susceptible de ser añadido si el subgrafo resultante de sumar "vi" a "Q_s (Q_SU { vi } ) " es también un clique fuerte de "G" . De esta definición, se deduce que un clique máximo es un clique con el mayor número posible de vértices porque no tiene más vértices susceptibles de ser añadidos. El objetivo de la extracción de estas comunidades altamente conectadas es encontrar los núcleos de las comunidades de alto nivel. Estos diques se fusionarán en pasos posteriores, dando lugar a grandes comunidades. Además, es importante señalar que no se hace uso de las "relaciones débiles" en esta fase porque el objetivo principal es obtener todos los circuios sociales fuertes de cada cliente, encontrando todos los diques máximos de cualquier tamaño.

En principio, se puede emplear cualquier algoritmo para la detección de diques solapados, obteniendo un conjunto "L" de todos los diques máximos fuertes que se encuentran en el grafo.

En una realización preferida de la invención, se ha elegido el presente algoritmo para la detección de diques máximos y que posiblemente se solapen:

1. Considerar un conjunto vacio "L = 0", que contendrá los diques máximos siendo dichos diques máximos aquellos cuyos enlaces están contenidos en "E_s" (7).

2. Considerar un subgrafo, "G¿ <Ξ G" , que corresponde al grafo social del usuario "i" y la matriz triangular, "M¿" asociada a "G¿".

3. Para cada nodo, iterativamente, observar el nodo vecino en "M¿" mientras haya más nodos sin explorar.

3.1. Considerar un posible dique (8) — G¿" y un conjunto de nodos, denotados como "P <Ξ V" , cuyos nodos podrían pertenecer también a Q" porque también son vecinos de cada nodo Vj" contenido en Q" :

WiEP/Vi t QAV_Í ~ Q→ Q = Q U {v_t}

3.2. Si "Q" no tiene vértices que se le puedan unir, "P = 0", entonces es un dique → "L = L U Q" (9). 3.3. Por otro lado, para cada vértice susceptible de ser unido, "v¡ <Ξ P / v¡ ~ Q"→ se añade recursivamente a "Q", "Q = Qu{vJ" .

3.4. Eliminar de "P" " t>¿ " y cualquier otro vértice Vj " que no sea vecino de "t>¿ " .

4. Repetirlo hasta que no queden más nodos en "P" (10) .

5. Si la condición de parada no se cumple ir a 3.) e incrementar un contador.

Se aplica una función de poda que evita todas las rutas que ya han sido exploradas ignorando los enlaces que parten de nodos ya analizados. Por lo tanto, no hay enlaces que se exploren dos veces. El algoritmo iterativamente explora el grafo buscando nuevos diques y actualizando las relaciones entre los contactos. El proceso termina cuando todos los enlaces han sido analizados y se obtiene en "L" la lista de diques máximos encontrados (11) . El algoritmo no extrae combinaciones de nodos para un vértice "vi" con otro vértice "v " con un valor de seguridad inferior ya que estos nodos han sido previamente generados por "v "

En el tercer bloque (3) de la figura 1, una vez que las comunidades más cohesionadas (los núcleos de las comunidades) han sido encontradas, se lleva a cabo uno o más pasos de fusión de diques y comunidades para crear comunidades de más alto nivel y de mayor tamaño.

El bloque opera de forma iterativa. En la primera iteración, los núcleos de comunidades (diques) son analizados, dando como resultado comunidades formadas por la fusión de 2 o más diques asi como las comunidades que no han podido fusionarse. Las comunidades que se obtienen son la entrada para las iteraciones posteriores. En cada iteración, se tratará de fusionar las comunidades anteriormente encontradas. Este proceso continuará hasta que una condición de parada (4) se cumpla. La entrada para la fusión de comunidades es el conjunto "_¾" que contiene las comunidades encontrado en el segundo bloque (2) . En la primera iteración del proceso de fusión de la comunidad "0±=L", es decir, la entrada es el conjunto diques fuertes máximos encontrados en "G" en el segundo bloque (2) .

La salida es un conjunto de comunidades de mayor nivel ^ηΩ±₊ι", como resultado de la fusión de las comunidades de "£¾"·

En este paso, el objetivo es encontrar las comunidades en el conjunto "_¾" que se puede combinar en una sola comunidad. Para decidir qué comunidades son susceptibles de tal fusión, se ha definido un criterio medible y configurable que le da al usuario control sobre qué restricciones se imponen para formar comunidades de mayor nivel. Este criterio se basa en la definición de una función de cohesión.

Se denotan como "C_a" y "C_b" dos comunidades de "Di". Se denota C_aUb = C_a U C_b la comunidad resultado de la unión de todos los vértices de "C_a" y "C_b".

Se emplea la variable "v" para indicar el número de vértices que aparecen en la nueva comunidad como resultado de la fusión de "C_a" y "C_b" y la variable "e" para denotar la suma de las fuerzas de los enlaces entre los vértices de "C_aUb" , teniendo en cuenta las relaciones fuertes y débiles, es decir "e =∑_ViiVjEc_aub ^s(^v V_j)" .

Se denota "h" el número de enlaces posibles entre los vértices de una comunidad "C_aUb" , definido por "/i = ^{e m vt}" .

Siendo "m" el número de enlaces con una fuerza igual a cero y "vt" una constante configurable que se utiliza para penalizar dichos enlaces.

Se calcula la cohesión utilizando la siguiente función : e— m * vt

cohesion(C_kUj) =

Se puede observar que el valor de la cohesión de una comunidad va de "-m*vt" a 1. Sin embargo, como las comunidades están densamente conectadas, el valor más bajo no se alcanzará, mientras que el valor superior sólo puede ser obtenido por un clique. Dado que todos los diques máximos fueron detectados en el bloque anterior (2), la cohesión entre cualquier par de las comunidades nunca alcanzará el valor 1.

Una vez que la función de cálculo de la cohesión de una comunidad se ha introducido, se puede definir en detalle el funcionamiento de la fusión de comunidades como sigue :

1. Inicializar el conjunto de salida "Ω±₊ι= 0 " . Este conjunto almacenará las comunidades como resultado de la iteración de la fusión de la comunidad.

2. Para cada comunidad "C_j£.Qi :

2.1. Seleccionar el conjunto "Ui_j contenido en Ω±" de todas las comunidades que incluyen algún vértice de "C₃" (13),

3v_k, v_k £ C¿ Λ v_k £ C¡ H C¡ E Ui_j

2.2. Calcular la cohesión del resultado de la fusión de "C_j" con cada comunidad de "Ui_j", y seleccionar las comunidades de "Ui_j" en las que la comunidad resultante de la fusión con "C_j" presenta valores de la función cohesión por encima de un umbral "h" definido por el usuario. Estas comunidades compondrán el conjunto "Vi_j" (14) ,

cohesión^ C_feu ) > h <→ C_k £ V¿

2.3. Construir (15) un grafo "Gi_j= (Vi_j , Ei_j ) ", donde los vértices son las comunidades de "Vi_j", y hay un enlace entre dos comunidades, si la cohesión de la combinación de estas comunidades está por encima del umbral "h", es decir, (C_fe,C_¿) E E_tj <→ cohesion(C_kJl)≥ h . Un ejemplo de este grafo se muestra en la figura 4.

2.4. Encontrar (16) el conjunto "Li " de diques máximos y posiblemente solapados en el grafo "Gi " .

Cada clique de "Li " está definido por dos o más comunidades en "_¾", y define una nueva comunidad resultante de la fusión de dichas comunidades.

2.5. Añadir los elementos de "Li " al conjunto de salida " Ω_£+1: H¿₊₁ = n¿₊₁ U L¿ ' . Si "Li_j " está vacio, n¿₊₁ = H¿₊₁ U C_j . Dado que el mismo "clique" de comunidades puede ser detectado en varias ocasiones, sólo una copia de cada nueva comunidad se mantiene en el conjunto "n¿₊₁". Como resultado se obtienen comunidades de más alto nivel.

La fusión de las comunidades se ejecutan de forma iterativa hasta que se alcanza la convergencia, es decir, hasta que tengamos "Ω±₊ι=Ω±". Dependiendo del dominio de aplicación, las condiciones de parada pueden ser definidas de diferentes maneras, como por ejemplo, la fijación de un número determinado de iteraciones.

La figura 4 muestra un ejemplo del procedimiento de fusión arriba descrito con cuatro comunidades, donde Cl (17) es la comunidad que se está estudiando. C2 (18), C3 (19) y C4 (20) son las comunidades que han alcanzado el umbral establecido, "h", con Cl . A continuación, se define la fuerza de las relaciones entre ellos mediante la aplicación de la función de cohesión. Se considera el umbral "h" y se "elimina" el resto de los enlaces que no lo alcancen. Existen enlaces entre los miembros C2 y C3. Sin embargo, como la función de cohesión de la fusión de C2 y C3 no produce un valor mayor o igual que el umbral "h", estas comunidades no se consideran como candidatas para la fusión. Se sigue el mismo razonamiento para C2 y C4. Una vez que se ha determinado la relación entre ellos, se aplica el algoritmo de dique y se obtienen dos comunidades de más alto nivel: (Cl, C2) y (Cl, C3, C4).

En el quinto bloque (5) de la figura 1, se lleva a cabo la inclusión de individuos (miembros asociados) que no estén previamente incluidos en al menos "N" comunidades porque no tengan una comunicación lo suficiente fuerte con los demás individuos de las comunidades. Sin embargo, estos individuos pueden tener muchas comunicaciones débiles que deben ser consideradas. Para asociarlos a las comunidades que correspondan, se deberán analizar las comunidades que están muy relacionados con ellos ya sea a través de relaciones fuertes como débiles.

Los parámetros de entrada para este bloque son el conjunto que contiene las comunidades encontradas y el grafo social ponderado "G=(V,E)" descrito anteriormente.

En cuanto a la salida del bloque, se obtiene un conjunto de miembros asociados "Wi " , para cada comunidad " Ci " en "_¾", que contenga los miembros que pueden estar asociados a "<¾" que además cumpla una limitación en función de una constante de intensidad.

En primer lugar se deben evaluar los vértices con el fin de decidir si pueden o no pueden ser incluidos como miembros asociados de una comunidad existente. La decisión se tomará de acuerdo a un criterio basado en la definición de una función de intensidad, la cual se detalla más adelante .

Tomando un nodo "v_k£ V" del grafo "G", y " Ci GDi " ser una de las comunidades de mayor nivel encontrado en la sección 3.3. Se define "N_k=N(v_k)", como el conjunto de nodos vecinos de "v_k", es decir, el grupo de vértices E V" , conectados a "v_kVm/ (vk,vm) E E" .

La diferencia se estará formado por los vértices de " Ci_j " que no están en "N_k" : "Dif ((¾ , N_k) = Ci_j-N_k" y del mismo modo, se define un conjunto con los vértices comunes que pertenecen a "<¾" y a "N_k" : "Inters ( Ci_j , N_k) = C±_j Π N_k" .

Se define además, una variable "ek" para denotar la suma de de la fuerza de los vértices de "Inters (C±_j , N_k) " con el vértice "v_k" : t?¿eInters(Cij,Nk)

El operador "|C|" indicará el número de elementos de la comunidad o conjunto "C".

A continuación se evalúa la intensidad de la relación que mantiene el nodo "v_k" con la comunidad "<¾", utilizando la siguiente función:

, ,

intensidad(y, C_j) =

En función de cuánto se desee penalizar la falta de comunicación, entonces se varia la variable "const". Cuanto mayor sea su valor, más restrictiva es la inclusión de miembros asociados en las comunidades.

Se deduce fácilmente que los valores de intensidad van desde, "-const", lo que significa una relación nula del vértice "v_k" con la comunidad "<¾", a "1", siendo la relación máxima del vértice con la comunidad.

El procedimiento para la inclusión de los miembros asociados es el siguiente:

1. Para cada comunidad " C_j £ Ω±" se crea un conjunto de miembros asociados "W_j " (21) de la comunidad " C_j " e inicializarlo como un conjunto vacio "W_j=0". 2. Para cada vértice "v E V" que pertenezca a no más de "N" comunidades :

2.1. Seleccionar (22) el conjunto "Ψ" contenido en de todas las comunidades que incluyen algún vértice de "N(v)", nodos vecinos de "v", y que no incluyen el vértice "v" .

2.2. Calcular (23) la intensidad que el vértice "v" mantiene con cada comunidad en "Ψ", y seleccionar las comunidades cuyos valores de intensidad por encima de un valor umbral "τ" tal que:

Intensídad( , Cf)≥ τ

2.3. Añadir (24) el vértice "v" a los "W_j" cuya "j" cumpla la inecuación del punto 2.2.

La figura 6 muestra un ejemplo de cómo funciona este procedimiento de inclusión de dyads . Se establece "0" como el valor para " const" , y "0.6" como umbral "t". "n" (27) es el nodo que se observa, por lo que "N_n" será el conjunto de nodos vecinos, y "Ci" (25) y "C₂" (26) son las comunidades que pertenecen a "Ψ" (2.1) . Se evalúan las intensidades y se ve cómo "Inters (N_n, Ci) " está formado por un solo vértice y "Dif(Ci,N_n)" consta de dos nodos, de modo que:

1 - const * 2

Intensidad(n, Cj = = 0.333 < t

También se evaluará la posible inclusión del vértice "n" (27) en la comunidad "C2", "Inters (N_n, C2) " está formado por dos vértices, mientras que "Dif (C₂, N_n) " contiene un solo nodo. Si suponemos que el valor de la fuerza del enlace "s" es de 0,9:

(1 + 0.9) - const * 1

Intensidad(n, C₂) = = 0.6333 > t

Por lo tanto, se concluye que el vértice "n" (27) será incluido como miembro asociado en la comunidad "C₂" (26), pero no en la comunidad "Ci" (25) . En el sexto bloque (6) de la figura 1 se lleva a cabo la inclusión de dyads . Un dyad, en sociología, se describe como un grupo de dos personas conectadas. Un dyad es el grupo social más pequeño posible. Este tipo de comunicación es muy frecuente en muchas redes sociales, creándose islas a veces, y hubs o conectores de comunidades más grandes en otros casos.

Incluir los dyads en el segundo bloque (2) de la figura 1 como diques de tamaño 2 resulta en una cantidad realmente enorme de comunidades que serán la entrada del tercer bloque (3) aumentando la carga computacional de este bloque enormemente.

Por lo tanto, si se quiere considerar comunidades de dos miembros, se hace necesario un post-procesamiento que se llevará a cabo para analizar cada dyad y determinar si se encuentra en una comunidad más grande y en caso de que no esté contenido, se almacena el dyad como una comunidad de tamaño 2.

El enfoque de la presente invención, es diferente al de otras invenciones del estado del arte, porque en primer lugar, se detectan diques (comunidades densamente conectadas) y se combinan para obtener comunidades de mayor nivel teniendo en cuenta para ellos el peso de los enlaces y conseguir así comunidades cohesionadas. Esto permite que los vértices de tener conectados a "amigos de amigos" sólo cuando el número de vértices no directamente conectados es irrelevante. La invención supone que "los amigos de mis amigos no siempre son mis amigos" cosa que si hace las técnicas n-cliques y n-clan. Es crucial tener en cuenta el volumen de comunicación entre los vértices porque a veces la cohesión total de la comunidad permitirá a algunos vértices pertenecer a dicha comunidad incluso cuando algunos nodos de la citada comunidad no estén conectados a este nuevo nodo. La invención supone que la comunidad es lo suficientemente compacta como para asumir que pueda haber otras fuentes de comunicación entre estos vértices.

A pesar de que los diques tengan los valores deseados de densidad y la ruta más larga entre cada par de nodos, deben cumplir una restricción muy estricta ya que todos los nodos deben estar vinculados con el resto de nodos de dicho dique .

Claims

REIVINDICACIONES

1.- Método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo, donde dichas comunidades están formadas por individuos, donde un usuario establece previamente unos parámetros de configuración, estando dichos parámetros definidos en un rango: d≥l, NM≥2, j>0, 0≤const≤l, 0≤vt≤l, ≥0 τ>0, donde se define un clique como un subgrafo completamente conectado, en el que cada vértice, que representa a un individuo, está conectado mediante enlaces, que representan una interacción social entre los individuos que conectan, al resto de individuos que conforman el subgrafo, caracterizado porque comprende las siguientes fases:

1) construir un grafo social a partir de la información obtenida de cada interacción social entre pares de individuos pertenecientes a una misma red social asignando un peso a cada enlace entre pares de individuos, representando dicho peso una fuerza del enlace definida como la intensidad de la interacción social entre cada par de individuos del grafo social calculada en base a la cantidad de interacciones sociales entre cada dicho par de individuos;

2) analizar y detectar unos diques existentes en dicho grafo social, siendo dichos diques comunidades completamente conectadas, formadas por al menos 3 individuos y siendo los enlaces entre dichos individuos aquellos que presentan un valor de fuerza del enlace por encima del parámetro "a"; y,

2.- Método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo, según la reivindicación 1, caracterizado porque la fase de construir un grafo social, donde se tiene como entrada un conjunto "I" de datos relativos a interacciones sociales entre usuarios y donde cada interacción es definida como "γ" perteneciente a "I" y donde dicha "γ" se describe como una tupia ( vi , Vj , t, pi , . . , p_n ) donde ⁿv±" y ν ' son dos individuos cualesquiera que interactúan entre si, "t" es el momento en que dicha interacción social ocurre y ⁿpi, .. ,p_n" son las propiedades de la interacción social, comprende los siguientes pasos:

- comparar los valores "t" de cada interacción social e identificar un t_m±_n" como el momento en el que ocurre la primera interacción social y un "t_max" como el momento en el que ocurre la última interacción social;

- asignar un valor de la fuerza del enlace, comprendido entre "0" y "MVf", a los enlaces entre individuos mediante una función S(v_it Vj), que combina los valores de una función "5_t" para cada intervalo de tiempo "d", definida por:

S{vi,Vj) = S_t(v_i, v_j, 0). w_o + - + S_t(v_i,Vj, d). w_d

y donde,

d siendo S_t:V_xV_x [0,d]→ [0,ΝΜ] la función que define el peso de un enlace entre dos individuos en cada uno de los "d" intervalos de tiempo en que se divide [t_mi_nr tmaxl y siendo definido "w_r " por el usuario;

- crear un conjunto de enlaces fuertes, denominado ".E_s", con los enlaces cuyo valor de la fuerza del enlace está por encima de "a",

- crear un conjunto de enlaces débiles, denominado "E„", con los enlaces cuyo valor de la fuerza del enlace está por debajo de "a"; y,

- generar un grafo social, con los valores de fuerza del enlace obtenidos, G=(V,E) donde "V" es un conjunto de individuos del grafo y contenida en "y²" es un conjunto de enlaces del grafo social que se establecen entre los individuos como resultado de la unión de los conjuntos "E_s" y "E„" .

3. - Método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo, según la reivindicación 2, caracterizado porque la fase de seleccionar diques, dado como parámetro de entrada el grafo G=(V,E), comprende los siguientes pasos:

• crear un conjunto vacio, denominado "L";

• almacenar dichos diques en "L".

4. - Método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo, según cualquiera de las reivindicaciones anteriores, caracterizado porque la fase de fusión de diques que se realiza de manera iterativa, habiendo previamente creado el conjunto vacio ⁿQ±+i" con ί:0...Μ y siendo "M" el número de iteraciones realizadas y donde como parámetros de entrada es empleado el conjunto de diques máximos "L" detectados en la fase 2) definiendo en la primera iteración de la fase de fusión de diques Qo=L, comprende las siguientes etapas:

- seleccionar, para cada comunidad "Cj" perteneciente a "Ωί", un conjunto "í¾" contenido en de todas las comunidades que incluyen algún individuo de "Cj";

- calcular un valor de cohesión del resultado de fusionar "Cj" con cada comunidad de "í¾" mediante una función definida como:

e— m * vt

cohesion(C_kUj) =

donde "C_kuj" es la comunidad resultado de unir la comunidad "C," con "C_k" , siendo " C_k" una comunidad perteneciente a "ί¾", "z" es el número de individuos de "C_kuj" , "e" es la suma de los valores de fuerza de los enlaces entre los individuos de "C_kuj" , "m" el número de enlaces con un valor de la fuerza de enlace igual a 0 y "h" el número de enlaces entre ambas comunidades calculado mediante la función:

- crear un conjunto y almacenar en las comunidades seleccionadas en la etapa previa y realizar las siguientes subetapas para cada comunidad de "Vi_j" e incrementar el contador "i" con cada iteración hasta que se cumpa una condición de parada: o construir un grafo G±_j= (V±_j ,E±_j) donde los vértices son las comunidades de y el conjunto de enlaces entre dichas comunidades;

o detectar los diques contenidos en ⁿG±_j", siendo dichos diques máximos aquellos diques cuyos enlaces están contenidos en E_s" y que no están contenidos en otros diques de mayor tamaño, mediante un algoritmo de detección de diques y donde los vértices de dichos diques son las comunidades de "Vi_j";

o almacenar las comunidades resultantes en un conjunto, ⁿL±_j"; y,

o añadir dichas comunidades contenidas en L±_j" al conjunto "Ω_ί+1" .

5.- Método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo, según la reivindicación 4, caracterizado porque la fase de inclusión de miembros asociados, donde se emplea como parámetro de entrada que es el conjunto de comunidades resultantes de la fusión realizada en la fase anterior y el grafo G=(V,E), comprende las siguientes etapas:

• crear para cada comunidad "C_j" perteneciente a un conjunto "¡¥ ' donde se almacenan los miembros asociados a cada comunidad, siendo dichos miembros asociados aquellos miembros que presentan enlaces débiles con dicha comunidad) e inicializar cada uno de estos conjuntos como conjuntos vados; y,

• seleccionar para cada individuo, "v" perteneciente a "V", que pertenezca a menos de "W" comunidades, siendo "ΛΓ' un parámetro definido por el usuario, un conjunto contenido en de comunidades que incluyen algún individuo que tengan un enlace con "v" y que no incluyan a ν" y realizar las siguientes subetapas de forma iterativa con cada una de las comunidades "Cj": o crear un conjunto de individuos Dif (Cj ,Ψ) =Cj-W compuesto de los individuos de "Cj" que no pertenecen a ψ" ;

o crear un conjunto de individuos Inters (Cj ,Ψ) =

compuesto de los individuos de "Cj", tal que si están en ψ" ;

o calcular un valor de intensidad de cada individuo "v" con cada comunidad "Cj" mediante la función definida como:

, ,

intensidad(y, C_j) =

donde el parámetro "const" establece la penalización para "no-enlaces" y está previamente definida por el usuario, el valor "Je" es la suma de los valores de la fuerza de los enlaces de los individuos de Inters (Cj,¥) con "v", y donde el operador " | C/ | " denota el número de individuos del conjunto "Cj"; y,

o incluir los individuos "v", para los que el valor de la función intensidad es igual o mayor a un parámetro "r" definido por el usuario, en el conjunto "¡¥j" asociado a la comunidad "Cj" que le corresponda .

6.- Método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo, según la reivindicación 5, caracterizado porque se lleva a cabo una fase de inclusión de dyads, siendo dichos dyads comunidades de dos miembros, que comprende las siguientes etapas:

• detectar comunidades de dos individuos contenidas en el grafo "G" que no pertenezcan a comunidades de más de dos individuos; y, • almacenar dichas comunidades en la lista de comunidades encontradas en el conjunto ^Ω₊₁" .

7. - Método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo, según las reivindicaciones 3 y 4, caracterizado porque el algoritmo de detección de diques, dado como parámetro de entrada el grafo D=(A,B), estando el conjunto A de vértices del grafo seleccionado entre un conjunto de individuos y un conjunto de comunidades y estando el conjunto B de enlaces del grafo seleccionado entre un conjunto de enlaces entre individuos y un conjunto de enlaces entre comunidades, comprende los siguientes pasos:

• seleccionar un subgrafo " D ' contenido en " D" , siendo " i" el grafo de un vértice "i", y una matriz triangular "Μ ' asociada a " D ' , siendo dicha matriz

"Mi" la matriz de comunicaciones entre el vértice "i" y los vértices con los que tiene enlaces, y;

• ejecutar las siguientes subfases para cada vértice de "Mi" con los que tiene enlaces el vértice "i":

o seleccionar un clique "Q" contenido en " i" y un conjunto de vértices, "P" contenido en "A", cuyos vértices son vecinos de los vértices de "Q";

o verificar que la unión de "Q" con cada uno de los vértices de "P" es también un clique;

o añadir los vértices que verifican la fase anterior a "Q"; y,

o incluir "Q" en "L" cuando no queden vértices que añadir a "Q".

8. - Método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo, según la reivindicación 1, caracterizado porque la interacción social entre individuos está seleccionada entre llamadas telefónicas, emails, SMS, MMS, una interacción social electrónica distinta de las anteriores y una combinación de ellas .

9. - Método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo, según la reivindicación 2, caracterizado porque las propiedades de interacción se seleccionan entre el tipo de interacción, el tipo de canal de comunicación y la información de localización .

10. - Método de detección de comunidades en redes sociales masivas mediante un enfoque aglomerativo, según la reivindicación 4, caracterizado porque la condición de parada está seleccionada entre:

• llevar a cabo un número fijo de iteraciones definidas por el usuario, "M"; y,

· que se cumpla que _¾₊ι= Ω±".