Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD, SYSTEM AND COMPUTER PROGRAM PRODUCTS FOR RECOGNISING, VALIDATING AND CORRELATING ENTITIES IN A COMMUNICATIONS DARKNET
Document Type and Number:
WIPO Patent Application WO/2018/109243
Kind Code:
A1
Abstract:
The method according to the invention comprises the steps of: identifying one or more entities (21) located in a darknet (50) taking into consideration information relative to network domains thereof, and collecting information of said one or more entities (21) identified; extracting a series of metadata from the information collected from said one or more entities (21) identified; validating said one or more identified entities (21) with information from a surface network (51), said information coming from a surface network (51) associated with the information collected from the identified entities (21); and generating a profile of each identified entity (21) by correlating the validated information of each entity (21) with data and metadata from said surface network (51).

Inventors:
DE LOS SANTOS VILCHEZ SERGIO (ES)
TORRANO GIMÉNEZ CARMEN (ES)
BIANZINO ARUNA PREM (ES)
Application Number:
PCT/ES2016/070903
Publication Date:
June 21, 2018
Filing Date:
December 16, 2016
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
TELEFONICA DIGITAL ESPANA SLU (ES)
International Classes:
G06F17/30
Foreign References:
US20090204610A12009-08-13
US20080259084A12008-10-23
US7454430B12008-11-18
US8700624B12014-04-15
US20150106355A12015-04-16
US20150120804A12015-04-30
US20120323881A12012-12-20
Other References:
ILIOU C., ET AL.: "Hybrid Focused Crawling for Homemade Explosives Discovery on Surface and Dark Web", IEEE 11TH INTERNATIONAL CONFERENCE ON AVAILABILITY, RELIABILITY AND SECURITY (ARES), 31 August 2016 (2016-08-31), pages 229 - 234, XP033023067
ZULKARNINE AHMED T ET AL.: "Surfacing collaborated networks in dark web to find illicit and criminal content", IEEE CONFERENCE ON INTELLIGENCE AND SECURITY INFORMATICS (ISI), 28 September 2016 (2016-09-28), pages 109 - 114, XP033005765
ODA TETSUYA ET AL.: "A Neural Network Based User Identification for Tor Networks: Comparison Analysis of Different Activation Functions Using Friedman Test", IEEE 19TH INTERNATIONAL CONFERENCE ON NETWORK- BASED INFORMATION SYSTEMS (NBIS), 7 September 2016 (2016-09-07), pages 480 - 487, XP033023999
Attorney, Agent or Firm:
ARIZTI ACHA, Mónica (ES)
Download PDF:
Claims:
REIVINDICACIONES

1. Método para el reconocimiento, validación y correlación de entidades en una red de comunicación oscura, estando el método caracterizado porque comprende:

- identificar, por un sistema de computación (100), una o más entidades (21) localizadas en una red oscura (50) tomando en consideración información relativa a unos dominios de red de la red oscura (50) , y recoger información de dicha una o más entidades (21) identificadas;

- extraer, por dicho sistema de computación (100), una serie de metadatos de la información recogida de dicha una o más entidades (21) identificadas;

- validar, por dicho sistema de computación (100), dicha una o más entidades (21) identificadas con información procedente de una red de la superficie (51), estando dicha información procedente de una red de la superficie (51) relacionada con la información recogida de las entidades (21) identificadas; y

- generar, automáticamente por dicho sistema de computación (100), un perfil de cada entidad (21) identificada mediante la realización de una correlación de la información validad de cada entidad (21) con unos datos y metadatos procedentes de dicha red de la superficie (51).

2. Método según la reivindicación 1 , en donde dicha información recogida de dicha una o más entidades (21) identificadas, previamente a la realización de dicha validación, se almacena en una memoria o base de datos del sistema de computación (100), y en donde dicha información procedente de la red de la superficie (51) incluyendo datos y metadatos se encuentra también almacenada en la memoria o base de datos.

3. Método según la reivindicación 1 , que comprende además:

- comprobar si la información recogida de una determinada entidad (21) y la serie de metadatos extraídos a dicha determinada entidad (21) coinciden con una lista de palabras clave generada a partir de datos adquiridos de unas listas públicas y/o de unos informes generados por dichos operadores especialistas en intervenciones y/o analistas de seguridad; y

- generar, por dicho sistema de computación (100), una alerta si un resultado de dicha comprobación indica que la comprobación ha sido positiva.

4. Método según las reivindicaciones anteriores, en donde dicha correlación se realiza además tomando en consideración información validada de las otras entidades (21) identificadas.

5. Método según las reivindicaciones anteriores, que comprende además realizar un mapeado de al menos algunas de las entidades (21) identificadas con una serie de usuarios, servicios y/o lugares identificados en la red de la superficie (51).

6. Método según la reivindicación 1 , en donde la información recogida de dicha una o más entidades (21) identificadas incluye al menos un archivo de texto plano que contiene la descripción del contenido de una página web en la red oscura (50), un archivo de texto plano que contiene scripts ejecutado en la red oscura (50), un archivo de texto plano que contiene la descripción del diseño gráfico de una página web en la red oscura (50), cabeceras, documentos y/o archivos realizados o intercambiados en la red oscura (50) y/o a través de un protocolo de comunicación en tiempo real basado en texto utilizado en la red oscura (50). 7. Método según la reivindicación 1 , en donde la información procedente de la red de la superficie (51) incluye al menos un dominio de red registrado con un mismo nombre que un dominio de red de la red oscura (50), un nombre de usuario registrado en otro dominio de red o una dirección de correo electrónico registrado en otro dominio de red.

8. Método según la reivindicación 1 , en donde la información recogida de dicha una o más entidades (21) identificadas comprende documentos y/o archivos realizados o intercambiados en la red oscura (50) incluyendo contenido multimedia, comprendiendo el método realizar un filtrado de dicho contenido multimedia de acuerdo a unas políticas de privacidad y cumplimento legal y desactivar preventivamente el contenido multimedia si se cumplen dichas políticas de privacidad y de cumplimento legal. 9. Método según la reivindicación 1 , en donde la información recogida de dicha una o más entidades (21) incluye campos de nombre de usuario y contraseña indicativos de la presencia de información con acceso restringido, comprendiendo el método crear una cuenta en dicha una o más entidades (21), asociar a dicha cuenta creada una contraseña, validar al usuario creado y ejecutar el acceso a la información con acceso restringido. 10. Método según las reivindicaciones anteriores, que comprende además mostrar dicho perfil o perfiles generados a través de una unidad de visualización (103) para su posterior utilización por operadores especialistas en intervenciones en redes de comunicación y/o analistas de seguridad de redes de comunicación.

11. Método según las reivindicaciones anteriores, que comprende además enviar dicho perfil o perfiles generados a un dispositivo de computación remoto para su posterior utilización a través de un interfaz de usuario por operadores especialistas en intervenciones en redes de comunicación y/o analistas de seguridad de redes de comunicación para un posterior análisis de dicha una o más entidades (21) identificadas.

12. Método según las reivindicaciones anteriores, en donde dicha una o más entidades (21) comprenden servicios, aplicaciones y/o usuarios localizados en dicha red oscura (50). 13. Sistema para el reconocimiento, validación y correlación de entidades de una red oscura, comprende:

- una red oscura (50) adaptada para permitir una comunicación anónima de una o más entidades (21) a través de ella;

- una red de la superficie (51); y

- un sistema de computación (100) operativamente conectado con dicha red oscura

(50) y con dicha red de la superficie (51) y que incluye una o más unidades de procesamiento adaptadas y configuradas para:

- identificar dicha una o más entidades (21) localizadas en la red oscura (50) tomando en consideración información relativa a unos dominios de red de la red oscura (50) y recoger información de dicha una o más entidades (21) identificadas;

- extraer una serie de metadatos de la información recogida de dicha una o más entidades (21) identificadas;

- validar dicha una o más entidades (21) identificadas con información procedente de la red de la superficie (51), en donde dicha información procedente de la red de la superficie (51) está relacionada con la información recogida de las entidades (21) identificadas; y

- generar, automáticamente, un perfil de cada entidad (21) identificada mediante al menos la realización de una correlación de la información validada de cada entidad (21) con unos datos y metadatos procedentes de dicha red de la superficie (51).

14. Sistema según la reivindicación 13, que comprende además una memoria o base de datos (105) para al menos almacenar dicha información recogida de dicha una o más entidades (21) identificadas y dicha información procedente de la red de la superficie (51) incluyendo los datos y metadatos.

15. Sistema según la reivindicación 13, en donde dicha una o más entidades (21) comprenden servicios, aplicaciones y/o usuarios localizados en dicha red oscura (50). 16. Producto de programa de ordenador que incluye instrucciones de código legibles por ordenador que cuando se ejecutan en al menos un procesador de un sistema de computación implementan un método según una cualquiera de las reivindicaciones 1 a 12.

Description:
Método, sistema y productos de programa de ordenador para el reconocimiento, validación y correlación de entidades en una red de comunicación oscura

DESCRIPCIÓN

Campo de la técnica La presente invención concierne en general al campo de la seguridad en redes de comunicación. En particular, la invención concierne a un método, sistema y productos de programa de ordenador para el reconocimiento, validación y correlación de entidades en una red oscura, que pueden estar correlacionados con actividades ilegales o sospechosas.

Las siguientes definiciones se tendrán en cuenta en el presente documento: - Red de la superficie: cualquier servicio web o página web que puede indexarse por un motor de búsqueda típico (por ejemplo, Google o Yahoo!)

- Red profunda: cualquier servicio web o página web que no se indexa por motores de búsqueda (por ejemplo, contenido cuyo acceso implique un uso anterior de un cuadro de búsqueda. El rastreo del motor de búsqueda no interactúa con cuadros de búsqueda)

- Red oscura: una pequeña porción de la red profunda que ha sido ocultada intencionadamente y es inaccesible a través de exploradores web convencionales (incluyendo redes anónimas).

- Rastreo: exploración sistemática de una red, usando típicamente un robot/controlador, con el objetivo de realizar una indexación en la red y buscar información.

- Entidad: un objeto (servicio, aplicación o usuario) que se ha identificado en la red y para el que se crea una entrada en la base de datos. Se refiere a dicha entrada en la base de datos como "perfil".

- Metadatos: literalmente, datos acerca de datos. Por ejemplo, un fichero de guión puede incluir metadatos acerca de la hora y zona horaria en la que se ha compilado, o el conjunto de caracteres usados, mientras que una página web puede incluir metadatos acerca del autor, la última fecha de edición, palabras clave eventuales, etc. Antecedentes de la invención Las redes oscuras (por ejemplo Tor) tienen por objeto esconder la identidad de un usuario y la actividad de la red de cualquiera que realice vigilancia de red y análisis de tráfico. Este tipo de redes aprovechan lo que se denomina el "encaminamiento en cebolla", que se implementa mediante encriptación en la capa de aplicación de la pila del protocolo de comunicación, anidada como capas de una cebolla.

Las redes oscuras encriptan datos, incluyendo la dirección de IP de destino, múltiples veces, y los envían a través de un circuito virtual que comprende nodos de reenvío aleatoriamente seleccionados y sucesivos dentro de la red oscura. Cada repetidor desencripta una capa de encriptación para revelar únicamente el siguiente repetidor en el circuito para pasar los datos encriptados restantes a él. El repetidor final desencripta la capa más interna de la encriptación y envía los datos originales a su destino sin revelar, o incluso conocer, la dirección de IP de origen (por lo tanto, los datos originales de los datos se desencriptan únicamente durante el último salto). Debido a que el encaminamiento de la comunicación está parcialmente escondido en cada salto en el circuito de la red oscura, este método elimina cualquier punto único en el que puedan determinarse los pares de comunicación a través de la vigilancia de la red que se basa en conocer su origen y destino.

Algunas soluciones conocidas son:

- Ahmia: Se trata de un motor de búsqueda para contenidos ocultos en la red Tor. El motor usa una búsqueda a texto completo usando datos rastreados de sitios web. OnionDir es una lista de direcciones de servicios conocidos ocultos en línea. Un guión separado recopila esta lista y captura campos de información desde el HTML (título, palabras clave, descripción, etc.). Adicionalmente, los usuarios pueden editar libremente estos campos. Ahmia recopila tres tipos de datos de popularidad: (i) los nodos Tor2web comparten sus estadísticas de visitas con Ahmia, (ii) número de enlaces de retorno WWW públicos para servicios ocultos, y (iii) número de clics en los resultados de búsqueda. A diferencia de la presente invención, Ahmia no extrae metadatos, únicamente extrae datos para motores de búsqueda en dominios .onion, y no analiza entidades de usuario.

- PunkSPI DER: Es un rastreador que usa un guión personalizado que indexa sitios .Onion en una base de datos Solr. Desde allí, se exploran los sitios para encontrar vulnerabilidades en la capa de aplicación. El proceso se distribuye usando una agrupación Hadoop. A diferencia de la presente invención, PunkSPIDER no analiza metadatos y no permite buscar violaciones eventuales de IPR, reputación y marcas. - TorScouter: Es un motor de búsqueda de servicio oculto, que rastrea la red Tor. Cada vez que el rastreador encuentra un nuevo servicio oculto, lo accede, lee e indexa. Cada enlace único en la página se analiza y si se encuentra un nuevo servicio oculto se pasa al proceso de descubrimiento. El sistema analiza y almacena la siguiente información: (i) título de la página, (ii) dirección y ruta .onion, (iii) texto representado desde el HTML, (iv) palabras clave para índice a texto completo, (v) no se descargan adjuntos/imágenes/u otra información descargada y/o indexada. Cada vez que se encuentra un nuevo y desconocido servicio oculto, el proceso de descubrimiento memoriza la dirección, intenta entrar en contacto con él y grabar la dirección, título, contenido textual y última fecha de visualización. Si el servicio oculto está respondiendo a una instancia del rastreador se ejecuta en el servicio. Un proceso secundario indexa en un índice a texto completo el contenido textual de cada página y prepara la búsqueda del propio contenido. TorScouter está limitado a la búsqueda únicamente de texto, título y URL, no incluyendo ningún análisis de los metadatos disponibles. En estas soluciones, se buscan palabras clave dentro del texto, para indexar las entidades identificadas en el motor de búsqueda, mientras que en la presente invención se busca en el texto un conjunto de palabras clave de alertas conocidas, para generar alertas eventuales.

- EgotisticalGiraffe: Esta solución de la NSA permite identificar usuarios Tor (i) detectando solicitudes de HTTP desde la red Tor a servidores particulares, (ii) redirigiendo las solicitudes que provienen desde esos usuarios a servidores especiales, (iii) infectando el terminal de esos usuarios para preparar un ataque futuro a ese terminal, filtrando información a los servidores de la NSA. EgotisticalGiraffe ataca el explorador Firefox y no la propia herramienta Tor. Esto es un ataque "hombre en el lado" ("man-on-the-side") y es difícil ejecutarlo de manera fiable para cualquier organización distinta de la NSA, puesto que requiere que el atacante tenga una posición privilegiada en la red troncal de internet, y haga explotar una "condición de carrera" entre el servidor de la NSA y el sitio web legítimo. Aun así, la des-anonimización de los usuarios permanece posible únicamente en un número limitado de casos y únicamente gracias a un esfuerzo manual. Esta solución tampoco busca metadatos a correlacionar a la entidad, mientras monitoriza en su lugar su actividad en la red oscura. Adicionalmente, la solución requiere una infraestructura compleja y potente. De hecho, una vez que se ha detectado una solicitud de acceso en el límite de la red, la fuente se redirige a una copia falsa del servidor objetivo (que debería tener un tiempo de respuesta más corto que el servicio objetivo original), y el servidor falso inyectará en el dispositivo origen un software maligno, que mantiene la monitorización de la entidad. Asimismo, se conocen algunas solicitudes de patente, por ejemplo, la solicitud de patente US-A1-20120271809 describe diferentes técnicas para monitorizar actividades cibernéticas desde diferentes portales web y para recolectar y analizar información para generar un perfil de entidades maliciosas o sospechosas y generar eventos eventuales. A pesar de que esta solución incluye un rastreador para recopilar información sobre las entidades analizadas, esta solución, a diferencia de la presente invención, apunta a porciones no anónimas de Internet. Asimismo, la solución descrita en esta solicitud de patente US no incluye metadatos extraídos de los datos analizados a través de la identificación de campos específicos.

La solicitud CN 105391585 describe una solución que realiza un rastreo de redes oscuras en la capa de red, buscando la topología de red. Esta solución actúa en la capa de red y no en la capa de aplicación, descubriendo nodos y no servicios y entidades. Como tal, las entidades no están asociadas con ningún metadato.

La solicitud US20150215325 describe un sistema para recolectar datos de solicitudes de información que parece sospechosa y puede representar ataques potenciales a los propios datos e infraestructura. La solución recoge información incluyendo la dirección IP de origen de la solicitud, los datos y metadatos requeridos, el número y el orden de los recursos necesarios, los términos de búsqueda utilizados, etc. La solución descrita en esta solicitud US apunta únicamente a la seguridad de la red, proporcionando herramientas y metodologías para mejorar la seguridad de las redes. Finalmente, la información recogida se obtiene de manera pasiva, recogiendo peticiones de datos, y no rastreando activamente la red.

Se necesitan, por tanto, nuevos métodos y/o sistemas para el reconocimiento, validación y correlación de entidades en una red oscura, de manera que se pueda automatizar la citada correlación de las entidades identificadas, actualmente realizada primordialmente de manera manual.

Exposición de la invención

Para ello, ejemplos de realización de la presente invención proporcionan de acuerdo a un primer aspecto un método para el reconocimiento, validación y correlación de entidades tales como servicios, aplicaciones y/o usuarios en una red oscura tal como Tor, Zeronet, i2p, Freenet u otras, en donde en el método propuesto un sistema de computación comprende: identificar una o más de las citadas entidades localizadas en la red oscura tomando en consideración información relativa a unos dominios de red de la red oscura, y recoger información de dicha una o más entidades identificadas; extraer una serie de metadatos de la información recogida de dicha una o más entidades identificadas; validar, en caso que sea posible, dicha una o más entidades identificadas con información procedente de una red de la superficie, estando dicha información procedente de la red de la superficie relacionada con la información recogida de cada una de las entidades identificadas; y generar, automáticamente, un perfil de las entidades identificadas mediante la realización de una correlación de la información validada de cada entidad con unos datos y metadatos procedentes de dicha red de la superficie.

Por tanto, el objetivo del sistema de computación es triple: Reconocer entidades, validarlas (proporcionarles certidumbre de su nivel de validez), y correlacionar la información para realizar atribución.

El resultado obtenido tiene por objeto facilitar y dar soporte al trabajo de investigación, actualmente realizado habitualmente por operadores expertos de una manera manual (es decir, no automatizada), y que tiene por objeto generar perfiles de las entidades identificadas.

En un ejemplo de realización, la citada correlación se realiza además tomando en consideración información validada de las otras entidades identificadas. Por lo tanto, el proceso de generación de perfiles permite correlacionar entidades a organizaciones, a otras actividades, a servicios y usuarios. Además, se puede realizar también un mapeado de al menos algunas de las entidades identificadas con una serie de usuarios, servicios y/o lugares identificados en la red de la superficie.

La información recogida de dicha una o más entidades identificadas, previamente a la realización de dicha validación, es almacenada en una memoria o base de datos del sistema de computación. Asimismo, la citada información procedente de la red de la superficie incluyendo datos y metadatos se encuentra también almacenada en la memoria o base de datos.

En un ejemplo de realización, se comprueba, además, si la información recogida de una determinada entidad y la serie de metadatos extraídos y asociados a dicha determinada entidad coinciden con una lista de palabras clave generada a partir de datos adquiridos de unas listas públicas y/o de unos informes generados por los operadores especialistas en intervenciones y/o analistas de seguridad, generándose una alerta si el resultado de dicha comprobación indica que la comprobación ha sido positiva. La información recogida de dicha una o más entidades identificadas puede incluir un archivo de texto plano que contiene la descripción del contenido de una página web en la red oscura (por ejemplo un archivo HTML), un archivo de texto plano que contiene scripts ejecutados en la red oscura (por ejemplo un archivo de Javascript), un archivo de texto plano que contiene la descripción del diseño gráfico de una página web en la red oscura (por ejemplo CSS), cabeceras, documentos y/o archivos realizados o intercambiados en la red oscura y/o a través de un protocolo de comunicación en tiempo real basado en texto utilizado en la red oscura (por ejemplo el protocolo IRC).

La información procedente de la red de la superficie, en caso que sea posible, puede incluir un dominio de red registrado con un mismo nombre que un dominio de red de la red oscura, un nombre de usuario registrado en otro dominio de red o una dirección de correo electrónico registrado en otro dominio de red.

En un ejemplo de realización, la información recogida de dicha una o más entidades identificadas comprende documentos y/o archivos realizados o intercambiados en la red oscura incluyendo contenido multimedia. En este caso, el método realiza un filtrado de dicho contenido multimedia de acuerdo a unas políticas de privacidad y cumplimento legal y desactivar preventivamente el contenido multimedia si se cumplen dichas políticas de privacidad y de cumplimento legal.

En otro ejemplo de realización, la información recogida de dicha una o más entidades incluye campos de nombre de usuario y contraseña indicativos de la presencia de información con acceso restringido, comprendiendo el método crear una cuenta en dicha una o más entidades, asociar a dicha cuenta creada una contraseña, validar al usuario creado y ejecutar el acceso a la información con acceso restringido.

En un ejemplo de realización, el perfil o perfiles generados pueden mostrarse a través de una unidad de visualización del sistema de computación para su posterior utilización por operadores especialistas en intervenciones en redes de comunicación y/o analistas de seguridad de redes de comunicación. Asimismo, el perfil o perfiles generados pueden enviarse a un dispositivo de computación remoto, por ejemplo un PC, un teléfono móvil, una tableta, entre otros, para su posterior utilización a través de un interfaz de usuario por dichos operadores especialistas en intervenciones en redes de comunicación y/o analistas de seguridad de redes de comunicación para por ejemplo realizar un posterior análisis de dicha una o más entidades identificadas. Ejemplos de realización de la presente invención proporcionan de acuerdo a un segundo aspecto un sistema para el reconocimiento, validación y correlación de entidades tales como servicios, aplicaciones y/o usuarios de una red oscura. El sistema comprende:

- una red oscura adaptada para permitir una comunicación anónima de dicha o más entidades a través de ella;

- una red de la superficie; y

- un sistema de computación operativamente conectado con a dicha red oscura y a dicha red de la superficie y que incluye una o más unidades de procesamiento adaptadas y configuradas para:

identificar dicha una o más entidades localizadas en la red oscura tomando en consideración información relativa a unos dominios de red de la red oscura y recoger información de dicha una o más entidades identificadas;

extraer una serie de metadatos de la información recogida de dicha una o más entidades identificadas;

validar, si es posible, dicha una o más entidades identificadas con información procedente de la red de la superficie, en donde dicha información procedente de la red de la superficie está relacionada con la información recogida de las entidades identificadas; y

generar, automáticamente, un perfil de cada entidad identificada mediante la realización de una correlación de la información validada de cada entidad con unos datos y metadatos procedentes de dicha red de la superficie.

El sistema preferiblemente también incluye una memoria o base de datos para almacenar la información recogida de dicha una o más entidades identificadas y la información procedente de la red de la superficie incluyendo los datos y metadatos. Otras realizaciones de la invención que se desvelan en el presente documento incluyen también productos de programas de ordenador para realizar las etapas y operaciones del método propuesto en el primer aspecto de la invención. Más particularmente, un producto de programa de ordenador es una realización que tiene un medio legible por ordenador que incluye instrucciones de programa informático codificadas en el mismo, que cuando se ejecutan en al menos un procesador de un sistema informático producen al procesador realizar las operaciones indicadas en el presente documento como realizaciones de la invención. Por lo tanto, la presente invención, mediante el citado sistema de computación que está operativamente conectado con redes de comunicación oscura y de la superficie, puede acceder a datos disponibles no únicamente antes del inicio de una sesión sino también después de la sesión, a diferencia de otras soluciones. Esta funcionalidad enriquece el alcance de rastreo, pudiendo tener acceso a áreas restringidas, que normalmente incluyen más información sustancial.

De igual modo, el sistema de computación, puede recopilar y gestionar una cantidad superior de metadatos que cualquier otra solución conocida, incluyendo diferentes tipos de metadatos. Breve descripción de los dibujos

Las anteriores y otras características y ventajas se comprenderán más plenamente a partir de la siguiente descripción detallada de unos ejemplos de realización, meramente ilustrativa y no limitativa, con referencia a los dibujos que la acompañan, en los que:

La Fig. 1 ilustra esquemáticamente los elementos que forman parte del sistema propuesto para el reconocimiento, validación y correlación de entidades en una red oscura, de acuerdo a un ejemplo de realización preferido.

La Figs. 2 y 3 ilustran esquemáticamente diferentes tipos de información que pueden recopilarse/recogerse de las diferentes entidades de la red de la superficie. La Fig. 2 hace referencia a ejemplos de información recopilada cuando la entidad corresponde a un servicio, mientras que la Fig. 3 hace referencia a ejemplos de información recopilada cuando la entidad corresponde a un usuario.

La Fig. 4 ilustra esquemáticamente un ejemplo de realización de la correlación realizada entre diferentes entidades de la red oscura.

La Fig. 5 es un diagrama de flujo que ilustra un método para el reconocimiento, validación y correlación de entidades en una red oscura según un ejemplo de realización de la presente invención.

Descripción detallada de unos ejemplos de realización

Con referencia a la Fig. 1 , en la misma se muestra un ejemplo de realización preferido del sistema propuesto. Según el ejemplo de la Fig. 1 , un sistema de computación 100 que incluye una o más unidades/módulos 101 , 102, 103, 104, 105, 106, 107, 108 está operativamente conectado a una red oscura 50 y a una red de la superficie 51 para reconocer, validar y correlacionar entidades 21 de la citada red oscura. Según la presente invención las entidades pueden comprender servicios, aplicaciones y/o usuarios. Asimismo, la red oscura 50 puede ser una red Tor, Zeronet, i2p, Freenet, etc.

A continuación se detallaran cada una de las diferentes unidades del sistema de computación 100 según este ejemplo de realización preferido:

- Unidad de Rastreo 101 : Esta unidad toma como entrada un conjunto de dominios (por ejemplo .onion) y gestiona el proceso de rastreo automático. La unidad incluye una memoria caché para almacenar los dominios a explorar y los dominios que ya han sido explorados hasta su siguiente actualización.

- Unidad de Extracción de Datos 102: Esta unidad extrae los datos e información. Integra un sistema de módulo de extensión que permite incluir nuevos tipos eventuales de metadatos a extraer. Incluye un rastreador para conocer qué información es nueva y qué información ya se ha procesado. La unidad de Extracción de Datos 102 incluye una lista de palabras clave de alerta (es decir, una lista generada a partir de listas públicas e intervención de expertos cualificados, que incluye términos correlacionados con pornografía pedófila, drogas y otras actividades criminales). Esta lista se contrasta con los datos y metadatos asociados con las entidades 21. Si el resultado de dicha contrastación es positivo, se establece una alerta para la correspondiente entidad y la entidad se deja en reserva para el análisis, esperando la validación manual de un experto cualificado, para evitar implicaciones legales eventuales o eliminar falsos positivos.

- Unidad de Visualización 103: Se trata de un visualizador e interfaz de búsqueda para los conjuntos de datos con indicación de tiempo almacenados en la base de datos 105.

- Analizador de datos 104: incluye un módulo de integración de patrón (que puede implementarse usando un módulo AMQ), un módulo de indexación de entidad (que puede implementarse usando un módulo SOLR), un módulo seguidor que registra qué información ya se ha procesado y qué información es nueva. Este módulo puede conectarse a fuentes de información externas, incluyendo filtros y listas negras de palabras clave sensibles.

- Base de datos 105: es la base de datos que almacena la información de entidad y toda la información y metadatos asociados.

- Sistema de módulo de extensión 106: es un sistema modular de módulos de extensión, cada uno de los cuales se encarga de la extracción de un tipo específico de metadatos de la red de la superficie 51 (incluyendo los datos y metadatos). El conjunto modular puede extenderse si fuese necesario incluir nuevos tipos de metadatos.

- Unidad de Correlación 107: es la unidad encargada de la correlación de las entidades 21 definidas con datos y metadatos, ambos recopilados a partir de la red oscura 50 y de la red de la superficie 51. Esta unidad se encarga de la correlación entre las entidades 21 y los correspondientes metadatos (esta funcionalidad puede implementarse usando un módulo AnalysIQ, por ejemplo) y entre diferentes entidades 21 (por ejemplo, una entidad enlazada por la otra, mismo conjunto de palabras clave, etc.). Esta unidad 107 puede conectarse a fuentes de información externas, incluyendo bases de datos públicas o filtradas.

- Unidad de Validación 108: es el módulo encargado de la validación de las entidades 21 identificadas a través de datos recopilados desde la red de la superficie 51. Esta unidad puede conectarse a fuentes de información externas, incluyendo bases de datos públicas o filtradas. Una vez que se valida una entidad 21 , se establece una correspondiente indicación "validada" en la base de datos 105.

Para realizar el reconocimiento, validación y correlación, el sistema de computación 100 se conecta a la red oscura 50 y ejecuta un rastreo para identificar a las entidades 21. Por ejemplo, para el caso particular de una red oscura Tor, el sistema de computación 100 empieza desde un conjunto preliminar de dominios, por ejemplo .onion (cola de rastreo inicial), que incluye los dominios recogidos en listas públicas, y recoge la información relacionada para asociarla como entidades 21. Esta funcionalidad se implementa en la unidad de rastreo 101.

La información recogida de la(s) entidad(es) 21 identificad(as) puede(n) incluir un archivo de texto plano que contiene la descripción del contenido de una página web en la red oscura (por ejemplo un archivo HTML), un archivo de texto plano que contiene scripts ejecutado en la red oscura (por ejemplo un archivo de Javascript), un archivo de texto plano que contiene la descripción del diseño gráfico de una página web en la red oscura (por ejemplo CSS), cabeceras, documentos y/o archivos intercambiados en la red oscura y/o a través de un protocolo de comunicación en tiempo real basado en texto utilizado en la red oscura (por ejemplo el protocolo IRC).

La(s) entidad(es) 21 identificad(as) se valida(n), si ello es posible, con información obtenida de la red de la superficie 51 , por ejemplo, un dominio registrado con el mismo nombre (en caso de que éste exista), un nombre de usuario o un correo electrónico registrado en otros dominios, etc. Esta funcionalidad se implementa en la unidad de validación 108.

Con la información recopilada/recogida, el sistema de computación 100 extrae metadatos incluyendo, por ejemplo, URL, dominio, tipo de contenido, cabeceras, títulos, texto, etiquetas, idioma, indicación de tiempo, subtítulos, etc.. Esta funcionalidad se implementa en la unidad de extracción de datos 102. Si se enlazan otros dominios .onion allí, se añaden a la cola de rastreo de la unidad de rastreo 101 , por ejemplo en una forma recursiva, y la(s) entidad(es) 21 resultante(s) estará(n) correlacionada(s) en la base de datos 105.

El contenido extraído desde cada dominio puede incluir contenido multimedia (vídeo e imágenes), que puede tener piratería y contenido con implicaciones legales (por ejemplo, pornografía pedófila). Como tal, esta funcionalidad puede desactivarse preventivamente, dependiendo de las reglamentaciones en vigor. Para ello, en un ejemplo de realización, el sistema de computación 100 realiza un filtrado del contenido multimedia de acuerdo a unas políticas de privacidad y cumplimento legal y desactiva preventivamente el contenido multimedia si se cumplen estas políticas de privacidad y de cumplimento legal.

En el caso de páginas web, el sistema de computación 100 puede detectar si la página analizada es una página de inicio de sesión, como un foro o una red social. La detección se basa en la identificación de campos de inicio de sesión en la página (es decir, campos de inicio de sesión y contraseña). Si se detecta una página de inicio de sesión, se ejecuta automáticamente un procedimiento de gestión de inicio de sesión apropiado, que incluye la creación de una cuenta, su validación y el acceso. Este procedimiento permite al sistema de computación 100 acceder también a información que está disponible únicamente después del acceso, por ejemplo, para un contenido, actualmente no accesible a otras soluciones que no acceden al nivel de información más profundo de la web que requiere un inicio de sesión. Esta funcionalidad se implementa mediante el módulo extractor de datos 102.

Tal como se ha indicado anteriormente, las entidades 21 pueden comprender servicios, aplicaciones y/o usuarios. La información que identifica a una entidad 21 de tipo servicio 200, en un ejemplo de realización, (ver Fig. 2) comprende: nombre de dominio, URL, texto, título, etc. Las entidades 21 se asocian a metadatos tales como un conjunto de caracteres, una página de inicio de sesión (sí/no), enlaces de salida y de entrada eventuales (es decir, enlaces a otras páginas y enlaces desde otras páginas al dominio actual), etiquetas de audio/vídeo, enlaces magnéticos, enlaces de bitcoin, tipos de fichero, alertas, redes sociales en donde se aparece, dominios de registro, una firma, etc.

El texto y metadatos incluidos se pueden contrastar con una lista de palabras clave generada a partir de datos adquiridos de unas listas públicas y/o de unos informes generados por operadores especialistas en intervenciones y/o analistas de seguridad, que incluye términos correlacionados con pornografía pedófila, drogas y otras actividades criminales, generándose una alerta si el resultado de la comprobación indica que la comprobación ha sido positiva. Si la alerta se genera, se deja a la entidad correspondiente en reserva para el análisis, esperando la validación manual de un experto cualificado, para evitar implicaciones legales eventuales o eliminar falsos positivos. Esta funcionalidad se implementa mediante el extractor de datos 102.

Algunos metadatos pueden estar disponibles únicamente para entidades relativas a usuarios 300, mientras que otros metadatos pueden estar únicamente disponibles para entidades relativas a servicios 200. En la Fig. 3 se muestran algunos ejemplos de información que identifica a una entidad 21 de tipo usuario 300. Entre los diferentes datos y metadatos disponibles para cada entidad 21 , un subconjunto de la información representa la información de identificación (212 para entidades de servicio y 309 para entidades de usuario), mientras que el resto de la información representa información adicional (213 para entidades de servicio y 310 para entidades de usuario). Sobre la base de los metadatos almacenados, pueden identificarse similitudes entre entidades 21 (una característica convencional de los motores de búsqueda, que comparten, por ejemplo las etiquetas y palabras clave de diferentes entidades 21), y pueden recopilarse tendencias para análisis (por ejemplo, palabras clave específicas o etiquetas que crecen/decrecen en popularidad, estadísticas acerca de la población del servicio, las tecnologías usadas, etc.). Esta funcionalidad se implementa mediante el módulo analizador de datos 104.

Algunas de las herramientas usadas por el sistema de computación 100 para extraer metadatos y asociarlos a entidades 21 pueden incluir:

- Análisis y clasificación de metadatos genéricos asociados a ficheros de código o binarios de una página web, así como de datos circunstanciales de la propia página web, por ejemplo, fecha de creación.

- Análisis e identificación de contenido de JavaScript/CSS de la página web, es decir, identificación de patrones en el uso de funciones, que pueden representar una singularidad para correlación, es decir, un patrón con baja ocurrencia, que puede por lo tanto ser de ayuda en la identificación de una entidad 21.

- Análisis e identificación de cabeceras, incluyendo cabeceras criptográficas (por ejemplo, hpkp).

- Análisis e identificación de la información criptográfica asociada con la página web (por ejemplo, cifrado y/o certificado).

- Análisis e identificación de ficheros binarios (por ejemplo, jar, apks, exe, flash, etc.), que incluyen metadatos acerca del compilador usado, la zona horaria de la compilación, etc. - Análisis e identificación de la criptografía asociada a ficheros binarios (por ejemplo, firma apk).

- Análisis e identificación de la línea de tiempos asociada a ficheros binarios (es decir, fechas y secuenciación de fecha).

- Extracción de información relacionada con direcciones de correo electrónico y apodos (es decir, herramientas para la búsqueda automática de la existencia de una dirección de correo electrónico en otros dominios de correo electrónico, o herramientas para la búsqueda automática del registro del mismo apodo/ID para redes sociales).

- Extracción de información relacionada con el registro de un dominio (por ejemplo, fecha de registro, dirección de correo electrónico de registro, dirección de IP asociada, etc.) a través de herramientas automáticas (por ejemplo, herramientas de dominio).

- El análisis y procesamiento de lenguaje natural en publicaciones de foros, para correlación (por ejemplo, firmas).

Con referencia a la Fig. 4, en la misma se muestra un ejemplo de realización de la correlación que se realiza entre las entidades 21 identificadas. En este ejemplo, la entidad 21_0 representa un servicio, la entidad 21_1 representa al usuario que registra en el servicio, la entidad 21_2 y la entidad 21_3 representan otros servicios enlazados por la entidad 21_0 y/o que contienen enlaces a la entidad 21_0, mientras que la entidad 21_4 y la entidad 21_5 representan usuarios registrados en una área restringida de la entidad 21_0.

Con referencia a la Fig. 5, en la misma se muestra un ejemplo de realización de un método para el reconocimiento, validación y correlación de entidades en una red oscura. Según este ejemplo de realización, el método extrae información de una entidad 21 a analizar (paso 501) de la red oscura, recopilando información relativa al dominio de red (paso 502). Una vez realizados los pasos anteriores, se crea la identidad de la entidad 21 identificada en la base de datos 105 (paso 503), y se extraen (paso 504) metadatos de la información recogida de la entidad 21 identificada. Luego, paso 505, se comprueba si los metadatos extraídos coinciden con una lista de palabras clave, generándose (paso 506) una alerta en caso que el resultado de la comprobación haya sido positiva. En caso de generarse la citada alerta (paso 507), la entidad en cuestión se deja en reserva para el análisis, esperando la validación manual de un experto cualificado, para evitar implicaciones legales eventuales o eliminar falsos positivos. En caso contrario (paso 508), se añade(n) a la cola de rastreo 101 eventual(es) entidad(es) enlazada(s) desde la entidad 21. Finalmente, se valida (paso 509) la entidad 21 con información procedente de la red de la superficie 51 y se realiza una correlación (paso 510) de los metadatos de la entidad 21 con los datos y metadatos de la red de la superficie 51 , para generar un perfil de la entidad 21.

La invención propuesta puede implementarse en hardware, software, firmware o cualquier combinación de los mismos. Si se implementa en software, las funciones pueden almacenarse en o codificarse como una o más instrucciones o código en un medio legible por ordenador.

El medio legible por ordenador incluye medio de almacenamiento informático. El medio de almacenamiento puede ser cualquier medio disponible que pueda accederse mediante un ordenador. A modo de ejemplo, y no de limitación, tal medio legible por ordenador puede comprender RAM, ROM, EEPROM, CD-ROM u otro almacenamiento de disco óptico, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que pueda usarse para llevar o almacenar código de programa deseado en la forma de instrucciones o estructuras de datos y que pueda accederse mediante un ordenador. Disco (disk) y disco (disc), como se usan en el presente documento, incluyen discos compactos (CD), láser disc, disco óptico, disco versátil digital (DVD), disco flexible y disco de Blu-ray donde los discos (disks) reproducen normalmente datos de forma magnética, mientras que los discos (discs) reproducen datos de forma óptica con láseres. Deberían incluirse también combinaciones de los anteriores dentro del alcance de medio legible por ordenador. Cualquier procesador y el medio de almacenamiento pueden residir en un ASIC. El ASIC puede residir en un terminal de usuario. Como alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en un terminal de usuario.

Como se usa en el presente documento, los productos de programa de ordenador que comprenden medios legibles por ordenador incluyen todas las formas de medio legible por ordenador excepto, hasta el punto que ese medio se considere que no son señales de propagación transitorias no establecidas.

El alcance de la presente invención está definido en las reivindicaciones adjuntas.