Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR FILTERING DIGITAL DATA AND IMPLEMENTING DEVICE
Document Type and Number:
WIPO Patent Application WO/2007/096530
Kind Code:
A3
Abstract:
The invention concerns a method for filtering data in a digital network, the data being routed in a data stream from a host residing in an original geographical region and having an IP address, said method comprising the following steps: for one data stream (a) determining the IP address of said host initiating the data stream (S200); (b) determining from said IP address said host's original geographical zone (S201); (c) performing a filtering (S203, S204) on said data, said filtering being selected among a plurality of filtering actions determined based on a set of filtering criteria including the host's original geographical zone.

Inventors:
GROSS GABRIEL (FR)
Application Number:
PCT/FR2007/000327
Publication Date:
October 11, 2007
Filing Date:
February 23, 2007
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
DOLPHIAN S A (FR)
GROSS GABRIEL (FR)
International Classes:
H04L29/06; H04L12/22
Foreign References:
US20040267886A12004-12-30
US20050169274A12005-08-04
US20030041238A12003-02-27
US6522875B12003-02-18
Attorney, Agent or Firm:
GORREE, Jean-Michel et al. (52 rue de la Victoire, Paris cedex 09, FR)
Download PDF:
Claims:

REVENDICATIONS

1. Procédé de filtrage de données dans un réseau de données numériques, les données en question étant autres que des courriers électroniques, lesdites données étant acheminées dans un flux de données en provenance d'un hôte (5,6) résidant dans une zone géographique originelle et ayant une adresse IP, ledit procédé comprenant les étapes consistant à : pour un flux de données

(a) déterminer l'adresse IP dudit hôte à l'origine du flux de données (S200, S300) ;

(b) déterminer à partir de l'adresse IP la zone géographique originelle dudit hôte (S201, S301) ;

(c) effectuer une action de filtrage (S203, S204, S303, S307) sur les données, ladite action de filtrage étant choisie parmi une pluralité d'actions déterminées sur la base d'un ensemble de critères de filtrage comprenant la zone géographique originelle de l'hôte.

2. Procédé selon la revendication 1, suivant lequel on détermine la zone géographique originelle par la consultation d'une base de données (4) couplant adresses IP et zones géographiques.

3. Procédé selon la revendication 1 ou la revendication 2, suivant lequel le flux de données est acheminé par l'intermédiaire d'au moins un hôte intermédiaire (7) ayant une adresse IP et résidant dans une zone géographique intermédiaire, et suivant lequel on détermine la zone géographique intermédiaire dudit hôte intermédiaire, la zone géographique intermédiaire faisant partie de l'ensemble de critères de filtrage.

4. Procédé selon la revendication 3, suivant lequel

l'ensemble des critères de filtrage comprend la comparaison de la zone géographique intermédiaire et de la zone géographique originelle.

5. Procédé selon l'une quelconque des revendications précédentes, suivant lequel une adresse web de provenance du flux de données comprend un nom de domaine, et suivant lequel l'ensemble des critères de filtrage comprend la comparaison du nom de domaine avec la zone géographique originelle.

6. Procédé selon l'une quelconque des revendications précédentes, suivant lequel au cours de l'étape (c) , on détermine une langue utilisée dans un fichier contenu dans le flux de données, et suivant lequel l'ensemble des critères de filtrage comprend la langue utilisée.

7. Procédé selon l'une quelconque des revendications précédentes, suivant lequel au cours de l'étape (c) , on détermine une langue utilisée dans un fichier contenu dans le flux de données, et suivant lequel l'ensemble des critères de filtrage comprend la comparaison de la langue utilisée avec la zone géographique originelle.

8. Procédé selon l'une quelconque des revendications précédentes, suivant lequel l'ensemble de critères de filtrage comprend en outre des critères de filtrage sur le contenu du flux de données, le contenu comprenant au moins l'un parmi les suivants : format de fichiers, termes contenus dans un fichier, noms de fichiers.

9. Procédé selon l'une quelconque des revendications précédentes, suivant lequel l'ensemble des critères comprend en outre un critère de qualité d'un hôte considéré, suivant lequel on examine dans une base de données si ledit hôte considéré héberge des données, sur

lesquelles une action de filtrage déterminée a été effectuée préalablement.

10. Procédé selon l'une quelconque des revendications précédentes, suivant lequel la pluralité d'actions prédéterminées comprend au moins l'une ou l'autre des actions suivantes : autoriser le passage du flux de données sans ajouter d'avertissement, - autoriser le passage du flux de données en y ajoutant un avertissement, autoriser le passage en alertant un administrateur du réseau numérique, autoriser le passage en enregistrant dans un journal des données concernant le flux de données ou l'utilisateur ayant requis ledit flux de données, modifier le contenu du flux de données, empêcher le passage du flux de données .

11. Dispositif de filtrage (1) de données dans un réseau de données numériques, les données en question étant autres que des courriers électroniques, lesdites données étant acheminées dans un flux de données en provenance d'un hôte (5,6) résidant dans une zone géographique originelle et ayant une adresse IP, ledit dispositif comprenant: des moyens de détection d'adresse IP pour déterminer l'adresse IP dudit hôte à l'origine d'un flux de données considéré ; - des moyens (4) pour déterminer à partir de l'adresse IP la zone géographique originelle dudit hôte ; des moyens de traitement de données pour effectuer une action de filtrage sur les données, ladite action de filtrage étant choisie parmi une pluralité d'actions déterminées sur la base d'un ensemble de critères de filtrage comprenant la zone géographique originelle de

l'hôte.

12. Interface homme-machine adaptée pour mettre en œuvre le procédé selon l'une quelconque des revendications 1 à 10, comprenant une pluralité de zones, correspondant à des zones géographiques, chaque zone pouvant être activées individuellement pour sélectionner une action de filtrage parmi l'ensemble de critères de filtrage.

Description:

PROCEDE DE FILTRAGE DE DONNEES NUMERIQUES ET DISPOSITIF METTANT EN œUVRE CE PROCEDE

La présente invention est relative aux procédés de filtrage de données dans des réseaux numériques et notamment sur Internet .

Plus particulièrement, l'invention concerne un procédé de filtrage de données dans un réseau numérique, les données en question étant autres que des courriers électroniques, lesdites données étant acheminées dans un flux de données en provenance d'un hôte résidant dans une zone géographique originelle et ayant une adresse IP.

Il est connu d'effectuer des filtrages de données ayant pour but la sécurité d'un réseau informatique, notamment relié à internet. Ce type de filtrage peut par exemple se baser sur l'adresse web, ou sur l'URL, ou plus spécifiquement sur le nom de domaine. Par exemple, on peut chercher à limiter l'accès aux sites dont l'adresse web est enregistrée dans une « liste interdite » ou « blacklist ». Cependant, ce type de procédé ne peut permettre un filtrage efficace. En effet, cette liste doit être la plus exhaustif possible et très régulièrement mise à jour. En conséquence, il n'est pas possible de limiter par ce moyen, ou d'interdire efficacement l'accès aux utilisateurs d'un réseau à des flux de données uniquement sur la base du nom de domaine ou de l ' URL .

Il est également connu d'effectuer un filtrage sur le contenu des flux de données. Cependant, cette méthode a besoin d'être renforcée ou affinée. La présente invention a notamment pour but de pallier ces inconvénients.

Un but de la présente invention est de procurer un procédé de filtrage simple permettant un filtrage géographique efficace. A cet effet, l'invention concerne donc un procédé de filtrage de données dans un réseau numérique, les

données étant acheminées dans un flux de données en provenance d'un hôte résidant dans une zone géographique originelle et ayant une adresse IP. Selon l'invention, ce procédé comprend les étapes consistant, pour un flux de données considéré, à (a) déterminer l'adresse IP dudit hôte à l'origine du flux de données ; (b) déterminer à partir de l'adresse IP la zone géographique originelle dudit hôte ; et à (c) effectuer une action de filtrage sur les données, ladite action de filtrage étant choisie parmi une pluralité d'actions déterminées sur la base d'un ensemble de critères de filtrage comprenant la zone géographique originelle de l'hôte.

Grâce à ces dispositions, on peut filtrer de façon efficace les flux de données en provenance d'une zone géographique déterminée. De plus, il est possible de recourir à une base de données couplant adresses IP et zones géographiques pour déterminer la zone géographique originelle. En utilisant une telle base de données en ligne, l'information obtenue est régulièrement mise à jour et plus complète que de recourir à une simple « blacklist » de sites internet qui doivent être évités. En conséquence, on peut généraliser un filtrage à une région déterminée de manière simple.

Par réseau numérique, on peut comprendre tout réseau formés par des terminaux communicant de manière numérique entre eux, comme par exemple un réseau de téléphonie, ou Internet etc.. Dans les exemples décrits par la suite, l'exemple du réseau Internet sera privilégié, même si l'invention peut convenir à d'autres types de réseaux.

Selon une disposition de l'invention, il est possible d'effectuer un contrôle plus fin lorsque des redirections suspectes de flux de données ont été effectuées. Ainsi, lorsque le flux de données est acheminé par l'intermédiaire d'au moins un hôte intermédiaire ayant une adresse IP et résidant dans une zone géographique

intermédiaire, on détermine la zone géographique intermédiaire dudit hôte intermédiaire. Cette zone géographique intermédiaire peut faire partie de l'ensemble de critères de filtrage. En effet, il est courant que des flux de données soient redirigés vers d'autres sites dont l'accès est interdit aux utilisateurs d'un réseau.

De plus, il est possible d'inclure dans l'ensemble des critères de filtrage la comparaison de la zone géographique intermédiaire et de la zone géographique originelle. Cela permet d'avoir une idée sur le trajet d'acheminement des données et si celui-ci peut être considéré comme normal ou suspect. Par exemple, si un site français hébergé par un hôte originel en France voit ses données acheminées via l'étranger. Par ailleurs, pour les mêmes raisons, dans l'ensemble des critères de filtrage, on peut utiliser la comparaison du nom de domaine d'une adresse web (« . fr », « .de », « .uk ») avec la zone géographique originelle.

Ensuite, il est possible d'effectuer une analyse, du contenu du flux de données et plus spécifiquement, de la langue utilisée dans un fichier contenu dans le flux de données. Ceci peut entrer dans l'ensemble des critères de filtrage, notamment si l'administrateur d'un réseau ne souhaite pas donner accès à ses utilisateurs à des sites dans une langue spécifique.

Il est également possible de comparer la langue utilisée avec la zone géographique originelle, ce qui peut être considéré comme suspect si un site web présente dans une page web des textes dans une langue peu utilisée dans la zone géographique originelle.

Ce procédé de filtrage conforme à l'invention est extrêmement efficace s'il est effectué en combinaison avec un filtrage sur le contenu du flux de données. On entend par filtrage de contenu l'examen du contenu des données à l'intérieur du flux. Par exemple, on comprend le format de fichiers, des termes contenus dans un fichier, ou des noms

de fichiers. Ainsi, on peut facilement interdire l'accès à des sites à caractère pornographique ou incitant à la haine raciale.

De plus, il est possible d'ajouter dans l'ensemble des critères de filtrage un filtrage par proximité, qui correspond à un critère de qualité d'un hôte. Suivant ce critère, on examine dans une base de données si ledit hôte considéré héberge des données, sur lesquelles une action de filtrage déterminée a été effectuée préalablement. C'est-à- dire qu'on examine dans la base de données si cet hôte est connu pour héberger par exemple des sites à caractère raciste, qu'il effectue du « spamming ». Si celui-ci est classifié comme étant un « mauvais » hébergeur de sites web par exemple, ou plus simplement si précédemment, des données en provenance de cet hôte ont été filtrées, on limitera ou interdira la transmission des données:

Les actions effectuées sur la base des critères dont on a discutés précédemment peuvent comprendre : autoriser le passage du flux de données sans ajouter d'avertissement, autoriser le passage du flux de données en y ajoutant un avertissement, autoriser le passage en alertant un administrateur du réseau numérique, - autoriser le passage en enregistrant dans un journal des données concernant le flux de données ou l'utilisateur ayant requis ledit flux de données, modifier le contenu du flux de données, empêcher le passage du flux de données . Ces niveaux permettent aux utilisateurs de faire un contrôle simplifié. L'avertissement inséré dans le flux de données peut dans une variante de l'invention par exemple coopérer avec un système de contrôle parental, ajoutant à ce système un deuxième contrôle pour obtenir un résultat plus concluant. De plus, des réactions différentes sont ainsi prévues en fonction du contenu, ou du caractère

involontaire de la requête de ce flux de données (« spamming », ou « pop-up ») .

Par ailleurs, l'invention a également pour objet un dispositif de filtrage de données dans un réseau de données numériques (les données en question étant autres que des courriers électroniques), lesdites données étant acheminées dans un flux de données en provenance d'un hôte résidant dans une zone géographique originelle et ayant une adresse IP, ledit dispositif comprenant: des moyens de détection d'adresse IP pour déterminer l'adresse IP dudit hôte à l'origine d'un flux de données considéré ; des moyens pour déterminer à partir de l'adresse IP la zone géographique originelle dudit hôte ; des moyens de traitement de données pour effectuer une action de filtrage sur les données, ladite action de filtrage étant choisie parmi une pluralité d'actions déterminées sur la base d'un ensemble de critères de filtrage comprenant la zone géographique originelle de l'hôte.

Selon un autre aspect de l'invention, une interface homme-machine adaptée pour mettre en œuvre le procédé selon l'invention est proposée. Cette interface comprend une pluralité de zones correspondant à des zones géographiques, par exemple une carte du monde, chaque zone pouvant être activées individuellement pour sélectionner une action de filtrage parmi l'ensemble de critères de filtrage. Cette interface permet une action rapide de l'administrateur du réseau, par exemple en réponse à une action de « Spam » en provenance d' un pays .

D'autres caractéristiques et avantages de 1 ' invention apparaîtront au cours de la description suivante d'un de ses modes de réalisation, donné à titre d'exemple non limitatif, en regard des dessins joints.

Sur les dessins :

la figure 1 représente de manière schématique un réseau dans lequel l'invention est mise en œuvre ; la figure 2 est un organigramme illustrant un procédé de filtrage conforme à l'invention ; et la figure 3 est un organigramme illustrant une variante du procédé de filtrage de la figure 2. Sur les différentes figures, les mêmes références désignent des éléments identiques ou similaires.

La figure 1 représente de manière schématique un réseau R (dit ici "réseau externe"), dans lequel l'invention est mise en œuvre. Dans ce réseau qui peut être un réseau Internet, un dispositif de filtrage 1, par exemple un serveur de filtrage 1, contrôle les flux de données entrant et éventuellement sortant entre le réseau Internet et un réseau 2 d'ordinateurs qui pourra ici être appelé "réseau interne" . Ce réseau 2 est par exemple un réseau d'entreprise, et les utilisateurs se connectent à ce réseau à partir d'une pluralité de terminaux (par exemple des micro-ordinateurs ou similaires) 3a, 3b et 3c appartenant audit réseau interne 2.

En variante, le réseau interne 2 et le réseau externe R pourraient être des réseaux téléphoniques IP, auquel cas les terminaux 3a, 3b, 3c pourraient être des terminaux téléphoniques. Le cas échéant, le réseau interne 2 pourrait être limité à un seul terminal, qui pourrait éventuellement faire office lui-même de serveur de filtrage.

Le rôle du serveur 1 peut être défini d'abord par un rôle de protection des utilisateurs et du réseau 2, vis- à-vis d'attaques en provenance du réseau Internet. Un second rôle de ce type de dispositif de filtrage est d'empêcher certains utilisateurs des terminaux 3a à 3c du réseau 2, d'accéder à certains types de données. Par

exemple, il est possible d'interdire l'accès à des données à caractère pornographique ou portant atteinte à la morale. De même, certains formats de données peuvent être interdits parce que leur utilisation est déconseillée sur le lieu de travail. On peut par exemple citer les données audio/vidéo consultables en direct (ou en « stream ») , ou le téléchargement de fichiers musicaux.

Selon l'invention, ce dispositif de filtrage 1 propose un filtrage par zone géographique. Pour cela, ce dispositif de filtrage 1 est connecté à une base de données 4 de géolocalisation d'adresses IP (Internet Protocol) . Cette base de données 4 fait correspondre à des adresses IP une zone géographique. Suivant l'application, la taille des zones peut varier, par exemple les zones peuvent être des groupes de pays, des pays, ou encore des régions de pays, suivant la précision requise dans le filtrage.

Le serveur de filtrage permet de filtrer les données en provenance d'hôtes originels, comme des hébergeurs de sites web 5 et 6. Cependant, il s'avère également utile de filtrer les données en fonction d'un hôte intermédiaire 7 chez qui transitent les données.

Suivant le procédé illustré à la figure 2, le dispositif de filtrage 1 détecte l'adresse IP de l'hôte originel (S200) (par exemple l'hébergeur d'un site web auquel un terminal 3a-3c tente d'accéder), en détectant l'origine du flux de données. Le dispositif de filtrage 1 peut alors interroger la base de données 4 afin de connaître la zone géographique dans laquelle réside l'hôte originel, à l'étape S 201. Pour cela, il est possible par exemple d'utiliser une base de données du type GeoIP, qui fournit la correspondance entre adresses IP et pays, cette base de données présentant l'avantage d'être régulièrement mise à jour. En comparaison, il est difficile de tenir à jour une liste de sites à éviter, puisque des noms de domaines ou des URL sont régulièrement créés ou modifiés.

En conséquence, l'avantage de cette solution est de permettre un filtrage en permanence efficace.

Ensuite, à l'étape S202, le dispositif de filtrage vérifie si des instructions particulières ont été fournies quant à la zone géographique de l'hôte originel. Si un utilisateur ou l'administrateur du réseau 2 a configuré le dispositif de telle sorte que la zone géographique correspondant à l'adresse IP originel soit interdite, ou encore à accès limité, le procédé passera à l'étape S203 et bloquera par exemple le passage des données. A l'inverse, si aucun critère limitatif n'est opposé à cette zone géographique, le flux est autorisé.

Comme illustré par la figure 3 , ce procédé peut être amélioré en examinant les hôtes intermédiaires 7, chez lesquelles transite le flux de données. Dans ce cas, les premières étapes du procédé S300 à S304 correspondent respectivement aux étapes S200à S204. Dans le cas où la zone géographique de l'hôte originel n'est pas bloquée par un critère de filtrage, on détecte l'adresse IP de l'hôte intermédiaire à l'étape S304. Si la zone géographique intermédiaire est comprise dans les critères de filtrage, à l'étape S306 on classe alors le flux de données comme étant potentiellement dangereux. L'action alors envisagée est le blocage du flux de données de l'étape S303. II est envisageable de plus de faire une comparaison à l'étape S306 entre la zone géographique intermédiaire et la zone géographique originelle. Cela permet notamment d'avoir une idée sur le trajet d'acheminement des données. Si ce trajet est considéré comme anormal, notamment si les données ont été détournées d'un chemin plus direct, le dispositif de filtrage 1 indiquera que ce flux de données est considéré comme suspect. Il peut alors décider de le bloquer ou non, par exemple en fonction d'autres critères de filtrage. Evidemment, ces méthodes peuvent s'appliquer dans le cas où plusieurs hôtes intermédiaires sont présents.

De plus, il est possible de comparer le nom de domaine, par exemple indicatif d'un pays, et la zone géographique originelle. Par exemple, si l'URL d'un site est terminé par une extension « . uk » alors que l'hébergeur de sites est en Russie ou en Chine, le dispositif de filtrage indique que ce flux de données est suspect. Ce critère supplémentaire permet d'affiner le filtrage, et filtre ainsi des sites web dont le nom de domaine n'est pas légitime. Il est en effet courant que certains sites pouvant porter atteinte à la morale utilisent des noms de domaines faisant penser à de grandes entreprises ou institutions .

En outre, afin de compléter au mieux ce procédé de filtrage, on associe ce filtrage « géographique » à un filtrage de contenu. Par filtrage de contenu, on entend un filtrage portant par exemple sur les termes employés dans les fichiers acheminés et présents sur une page web, ou encore les formats de fichiers . Ceci est efficace particulièrement dans le cas de filtrage pour des réseaux d'entreprise, dans lesquels les utilisateurs n'ont pas le droit d'accéder à certains types de données ou à certains types de sites web. On peut ainsi interdire l'accès à des données fournies en continu, comme de la musique en « stream », proposée par des sites de radio. De plus, dans le cadre du filtrage de contenu, il est également possible de détecter la langue utilisée dans les fichiers transmis . Certaines langues peuvent notamment être interdites . On peut envisager de combiner cette détection de langue et la détection de zone géographique dont on a fait mention plus haut. Si la langue employée dans les données ne correspond pas à la zone géographique dans laquelle est hébergé le site originel, une action de filtrage peut être effectuée comme avertir l'utilisateur que ces données peuvent comprendre un caractère suspect . Cette détection de langue fournit un indice supplémentaire de suspicion qui combiné avec d'autres

critères peut engendrer la non accessibilité des données . On a alors un filtrage plus fin, qui peut reposer non pas sur un unique critère, mais sur une appréciation générale des données . La plupart des critères énoncés précédemment sont indépendants et pourraient être implémentés indépendamment les uns des autres. A l'opposé, il est également envisageable de mettre en place un système de notation, qui sur la base de plusieurs de ces critères, fournira une note de confiance du flux de données. En fonction de la note obtenue, diverses actions de filtrage décrites plus haut pourront être appliquées. Ce système peut de plus prendre en compte des notes éliminatoires par critère, c'est-à-dire des notes pour un critère au dessous desquelles le flux de données est automatiquement arrêté.

Le résultat de cette notation peut être inclus dans une mémoire du dispositif de filtrage, représenté par la base de données 8 de la figure 1, de telle sorte qu'une consultation future des mêmes données pourra être noté directement. Cette variante de l'invention permet une réponse et un filtrage encore plus rapide et efficace.

Cette base de données 8 répertorie la plupart des sites ou des flux de données gérés par le dispositif de filtrage et qui ont été stoppés ou bien pour lesquels un avertissement a été inséré.

Différentes actions de filtrage peuvent être envisagées pour un flux de données considéré. Tout d'abord, le blocage pur et simple du flux de données lorsque les données sont considérées comme dangereuses ou tout simplement interdites. A l'inverse, la transmission des données est autorisée lorsque aucun problème n'a été détecté. Ensuite, on peut imaginer plusieurs niveaux intermédiaires de méfiance. Tout d'abord, on peut transmettre les données en ajoutant un entête dans lequel il est indiqué que ces données sont suspectes, ou qu'elles ne peuvent être autorisées en mode sous contrôle parentale.

Ensuite, il est possible que le flux de données soit modifié, par exemple en retirant le fichier suspect et en indiquant par un avertissement que ce fichier est manquant.

D'autres actions peuvent être envisagées en fonction de la gravité ou du caractère fortuit du flux de données. Ainsi, on peut prévoir de plus d'autoriser le passage en alertant un administrateur du réseau numérique, c'est-à-dire en signalant à un responsable qu'un utilisateur considéré a obtenu ce flux de données en naviguant dans sur un site internet déterminé. Cette fonctionnalité peut être utilisé notamment en entreprise dans le cadre de la surveillance du réseau.

Par ailleurs, il est également possible d'autoriser le passage en enregistrant dans un journal des données concernant le flux de données ou l'utilisateur ayant requis ledit flux de données. Ce journal peut servir à compléter une liste de sites à éviter ou à informer un administrateur. On peut aussi modifier le contenu du flux de données en envoyant un flux de données modifié, dans lequel tous les contenus à caractères prohibés par l'administrateur ont été supprimés ou masqués.

Ce procédé de filtrage permet en conséquence un filtrage simple et rapide, tout en fournissant une efficacité accrue. Par ailleurs, de nombreuses variantes quant à la notation, aux critères de filtrage ou quant aux actions de filtrage peuvent être envisagées.