Keep Alert : plateforme de surveillance de marques sur internet – Noms de domaines & cybersquatting – Types d'atteintes : site d'un concurrent



Keep Alert : plateforme de surveillance de marques sur internet – Noms de domaines & cybersquatting – Types d'atteintes : site d'un concurrent

0 0


presentation-labri


On Github xabufr / presentation-labri

Keep Alert : plateforme de surveillance de marques sur internet

Anthony DON - Thomas LOUBIOU

26/11/2015

Keep Alert - LaBRI

Plan de l'exposé

  • Contexte et problématique
    • Noms de domaines et cybersquatting
    • Protection de la propriété industrielle
  • Présentation des 3 modules de surveillance
    • Noms de domaine
    • Régies publicitaires
    • Réseaux sociaux
  • Projet de thèse
    • Problématiques de recherche
    • Planning prévisionnel

Keep Alert

  • Département de Systonic, depuis 2009
  • Basé à Pessac
  • 25 collaborateurs

Noms de domaines & cybersquatting

  • Les cybersquatters tirent profit d'un nom de domaine illégitime : détournent de traffic, revente du nom
  • 938000+ typosquattings identifiés visant les 3264 sites en .COM les plus visités (T. Moore, B. Edelman, 2010)
  • 80% utilisent des régies pay-per-click
  • 20% redirigent vers un autre site web

Types d'atteintes : page parking

Types d'atteintes : site d'un concurrent

barrisol.com

Types d'atteintes : site d'un concurrent

barrisol.md

Types d'atteintes : contrefaçon

Surveillance et protection

  • Actions possibles contre les cybersquatters
    • légales : procès
    • vs para-légales : mise en demeure, rachat, Uniform Dispute Resolution Process (UDRP)
  • Service assuré par les CPI (Conseils en Propriété Industrielle)
  • Besoin d’outils pour la surveillance :
    • Audits des typosquattings pour une marque
    • Surveillance pour identifier les nouveaux cas

Procédure UDRP

  • UDRP : Uniform Dispute Resolution Process
    • Procédure de résolution des litiges entre titulaire de nom de domaine et titulaire de marque
    • Arbitrage par : OMPI, NAF
    • 1500 € par procédure
  • Critères à respecter :
  • Similaire au point de prêter à confusion avec une marque du demandeur.
  • Pas de droit ou d'intérêt légitime du défendeur
  • Enregistré et utilisé de mauvaise foi

KeepAlert

Surveillance de marques sur Internet

Module noms de domaine

  • Protection contre le cybersquatting
  • Études à valeur ajoutée
Fonctionnement du module

Étude KeepAlert

Affichage des captures d'écran

Étude KeepAlert

Données Whois

Étude KeepAlert

Filtres disponibles pour les résultats d'une étude

Projet de recherche

  • Objectif : améliorer nos outils de surveillance de marques sur Internet
  • Thèmes :
  • Exploration interactive de clusters de noms de domaine
  • Recherche interactive de visuels de marques : logo ou visuels de produits
  • Atteindre l'exhaustivité des recherches de noms de domaine
Nos motivations valoriser les innovations issues du travail de recherche mobiliser un excellent collaborateur sur un sujet stratégique pour Keep Alert bénéficier d'un environnement de recherche stimulant

Consolidation UDRP

  • Possibilité de réaliser une seule procédure pour plusieurs noms de domaine s'ils appartiennent au même titulaire
  • Critères exploitables :
    • Localisation géographique du serveur
    • Hébergeur
    • Serveurs DNS associés
    • Heure d'enregistrement
    • Marqueurs Google Analytics
    • ...

Exploration interactive de clusters de noms de domaine

  • Fournir au juriste un outil d'analyse d'une (longue) liste de noms de domaine pour trouver les meilleurs groupes
  • Outil interactif :
    • Choix des critères de similarité pour le calcul des clusters de noms de domaine
    • Choix des critères pour déterminer les meilleurs clusters : impact, coût, facilité
  • Requêtes Skyline : bon candidat pour déterminer les meilleurs clusters

Exploration interactive de clusters de noms de domaine

  • Production d'un prototype d'IHM fonctionnel
  • Intégration d'implémentations efficaces pour le clustering et le classement des clusters
  • Plan d'évaluation ergonomique de la méthode avec des experts du domaine

Recherche interactive de visuels de marques

  • La recherche de visuels de produits ou de logo de marques offre des moyens d'action supplémentaires :
    • Droit d'auteur et plainte DMCA : Digital Millenium Copyright Act
    • Permet de déréférencer facilement les contenus sur Google, Facebook, ...
Option 1 : nouveau type d'étude : requête image parmi une indexation des images du web. Utilisation d'API tierce : Tineye, Google image

Recherche interactive de visuels de marques

  • Option 2 : filtre supplémentaire dans Keep Alert :
    • Captures d'écran en pleine résolution des sites identifiés (noms de domaine, réseaux sociaux)
    • Extraction SIFT + indexation
    • Filtre prenant en entrée un visuel (logo, photo de produit) et ne conservant que les documents qui contiennent ce visuel

Problématiques d'indexation

  • Indexation efficace des descripteurs SIFT
  • Evaluer les spécificités des visuels de marques : logo schématiques vs images naturelles
  • Robustesse des descripteurs aux transformations
  • Spécificité de la recherche au sein d'un visuel de page Web : multiples occurences de l'image recherchée

Recherche de logos

  • Expérimentation : recherche d'images par contenu
    • Retrouver des logos parmi les captures d'une étude
  • Comparaison des features OpenCV
  • Estimer les performances de la méthode

Fonctionnement

  • Détection et extraction de points-clés
  • Matching des points entre deux images
  • Optimisations:
  • Clustering des correspondances par proximité
  • Vérification des clusters via forme projetée
  • Scoring des correspondances par projection

Fonctionnement

  • Détection et extraction de points-clés
  • Matching des points entre deux images
  • Optimisations:
  • Clustering des correspondances par proximité
  • Vérification des clusters via forme projetée
  • Scoring des correspondances par projection

Fonctionnement - Clustering

Nettoyage des correspondances grâce au clustering

Fonctionnement - Projection

Nettoyage des correspondances grâce à la projection

Résultats

#Taille #À trouver Rappel Précision Marlboro 465 51 50% 100% Moncler 239 70 72% 100%

Performance

  • Opération d'identification des correspondances coûteuse
    • 5,4 secondes pour 465 images sur un quadcore
  • Quantité de données non négligeable
    • 125 Mio compressé pour les descripteurs de 465 captures

Axes de recherche

  • Rapidité/Indexation des descripteurs
  • Améliorer le rappel sans impacter la précision
  • Interface optimisée

Publications à considérer

  • A scalable indexing method for sift features, 2013
  • SIFT match verification by geometric coding for large-scale partial-duplicate web image search, 2013

Atteindre l'exhaustivité pour les recherches de nom de domaine

  • Requête contenant(approchant(m))
    • Algorithme trivial :
      • Générer chaque version approchante de la marque : edit-distance = 1
      • Pour chaque variante, effectuer une requête au contenant
    • Algorithme optimal ? Implémentations ?

Autres problématiques

  • Collecter tous les noms de domaine actifs (300 millions). Limité aux gTLDs : CNOBI + newgTLDs. Exploiter les sources Passive DNS : DNS OARC, Farsight, OpenDNS
  • Classification automatique de pages web
  • Identification d'entités nommées de type "Marques"

Etapes du projet

  • Stage de recherche 2 mois Mars-Avril
  • Bilan du stage : adéquation (sujet, candidat, encadrant). Accord de l'école doctorale
  • Deadline dossier CIFRE 15/05/2016 (démarrage en septembre), sinon 15/06/2016 (max)
  • Délais d'instruction +3 mois
  • Début CIFRE +1 mois : 15/09/2016

Conclusion

  • Sujet financé
  • Candidat de qualité
  • Phase préparatoire sécurise le sujet et l'encadrement
  • Données réelles et accès à un réseau d'experts
  • Prochaine étape
    • Participation aux GT ?
    • Echanges sur biliographie
    • Etablissement convention de formation : modalités, sujet et encadrants ?
Propriété intellectuelle : confidentialité et publications ? formalisation ? Budget : quel budget au delà de la rémunération du doctorant ? Modalités pratiques : encadrement, répartition du temps de présence/asidei

Noms de domaines & cybersquatting

Noms de domaines & cybersquatting

  • 21 gTLD (Generic Top Level Domain).COM, .NET, .ORG, .INFO, .BIZ, .MOBI, .XXX...
  • 253 ccTLD (Country Code Top Level Domain)Nations et territoires : .FR, .RE, .EU...
  • 20 TLDs gTLD « faux génériques »ex : .TV,.SO,.SX,.CO,.ME...
  • 610 NewgTLDs ouverts au 11/2015 (sur un total de ~1400):.leclerc, .paris, .wine

Architecture

Keep Alert : plateforme de surveillance de marques sur internet Anthony DON - Thomas LOUBIOU 26/11/2015 Keep Alert - LaBRI