Keep Alert : plateforme de surveillance de marques sur internet
Anthony DON - Thomas LOUBIOU
26/11/2015
Keep Alert - LaBRI
Plan de l'exposé
- Contexte et problématique
- Noms de domaines et cybersquatting
- Protection de la propriété industrielle
- Présentation des 3 modules de surveillance
- Noms de domaine
- Régies publicitaires
- Réseaux sociaux
- Projet de thèse
- Problématiques de recherche
- Planning prévisionnel
Keep Alert
- Département de Systonic, depuis 2009
- Basé à Pessac
- 25 collaborateurs
Noms de domaines & cybersquatting
- Les cybersquatters tirent profit d'un nom de domaine illégitime : détournent de traffic, revente du nom
- 938000+ typosquattings identifiés visant les 3264 sites en .COM les plus visités (T. Moore, B. Edelman, 2010)
- 80% utilisent des régies pay-per-click
- 20% redirigent vers un autre site web
Types d'atteintes : page parking
Types d'atteintes : site d'un concurrent
barrisol.comTypes d'atteintes : site d'un concurrent
barrisol.mdTypes d'atteintes : contrefaçon
Surveillance et protection
- Actions possibles contre les cybersquatters
- légales : procès
- vs para-légales : mise en demeure, rachat, Uniform Dispute Resolution Process (UDRP)
- Service assuré par les CPI (Conseils en Propriété Industrielle)
- Besoin d’outils pour la surveillance :
- Audits des typosquattings pour une marque
- Surveillance pour identifier les nouveaux cas
Procédure UDRP
- UDRP : Uniform Dispute Resolution Process
- Procédure de résolution des litiges entre titulaire de nom de domaine et titulaire de marque
- Arbitrage par : OMPI, NAF
- 1500 € par procédure
- Critères à respecter :
- Similaire au point de prêter à confusion avec une marque du demandeur.
- Pas de droit ou d'intérêt légitime du défendeur
- Enregistré et utilisé de mauvaise foi
KeepAlert
Surveillance de marques sur InternetModule noms de domaine
- Protection contre le cybersquatting
- Études à valeur ajoutée
Fonctionnement du moduleÉtude KeepAlert
Affichage des captures d'écranÉtude KeepAlert
Données WhoisÉtude KeepAlert
Filtres disponibles pour les résultats d'une étudeProjet de recherche
- Objectif : améliorer nos outils de surveillance de marques sur Internet
- Thèmes :
- Exploration interactive de clusters de noms de domaine
- Recherche interactive de visuels de marques : logo ou visuels de produits
- Atteindre l'exhaustivité des recherches de noms de domaine
Nos motivations valoriser les innovations issues du travail de recherche mobiliser un excellent collaborateur sur un sujet stratégique pour Keep Alert bénéficier d'un environnement de recherche stimulant
Consolidation UDRP
- Possibilité de réaliser une seule procédure pour plusieurs noms de domaine s'ils appartiennent au même titulaire
- Critères exploitables :
- Localisation géographique du serveur
- Hébergeur
- Serveurs DNS associés
- Heure d'enregistrement
- Marqueurs Google Analytics
- ...
Exploration interactive de clusters de noms de domaine
- Fournir au juriste un outil d'analyse d'une (longue) liste de noms de domaine pour trouver les meilleurs groupes
- Outil interactif :
- Choix des critères de similarité pour le calcul des clusters de noms de domaine
- Choix des critères pour déterminer les meilleurs clusters : impact, coût, facilité
- Requêtes Skyline : bon candidat pour déterminer les meilleurs clusters
Exploration interactive de clusters de noms de domaine
- Production d'un prototype d'IHM fonctionnel
- Intégration d'implémentations efficaces pour le clustering et le classement des clusters
- Plan d'évaluation ergonomique de la méthode avec des experts du domaine
Recherche interactive de visuels de marques
- La recherche de visuels de produits ou de logo de marques offre des moyens d'action supplémentaires :
- Droit d'auteur et plainte DMCA : Digital Millenium Copyright Act
- Permet de déréférencer facilement les contenus sur Google, Facebook, ...
Option 1 : nouveau type d'étude : requête image parmi une indexation des images du web. Utilisation d'API tierce : Tineye, Google imageRecherche interactive de visuels de marques
- Option 2 : filtre supplémentaire dans Keep Alert :
- Captures d'écran en pleine résolution des sites identifiés (noms de domaine, réseaux sociaux)
- Extraction SIFT + indexation
- Filtre prenant en entrée un visuel (logo, photo de produit) et ne conservant que les documents qui contiennent ce visuel
Problématiques d'indexation
- Indexation efficace des descripteurs SIFT
- Evaluer les spécificités des visuels de marques : logo schématiques vs images naturelles
- Robustesse des descripteurs aux transformations
- Spécificité de la recherche au sein d'un visuel de page Web : multiples occurences de l'image recherchée
Recherche de logos
- Expérimentation : recherche d'images par contenu
- Retrouver des logos parmi les captures d'une étude
- Comparaison des features OpenCV
- Estimer les performances de la méthode
Fonctionnement
- Détection et extraction de points-clés
- Matching des points entre deux images
- Optimisations:
- Clustering des correspondances par proximité
- Vérification des clusters via forme projetée
- Scoring des correspondances par projection
Fonctionnement
- Détection et extraction de points-clés
- Matching des points entre deux images
- Optimisations:
- Clustering des correspondances par proximité
- Vérification des clusters via forme projetée
- Scoring des correspondances par projection
Fonctionnement - Clustering
Nettoyage des correspondances grâce au clusteringFonctionnement - Projection
Nettoyage des correspondances grâce à la projectionRésultats
#Taille
#À trouver
Rappel
Précision
Marlboro
465
51
50%
100%
Moncler
239
70
72%
100%
Performance
- Opération d'identification des correspondances coûteuse
- 5,4 secondes pour 465 images sur un quadcore
- Quantité de données non négligeable
- 125 Mio compressé pour les descripteurs de 465 captures
Axes de recherche
- Rapidité/Indexation des descripteurs
- Améliorer le rappel sans impacter la précision
- Interface optimisée
Publications à considérer
- A scalable indexing method for sift features, 2013
- SIFT match verification by geometric coding for large-scale partial-duplicate web image search, 2013
Atteindre l'exhaustivité pour les recherches de nom de domaine
- Requête contenant(approchant(m))
- Algorithme trivial :
- Générer chaque version approchante de la marque : edit-distance = 1
- Pour chaque variante, effectuer une requête au contenant
- Algorithme optimal ? Implémentations ?
Autres problématiques
- Collecter tous les noms de domaine actifs (300 millions). Limité aux gTLDs : CNOBI + newgTLDs. Exploiter les sources Passive DNS : DNS OARC, Farsight, OpenDNS
- Classification automatique de pages web
- Identification d'entités nommées de type "Marques"
Etapes du projet
- Stage de recherche 2 mois Mars-Avril
- Bilan du stage : adéquation (sujet, candidat, encadrant). Accord de l'école doctorale
- Deadline dossier CIFRE 15/05/2016 (démarrage en septembre), sinon 15/06/2016 (max)
- Délais d'instruction +3 mois
- Début CIFRE +1 mois : 15/09/2016
Conclusion
- Sujet financé
- Candidat de qualité
- Phase préparatoire sécurise le sujet et l'encadrement
- Données réelles et accès à un réseau d'experts
- Prochaine étape
- Participation aux GT ?
- Echanges sur biliographie
- Etablissement convention de formation : modalités, sujet et encadrants ?
Propriété intellectuelle : confidentialité et publications ? formalisation ? Budget : quel budget au delà de la rémunération du doctorant ? Modalités pratiques : encadrement, répartition du temps de présence/asideiNoms de domaines & cybersquatting
Noms de domaines & cybersquatting
- 21 gTLD (Generic Top Level Domain).COM, .NET, .ORG, .INFO, .BIZ, .MOBI, .XXX...
- 253 ccTLD (Country Code Top Level Domain)Nations et territoires : .FR, .RE, .EU...
- 20 TLDs gTLD « faux génériques »ex : .TV,.SO,.SX,.CO,.ME...
- 610 NewgTLDs ouverts au 11/2015 (sur un total de ~1400):.leclerc, .paris, .wine
Keep Alert : plateforme de surveillance de marques sur internet
Anthony DON - Thomas LOUBIOU
26/11/2015
Keep Alert - LaBRI