Keep Alert : plateforme de surveillance de marques sur internet – Noms de domaines & cybersquatting – Types d'atteintes : site d'un concurrent



Keep Alert : plateforme de surveillance de marques sur internet – Noms de domaines & cybersquatting – Types d'atteintes : site d'un concurrent

0 0


scrapathon


On Github anthony-don / scrapathon

Scraping + Hackathon = Scrapathon

Hervé BERTHOU - Anthony DON - Thomas LOUBIOU Systonic

20/05/2016

Keep Alert - EPITECH

Plan

  • Plateforme de scraping en mode SaaS
    • Motivations
    • Démonstration
    • Présentation de l'API
  • Présentation du Hackathon
    • Objectifs
    • Organisation
  • Ressources à votre disposition
  • Inscription

Keep Alert

  • Département de Systonic, depuis 2009
  • Basé à Pessac
  • 25 collaborateurs

Motivation : industrialiser la collecte de données Web

  • Fonctionnalité récurrente dans Keep Alert :
    • Collecte des annonces module AdWords
    • Etude de référencement naturel
    • Usernames Facebook, Twitter, LinkedIn ...
  • Limites de la collecte par API
    • Pas disponibles (Google Search) ou payantes (Yahoo)
    • Evoluent dans le temps

Navigateur web scriptable

  • Composant permettant de piloter un navigateur web par programmation
  • Fonctionnalités d'un navigateur :
    • chargement asynchrone, cookies, Javascript
    • événements : démarrer quand la page est totalement chargée
    • accès au DOM en Javascript : extraction HTML, extraction du texte visible, accès via sélecteurs CSS
    • captures d'écran
  • Implémentations disponibles :

Language dédié

  • Language dédié : représentation concise d'un scénario
  • Une recipe est un fichier texte Javascript qui décrit :
    • les paramètres utilisables
    • les étapes de navigation et les sous-étapes
    • les informations à extraire de chaque page
  • Produit un fichier JSON contenant les données collectées

Démonstration de l'éditeur de script

  • Page de résultats de Google
  • Prix des véhicules vendus en Aquitaine sur Le Bon Coin

Plateforme de scraping en mode SaaS

Architecture

Objectifs du Hackathon

  • Construire un service innovant et tester la plateforme de scraping
  • Thématiques libres :
    • Visualisation d'informations : observatoire de prix, cartographies
    • Growth hacking : cibler de nouveaux clients
    • Génération d'alertes
    • Création de flux Open Data
  • 2 contraintes : travail en équipe et utilisation de la plateforme de scraping

Organisation

  • Lancement du scrapathon : inscription des équipes et accès à l'API à la fin de la présentation
  • Du 11 au 25 Mai : choix du projet, accès aux outils, test du scraper
  • Du Vendredi 20 Mai à 16h00 au Dimanche 22 Mai à 18h00 : Hackathon et codage de votre solution
  • Le Mercredi 25 Mai 14h00-16h00 : présentation avec démonstration (10 minutes par équipe) + retour d'expérience

Prix du jury

  • A l'issue des présentations, le jury élira le meilleur projet selon les 3 critères :
    • 1/3 pour l'originalité du projet
    • 1/3 pour la qualité de la présentation
    • 1/3 pour la finalisation de la démo
  • Tous les participants recevront une invitation pour le prochain bdx.io (le 21/10/2016).
  • Chaque membre de l'équipe gagnante recevra un lot.

Ressources

Création de votre accès à l'API et l'UI

Via l'API avec Curl
curl -X POST 
--header 'Content-Type: application/json' 
--header 'Accept: */*' -d '{
"email": "votemail@epitech.eu",
"password": "votrepassword",
"username": "votreusername"
}' 
'https://api.scraper.keepalert.com:443/users/'
Cliquez sur le lien reçu par email quelques minutes après votre enregistrement Testez l'utilisation de l'API et de l'UI avec vos identifiants Vous pouvez scraper !

Support / Bug report

  • Contactez-nous sur
https://scrapathon.slack.com : Questions / Difficultés : channel #support Bugs : channel #bugs

Questions ?

Inscription

  • Inscrivez votre équipe : nom, prénom et email @epitech.eu
  • Accès à https://scrapathon.slack.com (envoi par email)
  • Signature de l'accord de non-divulgation, obtention de vos accès pour le téléchargement de l'éditeur et du scan de l'accord signé (envoi par email)
Scraping + Hackathon = Scrapathon Hervé BERTHOU - Anthony DON - Thomas LOUBIOU Systonic 20/05/2016 Keep Alert - EPITECH