Scraping + Hackathon = Scrapathon
Hervé BERTHOU - Anthony DON - Thomas LOUBIOU Systonic
20/05/2016
Keep Alert - EPITECH
Plan
- Plateforme de scraping en mode SaaS
- Motivations
- Démonstration
- Présentation de l'API
- Présentation du Hackathon
- Ressources à votre disposition
- Inscription
Keep Alert
- Département de Systonic, depuis 2009
- Basé à Pessac
- 25 collaborateurs
Motivation : industrialiser la collecte de données Web
- Fonctionnalité récurrente dans Keep Alert :
- Collecte des annonces module AdWords
- Etude de référencement naturel
- Usernames Facebook, Twitter, LinkedIn ...
- Limites de la collecte par API
- Pas disponibles (Google Search) ou payantes (Yahoo)
- Evoluent dans le temps
Navigateur web scriptable
- Composant permettant de piloter un navigateur web par programmation
- Fonctionnalités d'un navigateur :
- chargement asynchrone, cookies, Javascript
- événements : démarrer quand la page est totalement chargée
- accès au DOM en Javascript : extraction HTML, extraction du texte visible, accès via sélecteurs CSS
- captures d'écran
- Implémentations disponibles :
Language dédié
- Language dédié : représentation concise d'un scénario
- Une recipe est un fichier texte Javascript qui décrit :
- les paramètres utilisables
- les étapes de navigation et les sous-étapes
- les informations à extraire de chaque page
- Produit un fichier JSON contenant les données collectées
Démonstration de l'éditeur de script
- Page de résultats de Google
- Prix des véhicules vendus en Aquitaine sur Le Bon Coin
Plateforme de scraping en mode SaaS
Objectifs du Hackathon
- Construire un service innovant et tester la plateforme de scraping
- Thématiques libres :
- Visualisation d'informations : observatoire de prix, cartographies
- Growth hacking : cibler de nouveaux clients
- Génération d'alertes
- Création de flux Open Data
- 2 contraintes : travail en équipe et utilisation de la plateforme de scraping
Organisation
- Lancement du scrapathon : inscription des équipes et accès à l'API à la fin de la présentation
- Du 11 au 25 Mai : choix du projet, accès aux outils, test du scraper
- Du Vendredi 20 Mai à 16h00 au Dimanche 22 Mai à 18h00 : Hackathon et codage de votre solution
- Le Mercredi 25 Mai 14h00-16h00 : présentation avec démonstration (10 minutes par équipe) + retour d'expérience
Prix du jury
- A l'issue des présentations, le jury élira le meilleur projet selon les 3 critères :
- 1/3 pour l'originalité du projet
- 1/3 pour la qualité de la présentation
- 1/3 pour la finalisation de la démo
- Tous les participants recevront une invitation pour le prochain bdx.io (le 21/10/2016).
- Chaque membre de l'équipe gagnante recevra un lot.
Création de votre accès à l'API et l'UI
Via l'API avec Curl
curl -X POST
--header 'Content-Type: application/json'
--header 'Accept: */*' -d '{
"email": "votemail@epitech.eu",
"password": "votrepassword",
"username": "votreusername"
}'
'https://api.scraper.keepalert.com:443/users/'
Cliquez sur le lien reçu par email quelques minutes après votre enregistrement
Testez l'utilisation de l'API et de l'UI avec vos identifiants
Vous pouvez scraper !
Inscription
- Inscrivez votre équipe : nom, prénom et email @epitech.eu
- Accès à https://scrapathon.slack.com (envoi par email)
- Signature de l'accord de non-divulgation, obtention de vos accès pour le téléchargement de l'éditeur et du scan de l'accord signé (envoi par email)
Scraping + Hackathon = Scrapathon
Hervé BERTHOU - Anthony DON - Thomas LOUBIOU
Systonic
20/05/2016
Keep Alert - EPITECH