Inferring Hierarchical Descriptions

Joseph Lark, Soufian Salim

Introduction

Sujet et applications

Etat de l'art

Travail présenté et méthode
Experiénces et résultats

Sur texte complet

Sur Extended Anchortext

Extraction des descriptions hiérarchiques
Observations

Remarques

Conclusion

Introduction

Article

Inferring Hierarchical Descriptions

E. Glover, D. M. Pennock, S. Lawrence, R. Krovetz

NEC, Princeton
Présenté à la conférence CIKM 2002
Cité 89 fois depuis

But

Identifier l'ontologie de termes sur le web

Concepts Parent / Self / Child exemple: "animal", "félin" et "chat"
A partir d'une collection de documents web

Applications

Nommage automatique
- Identifier une thématique
- Nommer un groupe de documents
Recherche d'information
- Proposer des résultats liés
- Suggérer des requêtes liées

État de l'art

Sur ce sujet

Pas de travaux précédents pour cette approche
Objectif de "découverte" et non d'amélioration
Utilisation de méthodes venant d'autres approches

Résumé automatique

Radev et Fan (2000) Identification de thèmes lors de l'analyse de documents web
Hearst (1998) et Caraballo (1999) Recherche de relations lexicales en utilisant des motifs
Sanderson et Croft (1999) Analyse statistique pour identifier l'inclusion sémantique

Dans chacun des cas, pas de distinction entre "concept parent" et "concept enfant"

Regroupement de documents

Kumar (1999) Construction de groupes de docs pour l'identification de communautés
Hofmann et Puzicha (1998) Modèles statistiques pour la hierarchisation de documents (RI)

Travail présenté

Idée

On compare la fréquence d'un terme t dans le document d et dans la collection C

Si t est très présent dans d et rare dans C : self
Si t est assez présent dans d et présent dans C : parent
Si t est assez présent dans d et très rare dans C : child

Fréquences et relations

Corpus

Documents provenant de Open Directory (www.dmoz.org)

Corpus

On considère les catégories et leurs sous-catégories comme référence pour les ontologies
Pour chaque catégorie, 500 documents sont retenus
On conserve 20 000 documents d'autres catégories (bruit)

Expériences : texte complet

Prétraitements

Pas de stemming
Pas d'utilisation de stopwords
Enfants séparés au niveau des "ou", "et" et de la ponctuation

Première distribution

Une tendance générale, mais beaucoup d'enfants près des parents

Problèmes

Catégories mal définies sans informations sur leur contexte
Faible utilisation de "Computers" au pluriel

Correctifs

Suppression des catégories mal définies
Renommage de "Computers" en "Computer"

Seconde distribution

Une distribution un peu plus claire

Problèmes

Les documents ne contiennent pas toujours les mots décrivant leurs catégories ("Multimédia" apparaît dans 13% des documents positifs)
Pages d'accueil sans contenu textuel (circa 2002)

Expériences :Extended Anchortext

Extended Anchortext

Extended Anchortext (EA) fait référence au texte qui apparaît autour des hyperliens. Au lieu d'utiliser les textes complets, on va maintenant passer par des documents virtuels composés de ces EA.

25 mots avant et après le texte du lien (inclus)
15 EA par document virtuel
Entre 36 et 82 documents virtuels par catégorie

Troisième distribution

Meilleure distribution qu'en 1 e.g., "Multimedia" apparaît maintenant dans 42% des documents positifs

Quatrième distribution

Résultats après correctifs Les trois régions sont mieux définies

Extraction des descriptions hiérarchiques

Résultats du "training"

Chaque document de la collection sera classé

Feature Ensemble positif Ensemble négatif Parent NA ≤0.08 Self ≥0.4 ≤0.06 Children ≤0.4 ≤0.02

Algorithme

1. On assigne un label à chaque feature :

if      (f.neg > maxParentNegative) { Label = "N" }

elseif  (f.neg > maxSelfNegative)   { Label = "P" }

elseif  (f.pos > minSelfPositive)   { Label = "S" }

elseif ((f.pos < maxChildPositive)
    and (f.neg < maxChildNegative)) { Label = "C" }

else
        { Label = "N" }

2. Pour chaque label, (P,S,C) on trie chaque feature par sa fréquence dans les documents positifs

Résultats : échantillon

Catégorie Parents Selfs Children agriculture management, science agriculture, agricultural soil, sustainable, crop anomalies and alternative science articles, science alternative, ufo, scientific artificial intelligence systems, computer artificial, intelligence ai, computational, artificial intelligence

Résultats : scores

Le parent assigné à chaque catégorie par l'Open Directory se trouve toujours dans le top 5
Environ 80% des selfs les mieux classés sont soit identiques, soit des synonymes, soit partagent une racine avec ceux assignés par l'Open Directory
Les children sont durs à évaluer puisqu'un grand nombre de candidats raisonnables ne sont pas listés

Remarques

Points positifs

Le principe a l'air de fonctionner
Extrêmement simpliste

Limitations

L'algorithme ne propose pas de solution pour déterminer automatiquement les régions
Les régions varient en fonction des catégories
Les groupes nominaux ont des occurrences positives inférieures aux simples mots
Pas de stemming ou de stopwords (e.g. "University of", "Computers" ...)
Les catégories ne sont pas uniformément distribuées dans l'Open Directory
L'Open Directory circa 2002 n'est pas représentatif du web actuel
Beaucoup d'opérations manuelles (suppression et renommage de catégories, définition des frontières...)

Conclusion

Points importants

Une méthode simple qui semble donner des résultats
Expériences inconcluantes
Changements fondamentaux de la structure des pages web depuis 2002

Inferring Hierarchical Descriptions – Introduction – État de l'art

bolaft

Inferring Hierarchical Descriptions – Introduction – État de l'art

0 0 (function() { var po = document.createElement('script'); po.type = 'text/javascript'; po.async = true; po.src = 'https://apis.google.com/js/platform.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(po, s); })();

ri-glover

Inferring Hierarchical Descriptions

Introduction

Sujet et applications

Etat de l'art

Travail présenté et méthode

Experiénces et résultats

Sur texte complet

Sur Extended Anchortext

Extraction des descriptions hiérarchiques

Observations

Remarques

Conclusion

Introduction

Article

But

Applications

Nommage automatique

Recherche d'information

État de l'art

Sur ce sujet

Résumé automatique

Regroupement de documents

Travail présenté

Idée

Fréquences et relations

Corpus

Corpus

Expériences : texte complet

Catégories

Prétraitements

Première distribution

Problèmes

Correctifs

Seconde distribution

Problèmes

Expériences :Extended Anchortext

Extended Anchortext

Troisième distribution

Quatrième distribution

Extraction des descriptions hiérarchiques

Résultats du "training"

Algorithme

1. On assigne un label à chaque feature :

2. Pour chaque label, (P,S,C) on trie chaque feature par sa fréquence dans les documents positifs

Résultats : échantillon

Résultats : scores

Remarques

Points positifs

Limitations

Conclusion

Points importants

Questions ?

0 0