On Github bolaft / ri-glover
Inferring Hierarchical Descriptions
E. Glover, D. M. Pennock, S. Lawrence, R. Krovetz
Identifier l'ontologie de termes sur le web
Dans chacun des cas, pas de distinction entre "concept parent" et "concept enfant"
On compare la fréquence d'un terme t dans le document d et dans la collection C
Documents provenant de Open Directory (www.dmoz.org)
Extended Anchortext (EA) fait référence au texte qui apparaît autour des hyperliens. Au lieu d'utiliser les textes complets, on va maintenant passer par des documents virtuels composés de ces EA.
Chaque document de la collection sera classé
Feature Ensemble positif Ensemble négatif Parent NA ≤0.08 Self ≥0.4 ≤0.06 Children ≤0.4 ≤0.02if (f.neg > maxParentNegative) { Label = "N" } elseif (f.neg > maxSelfNegative) { Label = "P" } elseif (f.pos > minSelfPositive) { Label = "S" } elseif ((f.pos < maxChildPositive) and (f.neg < maxChildNegative)) { Label = "C" } else { Label = "N" }