Clasificadores



Clasificadores

0 0


clasificadores-slides


On Github rafacarrascosa / clasificadores-slides

Clasificadores

Observaciones para elegir mejor

Rafael Carrascosa - Encuentro Data Science Cordoba

Outline

  • Introducción
  • Nonlinearity
  • Native multiclass
  • Score/Probability
  • Curse of dimensionality
  • Cierre y preguntas
Sumar criterios para decidir qué clasificador usar frente a un problema. No exhaustiva. Apunto a nombrar las cosas que veo menos dichas en otros lado. Gente con un poco de experiencia con Machine Learning. Me sirve para dar la charla que me interrumpan con preguntas.

Atributos

  • Nonlinearity
  • Native multiclass
  • Score/Probability
  • Curse of dimensionality (Noise/Dilution/Rarefied)
  • Others: time complexity, memory consumption.
Algunos de los features parece que no necesitaran mucha más explicación, pero mi intención en esta charla es aumentar la visibilidad en cuan impotante pueden ser.

Clasificadores

Tabla comparativa

Nonlinearity

No lineales: SVM-RBF, Nearest neighbors, Decision tree

Lineales: SVM-Lineal, Logistic regression

Lo más simple de explicar. O almenos el problema que todos encontramos temprano.

Native multiclass

Estrategias multiclase:

  • One vs Rest
  • One vs One
  • Éxoticas: Error correcting codes, hierarchical

Pros:

  • Ser más simple de usar
  • Requerir menor uso de recursos (CPU, RAM)
  • Tal vez tener mejor performance (p.ej. accuracy)

Multiclase nativo: KNN, Decision trees, Naive bayes

Algo que a veces se pasa por alto es que muchisimos clasificadores son binarios, (SVM), y que para trabajar con más de dos clases hace falta wrapearlos con alguna estrategia multiclase.

Como KNN toma una muestra del entrenamiento, los labels pueden ser cualquier cosa

¿Porque KNN es multiclase? El mismo argumento aplica a decision tree.

Score/Probability

Aplicación: Nos piden detectar clientes que comprarán un servicio en base a un historial. Como disparar acciones comerciales contra los clientes predichos cuesta dinero, también se quiere ordenar los clientes de mayor chance de éxito a menor chance de éxito.

a

Clasificadores con score pulenta: SVM , Naive bayes

Particularmente malos: Knn, decision trees

Para algunas aplicaciones es útil tener un score que es indicador de la certeza de la predicción. Casi todos los clasificadores ofrecen un score de alguna forma, aunque en muchos casos los números son demasiado groseros para ser útiles.

Curse of dimensionality

  • Noise: Decision tree, SVM Linear, Naive bayes, ...
  • Rarefied: Capacidad de aprovechar puchitos de informacion de muchos features poco informativos. SVM Linear.
  • Dilution: Perder un feature muy informativo en varios poco informativos. Decision tree./
No noise
1 noisy feature
2 noisy features
3 noisy features
4 noisy features
5 noisy features
10 noisy features
30 noisy features

Cierre y preguntas

'Decision trees es awesome!' Nonlinear, native multiclass, inmune al ruido. Su gran limitación es que si hay N features útiles hace falta 2**N puntos de entrenamiento para usarlos.
Clasificadores Observaciones para elegir mejor Rafael Carrascosa - Encuentro Data Science Cordoba http://rafacarrascosa.github.io/clasificadores-slides