daten sensorium – Data Science – WAS ist das?



daten sensorium – Data Science – WAS ist das?

0 0


bpa-casting

Presentation for business pro austria, Steyr - 2nd Casting Day 2015

On Github datensensorium / bpa-casting

daten sensorium

von Daten zu Wissen

business pro austria, Steyr 2. Casting Day, 2015

Präsentation von Thomas Treml / @datadonk23

Data Science

WAS ist das?

Shelly Palmer: "the analysis of data using the scientific method with the primary goal of turning information into action." Richard Snee: "find nuggets of truth in data and then explain it to the business leaders."
“the sexiest job of the 21st century” (Harvard Business Review, Okt. 2012)

WAS genau?

  • Extraktion von Information aus (großen) Datenmengen
  • Ableitung von Handlungsempfehlungen ⇒ Analyse
  • Entwicklung von Entscheidungsmodellen ⇒ Predictive Analytics
  • Übersichtliche (interaktive) Aufbereitung von Information aus (großen) Datenmengen ⇒ Visualisierung

Welcher NUTZEN?

  • Informationsvorsprung gegenüber Mitbewerber ⇐ Analyse & Predictive Analytics
  • Effizienzsteigerung im Unternehmen ⇐ Analyse
  • Umsatzsteigerung im Handel ⇐ Predictive Analytics
  • Mehr Transparenz nach Außen und Innen ⇐ Visualisierung
  • Smarte Produkte ⇐ Predictive Analytics & Visualisierung

WOHER nehmen?

adaptiert von Drew Conway

oderdaten sensorium

Mein Background

Soziologie (als wirtschaftswiss. Studium)

  • Fokus auf empirische Sozialforschung
  • Fundierte statistische Grundausbildung
  • Analyse von Sozial- und Wirtschaftsdaten

Berufsausbildung akadem. Geoinformatiker

  • Räumliche Daten
  • Visualisierungstheorien & -techniken
  • Programmierung
  • tw. Datenbanktechnologien

Selbststudium

Fachbücher und Absolvierung diverser MOOC's

  • Data Science
  • Machine Learning
  • Software- und Webentwicklung
  • Datenbanktechnologien
  • Visuelles Design

Sonstige Aktivitäten

Data Science as a Service

Geschäftsmodell

  • Auftragsbasierte Dienstleistungen (Analyse, Visualisierung, Predictive Analytics, UXR)
  • Beratung Datentechnologien (PyData Stack, NoSQL, Cloud Computing) & Open Data

Warum Dienstleistung?

  • Fixes Team für KMU's nicht wirtschaftlich
  • Standardprodukte komplex & teuer, aber wenig effizient
  • Bestehendes Dienstleistungsangebot an Produkte gekoppelt - unflexibel & Kostentreiber
  • Fehler von Laien können extreme Folgen haben
  • Zu erwartender Engpass an Expertise

Warum Beratung?

  • Beratungsleistungen im Datenbereich fast immer gekoppelt mit Nutzung bestimmter Produkte von Hersteller
  • Open-Source Technologien im Datenbereich überlegen - mehr Fachwissen dafür aber nötig

Status Quo

EPU in Home Office

  • Vorteil: Geringe Fixkosten, Flexibilität
  • Anforderungen an Arbeitsplatz gering (Workstation & Notebook, bei Bedarf Auslagerung in Cloud)
  • Limitierungen: Einzelkämpfer, Vertrieb, Weiterbildung, Markt in Ö

Vision

  • Kleines Team (Software Entwickler, Data Engineers, Grafik Designer, andere Data Scientists)
  • Professioneller Vertrieb
  • Forschung und Entwicklung eigener Produkte (Schnittstelle IoT-Mensch)

Das kann ich brauchen:

Unterstützung im Bereich Marketing und Geschäftsmodelle

Das kann ich anbieten:

Wissen über state-of-the-art Methoden & Techniken der Datenwissenschaft und Information über Trends in einer (aufstrebenden) Kerndomäne von Innovation

Beispiele

Sherlock Holmes Bücher

  • Sherlock Ana: Text Ähnlichkeiten der Bücher
  • Sherlock Rec: Empfehlungssystem
  • Sherlock Vis: Visualisierung
Aus A Scandal in Bohemia: "It is a capital mistake to theorize before one has data. Insensibly one begins to twist facts to suit theories, instead of theories to suit facts."
Sherlock Ana

Text Ähnlichkeiten von Sherlock Holmes Büchern

Buch Paar Similarity Score The Adventures of Sherlock HolmesMemoirs of Sherlock Holmes 0.938771 The Adventures of Sherlock HolmesThe Return of Sherlock Holmes 0.926620 Memoirs of Sherlock HolmesThe Return of Sherlock Holmes 0.924899 The Sign of the FourThe Adventures of Sherlock Holmes 0.884469 The Sign of the FourMemoirs of Sherlock Holmes 0.880775
Sherlock Vis

Interaktive Visualisierung des gemeinsamen Auftauchens von Charaktere in Episoden der BBC Serie Sherlock:

Sherlock Rec

Sherlock Holmes Buch Empfehlung: Collaborative Filtering Algorithmus basierend auf Jaccard Koeffizienten

for row in ratings_matrix:
    similarity_coefficient = jaccard_similarity_score(user_rating,
	 row)
    weighted_row = row * similarity_coefficient
    row[row != 0.] = similarity_coefficient
    if weighted_ratings.size == 0 and user_similarities.size == 0:
        weighted_ratings = np.hstack((weighted_ratings,
		weighted_row))
        user_similarities = np.hstack((user_similarities, row))
    else:
        weighted_ratings = np.vstack((weighted_ratings,
		weighted_row))
        user_similarities = np.vstack((user_similarities, row))
total = np.sum(weighted_ratings, axis=0)
sim_sum = np.sum(user_similarities, axis=0)
return total / sim_sum

Danke für Ihre Aufmerksamkeit!

Rück- und Anfragen:

daten sensorium von Daten zu Wissen business pro austria, Steyr 2. Casting Day, 2015 Präsentation von Thomas Treml / @datadonk23