daten sensorium
von Daten zu Wissen
business pro austria, Steyr 2. Casting Day, 2015
Präsentation von Thomas Treml / @datadonk23
Data Science
WAS ist das?
Shelly Palmer: "the analysis of data using the scientific method with the primary goal of turning information into action."
Richard Snee: "find nuggets of truth in data and then explain it to the business leaders."
WAS genau?
- Extraktion von Information aus (großen) Datenmengen
- Ableitung von Handlungsempfehlungen ⇒ Analyse
- Entwicklung von Entscheidungsmodellen ⇒ Predictive Analytics
- Übersichtliche (interaktive) Aufbereitung von Information aus (großen) Datenmengen ⇒ Visualisierung
Welcher NUTZEN?
-
Informationsvorsprung gegenüber Mitbewerber ⇐ Analyse & Predictive Analytics
-
Effizienzsteigerung im Unternehmen ⇐ Analyse
-
Umsatzsteigerung im Handel ⇐ Predictive Analytics
- Mehr Transparenz nach Außen und Innen ⇐ Visualisierung
-
Smarte Produkte ⇐ Predictive Analytics & Visualisierung
WOHER nehmen?
adaptiert von Drew Conway
oderdaten sensorium
Mein Background
Soziologie (als wirtschaftswiss. Studium)
- Fokus auf empirische Sozialforschung
- Fundierte statistische Grundausbildung
- Analyse von Sozial- und Wirtschaftsdaten
Berufsausbildung akadem. Geoinformatiker
- Räumliche Daten
- Visualisierungstheorien & -techniken
- Programmierung
- tw. Datenbanktechnologien
Selbststudium
Fachbücher und Absolvierung diverser MOOC's
- Data Science
- Machine Learning
- Software- und Webentwicklung
- Datenbanktechnologien
- Visuelles Design
Sonstige Aktivitäten
Data Science as a Service
Geschäftsmodell
- Auftragsbasierte Dienstleistungen (Analyse, Visualisierung, Predictive Analytics, UXR)
- Beratung Datentechnologien (PyData Stack, NoSQL, Cloud Computing) & Open Data
Warum Dienstleistung?
- Fixes Team für KMU's nicht wirtschaftlich
- Standardprodukte komplex & teuer, aber wenig effizient
- Bestehendes Dienstleistungsangebot an Produkte gekoppelt - unflexibel & Kostentreiber
- Fehler von Laien können extreme Folgen haben
- Zu erwartender Engpass an Expertise
Warum Beratung?
- Beratungsleistungen im Datenbereich fast immer gekoppelt mit Nutzung bestimmter Produkte von Hersteller
- Open-Source Technologien im Datenbereich überlegen - mehr Fachwissen dafür aber nötig
Status Quo
EPU in Home Office
-
Vorteil: Geringe Fixkosten, Flexibilität
- Anforderungen an Arbeitsplatz gering (Workstation & Notebook, bei Bedarf Auslagerung in Cloud)
-
Limitierungen: Einzelkämpfer, Vertrieb, Weiterbildung, Markt in Ö
Vision
- Kleines Team (Software Entwickler, Data Engineers, Grafik Designer, andere Data Scientists)
- Professioneller Vertrieb
- Forschung und Entwicklung eigener Produkte (Schnittstelle IoT-Mensch)
Das kann ich brauchen:
Unterstützung im Bereich Marketing und Geschäftsmodelle
Das kann ich anbieten:
Wissen über state-of-the-art Methoden & Techniken der Datenwissenschaft und Information über Trends in einer (aufstrebenden) Kerndomäne von Innovation
Beispiele
Sherlock Holmes Bücher
-
Sherlock Ana: Text Ähnlichkeiten der Bücher
-
Sherlock Rec: Empfehlungssystem
-
Sherlock Vis: Visualisierung
Aus A Scandal in Bohemia: "It is a capital mistake to theorize before one has data. Insensibly one begins to twist facts to suit theories, instead of theories to suit facts."
Sherlock Ana
Text Ähnlichkeiten von Sherlock Holmes Büchern
Buch Paar
Similarity Score
The Adventures of Sherlock HolmesMemoirs of Sherlock Holmes
0.938771
The Adventures of Sherlock HolmesThe Return of Sherlock Holmes
0.926620
Memoirs of Sherlock HolmesThe Return of Sherlock Holmes
0.924899
The Sign of the FourThe Adventures of Sherlock Holmes
0.884469
The Sign of the FourMemoirs of Sherlock Holmes
0.880775
Sherlock Rec
Sherlock Holmes Buch Empfehlung: Collaborative Filtering Algorithmus basierend auf Jaccard Koeffizienten
for row in ratings_matrix:
similarity_coefficient = jaccard_similarity_score(user_rating,
row)
weighted_row = row * similarity_coefficient
row[row != 0.] = similarity_coefficient
if weighted_ratings.size == 0 and user_similarities.size == 0:
weighted_ratings = np.hstack((weighted_ratings,
weighted_row))
user_similarities = np.hstack((user_similarities, row))
else:
weighted_ratings = np.vstack((weighted_ratings,
weighted_row))
user_similarities = np.vstack((user_similarities, row))
total = np.sum(weighted_ratings, axis=0)
sim_sum = np.sum(user_similarities, axis=0)
return total / sim_sum
Danke für Ihre Aufmerksamkeit!
Rück- und Anfragen:
daten sensorium
von Daten zu Wissen
business pro austria, Steyr
2. Casting Day, 2015
Präsentation von Thomas Treml / @datadonk23