Strumieniowanie danych w Sparku
Bartosz Kowalik
O mnie
- Scala dev @ VirtusLab
- Functional programming fun
- GitHub: bkowalik
- Twitter: bkowalikpl
Pytania do publiczności
- Kto zna Scale?
- Kto zetknął się ze Sparkiem?
- ?
O czym ta prezentacja nie jest
tutorailem od a do z
Transformacja
map(func)
reduceByKey(func, [numTasks])
filter(func)
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])
flatMap(func)
sortByKey([ascending], [numTasks])
mapPartitions(func)
join(otherDataset, [numTasks])
mapPartitionsWithIndex(func)
cogroup(otherDataset, [numTasks])
sample(withReplacement, fraction, seed)
cartesian(otherDataset)
union(otherDataset)
pipe(command, [envVars])
intersection(otherDataset)
coalesce(numPartitions)
distinct([numTasks]))
repartition(numPartitions)
groupByKey([numTasks])
repartitionAndSortWithinPartitions(partitioner)
https://spark.apache.org/docs/latest/programming-guide.html#transformations
Wykorzystane komponenty
- Kafka
- Cassandra
- Akka HTTP
Czego nie pokazałem
- akumulatory
- klastrowanie YARN, Mesos, etc.
- Twierdzenie CAP
Strumieniowanie danych w Sparku
Bartosz Kowalik