Striimaa twiittejä NiFi, Kafka, Tranquility, Druid ja Superset kanssa

Streaming Tweets With Nifi



Siirto kohteesta
Ajan käsite on kaikkien Big Data -käsittelytekniikoiden ydin, mutta se on erityisen tärkeä tietovirran käsittelymaailmassa. Itse asiassa on järkevää sanoa, että tapa, jolla eri järjestelmät käsittelevät aikaperusteista käsittelyä, erottaa vehnän melkein ainakaan ainakin reaaliaikaisen virtauskäsittelyn maailmassa.

Suoratoiston käsittelyn kysyntä kasvaa paljon näinä päivinä. Hadoop-projektien yleinen tarve on rakentaa ajantasaiset indikaattorit suoratoistotiedoista.



Sosiaalisen median analyysi on loistava käyttötapa näyttää, kuinka voimme rakentaa koontinäytön, joka näyttää suoratoistoanalyysin NiFi: n, Kafkan, Tranquilityn, Druidin ja Supersetin kanssa



Tällä käsittelyvirralla on seuraavat vaiheet:
- Tweettien nauttiminen Apache NiFi: llä
- Suoratoista käsittely Apache Kafkan avulla
- Tietojen integrointi rauhaan
- OLAP-tietokannan tallennus Druid-sovelluksella
- Visualisointi Apache Supersetin avulla
kuva
Ennen kuin panemme kätemme koodaukseen, tutustu jokaiseen komponenttiin:



Tämän HDF-klusterin rakentamiseen käytettiin 4 konetta, kukin 16 ydintä ja 32 RAM-muistia. Olen asettanut jokaisen koneen vastaamaan yhdestä komponentista:
kuva
Tämän ympäristön määrityksen jälkeen voimme aloittaa virtauksen rakentamisen Nifissä:

http://druid.io/docs/latest/tutorials/tutorial-kafka.html
http://druid.io/blog/2013/08/30/loading-data.html
https://github.com/druid-io/tranquility