Hyppää sisältöön
    • Suomeksi
    • På svenska
    • In English
  • Suomeksi
  • På svenska
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Åbo Akademi
  • Maisteri- ja lisensiaattitutkielmat sekä diplomityöt
  • 1 Luonnontieteet
  • 113 Tietojenkäsittely ja informaatiotieteet
  • Näytä viite
  •   Etusivu
  • Åbo Akademi
  • Maisteri- ja lisensiaattitutkielmat sekä diplomityöt
  • 1 Luonnontieteet
  • 113 Tietojenkäsittely ja informaatiotieteet
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

A COMPARISON OF DATA INGESTION PLATFORMS IN REAL-TIME STREAM PROCESSING PIPELINES

Tallberg, Sebastian (2020)

 
Tweet Vie viite Refworksiin
 
Avaa tiedosto
tallberg_sebastian.pdf (1.234Mt)
Lataukset: 


Tallberg, Sebastian
Åbo Akademi
2020
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
http://urn.fi/URN:NBN:fi-fe2020081048285
Tiivistelmä
In recent years there has been an increasing demand for real-time streaming applications that handle large volumes of data with low latency. Examples of such applications include real-time monitoring and analytics, electronic trading, advertising, fraud detection, and more. In a streaming pipeline the first step is ingesting the incoming data events, after which they can be sent off for processing. Choosing the correct tool that satisfies application requirements is an important technical decision that must be made. This thesis focuses entirely on the data ingestion part by evaluating three different platforms: Apache Kafka, Apache Pulsar and Redis Streams. The platforms are compared both on characteristics and performance. Architectural and design differences reveal that Kafka and Pulsar are more suited for use cases involving long-term persistent storage of events, whereas Redis is a potential solution when only short-term persistence is required. They all provide means for scalability and fault tolerance, ensuring high availability and reliable service. Two metrics, throughput and latency, were used in evaluating performance in a single node cluster. Kafka proves to be the most consistent in throughput but performs the worst in latency. Pulsar manages high throughput with low message sizes but struggles with larger message sizes. Pulsar performs the best in overall average latency across all message sizes tested, followed by Redis. The tests also show Redis being the most inconsistent in terms of throughput potential between different message sizes.
Kokoelmat
  • 113 Tietojenkäsittely ja informaatiotieteet [71]

Kansalliskirjasto
Kirjastoverkkopalvelut
PL 15 (Unioninkatu 36) 00014 Helsingin yliopisto
Tietosuoja
doria-oa@helsinki.fi | Yhteydenotto | Saavutettavuusseloste
 

 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatAsiasanatUusimmatSivukartta

Omat tiedot

Kirjaudu sisäänRekisteröidy

Kansalliskirjasto
Kirjastoverkkopalvelut
PL 15 (Unioninkatu 36) 00014 Helsingin yliopisto
Tietosuoja
doria-oa@helsinki.fi | Yhteydenotto | Saavutettavuusseloste