Architektúra na rýchle a všeobecné spracovanie údajov na veľkých klastroch

Architektúra na rýchle a všeobecné spracovanie údajov na veľkých klastroch (Matei Zaharia)

Pôvodný názov:

An Architecture for Fast and General Data Processing on Large Clusters

Obsah knihy:

V posledných rokoch došlo k veľkým zmenám vo výpočtových systémoch, pretože rastúce objemy dát a klesajúca rýchlosť procesorov si vyžadujú, aby sa čoraz viac aplikácií škálovalo do klastrov. V súčasnosti nespočetné množstvo zdrojov údajov, od internetu cez obchodné operácie až po vedecké prístroje, produkuje veľké a cenné dátové toky. Možnosti spracovania jednotlivých strojov však nedržia krok s veľkosťou dát. V dôsledku toho organizácie čoraz častejšie potrebujú škálovať svoje výpočty na klastre.

Zároveň sa zvýšila rýchlosť a náročnosť spracovania údajov. Okrem jednoduchých dopytov sa začínajú používať aj zložité algoritmy, ako je strojové učenie a analýza grafov. A okrem dávkového spracovania sa vyžaduje aj prúdová analýza údajov v reálnom čase, aby organizácie mohli včas konať. Budúce výpočtové platformy budú musieť nielen škálovať tradičné pracovné zaťaženia, ale podporovať aj tieto nové aplikácie.

V tejto knihe, ktorá je revidovanou verziou dizertačnej práce ocenenej cenou ACM Dissertation Award 2014, sa navrhuje architektúra pre klastrové výpočtové systémy, ktoré dokážu zvládnuť nové pracovné zaťaženia pri spracovaní údajov v širokom rozsahu. Zatiaľ čo prvé klastrové výpočtové systémy, ako napríklad MapReduce, zvládali dávkové spracovanie, naša architektúra umožňuje aj prúdové a interaktívne dotazy, pričom zachováva škálovateľnosť a odolnosť voči chybám MapReduce. A zatiaľ čo väčšina nasadených systémov podporuje len jednoduché jednopriechodové výpočty (napr. dotazy SQL), náš systém sa rozširuje aj na viacpriechodové algoritmy potrebné na komplexnú analýzu, ako je strojové učenie. A nakoniec, na rozdiel od špecializovaných systémov navrhnutých pre niektoré z týchto pracovných záťaží, naša architektúra umožňuje tieto výpočty kombinovať, čo umožňuje nové bohaté aplikácie, ktoré kombinujú napríklad prúdové a dávkové spracovanie.

Tieto výsledky dosahujeme pomocou jednoduchého rozšírenia MapReduce, ktoré pridáva primitíva na zdieľanie údajov, nazývané Resilient Distributed Datasets (RDD). Ukazujeme, že to stačí na zachytenie širokej škály pracovných záťaží. RDDs implementujeme v open source systéme Spark, ktorý vyhodnocujeme pomocou syntetických a reálnych pracovných záťaží. Spark sa v mnohých oblastiach vyrovná alebo prekoná výkon špecializovaných systémov, pričom ponúka silnejšie vlastnosti odolnosti voči chybám a umožňuje tieto pracovné záťaže kombinovať. Nakoniec skúmame všeobecnosť RDD z pohľadu teoretického modelovania aj z pohľadu systémov.

V tejto verzii dizertačnej práce sa v celom texte robia opravy a pridáva sa nová časť o vývoji Apache Spark v priemysle od roku 2014. Okrem toho boli doplnené úpravy, formátovanie a odkazy na referencie.

Ďalšie údaje o knihe:

ISBN:9781970001563
Autor:
Vydavateľ:
Jazyk:anglicky
Väzba:Mäkká väzba

Nákup:

Momentálne k dispozícii, na sklade.

Ďalšie knihy autora:

Architektúra na rýchle a všeobecné spracovanie údajov na veľkých klastroch - An Architecture for...
V posledných rokoch došlo k veľkým zmenám vo...
Architektúra na rýchle a všeobecné spracovanie údajov na veľkých klastroch - An Architecture for Fast and General Data Processing on Large Clusters

Diela autora vydali tieto vydavateľstvá:

© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)