Hodnotenie:
Táto kniha slúži ako komplexný zdroj informácií o Apache Spark a ponúka podrobné teoretické a praktické poznatky. Je dobre organizovaná, zameriava sa na rôzne súčasti Sparku a obsahuje užitočné vizualizácie a ukážky kódu. Pre skúsených používateľov však môže byť príliš základná a vyžaduje si určité predchádzajúce znalosti programovania.
Výhody:⬤ Pokrýva teoretické a praktické aspekty Sparku do veľkej hĺbky
⬤ je dobre organizovaná a prehľadná
⬤ poskytuje jasné pokyny, užitočné vizualizácie a ukážky kódu
⬤ poskytuje dobrý úvod do Sparku
⬤ obsahuje kapitoly o Delta Lake a MLlib
⬤ vhodná pre začiatočníkov aj skúsenejších používateľov, ktorí si chcú osviežiť informácie.
⬤ Niektoré témy môžu byť pokryté príliš povrchne
⬤ vyžaduje základné až stredne pokročilé znalosti programovania a analýzy dát
⬤ nie je ideálny pre používateľov s predchádzajúcimi skúsenosťami so Sparkom
⬤ nastavenie môže byť náročné, najmä pre používateľov Mac a Windows
⬤ nemusí byť vhodný pre úplných nováčikov v oblasti technológií.
(na základe 33 čitateľských recenzií)
Learning Spark: Lightning-Fast Data Analytics
Dáta sú väčšie, prichádzajú rýchlejšie a v rôznych formátoch - a všetky je potrebné spracovať v rozsahu pre analytiku alebo strojové učenie. Ako však môžete efektívne spracovať takéto rôznorodé pracovné zaťaženie? Vstúpte do Apache Spark.
Aktualizované o Spark 3. 0, toto druhé vydanie ukazuje dátovým inžinierom a dátovým vedcom, prečo je štruktúra a zjednotenie v Sparku dôležité. Konkrétne táto kniha vysvetľuje, ako vykonávať jednoduchú a zložitú analýzu údajov a používať algoritmy strojového učenia. Prostredníctvom postupných krokov, úryvkov kódu a zošitov budete môcť:
⬤ Učiť sa vysokoúrovňové štruktúrované API v jazykoch Python, SQL, Scala alebo Java.
⬤ Pochopiť operácie Spark a SQL Engine.
⬤ Preskúmať, ladiť a ladiť operácie Spark pomocou konfigurácií Spark a používateľského rozhrania Spark.
⬤ Pripojiť sa k zdrojom údajov: JSON, Parquet, CSV, Avro, ORC, Hive, S3 alebo Kafka.
⬤ Vykonávanie analýz na dávkových a prúdových údajoch pomocou štruktúrovaného streamingu.
⬤ Vybudujte spoľahlivé dátové potrubia pomocou open source Delta Lake a Spark.
⬤ Vyvíjať pipeline strojového učenia pomocou MLlib a produkovať modely pomocou MLflow.