Optimalizácia pracovnej záťaže databanky: Využite výkon Apache Spark v Azure a maximalizujte výkon moderných pracovných záťaží s veľkými dátami

Hodnotenie:   (4,1 z 5)

Optimalizácia pracovnej záťaže databanky: Využite výkon Apache Spark v Azure a maximalizujte výkon moderných pracovných záťaží s veľkými dátami (Anirudh Kala)

Recenzie čitateľov

Zhrnutie:

Kniha je medzi používateľmi Databricks všeobecne dobre prijímaná, chvália ju najmä za jasné vysvetlenia a praktické postrehy o optimalizácii dátových potrubí. Hoci sa odporúča začiatočníkom aj stredne pokročilým používateľom, niektorí recenzenti poznamenali, že v niektorých oblastiach, najmä v témach optimalizácie, jej chýba hĺbka a skúsenejším používateľom môže pripadať povrchná. Napriek tomu sa považuje za cenný zdroj informácií s praktickými ukážkami kódu a scenármi z reálneho sveta.

Výhody:

Jasný a presný štýl písania.
Vynikajúci zdroj pre začiatočníkov a stredne pokročilých používateľov.
Užitočné poznatky o škálovaní dátových potrubí a optimalizačných technikách.
Pokrýva širokú škálu tém vrátane MLFlow, Delta Lake a štruktúrovaného streamingu.
Obsahuje praktické príklady a ukážky kódu, ktoré sú k dispozícii na GitHube.
Obsahuje reálne scenáre a prípadové štúdie.

Nevýhody:

Niektorí recenzenti majú pocit, že prvá časť je základná a uponáhľaná.
Chýba hĺbka v niektorých optimalizačných témach, čo môže byť pre pokročilých používateľov sklamaním.
Posledná kapitola o scenároch z reálneho sveta je príliš stručná.
Niektorí čitatelia považovali knihu za povrchnú a navrhovali zavádzajúci názov.

(na základe 10 čitateľských recenzií)

Pôvodný názov:

Optimizing Databricks Workloads: Harness the power of Apache Spark in Azure and maximize the performance of modern big data workloads

Obsah knihy:

Zrýchlite výpočty a využite svoje údaje efektívne a účinne na Databricks

Kľúčové funkcie:

⬤ Poznajte optimalizácie Sparku pre veľké dátové záťaže a maximalizáciu výkonu.

⬤ Vybudujte efektívne inžinierske potrubia na spracovanie veľkých objemov údajov pomocou Databricks a Delta Lake.

⬤ Efektívne spravovať klastre Spark na spracovanie veľkých dát.

Popis knihy:

Databricks je špičková cloudová platforma pre dátovú analýzu, dátovú vedu a dátové inžinierstvo, ktorá podporuje tisíce organizácií na celom svete na ich ceste za dátami. Je to rýchla, jednoduchá a kolaboratívna platforma na analýzu veľkých dát založená na Apache Spark pre dátovú vedu a dátové inžinierstvo v cloude.

V časti Optimalizácia pracovnej záťaže Databricks začnete stručným úvodom do Azure Databricks a rýchlo začnete chápať dôležité techniky optimalizácie. Kniha sa zaoberá tým, ako vybrať optimálnu konfiguráciu klastra Spark na spustenie spracovania veľkých objemov údajov a pracovných záťaží v Databricks, niektorými veľmi užitočnými technikami optimalizácie pre Spark DataFrames, osvedčenými postupmi optimalizácie Delta Lake a technikami optimalizácie úloh Spark prostredníctvom jadra Spark. Obsahuje možnosť oboznámiť sa s niektorými reálnymi scenármi, v ktorých optimalizácia pracovných záťaží v systéme Databricks pomohla organizáciám zvýšiť výkon a ušetriť náklady v rôznych oblastiach.

Na konci tejto knihy budete pripravení so súborom nástrojov potrebných na zrýchlenie úloh Spark a efektívnejšie spracovanie údajov.

Čo sa naučíte:

⬤ Zoznámite sa so základmi Sparku a platformou Databricks.

⬤ Spracovávať veľké objemy údajov pomocou Spark DataFrame API s Delta Lake.

⬤ Analyzovať údaje pomocou spracovania grafov v Databricks.

⬤ Používať MLflow na správu životných cyklov strojového učenia v Databricks.

⬤ Zistite, ako vybrať správnu konfiguráciu klastra pre vaše pracovné zaťaženie.

⬤ Preskúmajte metódy zhusťovania súborov a klastrovania na vyladenie tabuliek Delta.

⬤ Objavte pokročilé techniky optimalizácie na zrýchlenie úloh Sparku.

Pre koho je táto kniha určená:

Táto kniha je určená pre dátových inžinierov, dátových vedcov a cloudových architektov, ktorí majú pracovné znalosti Sparku/Databricks a základné znalosti princípov dátového inžinierstva. Čitatelia budú musieť mať praktické znalosti jazyka Python a prospešné sú aj určité skúsenosti s SQL v PySpark a Spark SQL.

Ďalšie údaje o knihe:

ISBN:9781801819077
Autor:
Vydavateľ:
Jazyk:anglicky
Väzba:Mäkká väzba

Nákup:

Momentálne k dispozícii, na sklade.

Ďalšie knihy autora:

Nebezpečný azyl: Príbehy o rozdelení a šialenstve - The Unsafe Asylum: Stories of Partition and...
'Je to opäť čas rozdelenia? ' opýtala sa ma, keď...
Nebezpečný azyl: Príbehy o rozdelení a šialenstve - The Unsafe Asylum: Stories of Partition and Madness
Optimalizácia pracovnej záťaže databanky: Využite výkon Apache Spark v Azure a maximalizujte výkon...
Zrýchlite výpočty a využite svoje údaje efektívne...
Optimalizácia pracovnej záťaže databanky: Využite výkon Apache Spark v Azure a maximalizujte výkon moderných pracovných záťaží s veľkými dátami - Optimizing Databricks Workloads: Harness the power of Apache Spark in Azure and maximize the performance of modern big data workloads

Diela autora vydali tieto vydavateľstvá:

© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)