Optimalizácia pracovnej záťaže databanky: Zvládnite Apache Spark v Azure pre výkon veľkých dát

Optimalizácia pracovnej záťaže databanky: Využite výkon Apache Spark v Azure a maximalizujte výkon moderných pracovných záťaží s veľkými dátami (Anirudh Kala)

Recenzie čitateľov

Zhrnutie:

Kniha je medzi používateľmi Databricks všeobecne dobre prijímaná, chvália ju najmä za jasné vysvetlenia a praktické postrehy o optimalizácii dátových potrubí. Hoci sa odporúča začiatočníkom aj stredne pokročilým používateľom, niektorí recenzenti poznamenali, že v niektorých oblastiach, najmä v témach optimalizácie, jej chýba hĺbka a skúsenejším používateľom môže pripadať povrchná. Napriek tomu sa považuje za cenný zdroj informácií s praktickými ukážkami kódu a scenármi z reálneho sveta.

Výhody:

⬤ Jasný a presný štýl písania.
⬤ Vynikajúci zdroj pre začiatočníkov a stredne pokročilých používateľov.
⬤ Užitočné poznatky o škálovaní dátových potrubí a optimalizačných technikách.
⬤ Pokrýva širokú škálu tém vrátane MLFlow, Delta Lake a štruktúrovaného streamingu.
⬤ Obsahuje praktické príklady a ukážky kódu, ktoré sú k dispozícii na GitHube.
⬤ Obsahuje reálne scenáre a prípadové štúdie.

Nevýhody:

⬤ Niektorí recenzenti majú pocit, že prvá časť je základná a uponáhľaná.
⬤ Chýba hĺbka v niektorých optimalizačných témach, čo môže byť pre pokročilých používateľov sklamaním.
⬤ Posledná kapitola o scenároch z reálneho sveta je príliš stručná.
⬤ Niektorí čitatelia považovali knihu za povrchnú a navrhovali zavádzajúci názov.

(na základe 10 čitateľských recenzií)

Pôvodný názov:

Optimizing Databricks Workloads: Harness the power of Apache Spark in Azure and maximize the performance of modern big data workloads

Obsah knihy:

Zrýchlite výpočty a využite svoje údaje efektívne a účinne na Databricks

Kľúčové funkcie:

⬤ Poznajte optimalizácie Sparku pre veľké dátové záťaže a maximalizáciu výkonu.

⬤ Vybudujte efektívne inžinierske potrubia na spracovanie veľkých objemov údajov pomocou Databricks a Delta Lake.

⬤ Efektívne spravovať klastre Spark na spracovanie veľkých dát.

Popis knihy:

Databricks je špičková cloudová platforma pre dátovú analýzu, dátovú vedu a dátové inžinierstvo, ktorá podporuje tisíce organizácií na celom svete na ich ceste za dátami. Je to rýchla, jednoduchá a kolaboratívna platforma na analýzu veľkých dát založená na Apache Spark pre dátovú vedu a dátové inžinierstvo v cloude.

V časti Optimalizácia pracovnej záťaže Databricks začnete stručným úvodom do Azure Databricks a rýchlo začnete chápať dôležité techniky optimalizácie. Kniha sa zaoberá tým, ako vybrať optimálnu konfiguráciu klastra Spark na spustenie spracovania veľkých objemov údajov a pracovných záťaží v Databricks, niektorými veľmi užitočnými technikami optimalizácie pre Spark DataFrames, osvedčenými postupmi optimalizácie Delta Lake a technikami optimalizácie úloh Spark prostredníctvom jadra Spark. Obsahuje možnosť oboznámiť sa s niektorými reálnymi scenármi, v ktorých optimalizácia pracovných záťaží v systéme Databricks pomohla organizáciám zvýšiť výkon a ušetriť náklady v rôznych oblastiach.

Na konci tejto knihy budete pripravení so súborom nástrojov potrebných na zrýchlenie úloh Spark a efektívnejšie spracovanie údajov.

Čo sa naučíte:

⬤ Zoznámite sa so základmi Sparku a platformou Databricks.

⬤ Spracovávať veľké objemy údajov pomocou Spark DataFrame API s Delta Lake.

⬤ Analyzovať údaje pomocou spracovania grafov v Databricks.

⬤ Používať MLflow na správu životných cyklov strojového učenia v Databricks.

⬤ Zistite, ako vybrať správnu konfiguráciu klastra pre vaše pracovné zaťaženie.

⬤ Preskúmajte metódy zhusťovania súborov a klastrovania na vyladenie tabuliek Delta.

⬤ Objavte pokročilé techniky optimalizácie na zrýchlenie úloh Sparku.

Pre koho je táto kniha určená:

Táto kniha je určená pre dátových inžinierov, dátových vedcov a cloudových architektov, ktorí majú pracovné znalosti Sparku/Databricks a základné znalosti princípov dátového inžinierstva. Čitatelia budú musieť mať praktické znalosti jazyka Python a prospešné sú aj určité skúsenosti s SQL v PySpark a Spark SQL.

Ďalšie údaje o knihe:

ISBN:	9781801819077
Autor:	Anirudh Kala
Vydavateľ:	Packt Pub
Jazyk:	anglicky
Väzba:	Mäkká väzba

Nákup:

Momentálne k dispozícii, na sklade.

Optimalizácia pracovnej záťaže databanky: Využite výkon Apache Spark v Azure a maximalizujte výkon moderných pracovných záťaží s veľkými dátami

Recenzie čitateľov

Pôvodný názov:

Obsah knihy:

Ďalšie údaje o knihe:

Nákup:

Ďalšie knihy autora:

Diela autora vydali tieto vydavateľstvá: