Hodnotenie:
Kniha je medzi používateľmi Databricks všeobecne dobre prijímaná, chvália ju najmä za jasné vysvetlenia a praktické postrehy o optimalizácii dátových potrubí. Hoci sa odporúča začiatočníkom aj stredne pokročilým používateľom, niektorí recenzenti poznamenali, že v niektorých oblastiach, najmä v témach optimalizácie, jej chýba hĺbka a skúsenejším používateľom môže pripadať povrchná. Napriek tomu sa považuje za cenný zdroj informácií s praktickými ukážkami kódu a scenármi z reálneho sveta.
Výhody:⬤ Jasný a presný štýl písania.
⬤ Vynikajúci zdroj pre začiatočníkov a stredne pokročilých používateľov.
⬤ Užitočné poznatky o škálovaní dátových potrubí a optimalizačných technikách.
⬤ Pokrýva širokú škálu tém vrátane MLFlow, Delta Lake a štruktúrovaného streamingu.
⬤ Obsahuje praktické príklady a ukážky kódu, ktoré sú k dispozícii na GitHube.
⬤ Obsahuje reálne scenáre a prípadové štúdie.
⬤ Niektorí recenzenti majú pocit, že prvá časť je základná a uponáhľaná.
⬤ Chýba hĺbka v niektorých optimalizačných témach, čo môže byť pre pokročilých používateľov sklamaním.
⬤ Posledná kapitola o scenároch z reálneho sveta je príliš stručná.
⬤ Niektorí čitatelia považovali knihu za povrchnú a navrhovali zavádzajúci názov.
(na základe 10 čitateľských recenzií)
Optimizing Databricks Workloads: Harness the power of Apache Spark in Azure and maximize the performance of modern big data workloads
Zrýchlite výpočty a využite svoje údaje efektívne a účinne na Databricks
Kľúčové funkcie:
⬤ Poznajte optimalizácie Sparku pre veľké dátové záťaže a maximalizáciu výkonu.
⬤ Vybudujte efektívne inžinierske potrubia na spracovanie veľkých objemov údajov pomocou Databricks a Delta Lake.
⬤ Efektívne spravovať klastre Spark na spracovanie veľkých dát.
Popis knihy:
Databricks je špičková cloudová platforma pre dátovú analýzu, dátovú vedu a dátové inžinierstvo, ktorá podporuje tisíce organizácií na celom svete na ich ceste za dátami. Je to rýchla, jednoduchá a kolaboratívna platforma na analýzu veľkých dát založená na Apache Spark pre dátovú vedu a dátové inžinierstvo v cloude.
V časti Optimalizácia pracovnej záťaže Databricks začnete stručným úvodom do Azure Databricks a rýchlo začnete chápať dôležité techniky optimalizácie. Kniha sa zaoberá tým, ako vybrať optimálnu konfiguráciu klastra Spark na spustenie spracovania veľkých objemov údajov a pracovných záťaží v Databricks, niektorými veľmi užitočnými technikami optimalizácie pre Spark DataFrames, osvedčenými postupmi optimalizácie Delta Lake a technikami optimalizácie úloh Spark prostredníctvom jadra Spark. Obsahuje možnosť oboznámiť sa s niektorými reálnymi scenármi, v ktorých optimalizácia pracovných záťaží v systéme Databricks pomohla organizáciám zvýšiť výkon a ušetriť náklady v rôznych oblastiach.
Na konci tejto knihy budete pripravení so súborom nástrojov potrebných na zrýchlenie úloh Spark a efektívnejšie spracovanie údajov.
Čo sa naučíte:
⬤ Zoznámite sa so základmi Sparku a platformou Databricks.
⬤ Spracovávať veľké objemy údajov pomocou Spark DataFrame API s Delta Lake.
⬤ Analyzovať údaje pomocou spracovania grafov v Databricks.
⬤ Používať MLflow na správu životných cyklov strojového učenia v Databricks.
⬤ Zistite, ako vybrať správnu konfiguráciu klastra pre vaše pracovné zaťaženie.
⬤ Preskúmajte metódy zhusťovania súborov a klastrovania na vyladenie tabuliek Delta.
⬤ Objavte pokročilé techniky optimalizácie na zrýchlenie úloh Sparku.
Pre koho je táto kniha určená:
Táto kniha je určená pre dátových inžinierov, dátových vedcov a cloudových architektov, ktorí majú pracovné znalosti Sparku/Databricks a základné znalosti princípov dátového inžinierstva. Čitatelia budú musieť mať praktické znalosti jazyka Python a prospešné sú aj určité skúsenosti s SQL v PySpark a Spark SQL.
© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)