Hodnotenie:
Kniha slúži ako úvod do systému Dask a jeho možností, ale má zmiešané hodnotenia, pokiaľ ide o cieľovú skupinu a hĺbku informácií. Hoci ponúka dobrý prehľad a porovnanie s Pandas, často sa zaoberá elementárnymi pojmami, ktoré nemusia byť pre cieľových čitateľov relevantné.
Výhody:⬤ Dobrý úvod pre začiatočníkov
⬤ výstižné vysvetlenie dátových štruktúr Dasku
⬤ efektívne porovnanie s Pandas
⬤ cenný zdroj na pochopenie konceptov dátovej vedy
⬤ prehľadná syntax a prípady použitia.
⬤ Príliš základný pre stredne pokročilých používateľov
⬤ obsahuje nerelevantné elementárne pojmy
⬤ rozvrhnutie a štruktúra by sa mohli zlepšiť
⬤ zaznamenané niektoré technické problémy
⬤ obsah môže byť príliš podrobný pre určené publikum.
(na základe 6 čitateľských recenzií)
Data Science with Python and Dask
Zhrnutie
Dask je natívny nástroj na paralelnú analýzu navrhnutý tak, aby sa bezproblémovo integroval s knižnicami, ktoré už používate, vrátane Pandas, NumPy a Scikit-Learn. Pomocou Dasku môžete chreniť a pracovať s obrovskými súbormi údajov pomocou nástrojov, ktoré už máte. A Data Science with Python and Dask je váš sprievodca používaním Dasku pre vaše dátové projekty bez toho, aby ste museli meniť spôsob práce.
Zakúpenie tlačenej knihy zahŕňa bezplatnú elektronickú knihu vo formátoch PDF, Kindle a ePub od vydavateľstva Manning Publications. Pokyny na registráciu nájdete vo vnútri tlačenej knihy.
O technológii
Efektívne dátové potrubie znamená pre úspech projektu dátovej vedy všetko. Dask je flexibilná knižnica na paralelné výpočty v jazyku Python, ktorá uľahčuje vytváranie intuitívnych pracovných postupov na prijímanie a analýzu veľkých distribuovaných súborov údajov. Dask poskytuje dynamické plánovanie úloh a paralelné kolekcie, ktoré rozširujú funkčnosť NumPy, Pandas a Scikit-learn a umožňujú používateľom ľahko škálovať svoj kód z jedného notebooku na klaster stoviek strojov.
O knihe
Data Science s Pythonom a Daskom vás naučí vytvárať škálovateľné projekty, ktoré dokážu spracovať obrovské súbory údajov. Po zoznámení sa s rámcom Dask budete analyzovať údaje v databáze newyorských parkovacích lístkov a používať DataFrames na zefektívnenie svojho procesu. Potom budete vytvárať modely strojového učenia pomocou Dask-ML, vytvárať interaktívne vizualizácie a budovať klastre pomocou AWS a Docker.
Čo je vnútri
⬤ Práca s veľkými štruktúrovanými a neštruktúrovanými súbormi údajov.
⬤ Vizualizácia pomocou Seaborn a Datashader.
⬤ Implementácia vlastných algoritmov.
⬤ Tvorba distribuovaných aplikácií pomocou Dask Distributed.
⬤ Balenie a nasadzovanie aplikácií Dask.
O čitateľovi
Pre dátových vedcov a vývojárov so skúsenosťami s používaním jazyka Python a zásobníka PyData.
O autorovi
Jesse Daniel je skúsený vývojár v jazyku Python. Vyučoval Python pre dátovú vedu na Denverskej univerzite a vedie tím dátových vedcov v denverskej mediálnej technologickej spoločnosti.
Obsah Table of Contents
ČASŤ 1 - Stavebné bloky škálovateľných výpočtov.
⬤ Prečo je škálovateľné počítanie dôležité.
⬤ Predstavenie Dasku.
ČASŤ 2 - Práca so štruktúrovanými údajmi pomocou Dask DataFrames.
⬤ Predstavenie Dask DataFrames.
⬤ Vkladanie údajov do DataFrames.
⬤ Čistenie a transformácia DataFrames.
⬤ Zhrnutie a analýza DataFrames.
⬤ Vizualizácia DataFrames pomocou programu Seaborn.
⬤ Vizualizácia údajov o polohe pomocou programu Datashader.
ČASŤ 3 - Rozšírenie a nasadenie Dasku.
⬤ Práca s vreckami a poliami.
⬤ Strojové učenie s Dask-ML.
⬤ Šírenie a nasadenie Dask.