Hodnotenie:
V recenziách sa zdôrazňuje, že kniha je dobre napísaná a pútavá, vďaka čomu sa potenciálne suchá téma stáva zaujímavou. Poskytuje užitočné tipy, najmä pre tých, ktorí pracujú so súbormi CSV a nástrojmi príkazového riadku.
Výhody:Dobre napísané, pútavé, užitočné tipy a odporúčania, jasné príklady, vhodné najmä pre používateľov CSV, stručné a výstižné, obsahuje nástroje naprogramované autorom.
Nevýhody:Príklady kódu môžu byť pre začínajúcich používateľov príkazového riadku mätúce.
(na základe 5 čitateľských recenzií)
Data Science at the Command Line: Obtain, Scrub, Explore, and Model Data with Unix Power Tools
Táto dôkladne prepracovaná príručka ukazuje, ako vám flexibilita príkazového riadku môže pomôcť stať sa efektívnejším a produktívnejším dátovým vedcom. Naučíte sa, ako kombinovať malé, ale výkonné nástroje príkazového riadka na rýchle získavanie, čistenie, skúmanie a modelovanie údajov. Aby ste mohli začať, autor Jeroen Janssens poskytuje obraz Dockera s viac ako 100 výkonnými unixovými nástrojmi - použiteľnými bez ohľadu na to, či pracujete s Windows, MacOS alebo Linuxom.
Rýchlo zistíte, prečo je príkazový riadok agilnou, škálovateľnou a rozšíriteľnou technológiou. Dokonca aj keď pohodlne spracovávate dáta pomocou Pythonu alebo R, naučíte sa, ako výrazne zlepšiť svoj pracovný postup v oblasti dátovej vedy využitím výkonu príkazového riadku. Táto kniha je ideálna pre dátových vedcov, analytikov, inžinierov, správcov systémov a výskumníkov.
⬤ Získajte údaje z webových stránok, rozhraní API, databáz a tabuliek.
⬤ Vykonávajte čistiace operácie na textových súboroch, súboroch CSV, HTML, XML a JSON.
⬤ Preskúmajte údaje, vypočítajte popisné štatistiky a vytvorte vizualizácie.
⬤ Spravujte svoj pracovný postup v oblasti vedy o údajoch.
⬤ Vytvárajte vlastné nástroje z jednoliateho kódu a existujúceho kódu v jazyku Python alebo R.
⬤ Paralelizujte a distribuujte dátovo náročné pipelines.
⬤ Modelovať údaje pomocou algoritmov na znižovanie dimenzionality, regresie a klasifikácie.
⬤ Využívajte príkazový riadok z programov Python, Jupyter, R, RStudio a Apache Spark.