Hodnotenie:
Kniha je oceňovaná za komplexné pokrytie techník čistenia údajov a dôležitosť prípravy údajov na analýzu v dátovej vede. Čitatelia oceňujú pútavý štýl písania autora, Dr. Mertza, a dôraz na myšlienkový proces stojaci za manipuláciou s údajmi namiesto učenia sa z pamäti. Kniha slúži ako cenný zdroj informácií pre nováčikov aj skúsených odborníkov v oblasti dátovej vedy.
Výhody:⬤ Komplexné pokrytie techník čistenia údajov a prípravy údajov.
⬤ Pútavý a jasný štýl písania autora.
⬤ Zdôrazňuje skôr myšlienkový proces stojaci za manipuláciou s údajmi než len kódovanie.
⬤ Poskytuje množstvo príkladov kódu v programoch R, Python a nástrojoch príkazového riadku.
⬤ Užitočné pre odborníkov na všetkých úrovniach, od začiatočníkov až po expertov.
⬤ Usmernenia týkajúce sa verziovania údajov a reprodukovateľnosti manipulácie s údajmi.
⬤ Ponúka prehľad o rôznych formátoch údajov a o tom, ako s nimi zaobchádzať.
⬤ Niektorí čitatelia považovali organizáciu tém za menej prehľadnú, keďže techniky sú často prezentované skôr v rámci užívateľských príbehov než ako samostatné recepty.
⬤ Kniha je viac zameraná na tabuľkové údaje, pričom sa nedostatočne venuje čisteniu textových a obrazových údajov.
⬤ Niektorí čitatelia si želali menej záhadných názvov premenných v poskytnutých príkladoch kódu.
⬤ Očakávania štruktúrovaného katalógu receptov na čistenie údajov môžu viesť k sklamaniu.
(na základe 15 čitateľských recenzií)
Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools
Komplexný sprievodca pre dátových vedcov na zvládnutie účinných nástrojov a techník čistenia údajov
Kľúčové vlastnosti:
⬤ Ovládnite techniky čistenia údajov spôsobom, ktorý nie je závislý od jazyka.
⬤ Učte sa na pútavých praktických príkladoch z mnohých oblastí, ako sú biológia, údaje o počasí, demografia, fyzika, časové rady a spracovanie obrazu.
⬤ Pracujte s podrobnými, komentovanými a dobre otestovanými príkladmi kódu v jazykoch Python a R.
Popis knihy:
Je akýmsi truizmom v dátovej vede, analýze dát alebo strojovom učení, že väčšina úsilia potrebného na dosiahnutie skutočného cieľa spočíva v čistení dát. Táto kniha, napísaná Davidovým charakteristickým priateľským a vtipným štýlom, podrobne rozoberá základné kroky vykonávané v každom produkčnom potrubí dátovej vedy alebo dátovej analýzy a pripraví vás na vizualizáciu dát a modelovanie výsledkov.
Kniha sa ponára do praktickej aplikácie nástrojov a techník potrebných na prijímanie údajov, detekciu anomálií, imputáciu hodnôt a feature engineering. Na konci každej kapitoly ponúka aj dlhodobé cvičenia na precvičenie získaných zručností.
Na začiatku sa budete zaoberať prijímaním údajov v dátových formátoch, ako sú JSON, CSV, SQL RDBMS, HDF5, NoSQL databázy, súbory vo formátoch obrázkov a binárne serializované dátové štruktúry. Ďalej kniha poskytuje množstvo príkladových súborov údajov a dátových súborov, ktoré sú k dispozícii na stiahnutie a samostatné skúmanie.
Ak prejdete od formátov, budete imputovať chýbajúce hodnoty, zisťovať nespoľahlivé údaje a štatistické anomálie a vytvárať syntetické funkcie, ktoré sú potrebné pre úspešné ciele analýzy a vizualizácie údajov.
Na konci tejto knihy získate pevné pochopenie procesu čistenia údajov potrebného na vykonávanie reálnych úloh dátovej vedy a strojového učenia.
Čo sa naučíte:
⬤ Identifikovať problémové údaje týkajúce sa jednotlivých dátových bodov.
⬤ Detekovať problémové údaje v systematickom "tvare" údajov.
⬤ Odstrániť problémy s integritou a hygienou údajov.
⬤ Pripraviť údaje na analytické úlohy a úlohy strojového učenia.
⬤ Doplniť hodnoty do chýbajúcich alebo nespoľahlivých údajov.
⬤ Vytvárať syntetické funkcie, ktoré sú vhodnejšie pre ciele dátovej vedy, analýzy údajov alebo vizualizácie.
Pre koho je táto kniha určená:
Táto kniha je určená vývojárom softvéru, dátovým vedcom, začínajúcim dátovým vedcom a študentom, ktorí sa zaujímajú o analýzu údajov alebo vedecké výpočty.
Užitočné sú základné znalosti štatistiky, všeobecné koncepty strojového učenia, znalosť programovacieho jazyka (Python alebo R) a určitý kontakt s dátovou vedou. Slovník pojmov, odkazy a priateľské poznámky by mali všetkým čitateľom pomôcť dostať sa do problematiky.
Text bude užitočný aj pre stredne pokročilých a pokročilých dátových vedcov, ktorí chcú zlepšiť svoju dôslednosť pri hygiene údajov a chcú si osviežiť problematiku prípravy údajov.
© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)