Čistenie údajov pre efektívnu dátovú vedu: Urobte ďalších 80 % práce s Pythonom, R a nástrojmi príkazového riadku

Hodnotenie:   (4,8 z 5)

Čistenie údajov pre efektívnu dátovú vedu: Urobte ďalších 80 % práce s Pythonom, R a nástrojmi príkazového riadku (David Mertz)

Recenzie čitateľov

Zhrnutie:

Kniha je oceňovaná za komplexné pokrytie techník čistenia údajov a dôležitosť prípravy údajov na analýzu v dátovej vede. Čitatelia oceňujú pútavý štýl písania autora, Dr. Mertza, a dôraz na myšlienkový proces stojaci za manipuláciou s údajmi namiesto učenia sa z pamäti. Kniha slúži ako cenný zdroj informácií pre nováčikov aj skúsených odborníkov v oblasti dátovej vedy.

Výhody:

Komplexné pokrytie techník čistenia údajov a prípravy údajov.
Pútavý a jasný štýl písania autora.
Zdôrazňuje skôr myšlienkový proces stojaci za manipuláciou s údajmi než len kódovanie.
Poskytuje množstvo príkladov kódu v programoch R, Python a nástrojoch príkazového riadku.
Užitočné pre odborníkov na všetkých úrovniach, od začiatočníkov až po expertov.
Usmernenia týkajúce sa verziovania údajov a reprodukovateľnosti manipulácie s údajmi.
Ponúka prehľad o rôznych formátoch údajov a o tom, ako s nimi zaobchádzať.

Nevýhody:

Niektorí čitatelia považovali organizáciu tém za menej prehľadnú, keďže techniky sú často prezentované skôr v rámci užívateľských príbehov než ako samostatné recepty.
Kniha je viac zameraná na tabuľkové údaje, pričom sa nedostatočne venuje čisteniu textových a obrazových údajov.
Niektorí čitatelia si želali menej záhadných názvov premenných v poskytnutých príkladoch kódu.
Očakávania štruktúrovaného katalógu receptov na čistenie údajov môžu viesť k sklamaniu.

(na základe 15 čitateľských recenzií)

Pôvodný názov:

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

Obsah knihy:

Komplexný sprievodca pre dátových vedcov na zvládnutie účinných nástrojov a techník čistenia údajov

Kľúčové vlastnosti:

⬤ Ovládnite techniky čistenia údajov spôsobom, ktorý nie je závislý od jazyka.

⬤ Učte sa na pútavých praktických príkladoch z mnohých oblastí, ako sú biológia, údaje o počasí, demografia, fyzika, časové rady a spracovanie obrazu.

⬤ Pracujte s podrobnými, komentovanými a dobre otestovanými príkladmi kódu v jazykoch Python a R.

Popis knihy:

Je akýmsi truizmom v dátovej vede, analýze dát alebo strojovom učení, že väčšina úsilia potrebného na dosiahnutie skutočného cieľa spočíva v čistení dát. Táto kniha, napísaná Davidovým charakteristickým priateľským a vtipným štýlom, podrobne rozoberá základné kroky vykonávané v každom produkčnom potrubí dátovej vedy alebo dátovej analýzy a pripraví vás na vizualizáciu dát a modelovanie výsledkov.

Kniha sa ponára do praktickej aplikácie nástrojov a techník potrebných na prijímanie údajov, detekciu anomálií, imputáciu hodnôt a feature engineering. Na konci každej kapitoly ponúka aj dlhodobé cvičenia na precvičenie získaných zručností.

Na začiatku sa budete zaoberať prijímaním údajov v dátových formátoch, ako sú JSON, CSV, SQL RDBMS, HDF5, NoSQL databázy, súbory vo formátoch obrázkov a binárne serializované dátové štruktúry. Ďalej kniha poskytuje množstvo príkladových súborov údajov a dátových súborov, ktoré sú k dispozícii na stiahnutie a samostatné skúmanie.

Ak prejdete od formátov, budete imputovať chýbajúce hodnoty, zisťovať nespoľahlivé údaje a štatistické anomálie a vytvárať syntetické funkcie, ktoré sú potrebné pre úspešné ciele analýzy a vizualizácie údajov.

Na konci tejto knihy získate pevné pochopenie procesu čistenia údajov potrebného na vykonávanie reálnych úloh dátovej vedy a strojového učenia.

Čo sa naučíte:

⬤ Identifikovať problémové údaje týkajúce sa jednotlivých dátových bodov.

⬤ Detekovať problémové údaje v systematickom "tvare" údajov.

⬤ Odstrániť problémy s integritou a hygienou údajov.

⬤ Pripraviť údaje na analytické úlohy a úlohy strojového učenia.

⬤ Doplniť hodnoty do chýbajúcich alebo nespoľahlivých údajov.

⬤ Vytvárať syntetické funkcie, ktoré sú vhodnejšie pre ciele dátovej vedy, analýzy údajov alebo vizualizácie.

Pre koho je táto kniha určená:

Táto kniha je určená vývojárom softvéru, dátovým vedcom, začínajúcim dátovým vedcom a študentom, ktorí sa zaujímajú o analýzu údajov alebo vedecké výpočty.

Užitočné sú základné znalosti štatistiky, všeobecné koncepty strojového učenia, znalosť programovacieho jazyka (Python alebo R) a určitý kontakt s dátovou vedou. Slovník pojmov, odkazy a priateľské poznámky by mali všetkým čitateľom pomôcť dostať sa do problematiky.

Text bude užitočný aj pre stredne pokročilých a pokročilých dátových vedcov, ktorí chcú zlepšiť svoju dôslednosť pri hygiene údajov a chcú si osviežiť problematiku prípravy údajov.

Ďalšie údaje o knihe:

ISBN:9781801071291
Autor:
Vydavateľ:
Väzba:Mäkká väzba

Nákup:

Momentálne k dispozícii, na sklade.

Ďalšie knihy autora:

Čistenie údajov pre efektívnu dátovú vedu: Urobte ďalších 80 % práce s Pythonom, R a nástrojmi...
Komplexný sprievodca pre dátových vedcov na...
Čistenie údajov pre efektívnu dátovú vedu: Urobte ďalších 80 % práce s Pythonom, R a nástrojmi príkazového riadku - Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools
Záhadné hádanky regulárnych výrazov - The Puzzling Quirks of Regular Expressions
Táto zábavná skladačka pre vývojárov softvéru a programátorov-záujemcov poučí...
Záhadné hádanky regulárnych výrazov - The Puzzling Quirks of Regular Expressions
Lepší kód Pythonu: Príručka pre začínajúcich expertov - Better Python Code: A Guide for Aspiring...
Posuňte sa od kódu Pythonu, ktorý "väčšinou...
Lepší kód Pythonu: Príručka pre začínajúcich expertov - Better Python Code: A Guide for Aspiring Experts

Diela autora vydali tieto vydavateľstvá:

© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)