Zvládnutie veľkých súborov údajov pomocou jazyka Python: Paralelizácia a distribúcia kódu v jazyku Python

Hodnotenie:   (3,9 z 5)

Zvládnutie veľkých súborov údajov pomocou jazyka Python: Paralelizácia a distribúcia kódu v jazyku Python (T. Wolohan John)

Recenzie čitateľov

Zhrnutie:

Kniha je oceňovaná pre svoju schopnosť prepojiť zložité témy v jazyku Python a reálne aplikácie, vďaka čomu je prínosom pre študentov, ktorí sa snažia zlepšiť svoje zručnosti. Bola však tiež kritizovaná za nedostatočnú hĺbku, nadbytočnosť a nepokrytie základných nástrojov, ako sú Hadoop a Spark.

Výhody:

Užitočný pri spájaní komplexných tém, poskytuje problémy z reálneho sveta, prospešný pre zručnosti na trhu práce, dobrý na rozšírenie základných vedomostí.

Nevýhody:

Opakujúce sa a riedke informácie, chýba hĺbka v niektorých oblastiach, vynechanie základných nástrojov, niektoré príklady kódovania sú slabé alebo nezmyselné.

(na základe 3 čitateľských recenzií)

Pôvodný názov:

Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Obsah knihy:

Zhrnutie.

Moderné riešenia dátovej vedy musia byť prehľadné, ľahko čitateľné a škálovateľné. V knihe Mastering Large Datasets with Python vás autor J. T. Wolohan naučí, ako vziať malý projekt a rozšíriť ho pomocou funkčne ovplyvneného prístupu ku kódovaniu v jazyku Python. Preskúmate metódy a zabudované nástroje jazyka Python, ktoré sa hodia na prehľadnosť a škálovateľnosť, ako napríklad metóda vysokovýkonného paralelizmu, ako aj distribuované technológie, ktoré umožňujú vysokú priepustnosť dát. Bohaté praktické cvičenia v tomto praktickom učebnom texte upevnia tieto základné zručnosti pre akýkoľvek rozsiahly projekt dátovej vedy.

Zakúpenie tlačenej knihy zahŕňa bezplatnú elektronickú knihu vo formátoch PDF, Kindle a ePub od vydavateľstva Manning Publications.

O technológiách: Kniha je určená pre všetkých, ktorí sa chcú naučiť pracovať s technológiou.

Programovacie techniky, ktoré dobre fungujú na dátach veľkosti notebooku, sa môžu spomaliť - alebo úplne zlyhať - pri aplikácii na obrovské súbory alebo distribuované súbory údajov. Zvládnutím výkonnej paradigmy mapovania a redukcie spolu s nástrojmi založenými na jazyku Python, ktoré ju podporujú, môžete písať dátovo orientované aplikácie, ktoré sa efektívne škálujú bez toho, aby bolo potrebné prepisovať kódovú základňu podľa toho, ako sa menia vaše požiadavky.

O knihe.

Kniha Zvládnutie veľkých súborov údajov v jazyku Python vás naučí písať kód, ktorý dokáže spracovať súbory údajov akejkoľvek veľkosti. Začnete so súbormi údajov veľkosti notebooku, ktoré vás naučia paralelizovať analýzu údajov rozdelením veľkých úloh na menšie, ktoré môžu bežať súčasne. Potom tie isté programy rozšírite na súbory údajov priemyselnej veľkosti na klastri cloudových serverov. S pevne zakotvenou paradigmou mapovania a redukcie preskúmate nástroje ako Hadoop a PySpark na efektívne spracovanie obrovských distribuovaných súborov údajov, urýchlite rozhodovanie pomocou strojového učenia a zjednodušíte ukladanie údajov pomocou AWS S3.

Čo nájdete vo vnútri.

⬤ Úvod do paradigmy map and reduce.

⬤ Paralelizácia s modulom multiprocessing a frameworkom pathos.

⬤ Hadoop a Spark pre distribuované výpočty.

⬤ Spustenie úloh AWS na spracovanie veľkých súborov údajov.

Informácie o čitateľovi.

Pre programátorov v jazyku Python, ktorí potrebujú pracovať rýchlejšie s väčším množstvom dát.

O autorovi: V knihe sa dočítate o autoroch, ktorí sa venujú práci s jazykom Python.

J. T. Wolohan je vedúci dátový vedec v spoločnosti Booz Allen Hamilton a doktorand na Indiana University, Bloomington.

Obsah:

ČASŤ 1.

1 ) Úvod.

2 ) Zrýchlenie práce s veľkými súbormi údajov: Mapovanie a paralelné výpočty.

3 ) Funkčné pipeline na mapovanie zložitých transformácií.

4 ) Spracovanie veľkých súborov údajov pomocou lenivých pracovných postupov.

5 ) Akumulačné operácie s redukciou.

6 ) Zrýchlenie mapovania a redukcie s pokročilou paralelizáciou.

ČASŤ 2.

7 ) Spracovanie skutočne veľkých súborov údajov pomocou Hadoop a Spark.

8 ) Osvedčené postupy pre veľké dáta s Apache Streaming a mrjob.

9 ) PageRank s mapou a redukciou v PySpark.

10 ) Rýchlejšie rozhodovanie so strojovým učením a PySparkom.

ČASŤ 3.

11 ) Veľké súbory údajov v cloude s Amazon Web Services a S3.

12 ) MapReduce v cloude s Elastic MapReduce od Amazonu.

Ďalšie údaje o knihe:

ISBN:9781617296239
Autor:
Vydavateľ:
Väzba:Mäkká väzba
Rok vydania:2020
Počet strán:312

Nákup:

Momentálne k dispozícii, na sklade.

Ďalšie knihy autora:

Zvládnutie veľkých súborov údajov pomocou jazyka Python: Paralelizácia a distribúcia kódu v jazyku...
Zhrnutie.Moderné riešenia dátovej vedy musia byť...
Zvládnutie veľkých súborov údajov pomocou jazyka Python: Paralelizácia a distribúcia kódu v jazyku Python - Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Diela autora vydali tieto vydavateľstvá:

© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)