Hodnotenie:
Kniha je zdrojom informácií o technológii Hadoop a analýze veľkých dát so zameraním na základné aj pokročilé témy. Hoci poskytuje široký prehľad o ekosystéme Hadoop a obsahuje praktické príklady, má aj značné problémy s presnosťou kódu a zrozumiteľnosťou písania.
Výhody:⬤ Komplexný prehľad Hadoopu a súvisiacich technológií
⬤ priateľský k začiatočníkom aj profesionálom
⬤ príklady sú užitočné pri praktickom učení
⬤ aktuálny prehľad starých aj nových technológií, ako sú MapReduce a Spark
⬤ poskytuje citácie na ďalšie čítanie.
⬤ Ukážkový kód často nezodpovedá opisom v knihe
⬤ pokyny na inštaláciu môžu byť mätúce
⬤ príklady môžu priniesť nesprávne výsledky
⬤ štýl písania je kritizovaný ako nedostatočne kvalitný
⬤ niektoré informácie sú zavádzajúce alebo nesprávne.
(na základe 9 čitateľských recenzií)
Data Analytics with Hadoop: An Introduction for Data Scientists
Ste pripravení používať štatistické techniky a techniky strojového učenia vo veľkých súboroch údajov? Táto praktická príručka vám ukáže, prečo je ekosystém Hadoop na túto prácu ideálny.
Namiesto nasadenia, prevádzky alebo vývoja softvéru, ktoré sa zvyčajne spájajú s distribuovanými výpočtami, sa zameriate na konkrétne analýzy, ktoré môžete vytvoriť, techniky dátových skladov, ktoré Hadoop poskytuje, a pracovné postupy s údajmi vyššieho rádu, ktoré tento rámec dokáže vytvoriť. Dátoví vedci a analytici sa naučia vykonávať širokú škálu techník, od písania aplikácií MapReduce a Spark pomocou jazyka Python až po používanie pokročilého modelovania a správy údajov pomocou Spark MLlib, Hive a HBase.
Dozviete sa aj o analytických procesoch a dátových systémoch, ktoré sú k dispozícii na vytváranie a posilňovanie dátových produktov, ktoré dokážu spracovať - a vlastne aj vyžadujú - obrovské množstvo údajov. ⬤ Pochopíte základné koncepty Hadoopu a klastrových výpočtov ⬤ Použijete návrhové vzory a paralelné analytické algoritmy na vytváranie distribuovaných úloh na analýzu dát ⬤ Zoznámite sa so správou, dolovaním a skladovaním dát v distribuovanom kontexte pomocou Apache Hive a HBase ⬤ Použijete Sqoop a Apache Flume na prijímanie dát z relačných databáz ⬤ Programujete komplexné aplikácie Hadoop a Spark pomocou Apache Pig a Spark DataFrames ⬤ Vykonáte techniky strojového učenia, ako je klasifikácia, zhlukovanie a kolaboratívne filtrovanie pomocou Spark MLlib.