Hodnotenie:
Kniha je oceňovaná za komplexné pokrytie spracovania údajov pomocou programov Pandas a Optimus, vďaka čomu je cenným zdrojom informácií pre nováčikov aj skúsených odborníkov na údaje. Zjednodušuje zložité dátové úlohy a zvyšuje efektivitu pracovných postupov.
Výhody:Poskytuje podrobný návod na predbežné spracovanie údajov pomocou programov Pandas a Optimus.
Nevýhody:Vynikajúci na učenie a urýchlenie spracovania a transformácie údajov.
(na základe 4 čitateľských recenzií)
Data Processing with Optimus: Supercharge big data preparation tasks for analytics and machine learning with Optimus using Dask and PySpark
Tento komplexný sprievodca, ktorý napísal hlavný tím Optimusu, vám pomôže pochopiť, ako Optimus zlepšuje celé prostredie spracovania údajov
Kľúčové vlastnosti:
⬤ S programom Optimus môžete efektívne načítavať, spájať a ukladať malé a veľké dáta.
⬤ Oboznámte sa s funkciami Optimus pre analýzu údajov, príznakové inžinierstvo, strojové učenie, krížové overovanie a NLP.
⬤ Zistite, ako Optimus zlepšuje iné technológie dátových rámcov a pomáha vám urýchliť úlohy spracovania údajov.
Popis knihy:
Optimus je knižnica jazyka Python, ktorá funguje ako jednotné API na čistenie, spracovanie a spájanie údajov. Možno ju použiť na spracovanie malých a veľkých dát na lokálnom notebooku alebo na vzdialených klastroch využívajúcich CPU alebo GPU.
Kniha sa začína opisom vnútorných funkcií systému Optimus a jeho fungovania v spojení s existujúcimi technológiami, ktoré slúžia potrebám spracovania údajov. Potom sa naučíte, ako používať Optimus na načítanie a ukladanie údajov z textových dátových formátov, ako sú súbory CSV a JSON, na skúmanie binárnych súborov, ako je Excel, a na spracovanie stĺpcových údajov pomocou programov Parquet, Avro a OCR. Ďalej sa zoznámite s profilovačom a jeho dátovými typmi - jedinečnou funkciou programu Optimus Dataframe, ktorá pomáha pri kvalite údajov. Uvidíte, ako používať grafy dostupné v programe Optimus, ako sú histogram, frekvenčné grafy a grafy rozptylu a krabicové grafy, a pochopíte, ako vám program Optimus umožňuje pripojiť sa ku knižniciam, ako sú Plotly a Altair. Takisto sa ponoríte do pokročilých aplikácií, ako je napríklad feature engineering, strojové učenie, krížové overovanie a funkcie spracovania prirodzeného jazyka, a preskúmate pokroky v programe Optimus. Nakoniec sa naučíte vytvárať funkcie čistenia a transformácie údajov a pridáte hypotetický nový engine na spracovanie údajov pomocou programu Optimus.
Na konci tejto knihy budete môcť ľahko zlepšiť svoj pracovný postup v oblasti vedy o údajoch pomocou programu Optimus.
Čo sa naučíte:
⬤ Používať viac ako 100 funkcií na spracovanie údajov nad stĺpcami a inými hodnotami podobnými reťazcom.
⬤ Resformujte a otočte údaje, aby ste získali výstup v požadovanom formáte.
⬤ Zistite, ako vykresliť histogramy, frekvenčné grafy, grafy rozptylu, krabicové grafy a ďalšie.
⬤ Prepojte program Optimus s populárnymi vizualizačnými knižnicami jazyka Python, ako sú Plotly a Altair.
⬤ Použite techniky zhlukovania reťazcov na normalizáciu reťazcov.
⬤ Objavte funkcie na skúmanie, opravu a odstránenie nekvalitných údajov.
⬤ Používajte pokročilé techniky na odstránenie odľahlých hodnôt z údajov.
⬤ Pridávať motory a vlastné funkcie na čistenie, spracovanie a spájanie údajov.
Pre koho je táto kniha určená:
Táto kniha je určená pre vývojárov v jazyku Python, ktorí chcú skúmať, transformovať a pripravovať veľké dáta na strojové učenie, analýzu a reportovanie pomocou Optimusu, jednotného API na prácu s Pandas, Dask, cuDF, Dask-cuDF, Vaex a Spark. Hoci to nie je nevyhnutné, znalosť jazyka Python na úrovni začiatočníka bude užitočná. Na inštaláciu programu Optimus a jeho požiadaviek sú potrebné základné znalosti CLI. Na používanie technológií GPU budete potrebovať grafickú kartu NVIDIA kompatibilnú s knižnicou NVIDIA RAPIDS, ktorá je kompatibilná so systémom Windows 10 a Linux.
© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)