Python Web Scraping Cookbook - Majstrovská extrakcia webových dát s viac ako 90 receptami

Kuchárka škrabania webu v jazyku Python: Viac ako 90 osvedčených receptov, ktoré vám pomôžu pri škrabaní v jazyku Python, mikroslužbách, Dockeri a AWS (Michael Heydt)

Recenzie čitateľov

Zhrnutie:

Kniha o škrabaní webových stránok získala prevažne negatívne recenzie, pričom používatelia vyjadrili frustráciu nad jej nedostatočnou hĺbkou a praktickými usmerneniami. Niektorí považovali za prínosnejšie hľadať pomoc v online zdrojoch, ako sú YouTube a Stack Overflow.

Výhody:

Niektorí používatelia zistili, že kniha môže poskytnúť základné poznatky o rôznych knižniciach na škrabanie a mohla by byť užitočná pre používateľov, ktorí sa zaujímajú skôr o crawling než o škrabanie známych lokalít.

Nevýhody:

Kniha neposkytuje dostatok podrobností na praktické použitie, najmä pre začiatočníkov/sprostredkovateľov. Chýbajú v nej základné témy, ako je práca s heslami a JavaScript. Mnohí ju považovali za nedostatočnú a navrhovali, že online zdroje sú oveľa efektívnejšie.

(na základe 3 čitateľských recenzií)

Pôvodný názov:

Python Web Scraping Cookbook: Over 90 proven recipes to get you scraping with Python, microservices, Docker, and AWS

Obsah knihy:

Odbúrajte zložitosti škrabania webu a získajte jednoduchý prístup k webovým údajom pomocou skriptov Python

Kľúčové funkcie

⬤ Praktické recepty na zlepšenie vašich zručností pri škrabaní webu na úroveň experta.

⬤ Jedinečný sprievodca riešením na riešenie zložitých a náročných úloh webového škrabania pomocou jazyka Python.

⬤ Pochopenie štruktúry webových stránok a jednoduchý zber údajov z webových stránok.

Popis knihy

Python Web Scraping Cookbook je kniha zameraná na riešenie, ktorá vás naučí techniky na vývoj vysoko výkonných scraperov a riešenie crawlerov, sitemap, automatizácie formulárov, stránok založených na Ajaxe, cache a ďalších.

Preskúmate množstvo reálnych scenárov, v ktorých budú plne pokryté všetky časti životného cyklu vývoja/produktu. Rozviniete si nielen zručnosti potrebné na navrhovanie a vývoj spoľahlivých výkonnostných dátových tokov, ale aj na nasadenie svojej kódovej základne na AWS. Ak sa zaoberáte softvérovým inžinierstvom, vývojom produktov alebo získavaním údajov (alebo sa zaujímate o vytváranie produktov založených na údajoch), bude pre vás táto kniha užitočná, pretože každý recept má jasný účel a cieľ. Od extrakcie údajov z webových stránok až po napísanie sofistikovaného webového prehľadávača budú nezávislé recepty v knihe darom z nebies. Táto kniha sa zaoberá knižnicami Python, požiadavkami a programom BeautifulSoup. Dozviete sa o prehľadávaní, webovom pavúkovaní, práci s webovými stránkami Ajax, stránkovaných položkách a ďalších. Naučíte sa tiež riešiť problémy, ako sú chyby 403, práca s proxy servermi, škrabanie obrázkov a LXML.

Na konci tejto knihy budete vedieť efektívnejšie škrabať webové stránky a budete schopní.

Nasadiť a prevádzkovať svoj scraper v cloude.

Čo sa naučíte

⬤ Používať rôzne nástroje na škrabanie akýchkoľvek webových stránok a údajov vrátane BeautifulSoup, Scrapy, Selenium a mnohých ďalších.

⬤ Majstrovské výrazové jazyky, ako sú XPath a CSS, a regulárne výrazy na extrakciu webových údajov.

⬤ Pracovať s nástrahami škrabania, ako sú skryté polia formulára, škrtenie, stránkovanie a rôzne stavové kódy.

⬤ Vybudovať robustné scrapovacie potrubia pomocou SQS a RabbitMQ.

⬤ Scrapovanie aktív, ako sú obrazové médiá, a naučte sa, čo robiť, keď sa Scraper nepodarí spustiť.

⬤ Preskúmajte techniky ETL budovania prispôsobeného crawlera, parseru a konverzie štruktúrovaných a neštruktúrovaných údajov z webových stránok.

⬤ Umiestnite a spustite svoj scraper ako službu v službe AWS Elastic Container Service.

Pre koho je táto kniha určená

Táto kniha je ideálna pre programátorov v jazyku Python, správcov webových stránok, odborníkov na bezpečnosť a všetkých, ktorí chcú vykonávať webovú analýzu. Na čo najlepšie využitie tejto knihy bude užitočná znalosť jazyka Python a základné pochopenie škrabania webových stránok.

Ďalšie údaje o knihe:

ISBN:	9781787285217
Autor:	Michael Heydt
Vydavateľ:	Packt Pub
Jazyk:	anglicky
Väzba:	Mäkká väzba

Nákup:

Momentálne k dispozícii, na sklade.

Kuchárka škrabania webu v jazyku Python: Viac ako 90 osvedčených receptov, ktoré vám pomôžu pri škrabaní v jazyku Python, mikroslužbách, Dockeri a AWS

Recenzie čitateľov

Pôvodný názov:

Obsah knihy:

Ďalšie údaje o knihe:

Nákup:

Ďalšie knihy autora:

Diela autora vydali tieto vydavateľstvá: