Získavanie štruktúrovaných údajov z internetu: Spustenie webových prehľadávačov/škrabákov na veľkej produkčnej škále údajov

Hodnotenie:   (3,8 z 5)

Získavanie štruktúrovaných údajov z internetu: Spustenie webových prehľadávačov/škrabákov na veľkej produkčnej škále údajov (M. Patel Jay)

Recenzie čitateľov

Zhrnutie:

Kniha je všeobecne dobre prijímaná ako zdroj informácií o prehľadávaní a škrabaní webových stránok, najmä pre začiatočníkov. Niektorí používatelia však považujú jej praktickú použiteľnosť za obmedzenú vzhľadom na jej zameranie na vzorové stránky bez dôkladného návodu na ladenie alebo riešenie problémov v reálnom svete.

Výhody:

Poskytuje skvelý zdroj informácií na pochopenie prehľadávania webových stránok vo veľkom meradle, najmä s použitím AWS a bežných prehľadávaných údajov. Autor obsahuje postupný návod s príkladmi vhodnými pre začiatočníkov. Mnohí používatelia ho považujú za vynikajúci zdroj informácií o škrabaní webových stránok.

Nevýhody:

Užitočnosť informácií je trochu obmedzená, pretože kód funguje predovšetkým na vzorových stránkach uvedených v knihe. Je tu málo diskusií o ladení alebo aplikácii konceptov na reálne scenáre, čo niektorých používateľov sklamalo.

(na základe 4 čitateľských recenzií)

Pôvodný názov:

Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production Scale

Obsah knihy:

Využívajte škrabanie webu vo veľkom meradle na rýchle získanie neobmedzeného množstva voľných údajov dostupných na webe do štruktúrovaného formátu. Táto kniha vás naučí používať skripty jazyka Python na prehľadávanie webových stránok vo veľkom meradle a vyškrabávanie údajov zo stránok HTML a stránok s podporou jazyka JavaScript a ich konverziu do štruktúrovaných dátových formátov, ako sú CSV, Excel, JSON, alebo ich načítanie do vybranej databázy SQL.

Táto kniha presahuje základy škrabania webových stránok a venuje sa aj pokročilým témam, ako je spracovanie prirodzeného jazyka (NLP) a textová analýza na získavanie mien ľudí, miest, e-mailových adries, kontaktných údajov atď. zo stránky v produkčnom meradle pomocou distribuovaných techník spracovania veľkých objemov údajov v cloudovej infraštruktúre založenej na Amazon Web Services (AWS). Kniha sa zaoberá vývojom robustného potrubia na spracovanie a prijímanie údajov v korpuse Common Crawl, ktorý obsahuje petabajty verejne dostupných údajov a súbor údajov z prehľadávania webových stránok, ktoré sú k dispozícii v registri otvorených údajov spoločnosti AWS.

Získavanie štruktúrovaných údajov z internetu obsahuje aj podrobný návod na nasadenie vlastných prehľadávačov pomocou produkčného rámca na škrabanie webu (napríklad Scrapy) a riešenie problémov v reálnom svete (napríklad prelomenie Captcha, rotácia IP proxy servera a ďalšie). V knihe je uvedený kód, ktorý vám pomôže pochopiť koncepty v praxi a napísať si vlastný webový crawler na podporu svojich obchodných nápadov.

Čo sa naučíte

⬤ Poznáte web scraping, jeho aplikácie/využitie a ako sa vyhnúť web scrapingu tým, že budete narážať na verejne dostupné koncové body API rest na priame získavanie údajov.

⬤ Vyvinúť webový scraper a crawler od základov pomocou lxml a knižnice BeautifulSoup a naučiť sa o scrapovaní zo stránok s podporou JavaScriptu pomocou Selenium.

⬤ Využívajte cloudové výpočty založené na AWS s EC2, S3, Athena, SQS a SNS na analýzu, extrakciu a ukladanie užitočných poznatkov z prehľadávaných stránok.

⬤ Využívanie jazyka SQL v systéme PostgreSQL bežiacom na relačnej databázovej službe Amazon (RDS) a SQLite pomocou SQLalchemy.

⬤ Preskúmajte sci-kit learn, Gensim a spaCy na vykonávanie úloh NLP na vyškrabaných webových stránkach, ako je rozpoznávanie názvov entít, zhlukovanie tém (Kmeans, aglomeratívne zhlukovanie), modelovanie tém (LDA, NMF, LSI), klasifikácia tém (naive Bayes, Gradient Boosting Classifier) a podobnosť textu (najbližší susedia na základe kosínusovej vzdialenosti)

⬤ Spracovanie formátov webových archívnych súborov a skúmanie otvorených údajov Common Crawl na AWS.

⬤ Ukážka praktických aplikácií pre údaje web crawl vytvorením podobného nástroja pre webové stránky a technologického profilera podobného nástroju builtwith.com.

⬤ Napísať skripty na vytvorenie databázy spätných odkazov na webe v rozsahu podobnom Ahrefs.com, Moz.com, Majestic.com atď. na účely optimalizácie pre vyhľadávače (SEO), prieskumu konkurencie a určenia autority domény a poradia webových stránok.

⬤ Použitie údajov z prehľadávania webu na vytvorenie systému analýzy nálad v spravodajstve alebo alternatívnej finančnej analýzy pokrývajúcej signály obchodovania na burze.

⬤ Napíšte crawler pripravený na produkciu v jazyku Python pomocou frameworku Scrapy a zaoberajte sa praktickými riešeniami pre Captchas, rotáciu IP ad.

Pre koho je táto kniha určená

Primárne publikum: dátoví analytici a vedci s malým alebo žiadnym kontaktom s výzvami spracovania údajov v reálnom svete, sekundárne: skúsení softvéroví vývojári, ktorí sa venujú spracovaniu údajov na webe a potrebujú základné informácie, terciárne: majitelia firiem a zakladatelia startupov, ktorí potrebujú vedieť viac o implementácii, aby mohli lepšie riadiť svoj technický tím.

Ďalšie údaje o knihe:

ISBN:9781484265758
Autor:
Vydavateľ:
Väzba:Mäkká väzba

Nákup:

Momentálne k dispozícii, na sklade.

Ďalšie knihy autora:

Získavanie štruktúrovaných údajov z internetu: Spustenie webových prehľadávačov/škrabákov na veľkej...
Využívajte škrabanie webu vo veľkom meradle na...
Získavanie štruktúrovaných údajov z internetu: Spustenie webových prehľadávačov/škrabákov na veľkej produkčnej škále údajov - Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production Scale

Diela autora vydali tieto vydavateľstvá:

© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)