Semalt Review: veebi kraapimine lõbu ja kasumi teenimiseks

Saidi kraapimist saate teha ilma API-d vajamata. Ehkki veebisaitide omanikud suhtuvad kraapimise peatamisse agressiivselt, hoolivad nad vähem rakendusliidestest ja panevad selle asemel rohkem rõhku veebisaitidele. Faktid, et paljud saidid ei kaitse automaatse juurdepääsu eest piisavalt, loovad kaabitsate jaoks mänguruumi. Mõned lihtsad lahendused aitavad teil vajalikke andmeid koguda.

Kraapimisega alustamine

Kaapimine eeldab vajalike andmete ülesehituse ja juurdepääsetavuse mõistmist. See algab teie andmete toomisega. Leidke URL, mis tagastab vajaliku teabe. Sirvige veebisaiti ja kontrollige, kuidas URL-id muutuvad, kui sirvite eri jaotistes.

Teine võimalus on otsida saidilt mitut terminit ja kontrollida, kuidas URL-id teie otsingutermini põhjal muutuvad. Uue termini otsimisel peaksite nägema GET-i parameetrit, näiteks q =, mis muutub. Säilitage oma andmete laadimiseks vajalikud GET-parameetrid ja eemaldage need ülejäänud.

Kuidas toimida palgatsiooniga

Leheküljed ei lase teil juurdepääsu kõigile vajalikele andmetele korraga. Kui klõpsate 2. lehel, lisatakse URL-ile parameeter offset =. See on kas elementide arv lehel või lehe number. Suurendage seda arvu oma andmete igal lehel.

AJAX-i kasutavate saitide jaoks tõmmake võrgukaart üles Firebugis või Inspektoris. Kontrollige XHR-i päringuid, tuvastage ja keskenduge neile, kes teie andmeid sisestavad.

Hankige andmeid lehe märgistusest

See saavutatakse CSS-i konksude abil. Paremklõpsake oma andmete konkreetsel jaotisel. Tõmmake Firebug või Inspector ja suumige läbi DOM-puu, et saada kõige üksus mähisev <div>. Kui olete DOM-puult õige sõlme leidnud, vaadake lehe allikat, et veenduda, et teie elementidele on juurdepääs toores HTML-is.

Saidi kraapimise õnnestumiseks vajate HTML-i parsimiskogu, mis loeb HTML-i ja muudab selle objektiks, mida saate korrata, kuni saate vajaliku. Kui teie HTTP-teek nõuab mõne küpsise või päise määramist, sirvige oma veebibrauseri saiti ja saatke päised teie brauserisse. Pange need sõnastikku ja edastage koos oma taotlusega.

Kui vajate kraapimiseks sisselogimist

Kui vajalike andmete saamiseks peate looma konto ja sisse logima, peab teil olema sisselogimiste haldamiseks hea HTTP-teek. Kaabitsa sisselogimine viib teid kolmandate osapoolte saitidele.

Kui teie veebiteenuse tariifipiirang sõltub IP-aadressist, määrake kood, mis tabab veebiteenuse kliendipoolse Javascripti järgi. Seejärel edastage iga kliendi tulemused tagasi oma serverisse. Näib, et tulemused pärinevad paljudest kohtadest ja mitte ükski ei ületa nende määra piirmäära.

Halvasti vormistatud märgistus

Mõne märgistuse valideerimine võib olla keeruline. Sellistel juhtudel kaaluge tõrketaluvuse sätete saamiseks HTML-i parserisse. Teise võimalusena käsitlege kogu HTML-dokumenti pika stringina ja jagage stringi.

Ehkki saate saidil kraapida igasuguseid andmeid netis , kasutavad mõned saidid kraapimise peatamiseks tarkvara ja teised keelavad veebis sissekannete tegemise . Sellised saidid võivad teid kohtusse kaevata ja olete isegi nende andmete kogumise eest vangi pannud. Nii et olge nutikad kogu oma veebi kraapides ja tehke seda turvaliselt.