Semalt Review: Vefskrap til skemmtunar og gróða

Þú getur skrapað vefinn án þess að þurfa API. Þó að eigendur vefsins séu ágengir við að hætta að skafa þá er þeim sama um API og leggja frekar áherslu á vefsíður. Staðreyndirnar sem mörg vefsvæði verja ekki nægilega gegn sjálfvirkum aðgangi skapar svigrúm fyrir skrapara. Sumar einfaldar lausnir hjálpa þér að safna gögnum sem þú þarft.

Byrjaðu að skafa

Skrap þarf að skilja uppbyggingu gagnanna sem þú þarft og aðgengi þeirra. Þetta byrjar með því að sækja gögnin þín. Finndu slóðina sem skilar þeim upplýsingum sem þú þarft. Skoðaðu vefsíðuna og athugaðu hvernig slóðirnar breytast þegar þú vafrar um mismunandi hluti.

Að öðrum kosti, leitaðu að nokkrum hugtökum á vefnum og athugaðu hvernig slóðirnar breytast út frá leitarorði þínu. Þú ættir að sjá GET breytu eins og q = sem breytist í hvert skipti sem þú leitar að nýju hugtaki. Haltu GET breytunum sem nauðsynlegar eru til að hlaða gögnin þín og fjarlægðu hinar.

Hvernig á að takast á við framsókn

Blaðsending kemur í veg fyrir að þú hafir aðgang að öllum gögnum sem þú þarft í einu. Þegar þú smellir á blaðsíðu 2 er offset = breytu bætt við slóðina. Þetta er annað hvort fjöldi þátta á síðu eða blaðsíðutal. Hækkaðu þetta númer á hverri síðu gagnanna þinna.

Dragðu upp netflipann í Firebug eða Inspector fyrir síður sem nota AJAX. Athugaðu XHR beiðnirnar, auðkenndu og einbeittu þeim sem draga gögnin þín inn.

Fáðu gögn úr síðumerkingu

Þetta er náð með CSS krókum. Hægrismelltu á tiltekinn hluta gagnanna þinna. Dragðu Firebug eða Inspector og zoom í gegnum DOM tréð til að fá ysta <div> sem umbúðir einum hlut. Þegar þú hefur réttan hnút frá DOM tré skaltu skoða uppspretta blaðsins til að tryggja að þættirnir þínir séu aðgengilegir í hráum HTML.

Til að skafa vefsvæði með góðum árangri, þá þarftu HTML parsing bókasafn sem les í HTML og snýr því að hlut sem þú getur endurtekið þar til þú færð það sem þú þarft. Ef HTTP bókasafnið þitt krefst þess að þú setur nokkrar smákökur eða hausa skaltu skoða síðuna í vafranum þínum og fá hausana sem sendar eru af vafranum þínum. Settu þau í orðabók og sendu áfram með beiðni þinni.

Þegar þig vantar innskráningu til að skafa

Ef þú verður að búa til reikning og skrá þig inn til að fá þau gögn sem þú vilt, þarftu að hafa gott HTTP bókasafn til að sjá um innskráningu. Skrúfa innskráning afhjúpar þig fyrir síðum þriðja aðila.

Ef takmörkun vefþjónustunnar fer eftir IP-tölu skaltu setja kóða sem smellir á vefþjónustuna á Javascript viðskiptavinarins. Framlengdu síðan niðurstöðurnar aftur á netþjóninn þinn frá hverjum viðskiptavini. Niðurstöðurnar virðast eiga uppruna sinn að rekja til svo margra staða og enginn mun fara yfir taxta þeirra.

Lélega mótuð álagning

Erfitt getur verið að staðfesta sumar álagningar. Í slíkum tilvikum skaltu grafa í HTML sundurliðunina fyrir villu umburðarstillingar. Að öðrum kosti, meðhöndla allt HTML skjalið sem langan streng og gerðu strengjaskiptingu.

Þó að þú getir skafið alls kyns gögn á netinu nota sumar síður hugbúnað til að hætta að skafa og annað bannar skafa á vefnum . Slíkar síður geta höfðað mál þitt og jafnvel haft þig í fangelsi fyrir að safna gögnum þeirra. Svo vertu klár í öllu vefskrapinu og gerðu það á öruggan hátt.