Semalt: Conas Leathanach Gréasáin a Scrapeadh ag Úsáid Síneadh Google Chrome

Is script é scraper scáileáin a léann suíomhanna agus a bhaintear faisnéis úsáideach ón ngréasán. Is é scrapáil scáileáin an réiteach deiridh ar fhíor-shonraí a fháil ó láithreáin ghréasáin agus leathanaigh ghréasáin chuig Microsoft Excel. Is uirlis chumhachtach scrapála scáileáin é Google Chrome Extension Scraper a oibríonn ar Windows agus Mac OS araon.

Cén fáth Scraper Síneadh Google Chrome?

Is uirlis scrapála scáileáin láidir é scraper síneadh Google Chrome atá ag dul saor in aisce ar Chrome Web Store. Tá an uirlis scrapála seo suiteáilte i mbrabhsálaí Chrome mar bhreiseán. Ligeann an breiseán do bhlagadóirí agus do mhargaitheoirí sonraí a aisghabháil ó leathanaigh ghréasáin trí chliceáil ar dheis ar eilimint. Ba chóir go mbeadh '' Scrape Similar '' ar do scáileán má chliceálann tú eilimint ar dheis.

Réamhrá le XPaths

Is teanga cláir é XPath a úsáidtear chun faisnéis ríthábhachtach a fháil i struchtúir XML. Is sampla den scoth é an comhad HTML de struchtúr XML. Úsáidtear XPath go coitianta chun nóid spriocdhírithe a roghnú. Sa chomhthéacs seo, úsáidfear XPaths chun an téacs atá le baint ar leathanach gréasáin a chinneadh. Cuideoidh XPaths freisin le hainmneacha páirtithe agus uimhreacha gutháin Básanna na Sualainne a aithint.

Scraper Google Chrome a úsáid chun rochtain a fháil ar shonraí seoltaí 349 MP na Sualainne

Le Chrome's Scraper, ní amháin go bhfuil faisnéis a bhaint as leathanach gréasáin simplí ach iontach freisin. Bainfidh tú taitneamh as an bpróiseas agus as an teicníc féin.

Liostaíonn an suíomh Gréasáin baill uile na Sualainne agus a seoltaí. Chun tús a chur leis, cliceáil ar dheis ar aon MP agus roghnaigh "Scrape Like." Ba cheart duit an taispeáint seo a leanas a fheiceáil ar do scáileán.

Treoir céim ar chéim ar conas leathanach gréasáin a scríobadh

Má chliceálann tú ar dheis ar MP amháin agus má roghnaíonn tú “Inspect element,” cruthófar liosta aibítreach faoi aicme “clist coimeádán toradh cuardaigh alpha_6 alfa omega”. Úsáidfear dhá chéim chun an leathanach gréasáin seo a scrabhadh. clibeanna a chuimsíonn sonraí Básanna le XPath. Is éard a bheidh i gcéim a dó codanna ar leith de shonraí mar ainmneacha páirtí, ainmneacha agus uimhir theileafóin a phiocadh agus na sonraí a eagrú i gcolúin.

Céim 1

Tochailt níos doimhne isteach sa struchtúr HTML agus coinnigh na heilimintí slán. Pointe na clibeanna chun líon na gclibeanna a fhreagraíonn do ghnéithe ar do struchtúr a aithint. Sainaithin an chlib dheiridh ina bhfuil na sonraí spriocdhírithe. Rith tástáil XPath ar an struchtúr trí chliceáil "Scrape."

Taispeánfar liosta ina mbeidh 349 sraitheanna ar do scáileán. Is ionann 349 agus líon iomlán Básanna na Sualainne.

Céim 2

Roinn na sonraí a chuirtear i láthair i gcolúin. Scrúdaigh an cód HTML ar an leathanach gréasáin a bhí á úsáid agat. Sa chás seo, tá na píosaí atá le baint aibhsithe ag buí ag an nóiméad seo. Cuir isteach na XPaths i réimse na gcolún a cruthaíodh agus cliceáil "Scrape" chun an breiseán a rith.

Má tá eolas bunúsach agat ar XPaths, ní tasc mór a bheidh ann duit cláir a thuiscint. Tugann na céimeanna thuasluaite treoir duit ar conas leathanach gréasáin a scríobadh. Má tá tú ag obair ar iliomad leathanaigh ghréasáin a scríobadh, ní mór duit scileanna cláraithe a bheith agat.

mass gmail