Back to Question Center
0

Semalt: 3 koraka do PHP web stranice struganje

1 answers:

Web struganje, također naziva ekstrakcija web podataka ili sakupljanje web stranica, je proces izdvajanja podataka s web stranice ili bloga. Te se informacije zatim upotrebljavaju za postavljanje meta oznaka, meta opisa, ključnih riječi i veza na web mjesto, poboljšavajući njegovu ukupnu izvedbu u rezultatima tražilice.

  • Parsiranje dokumenta - Uključuje XML ili HTML dokument koji se pretvara u DOM (Document Object Model ) datoteka. PHP nam pruža veliku DOM proširenje.
  • Regularni izrazi - To je način kopanja podataka iz internetskih dokumenata u obliku regularnih izraza.

Problem s podacima o struganju trećih strana povezan je s njezinim autorskim pravima jer nemate dozvolu za korištenje ovih podataka. No, s PHP-om, lako možete strugati podatke bez problema vezanih uz autorska prava ili nisku kvalitetu. Kao PHP programer, možda ćete trebati podatke s različitih web stranica za svrhe kodiranja. Ovdje smo objasnili kako učinkovito dobiti podatke s drugih web mjesta, ali prije toga trebate imati na umu da ćete na kraju dobiti datoteke index.php ili scrape.js.

Koraci1: Stvaranje obrasca za unos URL-a web stranice:

Prije svega, trebali biste stvoriti obrazac u index.php klikom na gumb Pošalji i unesite URL web mjesta za struganje podataka. Upišite URL web mjesta za iscrtavanje podataka



Koraci2: Stvorite PHP funkciju za dobivanje podataka o web stranici:

Drugi korak je stvaranje PHP funkcija scrapes u scrape.php datoteku jer će pomoći dobiti podatke i koristiti biblioteku URL. Omogućit će vam i povezivanje i komunikaciju s različitim poslužiteljima i protokolima bez ikakvih problema..

funkcija scrapeSiteData ($ website_url) {

ako (! Function_exists ('curl_init')) {

umrijeti ('cURL nije instaliran. );

}

$ curl = curl_init

;

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, istinito);

$ izlaz = curl_exec ($ curl);

curl_close ($ curl);

povratak $ output;

}

Ovdje možemo vidjeti je li PHP cURL instaliran ispravno ili ne. Tri glavna cURL-ova moraju se koristiti u području funkcija, a curl_init

će pomoći u inicijalizaciji sesija, curl_exec

će ga izvršiti, a curl_close

pomoći će zatvoriti vezu. Varijable kao što je CURLOPT_URL upotrebljavaju se za postavljanje URL-ova web-lokacije za čišćenje. Drugi CURLOPT_RETURNTRANSFER pomoći će pohraniti kopirane stranice u obliku varijable umjesto zadanog obrasca koji će na kraju prikazati cijelu web stranicu.

Koraci3: Iscrpsti određene podatke s internetske stranice:

Vrijeme je za rukovanje funkcionalnostima PHP datoteke i struganje određenog dijela vaše web stranice. Ako ne želite sve podatke iz određenog URL-a, trebali biste urediti varijable CURLOPT_RETURNTRANSFER i istaknuti odjeljke koje želite kopati. ($ _ POST ['submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Najnoviji postovi');

$ end_point = strpos ($ html, '', $ start_point);

$ dužina = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ dužina);

echo $ html;

}

Predlažemo vam da razvijete osnovna znanja o PHP-u i regularnim izrazima prije nego što upotrijebite bilo koji od tih kodova ili kopirate određeni blog ili web stranicu u osobne svrhe.

December 8, 2017
Semalt: 3 koraka do PHP web stranice struganje
Reply