Back to Question Center
0

Semalt: 3 trin til PHP webside skrabning

1 answers:
Webskrabning, også kaldet web dataudvinding eller web høsting, er den proces med uddragning af data fra et websted eller en blog. Disse oplysninger bruges til at indstille metatags, metabeskrivelser, nøgleord og links til et websted, hvilket forbedrer dets samlede ydeevne i søgemaskinens resultater.

To hovedteknikker bruges til at skrabe data:

  • Dokumentparsing - Det indebærer et XML- eller HTML-dokument, der konverteres til DOM ) filer - setting up small office network. PHP giver os en stor DOM udvidelse.
  • Regelmæssige udtryk - Det er en måde at skrabe data fra webdokumenterne i form af regulære udtryk.

Problemet med skrabdata på tredjepartswebsted er relateret til dets ophavsret, fordi du ikke har tilladelse til at bruge disse data. Men med PHP kan du nemt skrabe data uden problemer i forbindelse med ophavsret eller lav kvalitet. Som PHP-programmør kan du have brug for data fra forskellige websteder til kodningsformål. Her har vi forklaret, hvordan du får data fra andre websteder effektivt, men før det skal du huske på, at i sidste ende får du enten index.php eller scrape.js filer.

Trin 1: Opret formular til at indtaste webadressen:

Først og fremmest bør du oprette formularen i index.php ved at klikke på Submit-knappen og indtaste webadressen til skrabdata.



Indtast webadressens URL til at skrabe data )



Trin 2: Opret PHP-funktion for at få Website Data:

Det andet trin er at skabe PHP funktion scrapes i scrape.php filen som det vil hjælpe med at få data og bruge URL-biblioteket. Det vil også give dig mulighed for at forbinde og kommunikere med forskellige servere og protokoller uden problemer..

funktion scrapeSiteData ($ website_url) {

hvis (! Function_exists ('curl_init')) {

die ('cURL er ikke installeret. ');

}

$ curl = curl_init

;

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, true);

$ output = curl_exec ($ curl);

curl_close ($ curl);

returner $ output;

}

Her kan vi se, om PHP cURL er installeret korrekt eller ej. Tre vigtigste cURLs skal bruges i funktionsområdet og curl_init

hjælper med at initialisere sessionerne, curl_exec

vil udføre det og curl_close

hjælper med at lukke forbindelsen. Variablerne som CURLOPT_URL bruges til at indstille de webadresser, vi skal scrape. Den anden CURLOPT_RETURNTRANSFER hjælper med at gemme de skrabede sider i den variable form i stedet for dens standardformular, som i sidste ende vil vise hele websiden.

Trin3: Skrape Specifikke data fra hjemmesiden:

Det er på tide at håndtere funktionaliteterne i din PHP-fil og skrabe det specifikke afsnit på din webside. Hvis du ikke vil have alle dataene fra en bestemt webadresse, skal du redigere bruge CURLOPT_RETURNTRANSFER-variablerne og markere de sektioner, du vil skrabe.

hvis (isset ($ _ POST ['submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Seneste indlæg');

$ end_point = strpos ($ html, '', $ start_point);

$ længde = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ længde);

ekko $ html;

}

Vi foreslår at udvikle grundlæggende kendskab til PHP og de regelmæssige udtryk før du bruger nogen af ​​disse koder eller skraber en bestemt blog eller hjemmeside til personlige formål.

December 8, 2017