Semalt: Extraktioun URLen vu Websäiten mat Schéine Suppe

Schéin Soup ass en héije Python Package deen benotzt gëtt fir XML an HTML Dokumenter ze analyséieren. Schéin Soup Python Bibliothéik erstellt e Parse Bam deen benotzt gëtt fir nëtzlech Informatioun aus HyperText Markup Language (HTML) ze extrahieren. Dës Bibliothéik ass verfügbar fir béid Python 2 an Python 3 Versiounen.

In de meeschte Fäll fannt Dir datt Är Zieldaten nëmmen zougänglech sinn an als Deel vun enger Websäit benotzt kënne ginn. An esou engem Fall musst Dir sou eng Web-Schraufstechnik benotzen déi Daten an de Formater extrahéieren kann déi analyséiert kënne ginn. Dëst ass wou schéin Soup Bibliothéik kënnt.

Ufuerderunge

Dir braucht déi richteg Moduler fir schéin Soup Bibliothéik ze benotzen. Fir unzefänken, musst Dir Python 2.7 Programméierungssprooch op Ärer Maschinn installéieren. An dësem Post léiert Dir wéi eng Websäit ze schrauwen an all URLen ze benotze mat Ufroen a Schéine Soup 4. HTML Parsing ass eng maachen-et-selwer Aufgab, besonnesch mat der technescher Hëllef vu Schéin Soup.

Firwat benotzt Schéi Soup?

Schéin Soup ass e Top-klasséiert Python Package dat benotzt gouf fir Websäiten ze schrauwen an HTML Tags zënter 2004 ze parzen. Viru kuerzem huet de Schéinen Soup 4 de Beautiful Soup 3 an der Branche ersat. Notiz datt BS4 op béide Python Versiounen funktionnéiert, während BS3 nëmmen op Python 2.7 funktionnéiert. D'Bibliothéik ëmfaasst déi folgend inbuilt Funktiounen:

  • Kodéierungsfäegkeet - Dir musst keng Kodéierung panikéieren eemol Dir déi néideg schéi Soup Moduler op Ärer Maschinn installéiert hutt. D'Bibliothéik ass automatiséiert fir Inputen op Unicode ze konvertéieren an Ausgaben op UTF-8.
  • Navigatiounsfäegkeet - Schéine Soup bitt einfach benotzbare Methoden fir e Parse Bam ze sichen, ze navigéieren an ze änneren.

Wéi benotzen ech schéin Soup Bibliothéik?

Nodeems Dir Beautiful Soup op Ärer Maschinn installéiert hutt, kënnt Dir d'Bibliothéik benotzen. Fir unzefänken, importéiert bs4 Bibliothéik um Ufank vun Ärem Python Code. Pass Inhalt oder URL op Schéin Soup fir e Soup Objet ze kreéieren. D'Bibliothéik hëlt awer d'Zil Websäit net op sech selwer. Hei musst Dir dës Aufgab manuell ausfëllen. Dir kënnt och einfach déi gewënschte Websäiten mat enger Kombinatioun vu Python a Schéin Zopp erofhuelen.

Rollen vun der Ufro Bibliothéik

Fir eng Säit ze schrauwen, musst Dir se fir d'éischt eroflueden. Dir kënnt Websäiten mat der Demande Bibliothéik eroflueden. Ufro Bibliothéik funktionnéiert andeems en "GET" Ufro un d'Webserver mécht, déi dann HTML-Inhalt vun der léifster Websäit eroflueden.

Extraktioun URLen vu Websäiten

Elo hutt Dir detailléiert Informatiounen iwwer Schéin Soup Bibliothéik. Eng Kombinatioun vun BS4 Bibliothéik a Python hëlleft Iech eng Websäit ganz séier ze sichen. Fir all d'URL vun Ärer Zil Websäit ze extrahieren, benotzt d'Method "Fannt all". Dës Method wäert Iech eng Compilatioun vun Elementer mam Tag ginn. Vun bs4, importéier souwuel Schéin Suppe an Ufroen. Run Äre Code an gitt eng Websäit oder eng Websäit fir d'URLen ze extrahieren aus.

mass gmail