Back to Question Center
0

Semalt - Πώς να ξύνω ιστοσελίδες;

1 answers:

Όμορφη σούπα είναι μια βιβλιοθήκη Python που χρησιμοποιείται ευρέως για να ξύσει ιστοσελίδες δημιουργώντας ένα δέντρο από έγγραφα XML και HTML. Η απόξεση ιστού, μια τεχνική εξαγωγής δεδομένων από ιστότοπους και σελίδες, χρησιμοποιείται ευρέως σε πεδία ανάλυσης και διαχείρισης δεδομένων. Στις περισσότερες περιπτώσεις, η γλώσσα προγραμματισμού Python αποτελεί προϋπόθεση για την επιστήμη των δεδομένων.

Το Python 3 διαθέτει εργαλεία απόξεσης και ενότητες που μπορείτε να εφαρμόσετε στο έργο διαχείρισης δεδομένων σας. Αυτή τη στιγμή λειτουργεί ως Όμορφη Σούπα 4, αυτή η ενότητα είναι συμβατή τόσο με το Python 3 όσο και με το Python 2. 7. Η όμορφη μονάδα Soup 4 είναι επίσης ικανή να δημιουργήσει μια παράταξη για τη μη κλειστή σούπα ετικετών. Σε αυτό το σεμινάριο, θα μάθετε πώς μπορείτε να ξύνετε τη σελίδα και να γράψετε τα δεδομένα από ξύσιμο σε ένα αρχείο CSV.

Ξεκινώντας

Για να ξεκινήσετε, ρυθμίστε ένα περιβάλλον διακομιστή ή τοπικό Python στον υπολογιστή σας. Θα πρέπει επίσης να εγκαταστήσετε τη λειτουργική μονάδα Όμορφη σούπα και αιτήσεις στο μηχάνημά σας. Η γνώση της συνεργασίας με τα δύο τμήματα είναι επίσης απαραίτητη προϋπόθεση. Η εξοικείωση με την ετικέτα HTML και τη δομή είναι επίσης ένα πρόσθετο πλεονέκτημα.

Σε αυτό το πλαίσιο, θα χρησιμοποιηθούν πραγματικά δεδομένα από την Εθνική Πινακοθήκη για να σας βοηθήσουν να καταλάβετε πώς να χρησιμοποιείτε την Όμορφη Σούπα 4. Η Εθνική Πινακοθήκη περιλαμβάνει 120.000 έργα, τα οποία πραγματοποιούνται από περίπου 13.000 καλλιτέχνες. Η τέχνη βασίζεται στην Washington D. C, Ηνωμένες Πολιτείες.

Εξαγωγή δεδομένων Web με όμορφη σούπα δεν είναι τόσο περίπλοκη. Για παράδειγμα, εάν εστιάζετε στο γράμμα Z, σημειώστε και σημειώστε το πρώτο όνομα στη λίστα. Στην περίπτωση αυτή, το πρώτο όνομα είναι Zabaglia, Niccola. Για λόγους συνέπειας, υποδείξτε τον αριθμό των σελίδων και το όνομα του τελευταίου καλλιτέχνη στη συγκεκριμένη σελίδα.

Για να εισαγάγετε βιβλιοθήκες, ενεργοποιήστε το περιβάλλον προγραμματισμού Python 3. Ελέγξτε ότι είστε στον ίδιο κατάλογο με το περιβάλλον προγραμματισμού. Εκτελέστε την ακόλουθη εντολή για να ξεκινήσετε. my_env / bin / ενεργοποίηση.

Δημιουργήστε ένα νέο αρχείο και αρχίστε να εισάγετε βιβλιοθήκες Beautiful Soup και Requests. Η βιβλιοθήκη αιτημάτων θα σας επιτρέψει να χρησιμοποιήσετε το HTTP μέσα στα προγράμματα Python σε μορφές που μπορούν να διαβαστούν. Όμορφη Σούπα, από την άλλη πλευρά, λειτουργεί για να γκρεμίσει σελίδες γρήγορα. Χρησιμοποιήστε το bs4 για να εισάγετε Όμορφη Σούπα.

Πώς να συλλέγει και να αναλύει μια ιστοσελίδα

Χρησιμοποιώντας αιτήσεις συλλέγουν URL της πρώτης σας σελίδας. Η διεύθυνση URL της πρώτης σελίδας θα εκχωρηθεί στη σελίδα μεταβλητών. Δημιουργήστε ένα αντικείμενο BeautifulSoup από Requests και αναλύστε το αντικείμενο από τον αναλυτή της Python.

Σε αυτό το σεμινάριο, ο στόχος είναι να συγκεντρωθούν οι σύνδεσμοι και τα ονόματα των καλλιτεχνών. Για παράδειγμα, μπορείτε να συλλέξετε ημερομηνίες καλλιτεχνών και εθνικότητες. Για χρήστες των Windows, κάντε δεξί κλικ στο όνομα του καλλιτέχνη. Σε αυτή την περίπτωση, χρησιμοποιήστε Zabaglia, Niccola. Για χρήστες Mac OS, πατήστε "CTRL" και κάντε κλικ στο όνομα. Κάντε κλικ στο μενού "Επιθεώρηση στοιχείων" που εμφανίζονται στην οθόνη σας για να αποκτήσετε πρόσβαση σε εργαλεία προγραμματιστών ιστού. Εκτυπώστε τα ονόματα του καλλιτέχνη για να κάνετε όμορφη σούπα να αναλύει γρήγορα ένα δέντρο.

Για να αφαιρέσετε τους κατώτερους κρίκους της ιστοσελίδας σας, ελέγξτε το DOM κάνοντας δεξί κλικ στο στοιχείο. Θα εντοπίσετε ότι οι σύνδεσμοι βρίσκονται κάτω από έναν πίνακα HTML. Χρησιμοποιώντας την όμορφη σούπα, χρησιμοποιήστε τη μέθοδο "αποσυνθέστε" για να αφαιρέσετε ετικέτες από το δέντρο ανάλυσης.

Δεν χρειάζεται να εκτυπώσετε ολόκληρη την ετικέτα σύνδεσης, χρησιμοποιήστε την όμορφη σούπα για να αφαιρέσετε υλικό από μια ετικέτα. Μπορείτε επίσης να καταγράψετε τις διευθύνσεις URL που συσχετίζονται με τους καλλιτέχνες χρησιμοποιώντας το Beautiful Soup 4.

Το αρχείο CSV θα σας επιτρέψει να αποθηκεύσετε τα δομημένα δεδομένα σε ένα απλό κείμενο, μια μορφή που χρησιμοποιείται κυρίως για δελτία δεδομένων. Απαιτούνται γνώσεις σχετικά με τη διαχείριση αρχείων απλού κειμένου στη Python.

Η εξαγωγή δεδομένων ιστού χρησιμοποιείται για την απόκρυψη σελίδων και την απόκτηση πληροφοριών. Να είστε προσεκτικοί από τους ιστότοπους από τους οποίους εξάγετε πληροφορίες. Ορισμένοι δυναμικοί ιστότοποι περιορίζουν την εξαγωγή δεδομένων ιστού στους ιστοτόπους τους. Η σάρωση σελίδας με την όμορφη σούπα και την Python 3 είναι τόσο απλή.

December 22, 2017
Semalt - Πώς να ξύνω ιστοσελίδες;
Reply