Back to Question Center
0

Semalt Expert: Python και BeautifulSoup. Εξομάλυνση τοποθεσιών με ευκολία

1 answers:

Κατά την εκτέλεση έργων ανάλυσης δεδομένων ή μηχανικής μάθησης, τα απαραίτητα δεδομένα και να ολοκληρώσετε το έργο σας. Η γλώσσα προγραμματισμού Python διαθέτει μια ισχυρή συλλογή εργαλείων και ενοτήτων που μπορούν να χρησιμοποιηθούν για το σκοπό αυτό. Για παράδειγμα, μπορείτε να χρησιμοποιήσετε την ενότητα BeautifulSoup για ανάλυση αρχείων HTML.

Εδώ, θα ρίξουμε μια ματιά στο BeautifulSoup και θα μάθετε γιατί τώρα χρησιμοποιείται ευρέως σε web scraping .

Χαρακτηριστικά του BeautifulSoup

- Παρέχει διάφορες μεθόδους για εύκολη πλοήγηση, αναζήτηση και τροποποίηση των αναλυτικών δέντρων, επιτρέποντάς σας έτσι να διαχωρίζετε εύκολα ένα έγγραφο και να εξαγάγετε ό, τι χρειάζεστε χωρίς να γράψετε υπερβολικό κώδικα - babboe bakfiets.

- Αυτόματα μετατρέπει τα εξερχόμενα έγγραφα σε UTF-8 και εισερχόμενα έγγραφα στο Unicode. Αυτό σημαίνει ότι δεν θα χρειαστεί να ανησυχείτε για τις κωδικοποιήσεις εφόσον το έγγραφο έχει καθορίσει μια κωδικοποίηση ή η όμορφη σούπα μπορεί να το εντοπίσει αυτόματα.

- Το BeautifulSoup θεωρείται ανώτερο από άλλους δημοφιλείς επεξεργαστές Python όπως html5lib και lxml. Επιτρέπει την αναζήτηση διαφορετικών στρατηγικών ανάλυσης. Ένα μειονέκτημα αυτής της μονάδας, ωστόσο, είναι ότι παρέχει μεγαλύτερη ευελιξία σε βάρος της ταχύτητας.

Τι χρειάζεστε για να καθαρίσετε τον ιστότοπο με το BeautifulSoup;

Για να αρχίσετε να εργάζεστε με το BeautifulSoup, πρέπει να έχετε εγκατεστημένο στο μηχάνημά σας περιβάλλον προγραμματισμού Python (τοπικό ή διακομιστή). Η Python συνήθως είναι προεγκατεστημένη στο OS X, αλλά αν χρησιμοποιείτε Windows, θα πρέπει να κατεβάσετε και να εγκαταστήσετε τη γλώσσα από τον επίσημο ιστότοπο.

Θα πρέπει να έχετε εγκαταστήσει τις ενότητες BeautifulSoup και αιτήσεις.

Τέλος, η εξοικείωση και η άνετη συνεργασία με την HTML tagging και τη δομή είναι σίγουρα χρήσιμη αφού θα συνεργαστείτε με δεδομένα που προέρχονται από το διαδίκτυο.

Εισαγωγή αιτημάτων και βιβλιοθηκών BeautifulSoup

Με το περιβάλλον προγραμματισμού της Python, μπορείτε να δημιουργήσετε ένα νέο αρχείο (χρησιμοποιώντας το nano, για παράδειγμα) με οποιοδήποτε όνομα θέλετε.

Η βιβλιοθήκη αιτημάτων σας δίνει τη δυνατότητα να χρησιμοποιήσετε μια HTTP μορφή αναγνώσιμη από τον άνθρωπο στα προγράμματα Python, ενώ το BeautifulSoup παίρνει την αποξήρανση με μεγαλύτερη ταχύτητα. Μπορείτε να χρησιμοποιήσετε τη δήλωση εισαγωγής για να πάρετε και τις δύο βιβλιοθήκες.

Πώς να συλλέγει και να αναλύει μια ιστοσελίδα

Χρησιμοποιήστε τα αιτήματα. get

για τη συλλογή της διεύθυνσης URL της ιστοσελίδας από την οποία θέλετε να εξαγάγετε δεδομένα. Στη συνέχεια, δημιουργήστε ένα αντικείμενο BeautifulSoup ή αναλύστε το δέντρο. Αυτό το αντικείμενο παίρνει το έγγραφο από το Requests ως τα επιχειρήματά του και στη συνέχεια το αναλύει. Με τη συλλεγμένη σελίδα, την ανάλυση και την οργάνωση ως αντικείμενο BeautifulSoup, μπορείτε να προχωρήσετε στη συλλογή των δεδομένων που χρειάζεστε.

Εξαγωγή του επιθυμητού κειμένου από την αναλυόμενη ιστοσελίδα

Οποτεδήποτε θέλετε να συλλέξετε δεδομένα ιστού, πρέπει να ξέρετε πώς αυτά τα δεδομένα περιγράφονται από το μοντέλο αντικειμένου εγγράφου (DOM) της ιστοσελίδας. Στο πρόγραμμα περιήγησης ιστού, κάντε δεξί κλικ (εάν χρησιμοποιείτε τα Windows) ή CTRL + κάντε κλικ (αν χρησιμοποιείτε macOS) σε ένα από τα στοιχεία που αποτελούν μέρος των δεδομένων που σας ενδιαφέρουν. Για παράδειγμα, αν θέλετε να βγάζετε δεδομένα σχετικά με τις εθνικότητες των μαθητών, κάντε κλικ σε ένα από τα ονόματα ενός μαθητή. Εμφανίζεται ένα μενού περιβάλλοντος και μέσα σε αυτό θα δείτε ένα στοιχείο μενού παρόμοιο με το Inspect Element (για τον Firefox) ή το Inspect (για το Chrome). Κάντε κλικ στο αντίστοιχο στοιχείο του μενού Έλεγχος και τα εργαλεία προγραμματιστή ιστού θα εμφανιστούν στο πρόγραμμα περιήγησής σας.

Το BeautifulSoup είναι ένα απλό αλλά ισχυρό εργαλείο ανάλυσης HTML που σας επιτρέπει να έχετε μεγάλη ευελιξία όταν αποξέετε ιστοσελίδες . Όταν το χρησιμοποιείτε, μην ξεχνάτε να τηρείτε τους γενικούς κανόνες απόξεσης όπως τον έλεγχο των Όρων και Προϋποθέσεων του ιστότοπου. επανεξετάζοντας τακτικά τον ιστότοπο και ενημερώνοντας τον κώδικα σας σύμφωνα με τις αλλαγές που έγιναν στον ιστότοπο. Έχοντας αυτή τη γνώση σχετικά με την απομάκρυνση ιστότοπων με Python και BeautifulSoup, μπορείτε τώρα να αποκτήσετε εύκολα τα δεδομένα Ιστού που χρειάζεστε για το έργο σας.

December 22, 2017