Πίνακας περιεχομένων:
- Ορισμός - Τι σημαίνει Εξόρυξη δεδομένων κειμένου;
- Η Techopedia εξηγεί την εξόρυξη δεδομένων κειμένου
Ορισμός - Τι σημαίνει Εξόρυξη δεδομένων κειμένου;
Η εξόρυξη δεδομένων κειμένου συνεπάγεται το χτένισμα μέσω ενός εγγράφου κειμένου ή ενός πόρου για την απόκτηση πολύτιμων δομημένων πληροφοριών. Αυτό απαιτεί εξελιγμένα αναλυτικά εργαλεία που επεξεργάζονται κείμενο για να συλλέξουν συγκεκριμένες λέξεις-κλειδιά ή βασικά σημεία δεδομένων από αυτά που θεωρούνται σχετικώς ακατέργαστα ή μη δομημένα.
Η εξόρυξη δεδομένων κειμένου είναι επίσης γνωστή ως εξόρυξη κειμένου ή αναλυτικά κειμένου.
Η Techopedia εξηγεί την εξόρυξη δεδομένων κειμένου
Στην εξόρυξη δεδομένων κειμένου, τα μηχανικά συστήματα χρησιμοποιούν πράγματα όπως οι ταξινομίες και η λεξικολογική ανάλυση για να καθορίσουν ποια μέρη ενός εγγράφου κειμένου είναι πολύτιμα ως εξόρυξη δεδομένων. Τα στατιστικά μοντέλα είναι συνήθως χρήσιμα και τα συστήματα μπορούν επίσης να χρησιμοποιούν ευρετικά ή αλγοριθμικές εικασίες για να προσπαθήσουν να προσδιορίσουν ποια μέρη ενός κειμένου είναι σημαντικά. Άλλα συστήματα ελέγχου περιλαμβάνουν την επισήμανση και την ανάλυση λέξεων-κλειδιών, όπου τα εργαλεία αναζητούν συγκεκριμένα κατάλληλα ουσιαστικά ή άλλες ετικέτες και λέξεις-κλειδιά για να καταλάβουν τι γράφεται.
Μια άλλη μοναδική συνιστώσα της εξόρυξης κειμένου συχνά ονομάζεται ανάλυση συναισθημάτων. Στην ανάλυση συναισθημάτων, η οποία είναι κατά κανόνα πολύ πιο δύσκολη από τη στατιστική ανάλυση, τα αναλυτικά εργαλεία προσπαθούν να κατανοήσουν τη διάθεση ή το συναίσθημα πίσω από το γραπτό κείμενο και άλλες πτυχές του τι απευθύνεται σε ένα πολύ υποκειμενικό και διαισθητικό επίπεδο. Με την εμφάνιση εργαλείων τεχνητής νοημοσύνης, έχει γίνει μεγάλη πρόοδος στην ανάλυση συναισθημάτων, έτσι ώστε η σύγχρονη εξόρυξη δεδομένων κειμένου είναι κάτι περισσότερο από τη συλλογή ποσοτικών αναφορών και περιλαμβάνει την προσέλκυση εννοιολογικών μοντέλων υψηλού επιπέδου στην εξόρυξη κειμένου για να υπολογίσουμε νέους και μοναδικούς τρόπους για τη συγκέντρωση πολύτιμων δεδομένων.