Σπίτι Ανάπτυξη Τι είναι το tokenization; - ορισμός από την τεχνολογία

Τι είναι το tokenization; - ορισμός από την τεχνολογία

Πίνακας περιεχομένων:

Anonim

Ορισμός - Τι σημαίνουν οι σηματοδοτήσεις;

To Tokenization είναι η πράξη της διάσπασης μιας σειράς χορδών σε κομμάτια όπως λέξεις, λέξεις-κλειδιά, φράσεις, σύμβολα και άλλα στοιχεία που ονομάζονται μάρκες. Τα κουπόνια μπορούν να είναι μεμονωμένες λέξεις, φράσεις ή ακόμα και ολόκληρες προτάσεις. Στη διαδικασία του tokenization, ορισμένοι χαρακτήρες όπως τα σημεία στίξης απορρίπτονται. Τα μάρκες γίνονται η είσοδος για μια άλλη διαδικασία όπως η ανάλυση και η εξόρυξη κειμένου.

Το tokenisation χρησιμοποιείται στην επιστήμη των υπολογιστών, όπου παίζει μεγάλο ρόλο στη διαδικασία της λεξικής ανάλυσης.

Η Techopedia εξηγεί το Tokenization

Η τοκεμοποίηση βασίζεται κυρίως σε απλά ευρετικά στοιχεία, προκειμένου να διαχωριστούν οι μάρκες ακολουθώντας μερικά βήματα:

  • Τα σύμβολα ή οι λέξεις διαχωρίζονται με κενά, σημεία στίξης ή διαλείμματα γραμμής
  • Ο λευκός χώρος ή τα σημεία στίξης μπορεί να συμπεριληφθεί ή όχι, ανάλογα με την ανάγκη
  • Όλοι οι χαρακτήρες των συνεχόμενων χορδών είναι μέρος του συμβόλου. Οι λογαριασμοί μπορούν να αποτελούνται από όλους τους χαρακτήρες άλφα, αλφαριθμητικούς χαρακτήρες ή αριθμητικούς χαρακτήρες μόνο.

Οι ίδιες οι μονάδες μπορούν επίσης να είναι διαχωριστές. Για παράδειγμα, στις περισσότερες γλώσσες προγραμματισμού, τα αναγνωριστικά μπορούν να τοποθετηθούν μαζί με αριθμητικούς χειριστές χωρίς λευκούς χώρους. Παρόλο που φαίνεται ότι αυτό θα εμφανιζόταν ως μία λέξη ή ένα διακριτικό, η γραμματική της γλώσσας θεωρεί πράγματι τον μαθηματικό χειριστή (διακριτικό) ως διαχωριστικό, οπότε ακόμη και όταν πολλαπλές μάρκες είναι συσσωρευμένες, μπορούν ακόμα να διαχωριστούν μέσω των μαθηματικών χειριστής.

Τι είναι το tokenization; - ορισμός από την τεχνολογία