Domov vývoj Čo je tokenizácia? - definícia z technológie

Čo je tokenizácia? - definícia z technológie

Obsah:

Anonim

Definícia - Čo znamená tokenizácia?

Tokenizácia je akt rozdelenia reťazcov na kúsky, ako sú slová, kľúčové slová, frázy, symboly a ďalšie prvky nazývané tokeny. Tokeny môžu byť individuálne slová, frázy alebo dokonca celé vety. V procese tokenizácie sa niektoré znaky, napríklad interpunkčné znamienka, zahodia. Tokeny sa stanú vstupom pre ďalší proces, ako je analýza a dolovanie textu.

Tokenizácia sa používa v informatike, kde hrá veľkú úlohu v procese lexikálnej analýzy.

Techopedia vysvetľuje tokenizáciu

Tokenizácia sa spolieha väčšinou na jednoduchú heuristiku, aby oddelila tokeny pomocou niekoľkých krokov:

  • Žetóny alebo slová sú oddelené medzerou, interpunkčnými znamienkami alebo zalomením riadkov
  • Podľa potreby môžu alebo nemusia byť zahrnuté medzery alebo interpunkčné znamienka
  • Všetky znaky v priľahlých reťazcoch sú súčasťou tokenu. Žetóny môžu pozostávať iba zo všetkých alfanumerických alebo alfanumerických znakov.

Samotné tokeny môžu byť tiež oddeľovačmi. Napríklad vo väčšine programovacích jazykov môžu byť identifikátory umiestnené spolu s aritmetickými operátormi bez medzier. Aj keď sa zdá, že by sa to javilo ako jediné slovo alebo token, gramatika jazyka v skutočnosti považuje matematický operátor (token) za oddeľovač, takže aj keď sú viaceré tokeny zoskupené dokopy, je možné ich pomocou matematického algoritmu stále oddeliť. operátor.

Čo je tokenizácia? - definícia z technológie