Tokenização

Definição – o que significa tokenização?

Tokenização é o ato de quebrar uma sequência de strings em pedaços, como palavras, palavras-chave, frases, símbolos e outros elementos chamados tokens. Os tokens podem ser palavras individuais, frases ou até frases inteiras. No processo de tokenização, alguns caracteres como sinais de pontuação são descartados. Os tokens se tornam a entrada para outro processo, como análise e mineração de texto.

A tokenização é usada na ciência da computação, onde desempenha um grande papel no processo de análise lexical.

Definirtec explica a tokenização

A tokenização depende principalmente de heurísticas simples para separar os tokens seguindo algumas etapas:

  • Tokens ou palavras são separados por espaços em branco, sinais de pontuação ou quebras de linha
  • Espaço em branco ou sinais de pontuação podem ou não ser incluídos, dependendo da necessidade
  • Todos os caracteres em strings contíguas fazem parte do token. Os tokens podem ser compostos de todos os caracteres alfa, alfanuméricos ou apenas caracteres numéricos.

Os próprios tokens também podem ser separadores. Por exemplo, na maioria das linguagens de programação, os identificadores podem ser colocados junto com os operadores aritméticos sem espaços em branco. Embora pareça que isso apareça como uma única palavra ou token, a gramática da linguagem realmente considera o operador matemático (um token) como um separador, então, mesmo quando vários tokens estão agrupados, eles ainda podem ser separados por meio da matemática operador.