Como tokenizar strings em Java com o método split

Como tokenizar strings em Java com o método split da classe String

Damos o nome de tokens às palavras individuais e marcas de pontuação (pontos, vírgulas, etc) que compõem e dão sentido a uma frase ou parágrafo de texto. Quando lemos um texto qualquer, nosso cérebro efetua a separação dessas palavras automaticamente, de modo a entendermos o significado do conteúdo lido.

Não só nós realizamos esse processo – compiladores, por exemplo, também realizam a separação de sentença e comandos em partes individuais, como palavras-chave, operadores, nomes de objetos e outros elementos que compõem o código-fonte.
Em outras palavras, os compiladores tokenizam o código para analisá-lo, antes de tentar executá-lo.

Em Java, é possível realizar essa separação de elementos em uma string – ou seja, tokenizar – por meio do emprego do método split, pertencente à classe String.

Método split – Divide um objeto String em seus tokens componentes, separados entre si por delimitadores especificados. Comumente, os delimitadores empregados são caracteres de espaço, tabulação, newline (quebra de linha), entre outros. Mas também é possível usar outros caracteres como delimitadores – por exemplo, é comum usar vírgulas em arquivos do tipo CSV (comma-separated values / valores separados por vírgulas).

O método split toma como argumento um caractere a ser considerado como delimitador.

Exemplo

Vejamos um exemplo de tokenização de uma String em Java.

Scanner entrada = new Scanner(System.in);
System.out.println("Digite um texto para ser dividido em seus tonkens constituintes, e pressione enter:");
String texto = entrada.nextLine();
// Realizar o processamento da frase, separando seus tokens
String[] tokens = texto.split(" ");
//Informar quantos tokens há na frase:
System.out.printf("%nA frase informada possui %d tokens.%n", tokens.length);
//Mostrar os tokens obtidos
System.out.println("Os tokens da frase são:\n");
for (String item : tokens) {
  System.out.println(item);
}

como tokenizar strings em Java

Neste exemplo, a frase informada é tokenizada pelo método split, que recebeu como argumento o delimitador espaço (” “), e os tokens individuais são armazenados em um array de String que chamamos de tokens. Assim, podemos acessar qualquer um dos tokens simplesmente lendo uma posição no array, ou imprimir todos eles, como fizemos no programa.

 

Sobre Fábio dos Reis (1329 Artigos)
Fábio dos Reis trabalha com tecnologias variadas há mais de 25 anos, tendo atuado nos campos de Eletrônica, Telecomunicações, Programação de Computadores e Redes de Dados. É um entusiasta de Unix, Linux e Open Source em geral, adora Eletrônica e Música, e estuda idiomas, além de ministrar cursos e palestras sobre diversas tecnologias em São Paulo e outras cidades do Brasil.
Contato: Website

Escreva um comentário

Seu e-mail não será divulgado


*