Apache Lucene

Definição – o que significa o Apache Lucene?

Apache Lucene é um projeto de código aberto para uma biblioteca de mecanismo de pesquisa de texto de alto desempenho e recursos completos, que é inteiramente escrito em Java.

É capaz de pesquisa de texto completo em documentos, por isso é uma tecnologia adequada para qualquer aplicativo que requeira esse recurso, especialmente se for multiplataforma.

Foi desenvolvido pela primeira vez por Doug Cutting em 1999 e tornou-se oficialmente parte da família Jakarta de projetos Java de código aberto da Fundação Apache em setembro de 2001. Foi atualizado para um projeto Apache de nível superior em fevereiro de 2005.

Definirtec explica Apache Lucene

O Apache Lucene é um mecanismo de pesquisa de alto desempenho com o conceito de “um documento contendo campos de texto” em sua arquitetura lógica central. Isso oferece grande flexibilidade e permite que a API Lucene se torne independente de qualquer formato de arquivo.

Qualquer texto em formatos como MS Word, HTML, XML, PDF e OpenDocument pode ser indexado, desde que a informação textual possa ser extraída, o que significa que ele não pode fazer nada com imagens.

O Lucene é adequado para qualquer aplicativo que precise de indexação de texto completo e capacidade de pesquisa, mas é amplamente reconhecido como um grande utilitário para implementar mecanismos de pesquisa na Internet e para pesquisas locais em um único site.

Características incluem:

  • Indexação escalável e de alto desempenho – pode processar mais de 150 Gb por hora em hardware moderno e requer apenas 1 Mb por heap de requisitos de memória.
  • Algoritmos de pesquisa poderosos, precisos e eficientes – ele oferece muitos tipos de consultas poderosas, como consultas de frase, curinga, proximidade e intervalo. Ele também tem pesquisa em campo e classificação por qualquer campo.
  • Plataforma cruzada – implementação Java pura e também disponível em outras linguagens de programação.