Part-of-speech tagger (PoS tagger)

Um tagger de parte da fala é uma aplicação de software que etiqueta cada palavra em um texto com sua parte da fala. Isto é normalmente feito fazendo corresponder cada palavra com o seu contexto na frase a um conjunto pré-definido de regras. As tags podem então ser usadas para determinar a estrutura gramatical da frase, ou para criar uma tradução mais precisa do texto. Porque é que fazemos tagging POS em PNL? A tagging POS é utilizada para atribuir uma categoria gramatical a cada palavra de um determinado texto (ou corpus). As categorias mais comuns são:
-Nome (NN)
-Verb (VB)
-Adjective (JJ)
-Adverb (RB)

A etiquetagem POS pode ser usada para uma variedade de tarefas, como por exemplo:
-Identificar os principais assuntos e objectos de um texto
-Extrair informação específica de um texto
-Gerar novas frases de um texto
– Tradução da máquina
-Resumo de texto

A etiquetagem POS pode ser feita manual ou automaticamente. A etiquetagem POS automática é mais precisa que a etiquetagem POS manual, mas também é mais demorada e cara. Porque é que a tag do POS é difícil? Existem algumas razões pelas quais a tagging POS pode ser difícil:

1.

Ambiguidade: Pode haver múltiplas tags possíveis para uma determinada palavra, dependendo do contexto em que ela é usada. Por exemplo, a palavra “fly” pode ser um verbo (por exemplo, “I will fly to Paris”) ou um substantivo (por exemplo, “There is a fly in my soup”).

2. Palavras fora de vocabulário: Os POS taggers muitas vezes lutam com palavras que não estão nos seus dicionários (por exemplo, nomes próprios, termos técnicos, etc.), já que a estas palavras pode ser atribuída a tag errada.

3. palavras desconhecidas: Semelhante às palavras fora do vocabulário, palavras que não são conhecidas (por exemplo, gírias, coloquialismos) também podem ser difíceis de serem etiquetadas no POS.

4. estrutura da sentença: A estrutura de uma frase também pode ter impacto na etiquetagem de palavras no POS. Por exemplo, uma palavra pode ser etiquetada de forma diferente, dependendo de ser o sujeito ou objecto de uma frase.

A etiquetagem POS é uma classificação?

Sim, a etiquetagem POS é uma tarefa de classificação. Dada uma frase, a tarefa é etiquetar cada palavra com a sua parte da fala. Isto pode ser feito usando uma abordagem simples baseada em regras, ou uma abordagem mais sofisticada de aprendizagem de máquina. O que é tagging morfológico? A etiquetagem morfológica é o processo de atribuir uma etiqueta morfológica a cada palavra de um texto. Uma tag morfológica é uma etiqueta que indica a categoria gramatical de uma palavra, como substantivo, verbo, adjetivo, etc. Esta tarefa é normalmente realizada por aplicativos de software que analisam um texto e automaticamente atribuem tags a cada palavra. O que é a tag POS para desconhecido? A tag POS para desconhecido é “N/A”. Isto significa que a palavra não é aplicável ao conjunto de tags POS, e portanto não pode ser etiquetada.