Definição – O que significa Reinforcement Learning (RL)?
A aprendizagem por reforço, no contexto da inteligência artificial, é um tipo de programação dinâmica que treina algoritmos por meio de um sistema de recompensa e punição.
Um algoritmo de aprendizado por reforço, ou agente, aprende interagindo com seu ambiente. O agente recebe recompensas pelo desempenho correto e penalidades pelo desempenho incorreto. O agente aprende sem intervenção de um humano, maximizando sua recompensa e minimizando sua penalidade.
Definirtec explica Aprendizado por Reforço (RL)
O aprendizado por reforço é uma abordagem de aprendizado de máquina inspirada na psicologia behaviorista. É semelhante a como uma criança aprende a realizar uma nova tarefa. O aprendizado por reforço contrasta com outras abordagens de aprendizado de máquina em que o algoritmo não é explicitamente informado como realizar uma tarefa, mas resolve o problema sozinho.
Como um agente, que pode ser um carro que dirige sozinho ou um programa jogando xadrez, interage com seu ambiente, recebe um estado de recompensa dependendo de seu desempenho, como dirigir até o destino com segurança ou ganhar um jogo. Por outro lado, o agente recebe uma penalidade por agir de forma incorreta, como sair da estrada ou sofrer um check-mate.
Com o tempo, o agente toma decisões para maximizar sua recompensa e minimizar sua penalidade usando programação dinâmica. A vantagem dessa abordagem da inteligência artificial é que ela permite que um programa de IA aprenda sem um programador explicando como um agente deve executar a tarefa.