O sistema de aprendizado por reforço usa recompensas e punições para treinar IA, sendo que aprendizado por reforço é aprendizado de máquina baseado em recompensas e punições. Programas de IA usam aprendizado de máquina para melhorar velocidade e eficiência e, no aprendizado por reforço, a IA é recompensada por ações desejadas e punida por ações indesejadas. Ocorre em ambiente controlado com o programador atribuindo valores positivos e negativos a determinados comportamentos e, a IA, explora o ambiente para buscar recompensas e evitar punições, atrasará ganhos de curto prazo em favor de ganhos de longo prazo; portanto, se escolher entre ganhar um ponto em um minuto ou 10 pontos em 2 minutos, atrasará a gratificação e buscará valor mais alto, ao mesmo tempo, evitará ações punitivas que façam perder pontos.
Aplicações de IA baseadas em aprendizado por reforço são limitadas, mas o método mostra-se promissor em experimentos de laboratório, por exemplo, o aprendizado por reforço treinou a IA para jogar videogames e a IA aprende como atingir objetivos do jogo através de tentativa e erro, por exemplo, em jogo como Super Mario Bros, a IA determina melhor modo de chegar ao fim de cada nível, evitando inimigos e obstáculos, com dezenas de programas de IA que venceram com sucesso jogos específicos e, o programa MuZero, até dominou videogames aos quais não foi originalmente projetado à jogar. O aprendizado por reforço treina software de ERM, gerenciamento de recursos empresariais, alocando recursos de negócios buscando alcançar melhores resultados de longo prazo em que algoritmos de aprendizado por reforço foram usados para treinar robôs andar e realizar tarefas físicas enquanto o aprendizado por reforço se mostrou promissor em estatística, simulação, engenharia, manufatura e pesquisa médica. A principal limitação dos algoritmos de aprendizado por reforço é a dependência de ambiente fechado, por exemplo, um robô pode usar o aprendizado por reforço para navegar em sala onde tudo está parado, no entanto, o aprendizado por reforço não ajuda navegar em corredor cheio de pessoas movimentando porque o ambiente está em constante mudança e o robô esbarraria sem rumo sem desenvolver imagem clara dos arredores. Como o aprendizado depende de tentativa e erro, consome mais tempo e recursos e, no lado positivo, o aprendizado por reforço não requer muita supervisão humana e devido limitações, frequentemente é combinado com outros tipos de aprendizado de máquina com veículos autônomos, por exemplo, que usam algoritmos de aprendizado por reforço em conjunto com técnicas de aprendizado de máquina como aprendizado supervisionado para navegar nas estradas sem bater. Algoritmos de aprendizado por reforço são separados em 2 categorias baseados em modelo ou sem modelo em que um algoritmo baseado em modelo desenvolve modelo do ambiente para prever recompensas de ações potenciais e, no aprendizado por reforço sem modelo, o agente IA aprende por tentativa e erro. Algoritmos em modelo são ideais à simulações e ambientes estáticos, como linha de montagem, onde o objetivo é repetir a mesma ação o máximo de vezes possível, servindo como exemplos de algoritmos de aprendizado por reforço em modelo a iteração de valor e iteração de política, na qual o agente de IA segue fórmula estrita, ou, “política” para determinar o melhor curso de ação. Algoritmos sem modelo são úteis à situações dinâmicas do mundo real, como exemplo de aprendizado por reforço sem modelo, o algoritmo Deep Q-Network, DQN, que usa rede neural para prever resultados com base em ações e resultados passados, sendo que as aplicações DQN variam desde a previsão do mercado de ações até regulação da qualidade do ar em grandes edifícios, com variação do aprendizado por reforço chamada aprendizado por reforço inverso quando o agente IA aprende observando ações dos humanos. Q-learning é termo à algoritmos sem modelos, tipo específico de aprendizado por reforço dispensando modelo de ambiente para fazer previsões sobre ele; visa "aprender" ações à variedade de estados, sendo que "política" é um plano em que um sistema de aprendizado por reforço usa para resolver problemas, define o que faz e quando, com base em informações que possui e na solução que tenta alcançar.
Moral da Nota: em relação aos conceitos acima, talvez adequado considerar fatos sobre a Psicologia financeira e a influência das emoções na tomada de decisão de crédito. Psicologia financeira é subdisciplina emergente que busca entender como emoções e comportamentos cognitivos influenciam decisões financeiras, em particular, prova ser útil na compreensão de como pessoas tomam decisões de crédito e empréstimo, embora gostemos de pensar como seres racionais, a realidade das emoções desempenha papel na tomada de decisões financeiras, tanto para o bem quanto para o mal. Empréstimos online são populares, não apenas oferecendo conveniência, mas prometendo taxas de juros competitivas e aprovação rápida, no entanto, existem riscos nesses produtos financeiros se permitirmos que as emoções interfiram nas decisões, atraídos pelo imediatismo e facilidade de acesso que pode nos levar ignorar termos e condições, taxas de juros ou plano de reembolso. Emoções como medo, ganância, otimismo e pessimismo impactam em como lidamos com assuntos financeiros, por exemplo, medo de perder oportunidade ou ansiedade de não ter dinheiro pode levar a tomar decisões precipitadas como solicitar empréstimo sem entender implicações de longo prazo, da mesma forma, ganância ou otimismo levam a subestimar riscos de determinados empréstimos ou créditos. Emoções atuam como sistema de alarme útil, se sentirmos desconfortáveis ou ansiosos com determinado empréstimo ou crédito, sinal que precisamos fazer pesquisas ou considerar opções, nesse sentido, emoções são poderosa aliada na tomada de decisões financeiras se interpretamos corretamente. A psicologia financeira identifica armadilhas cognitivas que interferem nas decisões de empréstimo, por exemplo, "negligência de probabilidade" que ocorre quando subestimamos oportunidade de ocorrência de determinado evento negativo, como inadimplência de empréstimo, com "viés de confirmação" nos levando buscar e dar mais peso às informações que confirmam crenças existentes, ignorando informações que contradizem e, portanto, se acreditarmos que determinado empréstimo é boa ideia podemos ignorar sinais de alerta e conselhos. Compreender emoções e vieses cognitivos influenciam decisões financeiras ajudando tomar decisões informadas e saudáveis e, cientes de emoções e como interferem na tomada de decisão, tomamos medidas para mitigar impactos envolvendo aconselhamento financeiro independente, reservando tempo para ler e entender termos e condições de empréstimo ou crédito e considerar implicações de longo prazo das decisões financeiras. Enfim, psicologia financeira fornece ferramentas para entender como emoções e comportamentos cognitivos influenciam decisões de crédito e empréstimo, embora não removamos as emoções da equação, aprendemos trabalhar com elas e usá-las para tomar decisões financeiras conscientes.