terça-feira, 21 de outubro de 2025

Além do Entusiasmo

A Universidade de Stanford trabalha em novos benchmarks, testes/padrões, para verificar o desempenho de agentes IA na saúde e em ambientes reais como hospitais, considerando "agentes IA" como ferramentas que usam IA para auxiliar médicos e equipe médica, desenvolvendo modos de ler prontuários eletrônicos, sugerir com base no histórico do paciente ou auxiliar diagnósticos, até agora, muitos desses sistemas são testados em ambientes ideais ou controlados e não em situações clínicas realistas onde há dados desorganizados e condições inesperadas dos pacientes e fatores humanos. O trabalho de Stanford busca corrigir tal lacuna garantindo que agentes IA sejam seguros, confiáveis e eficazes em ambientes que se assemelham a hospitais reais com toda sua complexidade e se IA na área da saúde funciona bem em ambientes reais e os pacientes podem receber cuidados mais precisos cometendo menos erros, daí, aumentar confiança em que médicos, enfermeiros e pacientes se sentirão mais seguros ao usarem ferramentas IA testadas em condições realistas e não apenas em laboratórios. Busca evitar surpresas em que  um modelo IA que só funciona em condições perfeitas pode falhar quando ocorre desorganização que pode ser perigosa na área da saúde e, ao construir IA na saúde, os testes devem incluir condições do mundo real com dados desorganizados, casos estranhos, interrupções, etc e focando na avaliação construindo ferramentas não apenas para ter um bom desempenho nos testes, mas para se adaptar ao uso real em erros, dados ausentes, entradas estranhas etc, e por fim, segurança em que ferramentas necessitam serem seguras porque erros têm consequências incluindo médicos e usuários no design, testes e feedback . Além do entusiasmo e da esperança no uso IA na medicina, existe necessidade de garantir que, no mínimo, IA e ambiente de saúde realizem tarefas que um médico realizaria em prontuários eletrônicos, criando padrões de referência para medir o que impulsiona o trabalho de pesquisadores de Stanford, embora observem o potencial da tecnologia para transformar a medicina, o ethos de se mover e quebrar coisas não funciona na saúde, necessitando garantir que as ferramentas sejam capazes de realizar  tarefas e serem usadas como ferramentas que complementam atendimento que médicos prestam no dia a dia.

Kameron Black, coautor do artigo de referência e pesquisador de Informática na Stanford Health Care, diz que "trabalhar no projeto convenceu que IA não substituirá médicos tão cedo", concluindo, "é mais provável que aumente a força de trabalho clínica", co partícipe de equipe multidisciplinar de médicos, cientistas da computação e pesquisadores de Stanford que trabalharam no estudo, MedAgentBench: Um Ambiente Virtual de EHR para Comparar Agentes de LLM Médicos e publicado no New England Journal of Medicine AI. Defende que modelos de grande linguagem, LLMs, apresentaram bom desempenho no Exame de Licenciamento Médico dos EUA, USMLE, e em responder perguntas relacionadas à medicina em estudos, não há um benchmark que teste o quão bem os LLMs podem funcionar como agentes executando tarefas que um médico normalmente faria como solicitar medicamentos dentro de um sistema clínico do mundo real onde a entrada de dados pode ser confusa, ao contrário de chatbots ou LLMs, os agentes IA podem trabalhar de forma autônoma executando tarefas complexas e em várias etapas com supervisão mínima, enquanto agentes IA integram entradas de dados multimodais, processam informações e, em seguida, utilizam ferramentas externas para realizar tarefas. Testes anteriores avaliaram o conhecimento médico através de vinhetas clínicas selecionadas, pesquisa que avalia o quão bem agentes IA podem executar tarefas clínicas reais como recuperar dados de pacientes, solicitar exames e prescrever medicamentos, enquanto agentes IA podem fazer coisas”, conforme Jonathan Chen, professor associado de medicina e ciência de dados biomédicos e autor sênior do artigo ao dizer que, “significa que poderiam, teoricamente, recuperar informações do paciente diretamente do prontuário eletrônico, raciocinar sobre as informações e agir inserindo diretamente prescrições de exames e medicamentos, um nível mais alto de autonomia no mundo de alto risco da assistência médica, urgindo parâmetro para estabelecer o estado atual da capacidade IA ​​em tarefas reproduzíveis às quais possamos otimizar.” O estudo avaliou se agentes IA poderiam utilizar pontos de extremidade da API FHIR, Fast Healthcare Interoperability Resources, para navegar registros eletrônicos de saúde, enquanto a equipe criou ambiente virtual de prontuário eletrônico de saúde contendo 100 perfis realistas de pacientes, 785 mil registros, incluindo exames laboratoriais, sinais vitais, medicamentos, diagnósticos e procedimentos para testar grandes modelos de linguagem em 300 tarefas clínicas desenvolvidas por médicos, nos testes iniciais, o melhor modelo, neste caso, o Claude 3.5 Sonnet v2, alcançou taxa de sucesso de 70%, com  Yixing Jiang, coautor do artigo e estudante de doutorado de Stanford dizendo “esperar que este benchmark ajude desenvolvedores de modelos monitorar o progresso e aprimorar mais capacidades dos agentes”. Modelos tiveram dificuldades com cenários que exigiam raciocínio diferenciado, envolviam fluxos de trabalho complexos ou necessitavam interoperabilidade em diferentes sistemas de saúde, problemas que um clínico pode enfrentar regularmente, com Kamerum Black esclarecendo que “antes que os agentes sejam usados, precisamos saber com que frequência e tipo de erros são cometidos para que possamos levar as coisas em conta e ajudar preveni-las em implantações no mundo real”,  esclarecendo ainda que, “nos estudos de acompanhamento, demonstramos melhora na taxa de sucesso na execução de tarefas por novos LLMs, considerando padrões de erro específicos que observamos no estudo inicial”, concluindo, com design, segurança, estrutura e consentimento bem pensados será possível começar transformar ferramentas de protótipos de pesquisa em pilotos reais.” Por fim, Black conclui que IA precisa e confiável pode aliviar crise iminente, acrescenta que, pressionados por necessidades de pacientes, demandas de conformidade e esgotamento da equipe, provedores de saúde enfrentam escassez global de pessoal cada vez maior, estimada em mais de 10 milhões até 2030, e que parâmetros são necessários, pois mais hospitais e sistemas de saúde estão incorporando IA em tarefas, incluindo anotações e resumos de gráficos e, em vez de substituir médicos e enfermeiros,  espera que IA possa ser ferramenta poderosa aos médicos, diminuindo peso de parte da carga de trabalho e trazendo-os de volta ao lado do paciente. 

Moral da Nota: empresas americanas observam que gastos com saúde dos funcionários aumentaram de modo constante nos últimos 3 anos, com 2026 parecendo refletir o maior aumento em uma década e empregadores prevendo que os gastos com saúde aumentarão 9% pós aumento de 8% em 2025, maior nível em 10 anos, sendo o aumento de 2026 impulsionado por tempestade perfeita, alta demanda por medicamentos para perda de peso, aumento de diagnóstico, tratamentos caros para câncer, saúde mental, tarifas farmacêuticas, sistemas sofisticados de faturamento IA utilizados cada vez mais por hospitais que levará a prêmios e franquias mais altos aos funcionários. A pesquisa anual com 121 empresas, abrangendo 11,6 milhões de funcionários e famílias, divulgada em agosto de 2025 pelo Business Group on Health, coalizão de 400 empresas, levou  Ellen Kelsay, presidente do Business Group dizer que "a história deste ano talvez seja mais assustadora e preocupante que nunca", considerando que os prêmios anuais do seguro saúde patrocinado pelo empregador aumentaram 7% ao ano nos últimos 2 anos, conforme relatório do KFF, think tank sem fins lucrativos, à média de US$ 25.572 por funcionário para cobertura familiar e US$ 8.951 à planos individuais em que empresas normalmente pagam de 75% a 80% do custo do prêmio, ou, conforme o CEO da KFF, "empregadores desembolsam o equivalente a comprar carro econômico à cada funcionário anualmente e pagar pela cobertura familiar". O relatório do Business Group surgiu por conta de pesquisa da Fundação Internacional de Planos de Benefícios para Funcionários, em que empregadores americanos projetaram aumento mediano de 10% nos custos com saúde no próximo ano, a culpa foi atribuída aos medicamentos à perda de peso GLP-1, como Wegovy e Ozempic, aos tratamentos contra o câncer e ao aumento do atendimento a doenças catastróficas, na verdade, produtos farmacêuticos são impulsionadores de aumento dos custos com saúde, respondendo por 24% dos gastos com saúde dos empregadores em 2024, ante 21% há 3 anos, sendo que empregadores esperam aumento de 11% a 12% nos custos com farmácias em 2026, segundo o Business Group. Novo relatório da KFF analisa impacto das tarifas previstas sobre pequenas empresas e previu que as seguradoras, devem  incorporar potenciais aumentos de custos nas tarifas propostas ao próximo ano do plano, em vez de aguardar decisão final do governo norte americano, enquanto na pesquisa do Business Group, 12% dos empregadores afirmaram que aumentariam  contribuições dos funcionários ao plano de saúde se pressionados a reduzir o crescimento dos custos, pesquisa de julho da Mercer constatou que 51% das empresas com 500 ou mais funcionários afirmaram que muito provavelmente transfeririam mais custos aos funcionários através de prêmios, franquias ou valores máximos de desembolso mais altos, com o National Bureau of Economic Research estimando que cada aumento de 10% nos custos do seguro saúde corporativo reduz as chances de emprego em 1,6% e  os salários em 2,3%.