top of page

Um conselho de IA acaba de ser aprovado no exame de licenciamento médico dos EUA

Duas cabeças pensam melhor que uma, mesmo quando essas cabeças não são humanas.



Apesar de sua utilidade, grandes modelos de linguagem ainda apresentam um problema de confiabilidade. Um novo estudo mostra que uma equipe de IAs trabalhando em conjunto pode obter até 97% de aproveitamento em exames de licenciamento médico nos EUA, superando qualquer IA isoladamente.



Embora o progresso recente em modelos de grandes linguagens (LLMs) tenha levado a sistemas capazes de passar em testes profissionais e acadêmicos, seu desempenho permanece inconsistente. Eles ainda são propensos a alucinações — afirmações que parecem plausíveis, mas incorretas —, o que limita seu uso em áreas de alto risco, como medicina e finanças.



No entanto, os LLMs obtiveram resultados impressionantes em exames médicos, sugerindo que a tecnologia pode ser útil nessa área se suas inconsistências puderem ser controladas. Agora, pesquisadores demonstraram que reunir um "conselho" de cinco modelos de IA para deliberar sobre suas respostas, em vez de trabalharem sozinhos, pode levar a pontuações recordes no Exame de Licenciamento Médico dos EUA (USMLE).



“Nosso estudo mostra que, quando várias IAs deliberam juntas, elas alcançam o mais alto desempenho em exames de licenciamento médico”, disse Yahya Shaikh, da Universidade Johns Hopkins, em um comunicado à imprensa . “Isso demonstra o poder da colaboração e do diálogo entre sistemas de IA para alcançar respostas mais precisas e confiáveis.”



A abordagem dos pesquisadores tira proveito de uma peculiaridade dos modelos, enraizada na forma não determinística como eles elaboram as respostas. Faça a mesma pergunta médica duas vezes ao mesmo modelo e ele poderá produzir duas respostas diferentes — às vezes corretas, às vezes não.



Em um artigo na PLOS Medicine , a equipe descreve como eles aproveitaram essa característica para criar seu "conselho" de IA. Eles criaram cinco instâncias do GPT-4 da OpenAI e os incentivaram a discutir respostas para cada pergunta em uma troca estruturada supervisionada por um algoritmo facilitador.



Quando as respostas divergiam, o facilitador resumia as diferentes justificativas e fazia o grupo reconsiderar a resposta, repetindo o processo até que surgisse um consenso.



Ao testar 325 questões publicamente disponíveis das três etapas do USMLE, o conselho de IA obteve 97%, 93% e 94% de precisão, respectivamente. Essas pontuações não apenas superam o desempenho de qualquer instância individual do GPT-4, como também superam os limites médios de aprovação humana nos mesmos testes."Nosso trabalho fornece a primeira evidência clara de que os sistemas de IA podem se autocorrigir por meio de diálogos estruturados, com um desempenho coletivo melhor do que o desempenho de qualquer IA isoladamente", afirma Shaikh.



Como prova da eficácia da abordagem, quando os modelos inicialmente discordaram, o processo de deliberação corrigiu mais da metade dos erros anteriores. No geral, o conselho chegou à conclusão correta em 83% das vezes em que não houve uma resposta inicial unânime.



“Este estudo não se trata de avaliar a capacidade da IA ​​de realizar o teste USMLE”, observa o coautor Zishan Siddiqui, também da Johns Hopkins, no comunicado à imprensa.

“Descrevemos um método que melhora a precisão ao considerar a variabilidade natural da resposta da IA ​​como um ponto forte. Ele permite que o sistema faça algumas tentativas, compare notas e se autocorrija, e deve ser incorporado a futuras ferramentas para educação e, quando apropriado, atendimento clínico.”A equipe observa que seus resultados vêm de testes controlados, não de ambientes clínicos do mundo real, portanto, ainda há um longo caminho a percorrer antes que o conselho de IA possa ser implantado no mundo real. Mas eles sugerem que a abordagem também pode ser útil em outros domínios.


Parece que o velho ditado de que duas cabeças pensam melhor que uma continua verdadeiro mesmo quando essas cabeças não são humanas.


LIVRO - ALGORITMIZAÇÃO - Guia Prático para Maturidade de Transformação Digital
R$193.00R$67.55
Comprar


 
 
 

Comentários

Avaliado com 0 de 5 estrelas.
Ainda sem avaliações

Adicione uma avaliação
bottom of page