Desde que o lançamento do GPT-4 em março de 2023 marcou uma mudança radical em relação ao GPT-3, as pessoas têm usado o "GPT-5" como um substituto para especular sobre a próxima geração de recursos de IA. Na quinta-feira, a OpenAI lançou o GPT-5. Embora seja de última geração na maioria dos aspectos, o GPT-5 não representa uma mudança radical em relação aos sistemas concorrentes, ou mesmo aos modelos recentes da OpenAI — mas não deveríamos esperar que fosse.
O GPT-5 é o que há de mais moderno em muitos aspectos. Não se trata de um modelo único como os GPTs 1 a 4. É um sistema de dois modelos: um modelo básico que responde a perguntas rapidamente e é melhor em tarefas como escrita criativa (uma versão aprimorada do 4o), e um modelo de raciocínio que responde a perguntas passo a passo e é melhor em tarefas como codificação ou matemática (pense no o3). O GPT-5 usa um ou outro modelo com base na solicitação do usuário.
Esses dois modelos se combinam para formar um sistema com ampla capacidade. Por exemplo, o GPT-5 alcança desempenho de ponta no Humanity's Last Exam , o benchmark de engenharia de software SWE-bench Verified, e ocupa o primeiro lugar no ranking de textos do LMArena .

O GPT-5 tem menos alucinações do que os modelos OpenAI anteriores. O GPT-5 também apresenta uma taxa de alucinações significativamente menor do que os modelos anteriores, avaliada tanto em prompts de código aberto quanto em tráfego ChatGPT real e desidentificado.
Taxas mais baixas de alucinação ajudam o GPT-5 a ter um melhor desempenho em aplicações de saúde. O GPT-5 atinge desempenho de ponta no Healthbench da OpenAI . Por exemplo, a OpenAI descobriu que o GPT-5 (pensamento) alucina 1,6% das vezes durante conversas desafiadoras sobre saúde, melhorando significativamente a taxa de alucinação de 12,9% do o3.

GPT-5 é um agente de texto de última geração. GPT-5 lidera em Um novo benchmark que mede o desempenho de sistemas de IA em jogos interativos baseados em texto longo, que são exemplos de ambientes exploratórios desafiadores. Nenhum sistema de IA consegue vencer os jogos sem pistas, e nenhum é tão capaz quanto os humanos — mas o GPT-5 supera os modelos testados.
O GPT-5 é melhor compreendido como uma consolidação de recursos desenvolvidos desde o GPT-4. O GPT-5 não é um modelo de última geração em todos os aspectos. Por exemplo, ele fica em segundo lugar, atrás do Grok 4 da xAI, nos benchmarks de reconhecimento de padrões abstratos ARC-AGI-1 e 2. O GPT-5 também não supera o o3 em vários benchmarks de codificação, embora o faça no SWE-bench Verified.
Da mesma forma, o modelo base que o GPT-5 utiliza é uma versão atualizada do 4o — que é barata o suficiente para a OpenAI implementar o GPT-5 para seus atuais 700 milhões de usuários ativos semanais — em vez do GPT-4.1 . Isso significa que o GPT-5 perde algumas das melhorias na janela de contexto do GPT-4.1 em relação ao 4o.
Para aqueles que esperavam mais uma melhoria nos recursos do GPT-3 para o GPT-4, o GPT-5 teve um desempenho inferior . Mas essa não era uma expectativa realista — a OpenAI tem lançado continuamente novos modelos e recursos desde o GPT-4 em resposta à concorrência de outras empresas de IA. O GPT-5 é melhor compreendido como uma consolidação das melhorias que a OpenAI desenvolveu desde o GPT-4 e que o GPT-4 não tinha. Estas incluem:

Busca e uso de ferramentas : O GPT-5 tem acesso à busca, o que significa que seu conhecimento não se limita ao que pode memorizar durante o pré-treinamento. Ele também tem acesso a pesquisas aprofundadas, integrações de agentes e pode executar código.
Pensamento : O GPT-4 foi lançado antes do OpenAI começar a usar aprendizado por reforço para o pensamento e teve um desempenho muito abaixo do nível de especialistas em tarefas de matemática, codificação e ciências. O GPT-5 (pensamento) tem um desempenho de nível de doutorado em tarefas semelhantes.
Reconhecimento e geração de imagens : o GPT-5 integra os sistemas visuais da OpenAI, o que significa que ele pode entender e gerar entradas e saídas visuais.
Comprimento do contexto : A janela de contexto do GPT-4 era de cerca de oito mil tokens — aproximadamente o tamanho de um pequeno artigo de pesquisa. A janela de contexto do GPT é de 256 mil tokens — cerca de 2 a 3 romances completos.
Embora o GPT-5 não represente uma melhoria significativa em relação aos seus concorrentes — ou mesmo aos modelos recentes da OpenAI, como o 4o e a série o — o melhor ponto de comparação é com o que o GPT-4 conseguiu fazer quando foi lançado em 2023. Nessa comparação, o GPT-5 parece ser uma melhoria significativa.
O que o GPT-5 precisaria para ser considerado uma melhoria descontínua? O ChatGPT ainda carece de autonomia suficiente para ser amplamente útil economicamente. Pensar em probabilidades não é suficiente para a autonomia — por exemplo, para usar computadores de forma confiável, agentes de IA podem precisar de raciocínio visual aprimorado e da capacidade de armazenar lições aprendidas em tarefas na memória de longo prazo.
Por padrão, no entanto, devemos esperar que essas e outras melhorias sejam implantadas continuamente, não em grandes saltos a cada dois anos.

A velocidade de entrega é impressionante