O ChatGpt agora pode fazer tudo por nós: como funciona e como usar melhor o agente

A OpenAI lançou o Agent, um novo recurso de chatbot que pode executar tarefas digitais complexas em nome dos usuários, do início ao fim. O Agent é baseado em um novo modelo dedicado que integra ainda mais os modos de busca profunda e Operador, já disponíveis para usuários pagos, com a interface conversacional do bot.
O novo agente deve ser treinado com um prompt específico e então, diz a OpenAI, ele faz tudo sozinho: pesquisa na web por informações relevantes e usa um computador virtual para tomar decisões e executar ações avançadas em serviços externos, incluindo comércio eletrônico e plataformas que exigem autorização.
Como funciona o agente ChatGptO OpenAI equipou o agente com várias ferramentas para acessar e interagir com a web: um navegador visual que navega pela interface gráfica; um navegador de texto, usado para pesquisas mais simples; e para usuários mais avançados, um terminal e acesso direto à API (a interface de programação).
Usando o recurso "Conectores", o modelo pode se conectar a aplicativos como Gmail ou GitHub para obter informações mais precisas e refinar as buscas. Ao controlar o navegador do agente, os usuários também podem fazer login diretamente em sites externos.
Com essas ferramentas digitais, o modelo pode coletar informações por meio de APIs de outros sites, analisar grandes quantidades de texto com o navegador de texto ou interagir visualmente com sites projetados para usuários humanos, de forma muito semelhante às extensões do navegador que controlam automaticamente o mouse.
Antes de executar ações arriscadas ou que exijam acesso a dados privados, explica a OpenAI, o agente requer a aprovação e intervenção do usuário: caso contrário, ele pode coletar, organizar e apresentar informações de forma totalmente autônoma, gerando arquivos específicos, como planilhas, arquivos de texto e apresentações do PowerPoint.
O que ele pode fazer?A OpenAI forneceu vários exemplos práticos do que pode ser feito usando o modo agente do chatbot. Em um vídeo promocional, um engenheiro da empresa usa o agente para criar um itinerário de viagem para Palm Springs para o Torneio de Tênis Indian Wells Open.
O sistema busca datas de partidas, conecta-se ao calendário do usuário (por meio de um conector) para ver quais compromissos já estão assumidos e, em seguida, acessa o navegador para buscar possíveis voos saindo de São Francisco e elabora uma proposta de viagem.
Em outro exemplo, o agente cria uma planilha com base em dados orçamentários da cidade de São Francisco; em outro, ele cria uma apresentação sobre suporte financeiro para empresas de tecnologia em Singapura e compila um relatório sobre a disponibilidade do escritório. Em todos os exemplos, a ênfase está em como o modo agente libera o tempo do usuário, permitindo que ele vá almoçar ou passear com o cachorro enquanto o sistema trabalha para ele: quando a pesquisa e os arquivos estiverem prontos, uma notificação chega ao smartphone por meio do aplicativo.
Os exemplos certamente não são interessantes nem úteis para a compreensão do funcionamento do Agent, mas parecem particularmente centrados nos EUA e destinados a um público profissional relativamente restrito. A OpenAI nos garante, no entanto, que o Agent pode ser utilizado em uma gama muito mais ampla de aplicações do que as descritas na imprensa e nos materiais de marketing.
O problema das alucinaçõesNão temos dúvidas de que sim, mas um problema permanece: o que fazer com as alucinações ainda inevitáveis? Em um exemplo, o engenheiro sugere que as informações orçamentárias coletadas em um arquivo Excel pelo agente estão "98% corretas".
Mas sem mais orientações, como podemos saber a importância desses 2%? Até mesmo um pequeno erro em uma apresentação para um cliente pode nos custar um emprego; em outros casos mais sérios, pode levar a problemas de conformidade e repercussões legais.
E embora seja verdade que um humano levaria algumas horas para criar o mesmo arquivo Excel, e talvez até cometesse alguns erros, ainda levaria muito mais tempo do que o OpenAI supõe para revisar o arquivo, garantir que não haja lacunas e revisar e pesquisar dados que possam parecer incorretos.
Eu quero uma vida digitalEm suma, o modo agente é certamente um passo impressionante (e preocupante) para o potencial da OpenAI, mas sua aceitação como uma grande inovação se baseia na suposição em que grande parte da narrativa da OpenAI se baseia: que os erros e alucinações dos quais os magníficos modelos e avanços da empresa continuam a sofrer podem simplesmente ser ignorados.
Outro aspecto que não deve ser subestimado é o nível de digitalização da vida de uma pessoa necessário para que o sistema funcione corretamente. Não sei você, mas normalmente não usamos o Google Agenda para organizar roboticamente todos os aspectos da nossa vida, incluindo jantares com amigos ou saídas à noite a meses de distância. Em outras palavras, uma agência de viagens, para nós, não funcionaria como a promoção do exemplo acima devido à simples falta de dados.
Uma lacuna que, para ser resolvida, exige abrir mão de toda espontaneidade e serendipidade: a vantagem é que um bot de código fechado de uma empresa americana pode nos poupar algumas horas organizando uma viagem em nosso nome. Enquanto isso, podemos ficar entediados, navegar pelo Instagram ou talvez até trabalhar ainda mais.
O problema da segurançaA OpenAI também admite abertamente que este é o modelo potencialmente mais perigoso lançado até o momento, dada a capacidade de automatizar ações baseadas na web com consequências diretas no mundo real. Por esse motivo, a empresa garante que o alinhamento e os limites de segurança são muito rigorosos.
O agente não pode executar tarefas de alto risco, realizar transações financeiras ou fornecer aconselhamento jurídico. Ele também foi treinado para minimizar o risco de injeção de prompts (o "sequestro" de diretivas do sistema com prompts maliciosos) e para rejeitar solicitações maliciosas ou potencialmente perigosas e ilegais. Por fim, quaisquer etapas críticas, como o envio de e-mails, nunca ocorrem automaticamente sem a aprovação explícita do usuário.
Quando o Chagpt Agent chegará à Itália?Os usuários podem ativar o agente durante qualquer conversa com o chatbot, selecionando o modo correspondente na lista de ferramentas. Basta enviar o prompt e o agente fará o resto. Os resultados não são imediatos: assim como na função de busca profunda, leva algum tempo, às vezes até horas, dependendo da complexidade da solicitação. O resultado pode ser refinado com solicitações adicionais.
Por enquanto, o Agent está disponível apenas nos EUA, Canadá e Reino Unido para usuários dos planos Pro, Plus e Team. A implementação começou hoje, 18 de julho, e continuará nos próximos dias. Usuários dos planos Education e Enterprise receberão a atualização nas próximas semanas. Como o modelo exige muitos recursos, as solicitações serão limitadas: usuários Pro terão 400 mensagens por mês, enquanto outros terão apenas 40, com a opção de adicionar solicitações comprando créditos adicionais.
O recurso Operator permanecerá disponível por algum tempo e, em seguida, será descontinuado. O Agent ainda não está disponível na Itália e no restante da Europa. A empresa está "finalizando o cronograma de lançamento". Dada a ampla difusão do novo modelo e o potencial acesso a tantas informações confidenciais, presumimos que os advogados da OpenAI têm muito trabalho a fazer para garantir a conformidade com as regulamentações de privacidade europeias.
Como registrar atas de reunião com o agente ChatGptO recurso "modo de gravação" chegou à Itália, permitindo gravar e transcrever reuniões, entrevistas e sessões de brainstorming. Ele pode ser ativado por meio de um novo botão "rec" localizado no canto inferior direito da interface do chatbot. Atualmente, porém, o modo de gravação está disponível apenas para usuários de planos pagos e apenas no aplicativo para desktop Mac para usuários de planos de assinatura.

Clicar no botão inicia a gravação e abre um pop-up dedicado para pausar ou encerrar a sessão, que pode então ser enviado aos servidores da OpenAI para transcrição e resumo. O resultado é um relatório esquemático destacando os pontos-chave e tarefas (se houver). O modo de gravação também funciona muito bem em italiano e nos parece, à sua maneira, um avanço muito mais prático e imediato do que o modo agente.

Questões de privacidade também devem ser consideradas aqui. A OpenAI afirma que as gravações são usadas exclusivamente para transcrição e, em seguida, destruídas. No entanto, se o usuário tiver optado por treinar o modelo por meio de seus chats ("Melhorar o ChatGpt para todos" nas preferências), o relatório e as interações adicionais do chat poderão ser usados pela OpenAI como material de treinamento.
La Repubblica