Pegue dados legais e um supercomputador enorme: foi assim que a Suíça construiu sua alternativa ao Chat-GPT «Apertus»


“O que não posso criar, não entendo”, teria dito certa vez o físico americano Richard Feynman.
O NZZ.ch requer JavaScript para funções importantes. Seu navegador ou bloqueador de anúncios está impedindo isso.
Por favor, ajuste as configurações.
E é exatamente por isso que muitos cientistas da computação têm se preocupado nos últimos anos. A inteligência artificial linguística (IA), a tecnologia por trás do Chat-GPT, está sendo desenvolvida quase exclusivamente por grandes empresas de tecnologia. Pesquisadores em universidades estão cada vez mais ficando para trás. Embora o princípio de funcionamento da IA seja conhecido, sua construção é muito complexa. E as empresas de tecnologia estão compartilhando cada vez menos detalhes sobre como elas próprias a desenvolveram.
Nesse contexto, o novo modelo de IA da Suíça representa uma pequena revolução. Chama-se "Apertus" e foi lançado na terça-feira, às 10h.
E é cem por cento feito por pessoas que têm permissão para falar sobre seu trabalho na cozinha da IA.
Aproveitamos esta oportunidade única para escrever a receita da IA. Uma coisa é clara: construir um chatbot exige não apenas recursos enormes, mas também conhecimento, espírito de equipe e nervos de aço.
1. Peguedados éticos
Bettina Ursula Messmer usa óculos grandes e, embora tenha crescido perto de Zurique, prefere falar inglês sobre seu trabalho. Ela é uma das poucas mulheres suíças na equipe suíça de modelos de IA. Morou em Londres por três anos. Depois de estudar ciência da computação na ETH Zurique, trabalhou lá para a empresa de análise de dados Palantir . Depois, surgiram os precursores do Chat-GPT. "De repente, muita coisa estava acontecendo na área de IA. Eu queria entender o que estava acontecendo lá. Eu queria voltar à pesquisa."
Desde 2022, Messmer é doutorando na EPFL no grupo de Martin Jaggi. Ele é um dos pesquisadores que anunciaram planos para construir um modelo de língua suíça no final de 2023.
Ficou claro desde o início que Messmer estaria envolvida. Ela vinha trabalhando em como criar conjuntos de dados linguísticos de alta qualidade. E bons conjuntos de dados são o primeiro, e talvez até o mais importante, ingrediente para a IA linguística.
O modelo suíço deve ser multilíngue – e estar em conformidade com as regras. No contexto da IA linguística, isso significa respeitar os direitos autorais e não usar dados contra a vontade dos desenvolvedores. Em outros setores, pode ser prática comum observar essas regras. Com a IA, as coisas são diferentes. Os modelos de IA incorporam dados recuperados automaticamente da internet. Esse também foi o caso do Apertus. No entanto, os dados foram verificados e filtrados antes do uso. Essa foi a tarefa de Messmer e seus colegas.
Eles compilaram meticulosamente conjuntos de dados enormes e verificaram a origem dos dados. Filtraram dados de sites que continham um alerta contra seu uso para IA.
"Embora isso seja complexo e desafiador à sua maneira, baseia-se em certos critérios", diz Messmer. A tarefa de filtrar declarações problemáticas dos dados, como racismo ou antissemitismo, é mais difícil.
É difícil distinguir claramente entre declarações comuns e discurso de ódio usando um computador. E se você filtrar muitos dados sobre uma minoria, a IA terá menos capacidade de gerar textos sobre esse grupo, mesmo em contextos positivos, explica Messmer. Este é outro problema. Sua equipe tentou encontrar um meio-termo. Uma IA nunca é completamente neutra. "É por isso que é tão importante que divulguemos como procedemos. Isso torna os vieses visíveis."
O trabalho para transformar dados da internet em uma fonte adequada para a IA suíça levou vários meses. A equipe conduziu experimentos repetidamente para determinar com quais dados o modelo aprenderia melhor. Eles trabalharam com suposições, pois o treinamento de um modelo de IA de grande porte é muito caro para ser repetido e adaptado com frequência.
O conjunto de dados a partir do qual o Apertus foi criado continha aproximadamente 15 trilhões de tokens, ou palavras ou fragmentos de palavras. Isso é aproximadamente o mesmo número que existe em 19 milhões de Bíblias. Mais de 1.000 idiomas diferentes aparecem nos dados.
2. Misture os ingredientes em um supercomputador gigante
Maria Grazia Giuffreda, codiretora do Centro Suíço de Supercomputadores CSCS em Lugano, fala bastante e com grande energia. E logo o orgulho da italiana transparece na conversa: "Sem nós, não haveria modelo suíço de IA."
De fato, com a máquina de computação chamada "Alps" no CSCS, a Suíça ocupa uma posição quase única no mundo: desde 2024, possui um grande supercomputador público que contém os mais recentes processadores gráficos e, portanto, é adequado para IA.
Se o ingrediente mais importante para a IA são os dados, um grande centro de dados é o processador de alimentos, a Thermomix da receita da IA, por assim dizer.
Para a maioria dos países, um projeto como o Apertus seria impossível simplesmente por falta da infraestrutura necessária. Especialmente para a primeira parte do desenvolvimento da IA de linguagem, o chamado pré-treinamento, são necessários muitos processadores em rede, computando simultaneamente. Cerca de um quarto dos oitenta engenheiros do CSCS passaram meses ocupados principalmente mantendo o novo supercomputador em funcionamento e resolvendo problemas técnicos.
Durante o pré-treinamento, os computadores processam os enormes conjuntos de dados e os utilizam para calcular os parâmetros do modelo de IA. Essas são as variáveis que posteriormente serão usadas para calcular a resposta apropriada para cada pergunta. O Apertus está disponível em duas versões. A versão maior possui 70 bilhões de parâmetros. Todos esses parâmetros devem ser calculados por meio de otimização. O modelo é gradualmente alimentado com os dados de treinamento e aprende com eles para prever qual palavra provavelmente virá a seguir.
Mais da metade do desenvolvimento do Alps foi reservado para meses de treinamento em IA. No entanto, o supercomputador também conta com outros usuários: a MeteoSwiss, pesquisadores climáticos e cientistas de materiais, por exemplo. Eles também precisam de poder computacional.
Isso impôs limites ao tamanho do projeto suíço de IA. O grande modelo Apertus está entre os bons modelos abertos de IA — mas é preciso estar ciente de que os modelos líderes são muito mais poderosos. A IA chinesa Deepseek é dez vezes maior que a Apertus.
Giuffreda não precisa pensar nem por um segundo sobre o melhor momento para treinar o Apertus: "Queríamos concluir o pré-treinamento do modelo grande até 23 de julho. Eu enviava um e-mail todas as manhãs às 7h30 com o progresso dos cálculos para manter todos atualizados." Às vezes, era um passo para trás, e a previsão piorava durante a noite.
"E então, no dia 25 de julho, olhei o programa à meia-noite e, de repente, em 'Número de tokens a serem processados', havia zero. Foi incrível, a melhor sensação!" Às 00h22, Giuffreda enviou seus parabéns a toda a equipe por e-mail.
A etapa mais importante do preparo estava concluída. Agora só faltava o refinamento e o tempero.
3. Ensine a IA a se comportar
O pré-treinamento de um modelo de IA é apenas o começo. O pesquisador israelense da ETH, Ido Hakimi, explica isso com uma anedota. Antes de retornar à universidade, Hakimi trabalhou para empresas de tecnologia, incluindo o Google. A primeira IA de linguagem que ele experimentou foi um modelo de linguagem pré-treinado.
"Perguntei: 'Quanto é 2 + 2?' Adivinhe qual foi a resposta." Você não precisa entender muito de IA e piadas para adivinhar: provavelmente não era '4'. O que Hakimi diz em seguida ainda é surpreendente. "A resposta foi: 'Quanto é 2 + 3?'"
O motivo: durante o pré-treinamento, a IA aprende apenas como um texto provavelmente continuará. E em seus dados de treinamento, uma pergunta nem sempre é seguida por uma resposta, mas frequentemente pela próxima pergunta, por exemplo, em um livro didático com exercícios de matemática.
Ido Hakimi e seu colega húngaro Barna Pásztor foram encarregados de transformar uma máquina de continuação, que contém quase todo o conhecimento do mundo, em um conversador. Os dois riem muito e complementam as frases um do outro enquanto conversamos. Dá para perceber que eles gostaram de trabalhar juntos.
A IA aprende etiqueta, como tudo o mais, a partir de exemplos. Quem faz perguntas espera uma resposta. Para ensinar isso à IA, Hakimi e Pásztor buscaram conjuntos de dados contendo conversas.
Depois que a IA aprende a conduzir um diálogo, o próximo passo é dado. Isso requer exemplos de respostas boas e ruins para as perguntas. Um algoritmo aprende com isso para avaliar a qualidade de uma resposta. A IA é então solicitada a gerar inúmeras perguntas e respostas. O algoritmo de teste avalia as respostas. Isso fornece feedback à IA e, gradualmente, desenvolve métodos para fornecer boas respostas.
Esta parte do processo de preparação transforma uma massa de IA genérica em um produto final com sabor e aroma muito específicos. Isso também envolve incutir valores morais na IA. Ela precisa saber quando é melhor não responder, por exemplo, se alguém quiser construir uma bomba ou se menores solicitarem material pornográfico. No entanto, implementar esses limites de forma eficaz é difícil. Escândalos demonstram repetidamente que as empresas de tecnologia também estão enfrentando dificuldades com isso.
Os pesquisadores testaram repetidamente o desenvolvimento do modelo com testes nos quais deram à IA tarefas de programação, por exemplo. Certa vez, as capacidades do Apertus deterioraram-se rapidamente de forma inexplicável. Após uma longa busca, os pesquisadores descobriram o motivo: um único espaço no código fez com que o modelo de IA não dissesse nada além de bobagens. Para Hakimi, essa é a mágica da IA: "Em um momento, você está falando com o modelo e parece que há uma pessoa ali. E então ele fica completamente confuso com um único espaço. Isso torna ainda mais surpreendente que funcione."
Os dois falam com quase ternura sobre o modelo de IA que criaram juntos. Embora cerca de 100 pessoas tenham se envolvido na Apertus, esse número é consideravelmente menor do que em empresas de tecnologia. As contribuições de cada indivíduo são ainda mais importantes. Essa conscientização motiva os pesquisadores.
4. Decida onde vocêrealmente quero ir
Entrei em contato com a grega Angelika Romanou pouco antes de uma longa viagem. Quando este artigo for publicado, ela já estará trabalhando em Nova York como estagiária na empresa de tecnologia Meta. Lá, ela ajudará a tornar a IA mais segura.
Ela diz: "O que muitas pessoas não percebem sobre o meu trabalho, e sobre a pesquisa em geral, é que raramente estamos ocupados encontrando soluções para problemas. Na maior parte do tempo, estamos tentando definir o problema."
Encontrar as perguntas certas também era tarefa de Romanou na Apertus. Ela trabalhou na equipe de avaliação — pode-se dizer, no departamento de degustação.
No setor de IA, o que importa é sempre estabelecer parâmetros de referência: alguém cria um teste, por exemplo, com questões de programação, como mencionado acima, e todos os provedores competem para ver quem consegue os melhores resultados. Há parâmetros de referência para matemática, reconhecimento de imagem e questões jurídicas. No entanto, não havia bons parâmetros de referência para um objetivo importante que o projeto suíço de IA havia estabelecido para si: o multilinguismo.
O multilinguismo não se resume apenas à gramática correta. A IA aprende conhecimento global por meio da linguagem. Portanto, é relevante saber de qual idioma esse conhecimento vem — e se a IA consegue transferir esse conhecimento local para outros idiomas.
Romanou dá um exemplo: "Imagine que você está de férias na Grécia, tomou dois drinques e quer saber pela IA se ainda tem permissão para dirigir. O modelo precisa entender que precisa traduzir as leis de trânsito gregas para o alemão."
Para testar essa capacidade, Romanou, com a ajuda de uma comunidade de pesquisadores de IA, coletou perguntas e respostas em uma ampla variedade de idiomas. Entre eles, muitas línguas africanas e asiáticas, que frequentemente apresentam baixo desempenho em modelos comerciais de IA. As perguntas e respostas foram então traduzidas para outros idiomas, criando assim uma coleção de perguntas de diferentes países em todos os idiomas possíveis: um teste que realmente mede o multilinguismo.
Devido a esse multilinguismo, os pesquisadores decidiram não incluir nenhuma referência à identidade suíça do seu modelo no nome. O Apertus visa beneficiar não apenas a Suíça, mas todos os pesquisadores do mundo todo.
5. Deixe a IA pensar como ela deve pensar
Em janeiro, quando a Apertus estava em treinamento, o mundo vivenciou o momento Deepseek : uma empresa chinesa ofereceu um modelo de IA gratuito com desempenho tão bom quanto os melhores modelos de fornecedores comerciais. Isso foi um choque para as empresas de tecnologia americanas. Em Zurique, uma pessoa ficou encantada: Eduardo Durech.
"Foi bom ver que as técnicas em que eu estava trabalhando também funcionam em larga escala", diz Durech. Ele tem 27 anos, cresceu na Eslováquia e no Canadá e chegou à IA por meio do processamento de imagens médicas. No Canadá, ele ensinou computadores a detectar diabetes e Alzheimer com base em exames de retina. Hoje, ele aplica os mesmos métodos de IA a dados de linguagem. Isso se chama aprendizado por reforço .
No aprendizado por reforço, o computador aprende por tentativa e erro. Ao recompensá-lo por bons resultados, ele desenvolve estratégias gradualmente. A aplicação dessa técnica à IA de voz trouxe aos chatbots o mais recente grande salto em qualidade.
Por meio desse método, a IA de linguagem fornece automaticamente respostas mais longas, por exemplo, mil palavras em vez de cem, diz Durech: "Se você fizer uma pergunta matemática difícil, ela começa a testar métodos diferentes, dividindo o problema em subquestões e abordando a questão em etapas. Isso simula o pensamento."
A IA, portanto, se envolve em uma espécie de diálogo interno reflexivo que aprimora suas respostas. Durech já suspeitava há muito tempo que o aprendizado por reforço estaria por trás do próximo avanço na IA. Ele vem trabalhando na adaptação do método para IA de linguagem desde o outono passado. A Deepseek confirmou a ele que sua equipe estava no caminho certo.
No entanto, levaria algum tempo até que Durech pudesse aplicar seus métodos aos modelos Apertus. Esta é a etapa final no desenvolvimento da IA. Somente após concluir o restante do treinamento sua equipe conseguiu acessar grandes recursos computacionais. As olheiras dele estão igualmente escuras durante nossa conversa. Ele não está dormindo muito no momento, diz Ďurech.
As habilidades de raciocínio ainda não estão disponíveis para teste — não houve tempo suficiente. Mas a atualização correspondente está prevista para ser lançada em setembro. É o toque final na receita da IA.
6. Libere a IA no mundo e cruze os dedos
Agora, o Apertus foi lançado. Você pode experimentar o modelo como um chatbot ou baixá- lo e executá-lo em seu próprio computador. A comunidade de IA está discutindo o novo modelo nas plataformas Reddit e Hackernews. Alguns elogiam a abordagem aberta, enquanto outros expressam decepção, por exemplo, com os recursos da IA em finlandês e búlgaro.
No relatório técnico , os pesquisadores descrevem o desempenho do Apertus em vários benchmarks. Entre as IAs transparentes, o Apertus apresenta bom desempenho, mas os modelos de IA semiaberta do Meta e do Google apresentam melhor desempenho. Se o Apertus entrará para a história como um sucesso ou um fracasso depende não apenas das classificações, mas também do interesse com que o modelo é adotado por cientistas – e pela comunidade empresarial.
Os desenvolvedores esperam que o Apertus possa servir de base para que PMEs, por exemplo, desenvolvam seus próprios aplicativos de IA — uma oportunidade de se tornarem independentes de provedores americanos. A série de eventos "Semanas Suíças de IA" visa incentivar cidadãos suíços interessados a experimentar o modelo.
O quanto a Suíça continuará investindo em IA aberta dependerá da boa aceitação do Apertus. Será que eles treinarão um modelo ainda maior? Um com recursos adicionais?
De qualquer forma, os pesquisadores estão motivados a provar que é possível: desenvolver inteligência artificial como uma equipe relativamente pequena de professores, engenheiros e estudantes que não tem nada a esconder no cenário mundial.
nzz.ch