"Os resultados mostram que o AMALIA-DPO [Diret Preference Optimisation] atinge o melhor desempenho entre os modelos totalmente abertos por uma margem considerável, obtendo mesmo os melhores resultados entre todos os modelos em lexicologia e semântica, demonstrando um domínio robusto das competências linguísticas específicas" do português em várias categorias.

O Amália LLM [Large Language Model] português tem sido objeto de uma evolução constante por parte do consórcio de universidades portuguesas que lidera o seu desenvolvimento.

De acordo com o relatório técnico, numa avaliação aprofundada do português europeu, o Amália apresenta vantagens claras em relação a outros modelos abertos.

Nos exames nacionais de português (perguntas de resposta longa de português), a Amália "obtém a melhor pontuação de todos os modelos totalmente abertos, demonstrando boa compreensão de frases complexas e produção de texto coerente, com gramática e registo adequados".

Neste relatório, "apresentamos um LLM que privilegia a língua portuguesa europeia e o seu contexto cultural", lê-se no documento, que refere que o Amália utiliza dados do arquivo.pt e dados de pós-formação preparados especificamente para o português europeu.

O documento indica que o LLM foi treinado com recurso a estratégias de modelação da língua e de ajustamento da instrução.

"Um desafio fundamental no desenvolvimento deste modelo foi a inexistência de parâmetros de referência para monitorizar a evolução do desempenho do modelo", refere o relatório.

Para atenuar esta limitação, "utilizámos exames nacionais de PT-PT, criámos uma referência linguística e traduzimos vários conjuntos de dados" com um modelo dedicado de tradução automática (MT) de alta qualidade.

"A avaliação mostrou que a Amália supera todos os modelos de código aberto anteriores em PT-PT e muitos modelos de "peso aberto" [que partilham os pesos (parâmetros treinados)]", conclui o relatório técnico.

"As experiências em benchmarks de compreensão e inferência de linguagem mostram resultados de ponta ou comparáveis, enquanto nos benchmarks de geração de linguagem, o modelo se destaca na qualidade do texto gerado. As experiências de segurança também mostram que o modelo está de acordo com o estado da arte", lê-se no relatório.

No futuro, "exploraremos outros métodos de aprendizagem por reforço e desenvolveremos novas combinações de dados de treino para melhorar as capacidades de raciocínio do PT-PT".

Por outras palavras, na prática, estes resultados indicam que a Amália está a tornar-se fiável como assistente em português europeu.

O relatório foi elaborado pelos coordenadores João Magalhães (UNL) e André Martins (IST) e por uma equipa de cerca de 20 pessoas da Universidade de Lisboa e da Universidade Nova de Lisboa.

O modelo Amália está a ser desenvolvido por uma equipa constituída pela Universidade Nova de Lisboa, o Instituto Superior Técnico, a Universidade de Coimbra, a Universidade do Porto, a Universidade do Minho e a Fundação para a Ciência e Tecnologia.

O processo de criação da Amália iniciou-se com a recolha e tratamento de dados do português europeu em larga escala, que foram filtrados com base na sua relevância e qualidade linguística. Para o efeito, foi utilizado o Arquivo da Web Portuguesa. O modelo foi pré-treinado com estes dados e depois aperfeiçoado noutros conjuntos de dados para seguir instruções, raciocinar e resolver problemas.

Para o treino dos modelos foi utilizada uma infraestrutura computacional de grande escala, recorrendo a supercomputadores nacionais (Mare Nostrum 5 e Deucalion) e europeus (através da rede EuroHPC).