"Resultaten visar att AMALIA-DPO [Direct Preference Optimisation] uppnår bäst prestanda bland de helt öppna modellerna med en betydande marginal, och till och med uppnår de bästa resultaten bland alla modeller inom lexikologi och semantik, vilket visar en robust behärskning av de specifika språkliga kompetenserna" för portugisiska i flera kategorier.
Den portugisiska Amália LLM [Large Language Model] har ständigt utvecklats av konsortiet av portugisiska universitet, som leder dess utveckling.
Enligt den tekniska rapporten, i en djupgående utvärdering av europeisk portugisiska, har Amália klara fördelar jämfört med andra öppna modeller.
I portugisiska nationella prov (portugisiska frågor med långa svar) "får Amália bäst resultat av alla modeller med helt öppen källkod och visar god förståelse av komplexa meningar och sammanhängande textproduktion, med lämplig grammatik och register".
I denna rapport "presenterar vi en LLM som prioriterar det europeiska portugisiska språket och dess kulturella sammanhang", står det i dokumentet, där det framgår att Amália använder data från arquivo.pt och data från efterutbildningen som tagits fram specifikt för europeisk portugisiska.
I dokumentet anges att LLM utbildades med hjälp av språkmodellering och strategier för anpassning av undervisningen.
"En grundläggande utmaning i utvecklingen av denna modell var bristen på riktmärken för att övervaka utvecklingen av modellens prestanda", står det i rapporten.
För att mildra denna begränsning "använde vi nationella PT-PT-prov, skapade ett språkligt riktmärke och översatte flera dataset" med en dedikerad högkvalitativ maskinöversättningsmodell (MT).
"Utvärderingen visade att Amália överträffar alla tidigare modeller med öppen källkod i PT-PT och många modeller med "öppen vikt" [som delar vikterna (tränade parametrar)]", sammanfattar den tekniska rapporten.
"Experiment med riktmärken för språkförståelse och inferens visar toppmoderna eller jämförbara resultat, medan modellen i riktmärken för språkgenerering utmärker sig i kvaliteten på den genererade texten. Säkerhetsexperiment visar också att modellen är i linje med den senaste tekniken", står det i rapporten.
I framtiden kommer "vi att utforska andra metoder för förstärkt inlärning och utveckla nya kombinationer av träningsdata för att förbättra resonemangsförmågan i PT-PT".
Med andra ord tyder dessa resultat på att Amália i praktiken börjar bli en pålitlig assistent i europeisk portugisiska.
Rapporten skrevs av João Magalhães (UNL) och André Martins (IST), samordnarna, och ett team på cirka 20 personer från Lissabons universitet och Universidade Nova de Lisboa.
Amalia-modellen utvecklas av ett team som består av Universidade Nova de Lisboa, Instituto Superior Técnico, Universidade de Coimbra, Universidade do Porto, Universidade do Minho och Fundação para a Ciência e Tecnologia.
Processen med att skapa Amália började med insamling och bearbetning av europeiska portugisiska data i stor skala, som filtrerades baserat på relevans och språklig kvalitet. Det portugisiska webbarkivet användes för detta ändamål. Modellen förtränades på dessa data och finjusterades sedan på andra datauppsättningar för att följa instruktioner, resonera och lösa problem.
Storskalig datainfrastruktur användes för att träna modellerna, med hjälp av nationella superdatorer (Mare Nostrum 5 och Deucalion) och europeiska superdatorer (genom EuroHPC-nätverket).








