"Tulokset osoittavat, että AMALIA-DPO [Direct Preference Optimisation] saavutti täysin avoimista malleista parhaan tuloksen huomattavan marginaalin, ja jopa parhaat tulokset kaikista malleista leksikologiassa ja semantiikassa, mikä osoittaa, että se hallitsee portugalin kielen erityiset kielelliset taidot useissa kategorioissa".

Portugalin Amália LLM [Large Language Model] -mallia on jatkuvasti kehittänyt portugalilaisten yliopistojen yhteenliittymä, joka johtaa sen kehittämistä.

Teknisen raportin mukaan eurooppalaisen portugalin kielen perusteellisessa arvioinnissa Amália on selvästi parempi kuin muut avoimet mallit.

Portugalin kansallisissa kokeissa (pitkät portugalinkieliset kysymykset) Amália "saa parhaat pisteet kaikista täysin avoimen lähdekoodin malleista, sillä se osoittaa, että se ymmärtää hyvin monimutkaisia lauseita ja tuottaa johdonmukaista tekstiä, jossa on asianmukainen kielioppi ja rekisteri".

Tässä raportissa "esittelemme elinikäisen oppimisen mallin, jossa asetetaan etusijalle Euroopan portugalin kieli ja sen kulttuurinen konteksti", todetaan asiakirjassa, jossa todetaan, että Amália käyttää arquivo.pt-sivuston tietoja ja erityisesti Euroopan portugalia varten laadittuja jälkiharjoittelutietoja.

Asiakirjassa todetaan, että LLM:n koulutuksessa käytettiin kielen mallintamista ja opetuksen mukauttamisstrategioita.

"Perushaasteena tämän mallin kehittämisessä oli se, että ei ollut vertailukohtia, joiden avulla olisi voitu seurata mallin suorituskyvyn edistymistä", raportissa todetaan.

Tämän rajoituksen lieventämiseksi "käytimme kansallisia PT-PT-tutkintoja, loimme kielellisen vertailukohteen ja käänsimme useita tietokokonaisuuksia", joissa käytettiin erityistä korkealaatuista konekäännösmallia (MT).

"Arviointi osoitti, että Amália päihittää kaikki aiemmat avoimen lähdekoodin mallit PT-PT:ssä ja monet "avoimen painon" mallit [jotka jakavat painot (koulutetut parametrit)]", teknisen raportin lopussa todetaan.

"Kokeet kielen ymmärtämistä ja päättelyä koskevissa vertailuarvoissa osoittavat huippuluokan tai vertailukelpoisia tuloksia, kun taas kielen tuottamista koskevissa vertailuarvoissa malli on erinomainen tuotetun tekstin laadussa. Turvallisuuskokeet osoittavat myös, että malli vastaa tekniikan nykytasoa", raportissa todetaan.

Tulevaisuudessa "tutkimme muita vahvistusoppimismenetelmiä ja kehitämme uusia harjoitusdatan yhdistelmiä parantaaksemme PT-PT:n päättelykykyä".

Toisin sanoen käytännössä nämä tulokset osoittavat, että Amália on tulossa luotettavaksi avustajaksi eurooppalaisessa portugalissa.

Raportin ovat kirjoittaneet koordinaattorit João Magalhães (UNL) ja André Martins (IST) sekä noin 20 hengen ryhmä Lissabonin yliopistosta ja Universidade Nova de Lisboa -yliopistosta.

Amalia-mallia kehittää ryhmä, johon kuuluvat Universidade Nova de Lisboa, Instituto Superior Técnico, Universidade de Coimbra, Universidade do Porto, Universidade do Minho ja Fundação para a Ciência e Tecnologia.

Amália-tietokannan luomisprosessi alkoi keräämällä ja käsittelemällä laajamittaisesti eurooppalaista portugalin kielen tietoa, joka suodatettiin sen merkityksellisyyden ja kielellisen laadun perusteella. Tähän tarkoitukseen käytettiin Portugalin verkkoarkistoa. Malli esiharjoiteltiin tällä datalla, minkä jälkeen sitä hienosäädettiin muilla data-aineistoilla seuraamaan ohjeita, päättelemään ja ratkaisemaan ongelmia.

Mallien harjoittelussa käytettiin laajamittaista laskentainfrastruktuuria, jossa käytettiin kansallisia supertietokoneita (Mare Nostrum 5 ja Deucalion) ja eurooppalaisia supertietokoneita (EuroHPC-verkon kautta).