Latviešu satura kvalitātes sistēma: kā noturēt AI tekstu dabīgu
Daudzslāņu pārbaude, kas notur AI sagatavotu latviešu tekstu dabīgu — bez anglicismiem un mašīntulkojuma sajūtas.
Problēma: AI raksta gludi, bet ne vienmēr latviski
Mūsdienu valodas modeļi raksta tekoši. Bet latviešu valodā tekošums nav tas pats, kas dabiskums. Bieži teksts ir gramatiski pareizs, taču tajā jūtams angļu valodas ēna — anglicismi, kalki, teikumu uzbūve, kas izklausās tulkota. Lasītājam, īpaši uzņēmējam, šī sajūta ir tūlītēja: kaut kas nav īsti mūsu.
Tas ir reāls biznesa jautājums, ne tikai gaumes lieta. Publikācija, kas izklausās pēc mašīntulkojuma, raida kvalitātes signālu — un latviešu biznesa vidē tas signāls ir slikts.
Pieeja: nevis viena pārbaude, bet slāņi
Mēs negaidījām, ka viena pārbaude noķers visu. Tā vietā uzbūvējām vairākus slāņus, kur katrs atbild par savu problēmu veidu. Kopā tie veido sietu, caur kuru slikts teksts neiziet.
Pamatdoma ir tā, ka dažādas problēmas prasa dažādus rīkus. Aizliegtos vārdus var noķert ar sarakstu. Pareizrakstību — ar morfoloģijas pārbaudi. Bet dabiskumu un stilu spriež labāk pats valodas modelis, kuram dots skaidrs vērtēšanas uzdevums. Neviens slānis viens pats nav pietiekams; kopā tie ir.
Kā tas strādā
Teksts iziet cauri vairākiem slāņiem secīgi.
- Aizliegto vārdu pārbaude. Sistēma noķer terminus un anglicismus, kuriem ir skaidra latviešu alternatīva.
- Morfoloģijas pārbaude. Pareizrakstības slānis pārbauda vārdu formas pret latviešu valodas vārdnīcu.
- Stila un dabiskuma vērtējums. Valodas modelis novērtē, vai teksts skan kā dzimtā valoda, un norāda vājās vietas.
- Lēmums. Ja teksts neiztur kritisko slieksni, tas neiet tālāk — to pārraksta, ne publicē.
Šī kombinācija ļauj sistēmai būt gan precīzai sīkumos, gan jutīgai pret kopējo skanējumu.
Rezultāts un mācības
Galvenais ieguvums ir uzticamība. AI sagatavotu latviešu tekstu var laist publiskajā telpā, zinot, ka tas izgājis pārbaudi, nevis cerot, ka šoreiz sanāca labi.
Pirmā mācība: dabiskumu nevar formalizēt vienā noteikumā. Anglicismu sarakstu var paplašināt bezgalīgi, bet vienmēr atradīsies frāze, kas formāli ir tīra un tomēr skan svešādi. Tieši tāpēc cilvēka vai modeļa spriedums par kopējo skanējumu paliek daļa no sistēmas.
Otrā mācība: kvalitātes pārbaudei jābūt vārtiem, ne ieteikumam. Kamēr pārbaude tikai “iesaka”, to ignorē. Kad tā kļūst par nosacījumu publikācijai, kvalitāte tiešām notur līmeni.
Šis projekts ir pamatā citām mūsu sistēmām, kas raksta latviski — tas ir drošības tīkls, bez kura automātiska publicēšana būtu pārāk riskanta.