Kot je bilo že omenjeno v poglavju o virih, so bile elektronske verzije besedil obeh vzorcev pripravljene na zelo različne načine. Navadno se tudi niso strogo držale vrstičnega reda v tiskani različici dela, ampak so bile vrstice, predvsem kadar so bila dela pretipkana, dolge toliko, kolikor črk je imel urejevalnik v eni vrstici na zaslonu. Odstavki so se seveda ujemali z izvirnikom, meje strani pa so v veliki večini primerov manjkale. Pri odločanju, kako naj bo besedilo v obeh vzorcih interno shranjeno, je bilo upoštevanih več zahtev:
Prva zahteva, zahteva po berljivosti, je bila postavljena zaradi čim lažjega ročnega branja in preverjanja besedil. Dodatne informacije, vnesene v besedilo - meje odstavkov, povedi, oznake za premi govor in podobno, morajo biti sicer vidne, vendar ne tako vpadljive, da zaradi njih ni jasno videti besedila samega. Da bi bila zahteva izpolnjena, so bile v okviru možnosti, ki jih je avtorju nudila arhitektura urejevalnika EVA (16-bitni nabor znakov, lasten rastrski zapis njihovih slik), vse dodatne oznake kodirane kot posebni znaki.
Druge zahteve ni potrebno posebej utemeljevati. V zadnjih dveh letih so standardi (npr. Erjavec 1997) in priporočila (Baker idr. 1997) za shranjevanje besedil dobili že bolj konkretne in jasne oblike; strukturiranje besedil pri tej nalogi je bilo opravljeno do ravni povedi; posebej je označen premi govor. Dodatne oznake, vnešene v besedilo, je mogoče enostavno nadomestiti z oznakami po standardu SGML oz. XML.
Tretja zahteva, predvsem tako oblikovanje besedila, da ga za kasnejšo morebitno oblikoslovno označitev (angl. part-of-speech tagging) ne bi bilo treba preurejati, je pomenila, da morajo biti vrstice krajše, kot bi sicer lahko bile, saj so oblikoslovne oznake velikokrat daljše od besed in je potrebno za ujemanje začetkov besed in oznak pod njimi predvideti nekaj dodatnega prostora. Na sliki 1 je najprej naveden primer neoznačenega besedila, pisan z običajnimi zaslonskimi črkami urejevalnika, na sliki 2 pa isti odstavek, tokrat dopolnjen z oznakami za začetke in konce odstavkov in povedi ter z oblikoslovnimi oznakami besed v vsaki drugi vrstici:
Slika 1: Primer neoznačenega besedila (C. Kosmač, Kamen in njiva)
Slika 2: Označeno besedilo iz slike 1
Za besedami, katerih oblikoslovne oznake so daljše, je še ustrezno število mehkih presledkov.
V skladu s to zahtevo so bila besedila na novo formatirana v vrstice, ki niso bile daljše kot 57 znakov, kar je pomenilo vsaj 21 znakov dodatnega prostora v vsaki; vrstica urejevalnika EVA z običajnimi zaslonskimi črkami ima pri zaslonski ločljivosti 800 x 600 pik namreč 78 enako širokih znakov.
Četrta zahteva, naj bo besedilo shranjeno tako, da bo možna kar najenostavnejša pretvorba v format HTML, je zahtevala ureditev predvsem zaglavja pred vsakim besedilom in uvedbo nekaterih dodatnih oznak, npr. za dele besedila, ki morajo biti napisani z enako širokimi črkami (npr. ladijski vozni red v romanu J. Verna V osemdesetih dneh okoli sveta.) Odločiti se je bilo treba tudi, kako interno prikazati meje odstavkov. V knjigah so navadno pisani z zamikom približno 5 presledkov, na internetu pa določilo <p> izpusti eno prazno vrstico in so tako odstavki v knjižnih delih tam navadno upodobljeni brez zamika v desno, zato pa s prazno vrstico. Ker pregledovalnika na internetu običajno uporabljata proporcionalno široke črke, je presledek razmeroma ozek, ožji tudi od večine malih črk in pet presledkov na začetku odstavka ni prav opaznih. Zato je v obeh vzorcih na začetku odstavka zamik 8 presledkov, ki se pri pretvorbi v obliko HTML spremenijo v trde presledke in jih pregledovalnika ne združita. Določilo <p> je pri pretvorbi v obliko HTML izpuščeno, namesto </p> pa je uporabljen le prelom vrstice - <br>.
Zaradi zahtev iz prejšnjega razdelka in zaradi omejitve, da se v analizi upoštevajo le slovenski deli besedil (tuji citati pa ne), so bili uvedeni naslednji dodatni simboli iz tabele 5.
Tabela 5: Simboli za označevanje besedila
Gre za 22 simbolov, ki nastopajo v parih - prvi stoji pred označenim delom besedila, drugi pa za njim. V tabeli sta za slikama obeh znakov vedno navedeni še njuni kodi. Prvi par simbolov, s kodama 246 in 247, služi za označevanje tistega v besedilu, kar ni pravo besedilo. Primer so oznake vrstic (dodane v 16. stoletju) v poglavjih Nove zaveze:
Sledita simbola s kodama 248 in 249, ki označujeta začetek in konec citatov v tujem jeziku ali v zelo popačeni slovenščini:
Naslednji trije pari, s kodami 250 in 251, 252 in 253, 254 in 255, označujejo začetek in konec odstavka, premega govora in povedi (v primeru zgoraj):
Sledi par s kodama 256 in 257, ki označuje besedilo, ki naj ga pregledovalnik na internetu postavi na sredino:
Tudi par s kodama 258 in 259 je tu zaradi interneta - označuje del besedila, ki ga mora pregledovalnik pustiti pri miru, vrstice morajo ostati, kot so, brez reformatiranja in brez izpuščanja presledkov pred njimi:
Predzadnja para, s kodama 260 in 261 ter 262 in 263, označujeta citate in vzdevke (angl. citation in so called):
Na koncu seznama je najprej par s kodama 264 in 265:
ki je namenjen označevanju delov besedila, za katere označevalec še ne
ve, kam bi jih uvrstil - v končni verziji obeh vzorcev se ne pojavi več.
Zadnji par, s kodama 266 in 267, pa označuje dele besedila, ki naj jih
internetna pregledovalnika prikažeta s črkami enake širine:
Ker bi bilo opravljanje večjega števila postopkov pri urejanju, popravljanju in označevanju nad besedili, če bi bilo vsako v svoji datoteki, še veliko bolj zamudno, nepregledno in neobvladljivo, se je avtor odločil, da bo zložil vsa besedila vsakega vzorca skupaj. Nastali sta dve datoteki, po vseh postopkih je prva velika slabih 25 megabajtov, druga pa, z oblikoslovnimi oznakami vred malo manj kot 7. Prvo se ravno še da obdelovati na računalniku z 32 megabajti pomnilnika in operacijskim sistemom Windows 95.
Na strežniku interneta mora biti vsako besedilo seveda v svoji datoteki, in če naj bodo vse te datoteke (tipa HTML) strojno generirane iz ene same v formatu urejevalnika EVA, je treba pri pretvorbi od nekod črpati tiste parametre o vsakem besedilu, ki so značilni zanj. Avtor se je odločil, da bodo shranjeni v posebnem zaglavju pred vsakim besedilom, kadar je le-to oblikoslovno označeno, pa še v kratkem dodatku na koncu. Primer iz prvega vzorca je zaglavje romana Devet fantov in eno dekle:
Zaradi analogije z imeni oznak v jeziku SGML, ki so v angleškem jeziku, so tudi imena spremenljivk iz zaglavja v tem jeziku. Zaglavja pri drugem vzorcu so zelo podobna, le da imajo eno spremenljivko več:
Zaglavje je napisano v obliki komentarskih vrstic (to je vsaka vrstica v EVI, ki se začne z dvojnim karom, presledkom in poševnico - levo ali desno). Vsaka navadno vsebuje ime spremenljivke, njeno vrednost in oznako za konec (ime spremenljivke s poševnico spredaj).
Določilo hudo.482 v prejšnjem primeru pomeni številko strani v
izvirniku, določilo
Ukaz v urejevalniku EVA, ki iz datoteke posameznega vzorca naredi desetine datotek tipa HTML, potrebuje le še pomožno datoteko z osnutkom, parametre besedila in njegovo vsebino pa najde v osnovni datoteki. Datoteka z osnutkom, oropana nebistvenih dodatkov in malo bolj na gosto napisana, bi bila lahko videti takole:
Vsaka datoteka tipa HTML, ki bo nastala iz datoteke z vzorcem, bo imela na začetku prvi del datoteke z osnutkom do vrstice iz dvojnih karov, kjer pa bodo imena spremenljivk pri vsaki datoteki (označena so z znakom $) nadomeščena z vrednostmi iz zaglavij ustreznega besedila. Na mesto vrstice dvojnih karov (v EVI navadno označuje konec strani) pride besedilo sámo, seveda ustrezno prekodirano, na konec vsake datoteke pa drugi del osnutka, spet z ustreznimi vrednostmi spremenljivk.
Od tega, do katere globine je besedilo v elektronski obliki označeno, je v največji meri odvisno, kaj se bo dalo z njim napraviti. Leposlovna besedila v svetovnih jezikih, predvsem seveda v angleškem jeziku, ki so dostopna preko interneta so navadno shranjena kot običajne besedilne datoteke (z imenskim podaljškom TXT), ki jih lahko urejamo s poljubnim urejevalnikom ali pa so, navadno s programom, prevedena v obliko HTML. V prvem primeru so vrstice tudi v datoteki navadno zvesta podoba vrstic v tiskanem besedilu, z izpuščenimi mejami strani, v drugem pa internetna pregledovalnika sama skrbita za dolžine vrstic; označeni so le odstavki, med njimi pa prazne vrstice. Tuji besedilni korpusi, npr. British National Corpus (glej prilogo D na str. 201), so seveda označeni vsaj do ravni povedi, velikokrat, še posebej v zadnjem času, pa so označeni tudi oblikoslovno (angl. part-of-speech).
V primeru obeh vzorcev iz te naloge, zbranih predvsem za ugotavljanje entropije, se je bilo torej treba odločiti, kako daleč naj bosta označena, kaj naj bo osnovna enota besedila, ki še pride v poštev pri analizi. Za to, da morata biti oba vzorca označena, je poleg tujih zgledov seveda še več razlogov. Po eni strani vsako označevanje namreč prinese tudi tako ali drugačno preverjanje besedila; pri preverjanju pa vedno pride tudi do odpravljanja napak, ki umetno povečujejo entropijo. Po drugi strani pa je označevanje nujno za vsako resnejšo statistično analizo besedila in za uporabnost besedila še pri drugih, kasnejših znanstvenih raziskavah ali obdelavah. Kot osnovni gradnik se glede na vrsto besedila v obeh vzorcih kar sama vsiljuje poved kot najmanjša zaključena enota. Odstavek kot alternativna možnost je veliko ohlapnejši. Posebej v delih besedila, kjer je veliko dialogov s premim govorom, pa so meje odstavkov velikokrat tudi meje povedi.
Glede na razpoložljiv čas in možnosti se je avtor odločil, da bosta oba vzorca označena do ravni povedi in premega govora; kot je bilo že omenjeno v razdelku o dodatnih simbolih, so bili označeni tudi tisti deli besedila, ki ali niso slovenski (tuji citati, popačena slovenščina) ali pa sploh niso besedilo. Število posameznih gradnikov - odstavkov, povedi, premega govora in drugega - je navedeno v razdelku o črkah (str. 48).
Označitev odstavkov v besedilih načelno ni bila problematična. Besedila iz Hladnikove zbirke na internetu so že imela ustrezni oznaki za začetek in konec: <p> in </p>, pri drugih besedilih pa se je dalo orientirati ali s pomočjo praznih vrstic ali pa po zamiku na začetku prve vrstice odstavka. Označitev in reformatiranje odstavkov (na 57 znakov dolge vrstice) sta bila opravljena po predobdelavi besedil z ustreznimi makroprogrami urejevalnika EVA, podobnimi skriptom v jeziku PERL (glej prilogo D na str. 201), ki se navadno uporabljajo v ta namen v drugih okoljih. Pri obeh vzorcih je prišlo do napačnih označitev predvsem pri vrinjenih delih besedila, kot so npr. citirani verzi ali pesmim podoben govor (npr. v Novi zavezi). Nekaj se jih je dalo odkriti po mali začetnici na začetku takega vložka, nekaj pa le z ročnim pregledom sumljivih mest.
Pri označitvi povedi je treba upoštevati bistveno več elementov kot pri odstavkih. Štiri besedila - Platonova Država, Orwellov 1984 ter Kosmačeva Pomladni dan in Prazna ptičnica - so imela konce povedi (znak s kodo 255) označene že prej (Jakopin in Bizjak 1997); tu je bilo treba dodati le oznake začetkov povedi na ustrezna mesta pred prvo naslednjo veliko začetnico. Pri drugih besedilih so bila kot konec povedi upoštevana tale štiri ločila: pika (.), klicaj (!), vprašaj (?) in dvopičje (:), če jim je sledila beseda, pisana z veliko začetnico. Pri pikah so bile upoštevane te kratice:
Tabela 6: Kratice, upoštevane pri strojnem prelomu na povedi
angl. | dol. | gen. | izr. | oz. | st. |
arch. | dr. | gor. | l.r. | Ph. D. | str. |
c. k. | etc. | hon. | mag. | pl. | Sv. |
c. kr. | fr. | ilustr. | Mr. | plem. | sv. |
c.kr. | g. | ing. | Mrs. | prof. | št. |
dipl. | ga. | itd. | npr. | sl. | t.i. |
doc. | gdč. | itn. | oec. | St. | t.j. |
Beseda z veliko začetnico za kratico namreč ne pomeni vedno tudi začetka nove povedi. Nekaj kratic je bilo avtorju znanih že od prej, druge pa je poiskal med najpogostejšimi besedami, ki jim sledi pika. Pojavitve števil, za katerimi je pika, so bile pregledane ročno. Upoštevana je bila tudi omejitev, da gnezdenje povedi čez meje odstavkov ni dovoljeno - da se mora poved obvezno končati s koncem odstavka. Omejitev se je izkazala za nestvarno v približno desetih primerih. Večdelne kratice, npr. c. kr., je avtor povezal v celoto tako, da je pri njih povsod nadomestil navaden presledek s trdim presledkom (koda 185), tako da so pri prelomu besedila na besede ostale skupaj kot ena enota. Skupaj je povezal tudi kratice in besede za njimi, kadar tvorijo pojem, ki ga poznamo kot celoto, predvsem pri večbesednih lastnih imenih, npr. Sv. Lucija ali Hong Kong.
Označitev premega govora je bila med zamudnejšimi opravili pri pripravi besedil. V manjšem številu primerov je bil premi govor označen z znaki, ki jih najdemo v knjigah: k j Ś š § ş Ş Ť Ź S. Pri optičnem prepoznavanju znakov so bila nekatera izmed teh ločil napačno interpretirana kot vejice, >> in <<, pike in podobno. Avtor je programsko s posebnim znakom, dvojnim vprašajem, označil mesta v besedilu, kjer je za posamezne pare prihajalo do napačnega gnezdenja, in tista mesta potem ročno popravil.
V večjem delu je bil začetek in konec premega govora označen z istim znakom, dvojnim narekovajem: " in tu je, spet zaradi pretežno optičnega vnosa, prihajalo do zelo velikega števila neujemanj pri gnezdenju - reda velikosti 1.500 napak za oba vzorca. Napako (npr. manjkajoči zaključek premega govora) je program žal lahko odkril šele pri naslednjem premem govoru in je bilo treba pri ročnem popravljanju iskati včasih daleč nazaj.
V marsikaterih tiskih pa je bil začetek premega govora označen s pomišljajem (-) na začetku odstavka, konec je pa ali bil ali pa manjkal, kot v spodnjem primeru iz Pomladnega dneva:
Postopek je bilo v tem primeru mogoče delno avtomatizirati s kontrolo gnezdenja in ročnimi popravki v drugi fazi.
Ker je predmet proučevanja naloge le slovenski del leposlovnih besedil, je bilo treba označiti vse dele, ki niso bili v slovenskem jeziku. Pri drugem vzorcu, ki je bil večkrat cel ročno pregledan, so bili ti deli besedila označeni ročno, v prvem vzorcu pa v več fazah. Najprej je avtor med zelo pogostimi besednimi oblikami poiskal tiste, ki jih v slovenskem jeziku sploh ni ali so redke, v drugih jezikih, predvsem angleškem, nemškem, italijanskem, francoskem, srbskem in hrvaškem ter latinskem (veliko romanov je zgodovinskih), pa so zelo pogoste. Primeri so: an, and, are, as, das, de, der, di, die, du, e, est, et, for, für, I, is, ist, la, non, of, quod, su, sunt, the, u, und in you. V veliki večini primerov je bila njihova okolica citat v tujem jeziku in potem ročno označena. Delo s sorazmerno največ tujimi citati je Thabiti Kumi Ivana Preglja - dolgo je 9.362 besed; v njem je kar 93 latinskih citatov s 521 besedami ali skoraj 6 % celote. Nekaj preostalih citatov v drugih jezikih je avtor odkril pri pregledovanju besedil zaradi kakih razlogov, ki niso bili povezani z iskanjem citatov, še največ pa pri popravljanju napačnih besed.
Citati v slovenskem jeziku in vzdevki so bili v knjižnih verzijah pri delih, kjer je bil premi govor označen s simboloma k in j, navadno označeni z drugačnimi navednicami: Ś š § ş Ş Ť Ź S. Kadar je bil označen z dvojnim narekovajem (") spredaj in zadaj, so bili citati in vzdevki običajno v enojnih navednicah ('). Odločitev, kdaj je del besedila vzdevek in ne citat, ni bila vedno povsem zanesljiva; strogega kriterija, kdaj je nekaj res vzdevek (angl. so-called) in ne citat (angl. citation), namreč ni. Primer:
Poleg citatov, slovenskih in tujih, ter vzdevkov so bili posebej označeni še deli besedila, ki jih ni mogoče šteti za besedilo, so pa vseeno v njem. Sem sodijo predvsem številke opomb in podobne oznake, npr. številke vrstic v poglavjih Nove zaveze. Slednjih ni bilo težko strojno označiti, ker so imeli spredaj zvezdico. Primer:
Pri sestavljanju vsake besedilne zbirke se pojavi tudi vprašanje napak. Napak v besedilih je več vrst, začenši z avtorjevimi (pri znanih imenih so sicer redke, so pa), do tiskarskih, tistih, ki nastanejo pri prenosu dela v elektronsko obliko, s tipkanjem ali optičnim prepoznavanjem (angl. OCR - Optical Character Recognition) in do tistih, ki so nastale pri prenosu iz enega računalniškega formata v drug (npr. deljaji na koncu vrstic, ki se pri reformatiranju ohranijo sredi vrstic, namesto da bi izginili).
Stališča do napak v besedilnih zbirkah so različna - poleg klasičnih nazorov, po katerih se je treba proti napakam boriti neusmiljeno in do zadnjega diha, do popolnoma nasprotnih, npr.: "Errors are integral part of text. If you correct them, you lose information" (J. M. Sinclair v predavanju na delavnici: TELRI Birmingham Workshop oktobra 1995 - Jakopin 1996a). Pri slednjem gre za odgovor na vprašanje, zakaj je v besedilnem korpusu Bank of English - zdaj ima že 329.000.000 besed - toliko napak (najpogostejša, hte, ima frekvenco pribl. 4.000). Tudi druge velike besedilne zbirke so precej nasmetene, kar gre po mnenju avtorja pripisati predvsem dejstvu, da so bili viri za njihovo postavitev zelo omejeni, pritisk in želje pa velike, tako da je v dilemi: ali količina ali kakovost zmagala prva. Tako je zelo zgovorno dejstvo, da avtorji doslej največje raziskave o entropiji angleškega jezika (Brown idr. 1992a), ki je zajela 583 milijonov besed, v svojem prispevku o napakah niso napisali niti besedice. Pri manj pomembnih besedilih, raznih zapisnikih in podobnem, napake niti niso tako moteče, v leposlovnih besedilih, ki so namenjena branju, tudi v elektronski obliki, pa zelo kvarijo celo podobo. V pripravo leposlovnih del je vloženega vedno zelo veliko truda - več korektur celega besedila že v rokopisu, potem še vsaj dve korekturi iz tiskarne - kar vse izniči površno pripravljena elektronska izdaja. Upoštevati pa je treba konec koncev tudi dejstvo, da napake umetno povečujejo entropije in zmanjšujejo težo vsake statistične raziskave.
Tako se je avtor odločil, da bo besedila kolikor se le da očistil, še posebej drugi vzorec. Pri tem je seveda upošteval vire, ki so mu bili na razpolago, in omejen čas raziskave.
Besedila, predvsem iz Hladnikove zbirke na internetu in večji del drugega vzorca, so bila v elektronsko obliko prenesena pretežno s pomočjo optičnega prepoznavanja (OCR). Avtorji prenosa so v uvodu vedno poudarili, da so besedilo po prepoznavanju še natančno prebrali in popravili, da pa ne odgovarjajo za morebitne napake, ki bi še ostale. Žal jim je za branje in popravljanje zmanjkalo časa, saj je v skoraj vseh delih napak kar mrgolelo. Poleg napačnih malih črk v besedah, ki se jih ne da odkriti s kakimi preprostimi prijemi, je bilo precej napak še pri ločilih - presledki pred vejicami in pikami, narazen pisane besede, narobe interpretirane navednice in napačne velike začetnice ter števila (npr. 198O, kjer je na zadnjem mestu velika črka O). Te skupine napak je bilo v veliki meri mogoče odkriti programsko, z iskanjem velikih začetnic, obdanih z malimi, ali kombinacij črka-števka in števka-črka. Najpogostejša napaka te vrste je bila beseda ljudje, napačno pisana kot Ijudje. Njena frekvenca je znašala približno 50.
Večina napak v besedilih je bila v obliki narobe napisanih besed. Predvsem pogoste besede so za seboj potegnile cele grozde napačnih satelitov. Primeri so besede samostan, tudi in zadovoljen:
Tabela 7: Napake, nastale iz besed samostan, tudi in zadovoljen
samosta | tud | zadooljen |
samostamu | tudij | zadovljen |
samostanju | tudk | zadovljno |
samotan | tui | zadovojen |
samotanom | tuid |
Dostikrat se je tudi zgodilo, da so se napake v abecednem seznamu vseh besednih oblik zbrale okoli nenavadne ali nemogoče začetne kombinacije črk (v oklepajih so navedene ali pravilne besedne oblike ali pa kontekst napake):
Tabela 8: Napake na ps, pt in vo
psoebno | (posebno) | voril | (... je go voril ...) |
psolovnem | (poslovnem) | vorili | (... nista go vorili radi o ...) |
psomladi | (spomladi) | voriva | (Pa go voriva pametno!) |
psotala | (postala) | vorčekrvnega | (... njegovega vorčekrvnega sina ...) |
psotavil | (postavil) | vosjki | (... vojski ...) |
psoznamo | (spoznamo) | vote | (... sta si ogledala ex vote.) |
ptolej | (potlej) | vouz | (... Comment allez vouz?) |
ptomci | (potomci) | ||
ptreboval | (potreboval) | ||
ptrljage | (prtljage) |
Da bi bilo mogoče preveriti obsežna seznama besednih oblik (175.000 različnih besednih oblik v prvem vzorcu in 37.000 v drugem) je bilo treba najti kar največjo zbirko vseh možnih slovenskih besednih oblik. Avtor je imel na razpolago Slovar slovenskega knjižnega jezika (SSKJ 1994); sodeloval je pri prenosu v elektronsko obliko kot avtor programa za urejanje in optično prepoznavanje. Slovar obsega 93.151 gesel, med katerimi prevladujejo samostalniki, pridevniki in glagoli. Te tri besedne vrste dajo iz osnovnih besednih oblik (lem) tudi največ izpeljank.
Tabela 9: Število besed in besednih oblik v SSKJ po vrstah
paradigem | osnovnih besednih oblik | izpeljanih oblik | različ. izpelj. oblik | |
samostalnik | 59 | 51.790 | 941.788 | 442.451 |
pridevnik | 18 | 21.674 | 1.300.644 | 265.840 |
glagol | 59 | 18.124 | 1.245.244 | 377.837 |
Skupaj | 136 | 91.588 | 3.487.676 | 1.075.779 |
Pri oblikovanju paradigem in pri klasifikaciji besednih lem naglasi niso bili upoštevani. Z njimi bi bilo število paradigem (in število besednih izpeljank) še nekoliko večje. Razlog je bil predvsem v tem, da so v pisanih besedilih, kot bo videti tudi v razdelku o statistiki črk, naglasi redki.
Pri samostalnikih je bilo 24 paradigem za moški spol (drugačen četrti sklon pri samostalnikih za živa bitja število precej poveča), 21 za ženski in 14 za srednji, število lem pa 22.459 za moški, 21.156 za ženski in 8.175 za srednji. Pri gradnji paradigem je bil upoštevan predvsem slovnični del uvoda v SSKJ (SSKJ 1994). Primer samostalniških paradigem je naveden v tabeli 10.
Tabela 10: Tri samostalniške paradigme ženskega spola
Paradigmo ž13 ima npr. samostalnik podlaket, ž14 cerkev, ž15 pa breskev. Tabela paradigem je urejena kot podatkovna zbirka, kjer ima vsak zapis 4 polja. V prvem je ime oz. šifra paradigme, sledijo pa 3 polja z definicijami za vseh šest sklonov ednine, množine in dvojine. S pomišljajem je navedena uporaba leme, drugače pa le dodatki na rodilniško osnovo; alternativne možnosti so ločene z znakom &.
Prva vrstica za lemo podlaket, ki ima rodilniško osnovo podlakt, konkretno pomeni, da nastane prvi sklon ednine kar z uporabo leme (-), drugi sklon z dodatkom -i (i) na rodilniško osnovo (podlakti), tretji je enak drugemu, četrti prvemu, peti spet drugemu, za šestega pa je treba rodilniški osnovi dodati -jo (s podlaktjo). Množina ni problematična, pri dvojini pa sta posebnost le dajalnik in orodnik, pri katerih sta dve možnosti - obrazili -ma in -ima na rodilniško osnovo (podlaktma in podlaktima). Izsek iz slovarja lem s podatki o paradigmah in rodilniški osnovi je naveden v tabeli 11.
Tabela 11: 21 samostalniških lem s paradigmo in rodilniško osnovo
Tudi ta zbirka je pripravljena kot podatkovna zbirka, tokrat s tremi polji. V prvem je šifra paradigme, v drugem navodilo za tvorjenje rodilniške osnove, v tretjem pa lema. Navodilo je lahko prazno, kar pomeni, da je rodilniška osnova kar enaka lemi, lahko pa ima najprej n simbolov za odstranitev n končnih črk leme, ki jim sledi še obrazilo, ki ga je treba natakniti na tako dobljen krn. Pri lemi breskev je npr. treba odstraniti zadnji dve črki in dodati v, da dobimo rodilniško osnovo breskv. V tabeli 12 so navedene strojno dobljene izpeljanke iz štirih lem: žolčnost, podlaket, cerkev in breskev. Vsaki izpeljanki sledi še navodilo, kako iz nje dobiti lemo, poleg tega pa še oblikoslovna oznaka. Ta je pri samostalnikih štirimestna - najprej velika črka S (za samostalnik), potem spol ( m, ž ali s), število ( e, p in d) ter sklon (1-6). Primer je breskvami. Prvi del deskriptorja (do velike črke) - 4ev zahteva, da je treba izpeljanki odvzeti na koncu štiri črke (bresk) in dodati ev, da dobimo lemo - breskev. Drugi del deskriptorja pove, da gre za samostalnik ženskega spola v ednini in orodniku. Veliko izpeljank je tudi enakih - npr. za rodilnik in mestnik ednine, zato je število različnih izpeljanih besednih oblik pri samostalnikih za več kot pol manjše od števila vseh izpeljank (442.451 proti 941.788).
Tabela 12: Programsko tvorjene izpeljanke 4 samostalniških lem ženskega spola
žolčnost | Sže1 | podlaket | Sže1 | cerkev | Sže1 | cerkvah | 3evSžd5 |
žolčnosti | 1Sže2 | podlakti | 2etSže2 | cerkve | 2evSže2 | cerkvama | 4evSžd6 |
žolčnosti | 1Sže3 | podlakti | 2etSže3 | cerkvi | 2evSže3 | breskev | Sže1 |
žolčnost | Sže4 | podlaket | Sže4 | cerkev | Sže4 | breskve | 2evSže2 |
žolčnosti | 1Sže5 | podlakti | 2etSže5 | cerkvi | 2evSže5 | breskvi | 2evSže3 |
žolčnostjo | 2Sže6 | podlaktjo | 3etSže6 | cerkvijo | 4evSže6 | breskev | Sže4 |
žolčnosti | 1Sžp1 | podlakti | 2etSžp1 | cerkve | 2evSžp1 | breskvi | 2evSže5 |
žolčnosti | 1Sžp2 | podlakti | 2etSžp2 | cerkva | 2evSžp2 | breskvijo | 4evSže6 |
žolčnostim | 2Sžp3 | podlaktim | 3etSžp3 | cerkev | Sžp2 | breskve | 2evSžp1 |
žolčnosti | 1Sžp4 | podlakti | 2etSžp4 | cerkvam | 3evSžp3 | breskev | Sžp2 |
žolčnostih | 2Sžp5 | podlaktih | 3etSžp5 | cerkve | 2evSžp4 | breskvam | 3evSžp3 |
žolčnostmi | 2Sžp6 | podlaktmi | 3etSžp6 | cerkvah | 3evSžp5 | breskve | 2evSžp4 |
žolčnosti | 1Sžd1 | podlakti | 2etSžd1 | cerkvami | 4evSžp6 | breskvah | 3evSžp5 |
žolčnosti | 1Sžd2 | podlakti | 2etSžd2 | cerkvi | 2evSžd1 | breskvami | 4evSžp6 |
žolčnostma | 2Sžd3 | podlaktma | 3etSžd3 | cerkve | 2evSžd1 | breskvi | 2evSžd1 |
žolčnostima | 3Sžd3 | podlaktima | 4etSžd3 | cerkva | 2evSžd2 | breskev | Sžd2 |
žolčnosti | 1Sžd4 | podlakti | 2etSžd4 | cerkev | Sžd2 | breskvama | 4evSžd3 |
žolčnostih | 2Sžd5 | podlaktih | 3etSžd5 | cerkvama | 4evSžd3 | breskvi | 2evSžd4 |
žolčnostma | 2Sžd6 | podlaktma | 3etSžd6 | cerkvi | 2evSžd4 | breskvah | 3evSžd5 |
žolčnostima | 3Sžd6 | podlaktima | 4etSžd6 | cerkve | 2evSžd4 | breskvama | 4evSžd6 |
Pridevniki so besedna vrsta z največjim številom pregibnih oblik - iz 21.674 lem je nastalo 1.300.644 izpeljank (265.840 različnih); vseh pridevniških paradigem je bilo 18. Velikemu številu oblik botrujejo predvsem trije spoli pri vsakem pridevniku in pri večini še stopnjevanje. Primer pridevniške paradigme je v tabeli 13.
Tabela 13: Pridevniška paradigma s primerom
Paradigma je precej obsežnejša od samostalniške, opis pridevnika (v našem primeru hud) pa kratek. Najprej je šifra njegove paradigme, sledi pridevnik sam, v moškem spolu, za njim navodilo za oblikovanje osnovne izpeljanke ženskega spola (in tvorjenje rodilniške osnove obenem), v četrtem polju za srednji spol, v petem pa za tvorjenje primernika. Pri paradigmi je v prvi vrstici njena šifra, v drugi navodilo za izpeljanke ednine, množine in dvojine moškega spola za vseh 6 sklonov (vmes so vejice), v tretji podobno za ženski spol in v četrti za srednji. Prazno navodilo (za prvi sklon in prvo varianto četrtega) pove, da je treba vzeti kar pridevnik sam, pomen dodatnih simbolov pa je razložen v tabeli 14:
Tabela 14: Simboli v pridevniških paradigmah
- | rodilniška osnova |
& | sledi še ena varianta za isti sklon |
< | osnovna oblika za ženski spol |
> | osnovna oblika za srednji spol |
= | primerniška osnova (primernik moškega spola brez i na koncu) |
+ | primerniška osnova brez končnega š |
ł | oblike ni (npr. pri paradigmah, kjer ni določne oblike) |
V opisu podatkov o paradigmi sledijo v 5., 6. in 7. vrstici navodila za vse tri spole primerniških oblik, v 8., 9. in 10. pa še za presežnik. Vrstice od 5. do 10. nastopajo samo v tistih paradigmah, kjer obstaja stopnjevanje pridevnikov. Sledi prazna vrstica, za njo pa opis določne oblike, pod njim osnovne oblike prislova ter še, če sta, obeh višjih prislovnih stopenj.
V tabeli 15 na naslednji strani je naveden primer strojnega tvorjenja izpeljank za pridevnik hud. Iz leme je nastalo 172 izpeljanih besednih oblik, od tega 36 različnih. Na levi strani vsakega stolpca so, podobno kot pri samostalnikih, navedene izpeljanke, na desni pa deskriptor, ki opisuje pot do leme in navaja oblikoslovno oznako za to izpeljanko. Oblikoslovne oznake so spet štiri, pet ali šestmestne - najprej P za vrsto (pridevnik), potem koda za spol ( m, ž, s), število ( e, p, d ) in sklon (1-6), na koncu pa, po potrebi, še i za določno obliko, j za primernik in jj za presežnik (Jakopin in Bizjak 1997). Tudi opis leme je tokrat včasih razširjen - pri presežniških oblikah je najprej navedeno, kaj naj se zgodi s koncem izpeljanke, da bi dobili lemo, potem, za dvopičjem, pa še, kaj je treba napraviti na začetku izpeljanke. Primer je npr. najhujšima 5d:3Pžd6jj - na koncu izpeljanke je treba najprej odrezati 5 črk (5), dodati d, potem pa še spredaj odrezati tri črke (3, naj). Pžd6jj pove, da gre za pridevnik ženskega spola v dvojini, orodniku (6) in v presežniku (jj).
Tabela 15: Izpeljanke iz pridevnika hud
hud | Pme1 | huda | 1Psp1 | hujši | 3dPžd1j | najhujša | 3d:3Pže1jj |
hudega | 3Pme2 | hudih | 2Psp2 | hujših | 4dPžd2j | najhujše | 3d:3Pže2jj |
hudemu | 3Pme3 | hudim | 2Psp3 | hujšima | 5dPžd3j | najhujši | 3d:3Pže3jj |
hud | Pme4 | huda | 1Psp4 | hujši | 3dPžd4j | najhujšo | 3d:3Pže4jj |
hudega | 3Pme4 | hudih | 2Psp5 | hujših | 4dPžd5j | najhujši | 3d:3Pže5jj |
hudem | 2Pme5 | hudimi | 3Psp6 | hujšima | 5dPžd6j | najhujšo | 3d:3Pže6jj |
hudim | 2Pme6 | hudi | 1Psd1 | hujše | 3dPse1j | najhujše | 3d:3Pžp1jj |
hudi | 1Pmp1 | hudih | 2Psd2 | hujšega | 5dPse2j | najhujših | 4d:3Pžp2jj |
hudih | 2Pmp2 | hudima | 3Psd3 | hujšemu | 5dPse3j | najhujšim | 4d:3Pžp3jj |
hudim | 2Pmp3 | hudi | 1Psd4 | hujše | 3dPse4j | najhujše | 3d:3Pžp4jj |
hude | 1Pmp4 | hudih | 2Psd5 | hujšem | 4dPse5j | najhujših | 4d:3Pžp5jj |
hudih | 2Pmp5 | hudima | 3Psd6 | hujšim | 4dPse6j | najhujšimi | 5d:3Pžp6jj |
hudimi | 3Pmp6 | hujši | 3dPme1j | hujša | 3dPsp1j | najhujši | 3d:3Pžd1jj |
huda | 1Pmd1 | hujšega | 5dPme2j | hujših | 4dPsp2j | najhujših | 4d:3Pžd2jj |
hudih | 2Pmd2 | hujšemu | 5dPme3j | hujšim | 4dPsp3j | najhujšima | 5d:3Pžd3jj |
hudima | 3Pmd3 | hujši | 3dPme4j | hujša | 3dPsp4j | najhujši | 3d:3Pžd4jj |
huda | 1Pmd4 | hujšega | 5dPme4j | hujših | 4dPsp5j | najhujših | 4d:3Pžd5jj |
hudih | 2Pmd5 | hujšem | 4dPme5j | hujšimi | 5dPsp6j | najhujšima | 5d:3Pžd6jj |
hudima | 3Pmd6 | hujšim | 4dPme6j | hujši | 3dPsd1j | najhujše | 3d:3Pse1jj |
huda | 1Pže1 | hujši | 3dPmp1j | hujših | 4dPsd2j | najhujšega | 5d:3Pse2jj |
hude | 1Pže2 | hujših | 4dPmp2j | hujšima | 5dPsd3j | najhujšemu | 5d:3Pse3jj |
hudi | 1Pže3 | hujšim | 4dPmp3j | hujši | 3dPsd4j | najhujše | 3d:3Pse4jj |
hudo | 1Pže4 | hujše | 3dPmp4j | hujših | 4dPsd5j | najhujšem | 4d:3Pse5jj |
hudi | 1Pže5 | hujših | 4dPmp5j | hujšima | 5dPsd6j | najhujšim | 4d:3Pse6jj |
hudo | 1Pže6 | hujšimi | 5dPmp6j | najhujši | 3d:3Pme1jj | najhujša | 3d:3Psp1jj |
hude | 1Pžp1 | hujša | 3dPmd1j | najhujšega | 5d:3Pme2jj | najhujših | 4d:3Psp2jj |
hudih | 2Pžp2 | hujših | 4dPmd2j | najhujšemu | 5d:3Pme3jj | najhujšim | 4d:3Psp3jj |
hudim | 2Pžp3 | hujšima | 5dPmd3j | najhujši | 3d:3Pme4jj | najhujša | 3d:3Psp4jj |
hude | 1Pžp4 | hujša | 3dPmd4j | najhujšega | 5d:3Pme4jj | najhujših | 4d:3Psp5jj |
hudih | 2Pžp5 | hujših | 4dPmd5j | najhujšem | 4d:3Pme5jj | najhujšimi | 5d:3Psp6jj |
hudimi | 3Pžp6 | hujšima | 5dPmd6j | najhujšim | 4d:3Pme6jj | najhujši | 3d:3Psd1jj |
hudi | 1Pžd1 | hujša | 3dPže1j | najhujši | 3d:3Pmp1jj | najhujših | 4d:3Psd2jj |
hudih | 2Pžd2 | hujše | 3dPže2j | najhujših | 4d:3Pmp2jj | najhujšima | 5d:3Psd3jj |
hudima | 3Pžd3 | hujši | 3dPže3j | najhujšim | 4d:3Pmp3jj | najhujši | 3d:3Psd4jj |
hudi | 1Pžd4 | hujšo | 3dPže4j | najhujše | 3d:3Pmp4jj | najhujših | 4d:3Psd5jj |
hudih | 2Pžd5 | hujši | 3dPže5j | najhujših | 4d:3Pmp5jj | najhujšima | 5d:3Psd6jj |
hudima | 3Pžd6 | hujšo | 3dPže6j | najhujšimi | 5d:3Pmp6jj | hudi | 1Pme1i |
hudo | 1Pse1 | hujše | 3dPžp1j | najhujša | 3d:3Pmd1jj | hudi | 1Pme4i |
hudega | 3Pse2 | hujših | 4dPžp2j | najhujših | 4d:3Pmd2jj | hudo | 1A |
hudemu | 3Pse3 | hujšim | 4dPžp3j | najhujšima | 5d:3Pmd3jj | huje | 2doAj |
hudo | 1Pse4 | hujše | 3dPžp4j | najhujša | 3d:3Pmd4jj | hujše | 3doAj |
hudem | 2Pse5 | hujših | 4dPžp5j | najhujših | 4d:3Pmd5jj | najhuje | 2do:3Ajj |
hudim | 2Pse6 | hujšimi | 5dPžp6j | najhujšima | 5d:3Pmd6jj | najhujše | 3do:3Ajj |
Pregibanje pri glagolih je še bolj zapleteno kot pri pridevnikih. Poleg običajnih glagolskih oblik, ki nastopajo pri vseh glagolih, najdemo pri mnogih glagolih še deležja, ki se pregibajo po predpisih dveh pridevniških paradigem (8. in 9.). Primer je glagol videti v tabeli 16.
Tabela 16: Glagolska paradigma s primerom
Primer je glagol videti v tabeli 16. Poleg glagolske paradigme (7) sta navedeni še obe pridevniški paradigmi, ki lahko nastopata - 8. za deležnik na -n in 9. za deležnik na -č. Opis konkretnega glagola ima 5 podatkovnih polj: v prvem je kot po navadi šifra ustrezne paradigme, v drugem glagol sam, v tretjem navodilo za tvorjenje sedanjiške osnove (v tem primeru je treba odvzeti na koncu tri črke in za prvo osebo ednine dodati im), v četrtem informacija, ali je glagol lahko tudi prehoden ( se), v petem pa morebitni podatki o dodatnih oblikah, ki jih je mogoče izpeljati iz glagola. V tem primeru je to deležje videvši in dva deležnika, na -č in na -n, ki imata še podatke o ženskem in srednjem spolu; stopnjevanje pri glagolskih izpeljankah ne pride v poštev. Opis paradigme je šestvrstičen: v prvi vrstici je kot po navadi šifra paradigme, v drugi navodilo za tvorjenje nedoločniške osnove, v tretji navodila za oblike vseh treh števil in oseb (ednina, množina, dvojina, prva, druga in tretja oseba) sedanjega časa, v četrti za velelnike vseh treh števil (v ednini za drugo osebo, v množini in dvojini za drugo in tretjo), v peti za deležnike na -l, za vsa tri števila in za vse tri spole, v šesti vrstici pa za namenilnik. Pomišljaj (-) v opisu označuje sedanjiško osnovo, ki jo dobimo v tretjem polju pri lemi, vijuga (~) pa nedoločniško osnovo, ki jo dobimo s pomočjo leme in navodila v drugi vrstici paradigme.
Paradigmi p8 in p9 sta taki kot pri pridevnikih in tudi zelo podobni - razlikujeta se le v obliki prislova na koncu. V tabeli 17 so prikazane vse izpeljanke glagola iz prejšnjega primera (videti). Izpeljank je 252, od tega 40 različnih. Osebe v oblikoslovnih oznakah so označene z a (prva), b (druga) in c (tretja); oznake so podrobneje razložene v članku (Jakopin in Bizjak 1997).
Tabela 17: Izpeljanke iz glagola videti s podatki o lemi in oblikoslovnimi oznakami
videti | GNE | videče | 1GČžp1 | videča | 1PČže1 | videna | 1GNmd1 | videni | 1PNmp1 |
vidim | 2etiGae | videčih | 2GČžp2 | videče | 1PČže2 | videnih | 2GNmd2 | videnih | 2PNmp2 |
vidiš | 2etiGbe | videčim | 2GČžp3 | videči | 1PČže3 | videnima | 3GNmd3 | videnim | 2PNmp3 |
vidi | 1etiGce | videče | 1GČžp4 | videčo | 1PČže4 | videna | 1GNmd4 | videne | 1PNmp4 |
vidimo | 3etiGap | videčih | 2GČžp5 | videči | 1PČže5 | videnih | 2GNmd5 | videnih | 2PNmp5 |
vidite | 3etiGbp | videčimi | 3GČžp6 | videčo | 1PČže6 | videnima | 3GNmd6 | videnimi | 3PNmp6 |
vidijo | 3etiGcp | videči | 1GČžd1 | videče | 1PČžp1 | videna | 1GNže1 | videna | 1PNmd1 |
vidiva | 3etiGad | videčih | 2GČžd2 | videčih | 2PČžp2 | videne | 1GNže2 | videnih | 2PNmd2 |
vidita | 3etiGbd | videčima | 3GČžd3 | videčim | 2PČžp3 | videni | 1GNže3 | videnima | 3PNmd3 |
vidita | 3etiGcd | videči | 1GČžd4 | videče | 1PČžp4 | videno | 1GNže4 | videna | 1PNmd4 |
vidi | 1etiGVbe | videčih | 2GČžd5 | videčih | 2PČžp5 | videni | 1GNže5 | videnih | 2PNmd5 |
vidimo | 3etiGVap | videčima | 3GČžd6 | videčimi | 3PČžp6 | videno | 1GNže6 | videnima | 3PNmd6 |
vidite | 3etiGVbp | videče | 1GČse1 | videči | 1PČžd1 | videne | 1GNžp1 | videna | 1PNže1 |
vidiva | 3etiGVad | videčega | 3GČse2 | videčih | 2PČžd2 | videnih | 2GNžp2 | videne | 1PNže2 |
vidita | 3etiGVbd | videčemu | 3GČse3 | videčima | 3PČžd3 | videnim | 2GNžp3 | videni | 1PNže3 |
videl | 1tiGLme | videče | 1GČse4 | videči | 1PČžd4 | videne | 1GNžp4 | videno | 1PNže4 |
videla | 2tiGLže | videčem | 2GČse5 | videčih | 2PČžd5 | videnih | 2GNžp5 | videni | 1PNže5 |
videlo | 2tiGLse | videčim | 2GČse6 | videčima | 3PČžd6 | videnimi | 3GNžp6 | videno | 1PNže6 |
videli | 2tiGLmp | videča | 1GČsp1 | videče | 1PČse1 | videni | 1GNžd1 | videne | 1PNžp1 |
videle | 2tiGLžp | videčih | 2GČsp2 | videčega | 3PČse2 | videnih | 2GNžd2 | videnih | 2PNžp2 |
videla | 2tiGLsp | videčim | 2GČsp3 | videčemu | 3PČse3 | videnima | 3GNžd3 | videnim | 2PNžp3 |
videla | 2tiGLmd | videča | 1GČsp4 | videče | 1PČse4 | videni | 1GNžd4 | videne | 1PNžp4 |
videli | 2tiGLžd | videčih | 2GČsp5 | videčem | 2PČse5 | videnih | 2GNžd5 | videnih | 2PNžp5 |
videli | 2tiGLsd | videčimi | 3GČsp6 | videčim | 2PČse6 | videnima | 3GNžd6 | videnimi | 3PNžp6 |
videt | iGNA | videči | 1GČsd1 | videča | 1PČsp1 | videno | 1GNse1 | videni | 1PNžd1 |
videvši | A | videčih | 2GČsd2 | videčih | 2PČsp2 | videnega | 3GNse2 | videnih | 2PNžd2 |
videč | GČme1 | videčima | 3GČsd3 | videčim | 2PČsp3 | videnemu | 3GNse3 | videnima | 3PNžd3 |
videčega | 3GČme2 | videči | 1GČsd4 | videča | 1PČsp4 | videno | 1GNse4 | videni | 1PNžd4 |
videčemu | 3GČme3 | videčih | 2GČsd5 | videčih | 2PČsp5 | videnem | 2GNse5 | videnih | 2PNžd5 |
videč | GČme4 | videčima | 3GČsd6 | videčimi | 3PČsp6 | videnim | 2GNse6 | videnima | 3PNžd6 |
videčega | 3GČme4 | videči | 1GČme1i | videči | 1PČsd1 | videna | 1GNsp1 | videno | 1PNse1 |
videčem | 2GČme5 | videče | A | videčih | 2PČsd2 | videnih | 2GNsp2 | videnega | 3PNse2 |
videčim | 2GČme6 | videč | PČme1 | videčima | 3PČsd3 | videnim | 2GNsp3 | videnemu | 3PNse3 |
videči | 1GČmp1 | videčega | 3PČme2 | videči | 1PČsd4 | videna | 1GNsp4 | videno | 1PNse4 |
videčih | 2GČmp2 | videčemu | 3PČme3 | videčih | 2PČsd5 | videnih | 2GNsp5 | videnem | 2PNse5 |
videčim | 2GČmp3 | videč | PČme4 | videčima | 3PČsd6 | videnimi | 3GNsp6 | videnim | 2PNse6 |
videče | 1GČmp4 | videčega | 3PČme4 | videči | 1PČme1i | videni | 1GNsd1 | videna | 1PNsp1 |
videčih | 2GČmp5 | videčem | 2PČme5 | videče | A | videnih | 2GNsd2 | videnih | 2PNsp2 |
videčimi | 3GČmp6 | videčim | 2PČme6 | viden | GNme1 | videnima | 3GNsd3 | videnim | 2PNsp3 |
videča | 1GČmd1 | videči | 1PČmp1 | videnega | 3GNme2 | videni | 1GNsd4 | videna | 1PNsp4 |
videčih | 2GČmd2 | videčih | 2PČmp2 | videnemu | 3GNme3 | videnih | 2GNsd5 | videnih | 2PNsp5 |
videčima | 3GČmd3 | videčim | 2PČmp3 | viden | GNme4 | videnima | 3GNsd6 | videnimi | 3PNsp6 |
videča | 1GČmd4 | videče | 1PČmp4 | videnega | 3GNme4 | videni | 1GNme1i | videni | 1PNsd1 |
videčih | 2GČmd5 | videčih | 2PČmp5 | videnem | 2GNme5 | videno | A | videnih | 2PNsd2 |
videčima | 3GČmd6 | videčimi | 3PČmp6 | videnim | 2GNme6 | viden | PNme1 | videnima | 3PNsd3 |
videča | 1GČže1 | videča | 1PČmd1 | videni | 1GNmp1 | videnega | 3PNme2 | videni | 1PNsd4 |
videče | 1GČže2 | videčih | 2PČmd2 | videnih | 2GNmp2 | videnemu | 3PNme3 | videnih | 2PNsd5 |
videči | 1GČže3 | videčima | 3PČmd3 | videnim | 2GNmp3 | viden | PNme4 | videnima | 3PNsd6 |
videčo | 1GČže4 | videča | 1PČmd4 | videne | 1GNmp4 | videnega | 3PNme4 | videni | 1PNme1i |
videči | 1GČže5 | videčih | 2PČmd5 | videnih | 2GNmp5 | videnem | 2PNme5 | videno | A |
videčo | 1GČže6 | videčima | 3PČmd6 | videnimi | 3GNmp6 | videnim | 2PNme6 |
V tabeli 9 je bilo navedeno skupno število izpeljanih besednih oblik, 3.487.676, ki nastanejo iz 91.588 lem v Slovarju slovenskega knjižnega jezika. Za preverjanje fonda besed v obeh vzorcih in za ugotavljanje besedam pripadajočih oblikoslovnih oznak v drugem vzorcu je bil slovar besednih oblik SSKJ organiziran v dve datoteki. V prvi so shranjene abecedno urejene besedne oblike in pri vsaki še stisnjene kode s podatki o lemah in oznakah, kakršni so bili navedeni v tabelah 12, 15 in 17 - dolga je 10.470.706 bajtov, v drugi pa dekomprimiranju namenjeni slovar 7.080 stisnjenih kod in ustreznih podatkov - dolga je 142.252 bajtov.
Poleg tega je bil pri preverjanju uporabljen še slovar besed pri postavljanju in preizkušanju prvega oblikoslovnega označevalnika zbranega gradiva (Jakopin in Bizjak 1997, 330.000 besed), ki vsebuje štiri prozna dela (Pomladni dan in Prazno ptičnico Cirila Kosmača, Platonovo Državo in Orwellov 1984) ter vzorec iz časopisa Delo. Ta slovar obsega 45.304 različne besedne oblike (ki imajo seveda tudi podatke o oblikoslovnih oznakah). Rezultati preverjanja so navedeni v tabeli 18.
Tabela 18: Rezultat preverjanja besednih oblik iz obeh vzorcev
Prvi vzorec | % | Drugi vzorec | % | |
Skupaj besednih oblik | 174.579 | 100,00 | 36.473 | 100,00 |
Prepoznanih s slovarjem oblik iz SSKJ | 143.933 | 82,45 | 31.656 | 86,79 |
Prepoznanih s slovarjem iz gradiva | 4.335 | 2,48 | 2.924 | 8,02 |
Ostanek | 26.311 | 15,07 | 1.893 | 5,19 |
Žal niso ohranjeni podatki o številu različnih besed v obeh vzorcih na začetku, še pred kakršnim koli popravljanjem. Napake, ki so bile odkrite pri različnih delih z vzorcema, že ob njunem sestavljanju samem, so bile popravljane sproti in vodenje evidence ob tem ni bilo izvedljivo. Napak je bilo ponekod zelo veliko - tudi več na vrstico, ponekod pa le ena na nekaj vrstic ali še manj.
Kot je videti iz zgornje tabele, je bilo s pomočjo izpeljank iz SSKJ v prvem vzorcu prepoznanih dobrih 82 % besed, v drugem pa skoraj 87 %. Po upoštevanju še besed iz doslej obdelanega gradiva je na koncu v prvem vzorcu ostalo dobrih 26.000 besed ali 15 % celote, v drugem vzorcu pa veliko manj, le slabih 2.000 ali 5 % vsega; dva romana iz tega vzorca (37 % celote) sta bila namreč že vključena v gradivo. Med neprepoznanimi besedami so predvsem lastna imena, ki jih je bilo v prvem vzorcu (vključuje tudi potopisna in spominska dela ter prevode) razmeroma več kot v drugem. To dejstvo utegne biti eden glavnih razlogov za opazno razliko pri preseku med posameznim vzorcem in SSKJ (82 % proti 87 %).
Na hipotetično vprašanje, koliko je bilo lem, iz katerih izhajajo prepoznane in neprepoznane besedne oblike, je odgovor mogoče podati za drugi vzorec, ki je bil oblikoslovno označen in lematiziran. Prepoznane besedne oblike v njem so izhajale iz 13.524 lem (11.978 iz SSKJ in 1.546 iz že obdelanega gradiva) od vsega skupaj 15.140, se pravi da je bil tu delež prepoznanega 89,33 %, skoraj 6 % manj kot pri besednih oblikah. Za ugotavljanje števila lem, iz katerih izhajajo prepoznane oblike pri prvem vzorcu, bi bilo potrebno prvi vzorec še lematizirati, ocenimo pa lahko, da bi bil delež tudi tam nižji.
Preostale besede iz prvega vzorca so bile ročno pregledane in popravljene - na računalniku z 32 MB pomnilnika sta bili v njem sočasno lahko tako vzorec sam kot tudi slovar neznanih besed. Preverjanje sumljive besede v slovarju (ukaz na funkcijski tipki jo je potegnil v iskalni niz in aktiviral iskanje v vzorcu) je trajalo manj kot 10 sekund. Ob tem so bili sproti označevani še do takrat neodkriti tuji citati.
Postopek pri drugem vzorcu, kjer je bilo besed sicer veliko manj, a jim je bilo treba poleg preverjanja dodati še oblikoslovne oznake, je bil podoben, le da je bil slovar neznanih besed obrnjen (urejen po koncih). Končnice besed vsebujejo veliko informacije o pregibanju, ki je v neposredni zvezi z oblikoslovno oznako, in tako je delo lažje.