Nazaj: Viri Naprej: Oblikoslovno označevanje Kazalo Začetek Konec

Doktorska disertacija P. Jakopina, str. 13 - 34

3. poglavje

Priprava besedil

3.1  Format besedil
     3.1.1  Dodatni simboli
     3.1.2  Zaglavja besedil
3.2  Označevanje gradnikov besedila
     3.2.1  Odstavki
     3.2.2  Povedi
     3.2.3  Premi govor
     3.2.4  Citati, vzdevki in ostalo
3.3  Vprašanje napak
     3.3.1  Napake pri prepoznavanju
3.4  Zbirka besed iz SSKJ
     3.4.1  Samostalniki
     3.4.2  Pridevniki
     3.4.3  Glagoli
     3.4.4  Preverjanje s slovarjem izpeljank

3.1 Format besedil

Kot je bilo že omenjeno v poglavju o virih, so bile elektronske verzije besedil obeh vzorcev pripravljene na zelo različne načine. Navadno se tudi niso strogo držale vrstičnega reda v tiskani različici dela, ampak so bile vrstice, predvsem kadar so bila dela pretipkana, dolge toliko, kolikor črk je imel urejevalnik v eni vrstici na zaslonu. Odstavki so se seveda ujemali z izvirnikom, meje strani pa so v veliki večini primerov manjkale. Pri odločanju, kako naj bo besedilo v obeh vzorcih interno shranjeno, je bilo upoštevanih več zahtev:

berljivost besedila

ustrezanje mednarodnim standardom za shranjevanju besedil

primernost za nadaljnje obdelave

enostaven prenos na internet

Prva zahteva, zahteva po berljivosti, je bila postavljena zaradi čim lažjega ročnega branja in preverjanja besedil. Dodatne informacije, vnesene v besedilo - meje odstavkov, povedi, oznake za premi govor in podobno, morajo biti sicer vidne, vendar ne tako vpadljive, da zaradi njih ni jasno videti besedila samega. Da bi bila zahteva izpolnjena, so bile v okviru možnosti, ki jih je avtorju nudila arhitektura urejevalnika EVA (16-bitni nabor znakov, lasten rastrski zapis njihovih slik), vse dodatne oznake kodirane kot posebni znaki.

Druge zahteve ni potrebno posebej utemeljevati. V zadnjih dveh letih so standardi (npr. Erjavec 1997) in priporočila (Baker idr. 1997) za shranjevanje besedil dobili že bolj konkretne in jasne oblike; strukturiranje besedil pri tej nalogi je bilo opravljeno do ravni povedi; posebej je označen premi govor. Dodatne oznake, vnešene v besedilo, je mogoče enostavno nadomestiti z oznakami po standardu SGML oz. XML.

Tretja zahteva, predvsem tako oblikovanje besedila, da ga za kasnejšo morebitno oblikoslovno označitev (angl. part-of-speech tagging) ne bi bilo treba preurejati, je pomenila, da morajo biti vrstice krajše, kot bi sicer lahko bile, saj so oblikoslovne oznake velikokrat daljše od besed in je potrebno za ujemanje začetkov besed in oznak pod njimi predvideti nekaj dodatnega prostora. Na sliki 1 je najprej naveden primer neoznačenega besedila, pisan z običajnimi zaslonskimi črkami urejevalnika, na sliki 2 pa isti odstavek, tokrat dopolnjen z oznakami za začetke in konce odstavkov in povedi ter z oblikoslovnimi oznakami besed v vsaki drugi vrstici:

Slika 1: Primer neoznačenega besedila (C. Kosmač, Kamen in njiva)

Slika 2: Označeno besedilo iz slike 1

Za besedami, katerih oblikoslovne oznake so daljše, je še ustrezno število mehkih presledkov.

V skladu s to zahtevo so bila besedila na novo formatirana v vrstice, ki niso bile daljše kot 57 znakov, kar je pomenilo vsaj 21 znakov dodatnega prostora v vsaki; vrstica urejevalnika EVA z običajnimi zaslonskimi črkami ima pri zaslonski ločljivosti 800 x 600 pik namreč 78 enako širokih znakov.

Četrta zahteva, naj bo besedilo shranjeno tako, da bo možna kar najenostavnejša pretvorba v format HTML, je zahtevala ureditev predvsem zaglavja pred vsakim besedilom in uvedbo nekaterih dodatnih oznak, npr. za dele besedila, ki morajo biti napisani z enako širokimi črkami (npr. ladijski vozni red v romanu J. Verna V osemdesetih dneh okoli sveta.) Odločiti se je bilo treba tudi, kako interno prikazati meje odstavkov. V knjigah so navadno pisani z zamikom približno 5 presledkov, na internetu pa določilo izpusti eno prazno vrstico in so tako odstavki v knjižnih delih tam navadno upodobljeni brez zamika v desno, zato pa s prazno vrstico. Ker pregledovalnika na internetu običajno uporabljata proporcionalno široke črke, je presledek razmeroma ozek, ožji tudi od večine malih črk in pet presledkov na začetku odstavka ni prav opaznih. Zato je v obeh vzorcih na začetku odstavka zamik 8 presledkov, ki se pri pretvorbi v obliko HTML spremenijo v trde presledke in jih pregledovalnika ne združita. Določilo je pri pretvorbi v obliko HTML izpuščeno, namesto pa je uporabljen le prelom vrstice - .

3.1.1 Dodatni simboli

Zaradi zahtev iz prejšnjega razdelka in zaradi omejitve, da se v analizi upoštevajo le slovenski deli besedil (tuji citati pa ne), so bili uvedeni naslednji dodatni simboli iz tabele 5.

Tabela 5: Simboli za označevanje besedila

Gre za 22 simbolov, ki nastopajo v parih - prvi stoji pred označenim delom besedila, drugi pa za njim. V tabeli sta za slikama obeh znakov vedno navedeni še njuni kodi. Prvi par simbolov, s kodama 246 in 247, služi za označevanje tistega v besedilu, kar ni pravo besedilo. Primer so oznake vrstic (dodane v 16. stoletju) v poglavjih Nove zaveze:

Sledita simbola s kodama 248 in 249, ki označujeta začetek in konec citatov v tujem jeziku ali v zelo popačeni slovenščini:

Naslednji trije pari, s kodami 250 in 251, 252 in 253, 254 in 255, označujejo začetek in konec odstavka, premega govora in povedi (v primeru zgoraj):

Sledi par s kodama 256 in 257, ki označuje besedilo, ki naj ga pregledovalnik na internetu postavi na sredino:

Tudi par s kodama 258 in 259 je tu zaradi interneta - označuje del besedila, ki ga mora pregledovalnik pustiti pri miru, vrstice morajo ostati, kot so, brez reformatiranja in brez izpuščanja presledkov pred njimi:

Predzadnja para, s kodama 260 in 261 ter 262 in 263, označujeta citate in vzdevke (angl. citation in so called):

Na koncu seznama je najprej par s kodama 264 in 265:

ki je namenjen označevanju delov besedila, za katere označevalec še ne ve, kam bi jih uvrstil - v končni verziji obeh vzorcev se ne pojavi več.
Zadnji par, s kodama 266 in 267, pa označuje dele besedila, ki naj jih internetna pregledovalnika prikažeta s črkami enake širine:

3.1.2 Zaglavja besedil

Ker bi bilo opravljanje večjega števila postopkov pri urejanju, popravljanju in označevanju nad besedili, če bi bilo vsako v svoji datoteki, še veliko bolj zamudno, nepregledno in neobvladljivo, se je avtor odločil, da bo zložil vsa besedila vsakega vzorca skupaj. Nastali sta dve datoteki, po vseh postopkih je prva velika slabih 25 megabajtov, druga pa, z oblikoslovnimi oznakami vred malo manj kot 7. Prvo se ravno še da obdelovati na računalniku z 32 megabajti pomnilnika in operacijskim sistemom Windows 95.

Na strežniku interneta mora biti vsako besedilo seveda v svoji datoteki, in če naj bodo vse te datoteke (tipa HTML) strojno generirane iz ene same v formatu urejevalnika EVA, je treba pri pretvorbi od nekod črpati tiste parametre o vsakem besedilu, ki so značilni zanj. Avtor se je odločil, da bodo shranjeni v posebnem zaglavju pred vsakim besedilom, kadar je le-to oblikoslovno označeno, pa še v kratkem dodatku na koncu. Primer iz prvega vzorca je zaglavje romana Devet fantov in eno dekle:

Zaradi analogije z imeni oznak v jeziku SGML, ki so v angleškem jeziku, so tudi imena spremenljivk iz zaglavja v tem jeziku. Zaglavja pri drugem vzorcu so zelo podobna, le da imajo eno spremenljivko več:

Zaglavje je napisano v obliki komentarskih vrstic (to je vsaka vrstica v EVI, ki se začne z dvojnim karom, presledkom in poševnico - levo ali desno). Vsaka navadno vsebuje ime spremenljivke, njeno vrednost in oznako za konec (ime spremenljivke s poševnico spredaj).

Določilo hudo.482 v prejšnjem primeru pomeni številko strani v izvirniku, določilo pa, da je besedilo oblikoslovno označeno; na koncu datoteke bi seveda sledila še komentarska vrstica z določilom .

Ukaz v urejevalniku EVA, ki iz datoteke posameznega vzorca naredi desetine datotek tipa HTML, potrebuje le še pomožno datoteko z osnutkom, parametre besedila in njegovo vsebino pa najde v osnovni datoteki. Datoteka z osnutkom, oropana nebistvenih dodatkov in malo bolj na gosto napisana, bi bila lahko videti takole:

Vsaka datoteka tipa HTML, ki bo nastala iz datoteke z vzorcem, bo imela na začetku prvi del datoteke z osnutkom do vrstice iz dvojnih karov, kjer pa bodo imena spremenljivk pri vsaki datoteki (označena so z znakom $) nadomeščena z vrednostmi iz zaglavij ustreznega besedila. Na mesto vrstice dvojnih karov (v EVI navadno označuje konec strani) pride besedilo sámo, seveda ustrezno prekodirano, na konec vsake datoteke pa drugi del osnutka, spet z ustreznimi vrednostmi spremenljivk.

3.2 Označevanje gradnikov besedila

Od tega, do katere globine je besedilo v elektronski obliki označeno, je v največji meri odvisno, kaj se bo dalo z njim napraviti. Leposlovna besedila v svetovnih jezikih, predvsem seveda v angleškem jeziku, ki so dostopna preko interneta so navadno shranjena kot običajne besedilne datoteke (z imenskim podaljškom TXT), ki jih lahko urejamo s poljubnim urejevalnikom ali pa so, navadno s programom, prevedena v obliko HTML. V prvem primeru so vrstice tudi v datoteki navadno zvesta podoba vrstic v tiskanem besedilu, z izpuščenimi mejami strani, v drugem pa internetna pregledovalnika sama skrbita za dolžine vrstic; označeni so le odstavki, med njimi pa prazne vrstice. Tuji besedilni korpusi, npr. British National Corpus (glej prilogo D na str. 201), so seveda označeni vsaj do ravni povedi, velikokrat, še posebej v zadnjem času, pa so označeni tudi oblikoslovno (angl. part-of-speech).

V primeru obeh vzorcev iz te naloge, zbranih predvsem za ugotavljanje entropije, se je bilo torej treba odločiti, kako daleč naj bosta označena, kaj naj bo osnovna enota besedila, ki še pride v poštev pri analizi. Za to, da morata biti oba vzorca označena, je poleg tujih zgledov seveda še več razlogov. Po eni strani vsako označevanje namreč prinese tudi tako ali drugačno preverjanje besedila; pri preverjanju pa vedno pride tudi do odpravljanja napak, ki umetno povečujejo entropijo. Po drugi strani pa je označevanje nujno za vsako resnejšo statistično analizo besedila in za uporabnost besedila še pri drugih, kasnejših znanstvenih raziskavah ali obdelavah. Kot osnovni gradnik se glede na vrsto besedila v obeh vzorcih kar sama vsiljuje poved kot najmanjša zaključena enota. Odstavek kot alternativna možnost je veliko ohlapnejši. Posebej v delih besedila, kjer je veliko dialogov s premim govorom, pa so meje odstavkov velikokrat tudi meje povedi.

Glede na razpoložljiv čas in možnosti se je avtor odločil, da bosta oba vzorca označena do ravni povedi in premega govora; kot je bilo že omenjeno v razdelku o dodatnih simbolih, so bili označeni tudi tisti deli besedila, ki ali niso slovenski (tuji citati, popačena slovenščina) ali pa sploh niso besedilo. Število posameznih gradnikov - odstavkov, povedi, premega govora in drugega - je navedeno v razdelku o črkah (str. 48).

3.2.1 Odstavki

Označitev odstavkov v besedilih načelno ni bila problematična. Besedila iz Hladnikove zbirke na internetu so že imela ustrezni oznaki za začetek in konec: in , pri drugih besedilih pa se je dalo orientirati ali s pomočjo praznih vrstic ali pa po zamiku na začetku prve vrstice odstavka. Označitev in reformatiranje odstavkov (na 57 znakov dolge vrstice) sta bila opravljena po predobdelavi besedil z ustreznimi makroprogrami urejevalnika EVA, podobnimi skriptom v jeziku PERL (glej prilogo D na str. 201), ki se navadno uporabljajo v ta namen v drugih okoljih. Pri obeh vzorcih je prišlo do napačnih označitev predvsem pri vrinjenih delih besedila, kot so npr. citirani verzi ali pesmim podoben govor (npr. v Novi zavezi). Nekaj se jih je dalo odkriti po mali začetnici na začetku takega vložka, nekaj pa le z ročnim pregledom sumljivih mest.

3.2.2 Povedi

Pri označitvi povedi je treba upoštevati bistveno več elementov kot pri odstavkih. Štiri besedila - Platonova Država, Orwellov 1984 ter Kosmačeva Pomladni dan in Prazna ptičnica - so imela konce povedi (znak s kodo 255) označene že prej (Jakopin in Bizjak 1997); tu je bilo treba dodati le oznake začetkov povedi na ustrezna mesta pred prvo naslednjo veliko začetnico. Pri drugih besedilih so bila kot konec povedi upoštevana tale štiri ločila: pika (.), klicaj (!), vprašaj (?) in dvopičje (:), če jim je sledila beseda, pisana z veliko začetnico. Pri pikah so bile upoštevane te kratice:

Tabela 6: Kratice, upoštevane pri strojnem prelomu na povedi

angl.       dol.    gen.    izr.    oz.    st.

arch.       dr.    gor.    l.r.    Ph. D.    str.

c. k.       etc.    hon.    mag.    pl.    Sv.

c. kr.      fr.    ilustr.    Mr.    plem.    sv.

c.kr.       g.    ing.    Mrs.    prof.    št.

dipl.       ga.    itd.    npr.    sl.    t.i.

doc.        gdč.    itn.    oec.    St.    t.j.

Beseda z veliko začetnico za kratico namreč ne pomeni vedno tudi začetka nove povedi. Nekaj kratic je bilo avtorju znanih že od prej, druge pa je poiskal med najpogostejšimi besedami, ki jim sledi pika. Pojavitve števil, za katerimi je pika, so bile pregledane ročno. Upoštevana je bila tudi omejitev, da gnezdenje povedi čez meje odstavkov ni dovoljeno - da se mora poved obvezno končati s koncem odstavka. Omejitev se je izkazala za nestvarno v približno desetih primerih. Večdelne kratice, npr. c. kr., je avtor povezal v celoto tako, da je pri njih povsod nadomestil navaden presledek s trdim presledkom (koda 185), tako da so pri prelomu besedila na besede ostale skupaj kot ena enota. Skupaj je povezal tudi kratice in besede za njimi, kadar tvorijo pojem, ki ga poznamo kot celoto, predvsem pri večbesednih lastnih imenih, npr. Sv. Lucija ali Hong Kong.

3.2.3 Premi govor

Označitev premega govora je bila med zamudnejšimi opravili pri pripravi besedil. V manjšem številu primerov je bil premi govor označen z znaki, ki jih najdemo v knjigah: k j Ś š § ş Ş Ť Ź S. Pri optičnem prepoznavanju znakov so bila nekatera izmed teh ločil napačno interpretirana kot vejice, >> in <<, pike in podobno. Avtor je programsko s posebnim znakom, dvojnim vprašajem, označil mesta v besedilu, kjer je za posamezne pare prihajalo do napačnega gnezdenja, in tista mesta potem ročno popravil.

V večjem delu je bil začetek in konec premega govora označen z istim znakom, dvojnim narekovajem: " in tu je, spet zaradi pretežno optičnega vnosa, prihajalo do zelo velikega števila neujemanj pri gnezdenju - reda velikosti 1.500 napak za oba vzorca. Napako (npr. manjkajoči zaključek premega govora) je program žal lahko odkril šele pri naslednjem premem govoru in je bilo treba pri ročnem popravljanju iskati včasih daleč nazaj.

V marsikaterih tiskih pa je bil začetek premega govora označen s pomišljajem (-) na začetku odstavka, konec je pa ali bil ali pa manjkal, kot v spodnjem primeru iz Pomladnega dneva:

Postopek je bilo v tem primeru mogoče delno avtomatizirati s kontrolo gnezdenja in ročnimi popravki v drugi fazi.

3.2.4 Citati, vzdevki in drugo

Ker je predmet proučevanja naloge le slovenski del leposlovnih besedil, je bilo treba označiti vse dele, ki niso bili v slovenskem jeziku. Pri drugem vzorcu, ki je bil večkrat cel ročno pregledan, so bili ti deli besedila označeni ročno, v prvem vzorcu pa v več fazah. Najprej je avtor med zelo pogostimi besednimi oblikami poiskal tiste, ki jih v slovenskem jeziku sploh ni ali so redke, v drugih jezikih, predvsem angleškem, nemškem, italijanskem, francoskem, srbskem in hrvaškem ter latinskem (veliko romanov je zgodovinskih), pa so zelo pogoste. Primeri so: an, and, are, as, das, de, der, di, die, du, e, est, et, for, für, I, is, ist, la, non, of, quod, su, sunt, the, u, und in you. V veliki večini primerov je bila njihova okolica citat v tujem jeziku in potem ročno označena. Delo s sorazmerno največ tujimi citati je Thabiti Kumi Ivana Preglja - dolgo je 9.362 besed; v njem je kar 93 latinskih citatov s 521 besedami ali skoraj 6 % celote. Nekaj preostalih citatov v drugih jezikih je avtor odkril pri pregledovanju besedil zaradi kakih razlogov, ki niso bili povezani z iskanjem citatov, še največ pa pri popravljanju napačnih besed.

Citati v slovenskem jeziku in vzdevki so bili v knjižnih verzijah pri delih, kjer je bil premi govor označen s simboloma k in j, navadno označeni z drugačnimi navednicami: Ś š § ş Ş Ť Ź S. Kadar je bil označen z dvojnim narekovajem (") spredaj in zadaj, so bili citati in vzdevki običajno v enojnih navednicah ('). Odločitev, kdaj je del besedila vzdevek in ne citat, ni bila vedno povsem zanesljiva; strogega kriterija, kdaj je nekaj res vzdevek (angl. so-called) in ne citat (angl. citation), namreč ni. Primer:

Poleg citatov, slovenskih in tujih, ter vzdevkov so bili posebej označeni še deli besedila, ki jih ni mogoče šteti za besedilo, so pa vseeno v njem. Sem sodijo predvsem številke opomb in podobne oznake, npr. številke vrstic v poglavjih Nove zaveze. Slednjih ni bilo težko strojno označiti, ker so imeli spredaj zvezdico. Primer:

3.3 Vprašanje napak

Pri sestavljanju vsake besedilne zbirke se pojavi tudi vprašanje napak. Napak v besedilih je več vrst, začenši z avtorjevimi (pri znanih imenih so sicer redke, so pa), do tiskarskih, tistih, ki nastanejo pri prenosu dela v elektronsko obliko, s tipkanjem ali optičnim prepoznavanjem (angl. OCR - Optical Character Recognition) in do tistih, ki so nastale pri prenosu iz enega računalniškega formata v drug (npr. deljaji na koncu vrstic, ki se pri reformatiranju ohranijo sredi vrstic, namesto da bi izginili).

Stališča do napak v besedilnih zbirkah so različna - poleg klasičnih nazorov, po katerih se je treba proti napakam boriti neusmiljeno in do zadnjega diha, do popolnoma nasprotnih, npr.: "Errors are integral part of text. If you correct them, you lose information" (J. M. Sinclair v predavanju na delavnici: TELRI Birmingham Workshop oktobra 1995 - Jakopin 1996a). Pri slednjem gre za odgovor na vprašanje, zakaj je v besedilnem korpusu Bank of English - zdaj ima že 329.000.000 besed - toliko napak (najpogostejša, hte, ima frekvenco pribl. 4.000). Tudi druge velike besedilne zbirke so precej nasmetene, kar gre po mnenju avtorja pripisati predvsem dejstvu, da so bili viri za njihovo postavitev zelo omejeni, pritisk in želje pa velike, tako da je v dilemi: ali količina ali kakovost zmagala prva. Tako je zelo zgovorno dejstvo, da avtorji doslej največje raziskave o entropiji angleškega jezika (Brown idr. 1992a), ki je zajela 583 milijonov besed, v svojem prispevku o napakah niso napisali niti besedice. Pri manj pomembnih besedilih, raznih zapisnikih in podobnem, napake niti niso tako moteče, v leposlovnih besedilih, ki so namenjena branju, tudi v elektronski obliki, pa zelo kvarijo celo podobo. V pripravo leposlovnih del je vloženega vedno zelo veliko truda - več korektur celega besedila že v rokopisu, potem še vsaj dve korekturi iz tiskarne - kar vse izniči površno pripravljena elektronska izdaja. Upoštevati pa je treba konec koncev tudi dejstvo, da napake umetno povečujejo entropije in zmanjšujejo težo vsake statistične raziskave.

Tako se je avtor odločil, da bo besedila kolikor se le da očistil, še posebej drugi vzorec. Pri tem je seveda upošteval vire, ki so mu bili na razpolago, in omejen čas raziskave.

3.3.1 Napake pri prepoznavanju

Besedila, predvsem iz Hladnikove zbirke na internetu in večji del drugega vzorca, so bila v elektronsko obliko prenesena pretežno s pomočjo optičnega prepoznavanja (OCR). Avtorji prenosa so v uvodu vedno poudarili, da so besedilo po prepoznavanju še natančno prebrali in popravili, da pa ne odgovarjajo za morebitne napake, ki bi še ostale. Žal jim je za branje in popravljanje zmanjkalo časa, saj je v skoraj vseh delih napak kar mrgolelo. Poleg napačnih malih črk v besedah, ki se jih ne da odkriti s kakimi preprostimi prijemi, je bilo precej napak še pri ločilih - presledki pred vejicami in pikami, narazen pisane besede, narobe interpretirane navednice in napačne velike začetnice ter števila (npr. 198O, kjer je na zadnjem mestu velika črka O). Te skupine napak je bilo v veliki meri mogoče odkriti programsko, z iskanjem velikih začetnic, obdanih z malimi, ali kombinacij črka-števka in števka-črka. Najpogostejša napaka te vrste je bila beseda ljudje, napačno pisana kot Ijudje. Njena frekvenca je znašala približno 50.

3.4 Zbirka besed iz SSKJ

Večina napak v besedilih je bila v obliki narobe napisanih besed. Predvsem pogoste besede so za seboj potegnile cele grozde napačnih satelitov. Primeri so besede samostan, tudi in zadovoljen:

Tabela 7: Napake, nastale iz besed samostan, tudi in zadovoljen

samosta            tud    zadooljen

samostamu          tudij    zadovljen

samostanju         tudk    zadovljno

samotan            tui    zadovojen

samotanom          tuid

Dostikrat se je tudi zgodilo, da so se napake v abecednem seznamu vseh besednih oblik zbrale okoli nenavadne ali nemogoče začetne kombinacije črk (v oklepajih so navedene ali pravilne besedne oblike ali pa kontekst napake):

Tabela 8: Napake na ps, pt in vo

psoebno         (posebno)    voril    (... je go voril ...)

psolovnem       (poslovnem)    vorili    (... nista go vorili radi o ...)

psomladi        (spomladi)    voriva    (Pa go voriva pametno!)

psotala         (postala)    vorčekrvnega    (... njegovega vorčekrvnega sina ...)

psotavil        (postavil)    vosjki    (... vojski ...)

psoznamo        (spoznamo)    vote    (... sta si ogledala ex vote.)

ptolej          (potlej)    vouz    (... Comment allez vouz?)

ptomci          (potomci)

ptreboval       (potreboval)

ptrljage        (prtljage)

Da bi bilo mogoče preveriti obsežna seznama besednih oblik (175.000 različnih besednih oblik v prvem vzorcu in 37.000 v drugem) je bilo treba najti kar največjo zbirko vseh možnih slovenskih besednih oblik. Avtor je imel na razpolago Slovar slovenskega knjižnega jezika (SSKJ 1994); sodeloval je pri prenosu v elektronsko obliko kot avtor programa za urejanje in optično prepoznavanje. Slovar obsega 93.151 gesel, med katerimi prevladujejo samostalniki, pridevniki in glagoli. Te tri besedne vrste dajo iz osnovnih besednih oblik (lem) tudi največ izpeljank.

Tabela 9: Število besed in besednih oblik v SSKJ po vrstah

               paradigem    osnovnih besednih oblik    izpeljanih oblik    različ. izpelj. oblik



samostalnik     59    51.790     941.788     442.451

pridevnik       18    21.674    1.300.644     265.840

glagol          59    18.124    1.245.244     377.837



Skupaj          136    91.588    3.487.676    1.075.779

Pri oblikovanju paradigem in pri klasifikaciji besednih lem naglasi niso bili upoštevani. Z njimi bi bilo število paradigem (in število besednih izpeljank) še nekoliko večje. Razlog je bil predvsem v tem, da so v pisanih besedilih, kot bo videti tudi v razdelku o statistiki črk, naglasi redki.

3.4.1 Samostalniki

Pri samostalnikih je bilo 24 paradigem za moški spol (drugačen četrti sklon pri samostalnikih za živa bitja število precej poveča), 21 za ženski in 14 za srednji, število lem pa 22.459 za moški, 21.156 za ženski in 8.175 za srednji. Pri gradnji paradigem je bil upoštevan predvsem slovnični del uvoda v SSKJ (SSKJ 1994). Primer samostalniških paradigem je naveden v tabeli 10.

Tabela 10: Tri samostalniške paradigme ženskega spola

Paradigmo ž13 ima npr. samostalnik podlaket, ž14 cerkev, ž15 pa breskev. Tabela paradigem je urejena kot podatkovna zbirka, kjer ima vsak zapis 4 polja. V prvem je ime oz. šifra paradigme, sledijo pa 3 polja z definicijami za vseh šest sklonov ednine, množine in dvojine. S pomišljajem je navedena uporaba leme, drugače pa le dodatki na rodilniško osnovo; alternativne možnosti so ločene z znakom &.

Prva vrstica za lemo podlaket, ki ima rodilniško osnovo podlakt, konkretno pomeni, da nastane prvi sklon ednine kar z uporabo leme (-), drugi sklon z dodatkom -i (i) na rodilniško osnovo (podlakti), tretji je enak drugemu, četrti prvemu, peti spet drugemu, za šestega pa je treba rodilniški osnovi dodati -jo (s podlaktjo). Množina ni problematična, pri dvojini pa sta posebnost le dajalnik in orodnik, pri katerih sta dve možnosti - obrazili -ma in -ima na rodilniško osnovo (podlaktma in podlaktima). Izsek iz slovarja lem s podatki o paradigmah in rodilniški osnovi je naveden v tabeli 11.

Tabela 11: 21 samostalniških lem s paradigmo in rodilniško osnovo

Tudi ta zbirka je pripravljena kot podatkovna zbirka, tokrat s tremi polji. V prvem je šifra paradigme, v drugem navodilo za tvorjenje rodilniške osnove, v tretjem pa lema. Navodilo je lahko prazno, kar pomeni, da je rodilniška osnova kar enaka lemi, lahko pa ima najprej n simbolov za odstranitev n končnih črk leme, ki jim sledi še obrazilo, ki ga je treba natakniti na tako dobljen krn. Pri lemi breskev je npr. treba odstraniti zadnji dve črki in dodati v, da dobimo rodilniško osnovo breskv. V tabeli 12 so navedene strojno dobljene izpeljanke iz štirih lem: žolčnost, podlaket, cerkev in breskev. Vsaki izpeljanki sledi še navodilo, kako iz nje dobiti lemo, poleg tega pa še oblikoslovna oznaka. Ta je pri samostalnikih štirimestna - najprej velika črka S (za samostalnik), potem spol ( m, ž ali s), število ( e, p in d) ter sklon (1-6). Primer je breskvami. Prvi del deskriptorja (do velike črke) - 4ev zahteva, da je treba izpeljanki odvzeti na koncu štiri črke (bresk) in dodati ev, da dobimo lemo - breskev. Drugi del deskriptorja pove, da gre za samostalnik ženskega spola v ednini in orodniku. Veliko izpeljank je tudi enakih - npr. za rodilnik in mestnik ednine, zato je število različnih izpeljanih besednih oblik pri samostalnikih za več kot pol manjše od števila vseh izpeljank (442.451 proti 941.788).

Tabela 12: Programsko tvorjene izpeljanke 4 samostalniških lem ženskega spola

   žolčnost Sže1    podlaket Sže1    cerkev Sže1    cerkvah 3evSžd5

   žolčnosti 1Sže2    podlakti 2etSže2    cerkve 2evSže2    cerkvama 4evSžd6

   žolčnosti 1Sže3    podlakti 2etSže3    cerkvi 2evSže3    breskev Sže1

   žolčnost Sže4    podlaket Sže4    cerkev Sže4    breskve 2evSže2

   žolčnosti 1Sže5    podlakti 2etSže5    cerkvi 2evSže5    breskvi 2evSže3

   žolčnostjo 2Sže6    podlaktjo 3etSže6    cerkvijo 4evSže6    breskev Sže4

   žolčnosti 1Sžp1    podlakti 2etSžp1    cerkve 2evSžp1    breskvi 2evSže5

   žolčnosti 1Sžp2    podlakti 2etSžp2    cerkva 2evSžp2    breskvijo 4evSže6

   žolčnostim 2Sžp3    podlaktim 3etSžp3    cerkev Sžp2    breskve 2evSžp1

   žolčnosti 1Sžp4    podlakti 2etSžp4    cerkvam 3evSžp3    breskev Sžp2

   žolčnostih 2Sžp5    podlaktih 3etSžp5    cerkve 2evSžp4    breskvam 3evSžp3

   žolčnostmi 2Sžp6    podlaktmi 3etSžp6    cerkvah 3evSžp5    breskve 2evSžp4

   žolčnosti 1Sžd1    podlakti 2etSžd1    cerkvami 4evSžp6    breskvah 3evSžp5

   žolčnosti 1Sžd2    podlakti 2etSžd2    cerkvi 2evSžd1    breskvami 4evSžp6

   žolčnostma 2Sžd3    podlaktma 3etSžd3    cerkve 2evSžd1    breskvi 2evSžd1

   žolčnostima 3Sžd3    podlaktima 4etSžd3    cerkva 2evSžd2    breskev Sžd2

   žolčnosti 1Sžd4    podlakti 2etSžd4    cerkev Sžd2    breskvama 4evSžd3

   žolčnostih 2Sžd5    podlaktih 3etSžd5    cerkvama 4evSžd3    breskvi 2evSžd4

   žolčnostma 2Sžd6    podlaktma 3etSžd6    cerkvi 2evSžd4    breskvah 3evSžd5

   žolčnostima 3Sžd6    podlaktima 4etSžd6    cerkve 2evSžd4    breskvama 4evSžd6

3.4.2 Pridevniki

Pridevniki so besedna vrsta z največjim številom pregibnih oblik - iz 21.674 lem je nastalo 1.300.644 izpeljank (265.840 različnih); vseh pridevniških paradigem je bilo 18. Velikemu številu oblik botrujejo predvsem trije spoli pri vsakem pridevniku in pri večini še stopnjevanje. Primer pridevniške paradigme je v tabeli 13.

Tabela 13: Pridevniška paradigma s primerom

Paradigma je precej obsežnejša od samostalniške, opis pridevnika (v našem primeru hud) pa kratek. Najprej je šifra njegove paradigme, sledi pridevnik sam, v moškem spolu, za njim navodilo za oblikovanje osnovne izpeljanke ženskega spola (in tvorjenje rodilniške osnove obenem), v četrtem polju za srednji spol, v petem pa za tvorjenje primernika. Pri paradigmi je v prvi vrstici njena šifra, v drugi navodilo za izpeljanke ednine, množine in dvojine moškega spola za vseh 6 sklonov (vmes so vejice), v tretji podobno za ženski spol in v četrti za srednji. Prazno navodilo (za prvi sklon in prvo varianto četrtega) pove, da je treba vzeti kar pridevnik sam, pomen dodatnih simbolov pa je razložen v tabeli 14:

Tabela 14: Simboli v pridevniških paradigmah

- rodilniška osnova

& sledi še ena varianta za isti sklon

< osnovna oblika za ženski spol

> osnovna oblika za srednji spol

= primerniška osnova (primernik moškega spola brez i na koncu)

+ primerniška osnova brez končnega š

ł oblike ni (npr. pri paradigmah, kjer ni določne oblike)

V opisu podatkov o paradigmi sledijo v 5., 6. in 7. vrstici navodila za vse tri spole primerniških oblik, v 8., 9. in 10. pa še za presežnik. Vrstice od 5. do 10. nastopajo samo v tistih paradigmah, kjer obstaja stopnjevanje pridevnikov. Sledi prazna vrstica, za njo pa opis določne oblike, pod njim osnovne oblike prislova ter še, če sta, obeh višjih prislovnih stopenj.

V tabeli 15 na naslednji strani je naveden primer strojnega tvorjenja izpeljank za pridevnik hud. Iz leme je nastalo 172 izpeljanih besednih oblik, od tega 36 različnih. Na levi strani vsakega stolpca so, podobno kot pri samostalnikih, navedene izpeljanke, na desni pa deskriptor, ki opisuje pot do leme in navaja oblikoslovno oznako za to izpeljanko. Oblikoslovne oznake so spet štiri, pet ali šestmestne - najprej P za vrsto (pridevnik), potem koda za spol ( m, ž, s), število ( e, p, d ) in sklon (1-6), na koncu pa, po potrebi, še i za določno obliko, j za primernik in jj za presežnik (Jakopin in Bizjak 1997). Tudi opis leme je tokrat včasih razširjen - pri presežniških oblikah je najprej navedeno, kaj naj se zgodi s koncem izpeljanke, da bi dobili lemo, potem, za dvopičjem, pa še, kaj je treba napraviti na začetku izpeljanke. Primer je npr. najhujšima 5d:3Pžd6jj - na koncu izpeljanke je treba najprej odrezati 5 črk (5), dodati d, potem pa še spredaj odrezati tri črke (3, naj). Pžd6jj pove, da gre za pridevnik ženskega spola v dvojini, orodniku (6) in v presežniku (jj).

Tabela 15: Izpeljanke iz pridevnika hud

   hud Pme1    huda 1Psp1    hujši 3dPžd1j    najhujša 3d:3Pže1jj

   hudega 3Pme2    hudih 2Psp2    hujših 4dPžd2j    najhujše 3d:3Pže2jj

   hudemu 3Pme3    hudim 2Psp3    hujšima 5dPžd3j    najhujši 3d:3Pže3jj

   hud Pme4    huda 1Psp4    hujši 3dPžd4j    najhujšo 3d:3Pže4jj

   hudega 3Pme4    hudih 2Psp5    hujših 4dPžd5j    najhujši 3d:3Pže5jj

   hudem 2Pme5    hudimi 3Psp6    hujšima 5dPžd6j    najhujšo 3d:3Pže6jj

   hudim 2Pme6    hudi 1Psd1    hujše 3dPse1j    najhujše 3d:3Pžp1jj

   hudi 1Pmp1    hudih 2Psd2    hujšega 5dPse2j    najhujših 4d:3Pžp2jj

   hudih 2Pmp2    hudima 3Psd3    hujšemu 5dPse3j    najhujšim 4d:3Pžp3jj

   hudim 2Pmp3    hudi 1Psd4    hujše 3dPse4j    najhujše 3d:3Pžp4jj

   hude 1Pmp4    hudih 2Psd5    hujšem 4dPse5j    najhujših 4d:3Pžp5jj

   hudih 2Pmp5    hudima 3Psd6    hujšim 4dPse6j    najhujšimi 5d:3Pžp6jj

   hudimi 3Pmp6    hujši 3dPme1j    hujša 3dPsp1j    najhujši 3d:3Pžd1jj

   huda 1Pmd1    hujšega 5dPme2j    hujših 4dPsp2j    najhujših 4d:3Pžd2jj

   hudih 2Pmd2    hujšemu 5dPme3j    hujšim 4dPsp3j    najhujšima 5d:3Pžd3jj

   hudima 3Pmd3    hujši 3dPme4j    hujša 3dPsp4j    najhujši 3d:3Pžd4jj

   huda 1Pmd4    hujšega 5dPme4j    hujših 4dPsp5j    najhujših 4d:3Pžd5jj

   hudih 2Pmd5    hujšem 4dPme5j    hujšimi 5dPsp6j    najhujšima 5d:3Pžd6jj

   hudima 3Pmd6    hujšim 4dPme6j    hujši 3dPsd1j    najhujše 3d:3Pse1jj

   huda 1Pže1    hujši 3dPmp1j    hujših 4dPsd2j    najhujšega 5d:3Pse2jj

   hude 1Pže2    hujših 4dPmp2j    hujšima 5dPsd3j    najhujšemu 5d:3Pse3jj

   hudi 1Pže3    hujšim 4dPmp3j    hujši 3dPsd4j    najhujše 3d:3Pse4jj

   hudo 1Pže4    hujše 3dPmp4j    hujših 4dPsd5j    najhujšem 4d:3Pse5jj

   hudi 1Pže5    hujših 4dPmp5j    hujšima 5dPsd6j    najhujšim 4d:3Pse6jj

   hudo 1Pže6    hujšimi 5dPmp6j    najhujši 3d:3Pme1jj    najhujša 3d:3Psp1jj

   hude 1Pžp1    hujša 3dPmd1j    najhujšega 5d:3Pme2jj    najhujših 4d:3Psp2jj

   hudih 2Pžp2    hujših 4dPmd2j    najhujšemu 5d:3Pme3jj    najhujšim 4d:3Psp3jj

   hudim 2Pžp3    hujšima 5dPmd3j    najhujši 3d:3Pme4jj    najhujša 3d:3Psp4jj

   hude 1Pžp4    hujša 3dPmd4j    najhujšega 5d:3Pme4jj    najhujših 4d:3Psp5jj

   hudih 2Pžp5    hujših 4dPmd5j    najhujšem 4d:3Pme5jj    najhujšimi 5d:3Psp6jj

   hudimi 3Pžp6    hujšima 5dPmd6j    najhujšim 4d:3Pme6jj    najhujši 3d:3Psd1jj

   hudi 1Pžd1    hujša 3dPže1j    najhujši 3d:3Pmp1jj    najhujših 4d:3Psd2jj

   hudih 2Pžd2    hujše 3dPže2j    najhujših 4d:3Pmp2jj    najhujšima 5d:3Psd3jj

   hudima 3Pžd3    hujši 3dPže3j    najhujšim 4d:3Pmp3jj    najhujši 3d:3Psd4jj

   hudi 1Pžd4    hujšo 3dPže4j    najhujše 3d:3Pmp4jj    najhujših 4d:3Psd5jj

   hudih 2Pžd5    hujši 3dPže5j    najhujših 4d:3Pmp5jj    najhujšima 5d:3Psd6jj

   hudima 3Pžd6    hujšo 3dPže6j    najhujšimi 5d:3Pmp6jj    hudi 1Pme1i

   hudo 1Pse1    hujše 3dPžp1j    najhujša 3d:3Pmd1jj    hudi 1Pme4i

   hudega 3Pse2    hujših 4dPžp2j    najhujših 4d:3Pmd2jj    hudo 1A

   hudemu 3Pse3    hujšim 4dPžp3j    najhujšima 5d:3Pmd3jj    huje 2doAj

   hudo 1Pse4    hujše 3dPžp4j    najhujša 3d:3Pmd4jj    hujše 3doAj

   hudem 2Pse5    hujših 4dPžp5j    najhujših 4d:3Pmd5jj    najhuje 2do:3Ajj

   hudim 2Pse6    hujšimi 5dPžp6j    najhujšima 5d:3Pmd6jj    najhujše 3do:3Ajj

3.4.3 Glagoli

Pregibanje pri glagolih je še bolj zapleteno kot pri pridevnikih. Poleg običajnih glagolskih oblik, ki nastopajo pri vseh glagolih, najdemo pri mnogih glagolih še deležja, ki se pregibajo po predpisih dveh pridevniških paradigem (8. in 9.). Primer je glagol videti v tabeli 16.

Tabela 16: Glagolska paradigma s primerom

Primer je glagol videti v tabeli 16. Poleg glagolske paradigme (7) sta navedeni še obe pridevniški paradigmi, ki lahko nastopata - 8. za deležnik na -n in 9. za deležnik na -č. Opis konkretnega glagola ima 5 podatkovnih polj: v prvem je kot po navadi šifra ustrezne paradigme, v drugem glagol sam, v tretjem navodilo za tvorjenje sedanjiške osnove (v tem primeru je treba odvzeti na koncu tri črke in za prvo osebo ednine dodati im), v četrtem informacija, ali je glagol lahko tudi prehoden ( se), v petem pa morebitni podatki o dodatnih oblikah, ki jih je mogoče izpeljati iz glagola. V tem primeru je to deležje videvši in dva deležnika, na -č in na -n, ki imata še podatke o ženskem in srednjem spolu; stopnjevanje pri glagolskih izpeljankah ne pride v poštev. Opis paradigme je šestvrstičen: v prvi vrstici je kot po navadi šifra paradigme, v drugi navodilo za tvorjenje nedoločniške osnove, v tretji navodila za oblike vseh treh števil in oseb (ednina, množina, dvojina, prva, druga in tretja oseba) sedanjega časa, v četrti za velelnike vseh treh števil (v ednini za drugo osebo, v množini in dvojini za drugo in tretjo), v peti za deležnike na -l, za vsa tri števila in za vse tri spole, v šesti vrstici pa za namenilnik. Pomišljaj (-) v opisu označuje sedanjiško osnovo, ki jo dobimo v tretjem polju pri lemi, vijuga (~) pa nedoločniško osnovo, ki jo dobimo s pomočjo leme in navodila v drugi vrstici paradigme.

Paradigmi p8 in p9 sta taki kot pri pridevnikih in tudi zelo podobni - razlikujeta se le v obliki prislova na koncu. V tabeli 17 so prikazane vse izpeljanke glagola iz prejšnjega primera (videti). Izpeljank je 252, od tega 40 različnih. Osebe v oblikoslovnih oznakah so označene z a (prva), b (druga) in c (tretja); oznake so podrobneje razložene v članku (Jakopin in Bizjak 1997).

Tabela 17: Izpeljanke iz glagola videti s podatki o lemi in oblikoslovnimi oznakami

   videti GNE    videče 1GČžp1    videča 1PČže1    videna 1GNmd1    videni 1PNmp1

   vidim 2etiGae    videčih 2GČžp2    videče 1PČže2    videnih 2GNmd2    videnih 2PNmp2

   vidiš 2etiGbe    videčim 2GČžp3    videči 1PČže3    videnima 3GNmd3    videnim 2PNmp3

   vidi 1etiGce    videče 1GČžp4    videčo 1PČže4    videna 1GNmd4    videne 1PNmp4

   vidimo 3etiGap    videčih 2GČžp5    videči 1PČže5    videnih 2GNmd5    videnih 2PNmp5

   vidite 3etiGbp    videčimi 3GČžp6    videčo 1PČže6    videnima 3GNmd6    videnimi 3PNmp6

   vidijo 3etiGcp    videči 1GČžd1    videče 1PČžp1    videna 1GNže1    videna 1PNmd1

   vidiva 3etiGad    videčih 2GČžd2    videčih 2PČžp2    videne 1GNže2    videnih 2PNmd2

   vidita 3etiGbd    videčima 3GČžd3    videčim 2PČžp3    videni 1GNže3    videnima 3PNmd3

   vidita 3etiGcd    videči 1GČžd4    videče 1PČžp4    videno 1GNže4    videna 1PNmd4

   vidi 1etiGVbe    videčih 2GČžd5    videčih 2PČžp5    videni 1GNže5    videnih 2PNmd5

   vidimo 3etiGVap    videčima 3GČžd6    videčimi 3PČžp6    videno 1GNže6    videnima 3PNmd6

   vidite 3etiGVbp    videče 1GČse1    videči 1PČžd1    videne 1GNžp1    videna 1PNže1

   vidiva 3etiGVad    videčega 3GČse2    videčih 2PČžd2    videnih 2GNžp2    videne 1PNže2

   vidita 3etiGVbd    videčemu 3GČse3    videčima 3PČžd3    videnim 2GNžp3    videni 1PNže3

   videl 1tiGLme    videče 1GČse4    videči 1PČžd4    videne 1GNžp4    videno 1PNže4

   videla 2tiGLže    videčem 2GČse5    videčih 2PČžd5    videnih 2GNžp5    videni 1PNže5

   videlo 2tiGLse    videčim 2GČse6    videčima 3PČžd6    videnimi 3GNžp6    videno 1PNže6

   videli 2tiGLmp    videča 1GČsp1    videče 1PČse1    videni 1GNžd1    videne 1PNžp1

   videle 2tiGLžp    videčih 2GČsp2    videčega 3PČse2    videnih 2GNžd2    videnih 2PNžp2

   videla 2tiGLsp    videčim 2GČsp3    videčemu 3PČse3    videnima 3GNžd3    videnim 2PNžp3

   videla 2tiGLmd    videča 1GČsp4    videče 1PČse4    videni 1GNžd4    videne 1PNžp4

   videli 2tiGLžd    videčih 2GČsp5    videčem 2PČse5    videnih 2GNžd5    videnih 2PNžp5

   videli 2tiGLsd    videčimi 3GČsp6    videčim 2PČse6    videnima 3GNžd6    videnimi 3PNžp6

   videt iGNA    videči 1GČsd1    videča 1PČsp1    videno 1GNse1    videni 1PNžd1

   videvši A    videčih 2GČsd2    videčih 2PČsp2    videnega 3GNse2    videnih 2PNžd2

   videč GČme1    videčima 3GČsd3    videčim 2PČsp3    videnemu 3GNse3    videnima 3PNžd3

   videčega 3GČme2    videči 1GČsd4    videča 1PČsp4    videno 1GNse4    videni 1PNžd4

   videčemu 3GČme3    videčih 2GČsd5    videčih 2PČsp5    videnem 2GNse5    videnih 2PNžd5

   videč GČme4    videčima 3GČsd6    videčimi 3PČsp6    videnim 2GNse6    videnima 3PNžd6

   videčega 3GČme4    videči 1GČme1i    videči 1PČsd1    videna 1GNsp1    videno 1PNse1

   videčem 2GČme5    videče A    videčih 2PČsd2    videnih 2GNsp2    videnega 3PNse2

   videčim 2GČme6    videč PČme1    videčima 3PČsd3    videnim 2GNsp3    videnemu 3PNse3

   videči 1GČmp1    videčega 3PČme2    videči 1PČsd4    videna 1GNsp4    videno 1PNse4

   videčih 2GČmp2    videčemu 3PČme3    videčih 2PČsd5    videnih 2GNsp5    videnem 2PNse5

   videčim 2GČmp3    videč PČme4    videčima 3PČsd6    videnimi 3GNsp6    videnim 2PNse6

   videče 1GČmp4    videčega 3PČme4    videči 1PČme1i    videni 1GNsd1    videna 1PNsp1

   videčih 2GČmp5    videčem 2PČme5    videče A    videnih 2GNsd2    videnih 2PNsp2

   videčimi 3GČmp6    videčim 2PČme6    viden GNme1    videnima 3GNsd3    videnim 2PNsp3

   videča 1GČmd1    videči 1PČmp1    videnega 3GNme2    videni 1GNsd4    videna 1PNsp4

   videčih 2GČmd2    videčih 2PČmp2    videnemu 3GNme3    videnih 2GNsd5    videnih 2PNsp5

   videčima 3GČmd3    videčim 2PČmp3    viden GNme4    videnima 3GNsd6    videnimi 3PNsp6

   videča 1GČmd4    videče 1PČmp4    videnega 3GNme4    videni 1GNme1i    videni 1PNsd1

   videčih 2GČmd5    videčih 2PČmp5    videnem 2GNme5    videno A    videnih 2PNsd2

   videčima 3GČmd6    videčimi 3PČmp6    videnim 2GNme6    viden PNme1    videnima 3PNsd3

   videča 1GČže1    videča 1PČmd1    videni 1GNmp1    videnega 3PNme2    videni 1PNsd4

   videče 1GČže2    videčih 2PČmd2    videnih 2GNmp2    videnemu 3PNme3    videnih 2PNsd5

   videči 1GČže3    videčima 3PČmd3    videnim 2GNmp3    viden PNme4    videnima 3PNsd6

   videčo 1GČže4    videča 1PČmd4    videne 1GNmp4    videnega 3PNme4    videni 1PNme1i

   videči 1GČže5    videčih 2PČmd5    videnih 2GNmp5    videnem 2PNme5    videno A

   videčo 1GČže6    videčima 3PČmd6    videnimi 3GNmp6    videnim 2PNme6

3.4.4 Preverjanje s slovarjem izpeljank

V tabeli 9 je bilo navedeno skupno število izpeljanih besednih oblik, 3.487.676, ki nastanejo iz 91.588 lem v Slovarju slovenskega knjižnega jezika. Za preverjanje fonda besed v obeh vzorcih in za ugotavljanje besedam pripadajočih oblikoslovnih oznak v drugem vzorcu je bil slovar besednih oblik SSKJ organiziran v dve datoteki. V prvi so shranjene abecedno urejene besedne oblike in pri vsaki še stisnjene kode s podatki o lemah in oznakah, kakršni so bili navedeni v tabelah 12, 15 in 17 - dolga je 10.470.706 bajtov, v drugi pa dekomprimiranju namenjeni slovar 7.080 stisnjenih kod in ustreznih podatkov - dolga je 142.252 bajtov.

Poleg tega je bil pri preverjanju uporabljen še slovar besed pri postavljanju in preizkušanju prvega oblikoslovnega označevalnika zbranega gradiva (Jakopin in Bizjak 1997, 330.000 besed), ki vsebuje štiri prozna dela (Pomladni dan in Prazno ptičnico Cirila Kosmača, Platonovo Državo in Orwellov 1984) ter vzorec iz časopisa Delo. Ta slovar obsega 45.304 različne besedne oblike (ki imajo seveda tudi podatke o oblikoslovnih oznakah). Rezultati preverjanja so navedeni v tabeli 18.

Tabela 18: Rezultat preverjanja besednih oblik iz obeh vzorcev

                                         Prvi vzorec %      Drugi vzorec %



Skupaj besednih oblik                 174.579    100,00    36.473    100,00



Prepoznanih s slovarjem oblik iz SSKJ 143.933     82,45    31.656     86,79

Prepoznanih s slovarjem iz gradiva    4.335     2,48     2.924     8,02



Ostanek                               26.311     15,07     1.893     5,19

Žal niso ohranjeni podatki o številu različnih besed v obeh vzorcih na začetku, še pred kakršnim koli popravljanjem. Napake, ki so bile odkrite pri različnih delih z vzorcema, že ob njunem sestavljanju samem, so bile popravljane sproti in vodenje evidence ob tem ni bilo izvedljivo. Napak je bilo ponekod zelo veliko - tudi več na vrstico, ponekod pa le ena na nekaj vrstic ali še manj.

Kot je videti iz zgornje tabele, je bilo s pomočjo izpeljank iz SSKJ v prvem vzorcu prepoznanih dobrih 82 % besed, v drugem pa skoraj 87 %. Po upoštevanju še besed iz doslej obdelanega gradiva je na koncu v prvem vzorcu ostalo dobrih 26.000 besed ali 15 % celote, v drugem vzorcu pa veliko manj, le slabih 2.000 ali 5 % vsega; dva romana iz tega vzorca (37 % celote) sta bila namreč že vključena v gradivo. Med neprepoznanimi besedami so predvsem lastna imena, ki jih je bilo v prvem vzorcu (vključuje tudi potopisna in spominska dela ter prevode) razmeroma več kot v drugem. To dejstvo utegne biti eden glavnih razlogov za opazno razliko pri preseku med posameznim vzorcem in SSKJ (82 % proti 87 %).

Na hipotetično vprašanje, koliko je bilo lem, iz katerih izhajajo prepoznane in neprepoznane besedne oblike, je odgovor mogoče podati za drugi vzorec, ki je bil oblikoslovno označen in lematiziran. Prepoznane besedne oblike v njem so izhajale iz 13.524 lem (11.978 iz SSKJ in 1.546 iz že obdelanega gradiva) od vsega skupaj 15.140, se pravi da je bil tu delež prepoznanega 89,33 %, skoraj 6 % manj kot pri besednih oblikah. Za ugotavljanje števila lem, iz katerih izhajajo prepoznane oblike pri prvem vzorcu, bi bilo potrebno prvi vzorec še lematizirati, ocenimo pa lahko, da bi bil delež tudi tam nižji.

Preostale besede iz prvega vzorca so bile ročno pregledane in popravljene - na računalniku z 32 MB pomnilnika sta bili v njem sočasno lahko tako vzorec sam kot tudi slovar neznanih besed. Preverjanje sumljive besede v slovarju (ukaz na funkcijski tipki jo je potegnil v iskalni niz in aktiviral iskanje v vzorcu) je trajalo manj kot 10 sekund. Ob tem so bili sproti označevani še do takrat neodkriti tuji citati.

Postopek pri drugem vzorcu, kjer je bilo besed sicer veliko manj, a jim je bilo treba poleg preverjanja dodati še oblikoslovne oznake, je bil podoben, le da je bil slovar neznanih besed obrnjen (urejen po koncih). Končnice besed vsebujejo veliko informacije o pregibanju, ki je v neposredni zvezi z oblikoslovno oznako, in tako je delo lažje.

Naslov strani: http://www.jakopin.net/primoz/disertacija/priprava.php Datum: 26. junij 1999. Zadnja sprememba: 17. februar 2017. 4122

Naprej: Oblikoslovno označevanje Nazaj: Viri Kazalo Začetek Konec

angl.	dol.	gen.	izr.	oz.	st.
arch.	dr.	gor.	l.r.	Ph. D.	str.
c. k.	etc.	hon.	mag.	pl.	Sv.
c. kr.	fr.	ilustr.	Mr.	plem.	sv.
c.kr.	g.	ing.	Mrs.	prof.	št.
dipl.	ga.	itd.	npr.	sl.	t.i.
doc.	gdč.	itn.	oec.	St.	t.j.

samosta	tud	zadooljen
samostamu	tudij	zadovljen
samostanju	tudk	zadovljno
samotan	tui	zadovojen
samotanom	tuid

psoebno	(posebno)	voril	(... je go voril ...)
psolovnem	(poslovnem)	vorili	(... nista go vorili radi o ...)
psomladi	(spomladi)	voriva	(Pa go voriva pametno!)
psotala	(postala)	vorčekrvnega	(... njegovega vorčekrvnega sina ...)
psotavil	(postavil)	vosjki	(... vojski ...)
psoznamo	(spoznamo)	vote	(... sta si ogledala ex vote.)
ptolej	(potlej)	vouz	(... Comment allez vouz?)
ptomci	(potomci)
ptreboval	(potreboval)
ptrljage	(prtljage)

	paradigem	osnovnih besednih oblik	izpeljanih oblik	različ. izpelj. oblik

samostalnik	59	51.790	941.788	442.451
pridevnik	18	21.674	1.300.644	265.840
glagol	59	18.124	1.245.244	377.837

Skupaj	136	91.588	3.487.676	1.075.779

žolčnost	Sže1	podlaket	Sže1	cerkev	Sže1	cerkvah	3evSžd5
žolčnosti	1Sže2	podlakti	2etSže2	cerkve	2evSže2	cerkvama	4evSžd6
žolčnosti	1Sže3	podlakti	2etSže3	cerkvi	2evSže3	breskev	Sže1
žolčnost	Sže4	podlaket	Sže4	cerkev	Sže4	breskve	2evSže2
žolčnosti	1Sže5	podlakti	2etSže5	cerkvi	2evSže5	breskvi	2evSže3
žolčnostjo	2Sže6	podlaktjo	3etSže6	cerkvijo	4evSže6	breskev	Sže4
žolčnosti	1Sžp1	podlakti	2etSžp1	cerkve	2evSžp1	breskvi	2evSže5
žolčnosti	1Sžp2	podlakti	2etSžp2	cerkva	2evSžp2	breskvijo	4evSže6
žolčnostim	2Sžp3	podlaktim	3etSžp3	cerkev	Sžp2	breskve	2evSžp1
žolčnosti	1Sžp4	podlakti	2etSžp4	cerkvam	3evSžp3	breskev	Sžp2
žolčnostih	2Sžp5	podlaktih	3etSžp5	cerkve	2evSžp4	breskvam	3evSžp3
žolčnostmi	2Sžp6	podlaktmi	3etSžp6	cerkvah	3evSžp5	breskve	2evSžp4
žolčnosti	1Sžd1	podlakti	2etSžd1	cerkvami	4evSžp6	breskvah	3evSžp5
žolčnosti	1Sžd2	podlakti	2etSžd2	cerkvi	2evSžd1	breskvami	4evSžp6
žolčnostma	2Sžd3	podlaktma	3etSžd3	cerkve	2evSžd1	breskvi	2evSžd1
žolčnostima	3Sžd3	podlaktima	4etSžd3	cerkva	2evSžd2	breskev	Sžd2
žolčnosti	1Sžd4	podlakti	2etSžd4	cerkev	Sžd2	breskvama	4evSžd3
žolčnostih	2Sžd5	podlaktih	3etSžd5	cerkvama	4evSžd3	breskvi	2evSžd4
žolčnostma	2Sžd6	podlaktma	3etSžd6	cerkvi	2evSžd4	breskvah	3evSžd5
žolčnostima	3Sžd6	podlaktima	4etSžd6	cerkve	2evSžd4	breskvama	4evSžd6

-	rodilniška osnova
&	sledi še ena varianta za isti sklon
<	osnovna oblika za ženski spol
>	osnovna oblika za srednji spol
=	primerniška osnova (primernik moškega spola brez i na koncu)
+	primerniška osnova brez končnega š
ł	oblike ni (npr. pri paradigmah, kjer ni določne oblike)

hud	Pme1	huda	1Psp1	hujši	3dPžd1j	najhujša	3d:3Pže1jj
hudega	3Pme2	hudih	2Psp2	hujših	4dPžd2j	najhujše	3d:3Pže2jj
hudemu	3Pme3	hudim	2Psp3	hujšima	5dPžd3j	najhujši	3d:3Pže3jj
hud	Pme4	huda	1Psp4	hujši	3dPžd4j	najhujšo	3d:3Pže4jj
hudega	3Pme4	hudih	2Psp5	hujših	4dPžd5j	najhujši	3d:3Pže5jj
hudem	2Pme5	hudimi	3Psp6	hujšima	5dPžd6j	najhujšo	3d:3Pže6jj
hudim	2Pme6	hudi	1Psd1	hujše	3dPse1j	najhujše	3d:3Pžp1jj
hudi	1Pmp1	hudih	2Psd2	hujšega	5dPse2j	najhujših	4d:3Pžp2jj
hudih	2Pmp2	hudima	3Psd3	hujšemu	5dPse3j	najhujšim	4d:3Pžp3jj
hudim	2Pmp3	hudi	1Psd4	hujše	3dPse4j	najhujše	3d:3Pžp4jj
hude	1Pmp4	hudih	2Psd5	hujšem	4dPse5j	najhujših	4d:3Pžp5jj
hudih	2Pmp5	hudima	3Psd6	hujšim	4dPse6j	najhujšimi	5d:3Pžp6jj
hudimi	3Pmp6	hujši	3dPme1j	hujša	3dPsp1j	najhujši	3d:3Pžd1jj
huda	1Pmd1	hujšega	5dPme2j	hujših	4dPsp2j	najhujših	4d:3Pžd2jj
hudih	2Pmd2	hujšemu	5dPme3j	hujšim	4dPsp3j	najhujšima	5d:3Pžd3jj
hudima	3Pmd3	hujši	3dPme4j	hujša	3dPsp4j	najhujši	3d:3Pžd4jj
huda	1Pmd4	hujšega	5dPme4j	hujših	4dPsp5j	najhujših	4d:3Pžd5jj
hudih	2Pmd5	hujšem	4dPme5j	hujšimi	5dPsp6j	najhujšima	5d:3Pžd6jj
hudima	3Pmd6	hujšim	4dPme6j	hujši	3dPsd1j	najhujše	3d:3Pse1jj
huda	1Pže1	hujši	3dPmp1j	hujših	4dPsd2j	najhujšega	5d:3Pse2jj
hude	1Pže2	hujših	4dPmp2j	hujšima	5dPsd3j	najhujšemu	5d:3Pse3jj
hudi	1Pže3	hujšim	4dPmp3j	hujši	3dPsd4j	najhujše	3d:3Pse4jj
hudo	1Pže4	hujše	3dPmp4j	hujših	4dPsd5j	najhujšem	4d:3Pse5jj
hudi	1Pže5	hujših	4dPmp5j	hujšima	5dPsd6j	najhujšim	4d:3Pse6jj
hudo	1Pže6	hujšimi	5dPmp6j	najhujši	3d:3Pme1jj	najhujša	3d:3Psp1jj
hude	1Pžp1	hujša	3dPmd1j	najhujšega	5d:3Pme2jj	najhujših	4d:3Psp2jj
hudih	2Pžp2	hujših	4dPmd2j	najhujšemu	5d:3Pme3jj	najhujšim	4d:3Psp3jj
hudim	2Pžp3	hujšima	5dPmd3j	najhujši	3d:3Pme4jj	najhujša	3d:3Psp4jj
hude	1Pžp4	hujša	3dPmd4j	najhujšega	5d:3Pme4jj	najhujših	4d:3Psp5jj
hudih	2Pžp5	hujših	4dPmd5j	najhujšem	4d:3Pme5jj	najhujšimi	5d:3Psp6jj
hudimi	3Pžp6	hujšima	5dPmd6j	najhujšim	4d:3Pme6jj	najhujši	3d:3Psd1jj
hudi	1Pžd1	hujša	3dPže1j	najhujši	3d:3Pmp1jj	najhujših	4d:3Psd2jj
hudih	2Pžd2	hujše	3dPže2j	najhujših	4d:3Pmp2jj	najhujšima	5d:3Psd3jj
hudima	3Pžd3	hujši	3dPže3j	najhujšim	4d:3Pmp3jj	najhujši	3d:3Psd4jj
hudi	1Pžd4	hujšo	3dPže4j	najhujše	3d:3Pmp4jj	najhujših	4d:3Psd5jj
hudih	2Pžd5	hujši	3dPže5j	najhujših	4d:3Pmp5jj	najhujšima	5d:3Psd6jj
hudima	3Pžd6	hujšo	3dPže6j	najhujšimi	5d:3Pmp6jj	hudi	1Pme1i
hudo	1Pse1	hujše	3dPžp1j	najhujša	3d:3Pmd1jj	hudi	1Pme4i
hudega	3Pse2	hujših	4dPžp2j	najhujših	4d:3Pmd2jj	hudo	1A
hudemu	3Pse3	hujšim	4dPžp3j	najhujšima	5d:3Pmd3jj	huje	2doAj
hudo	1Pse4	hujše	3dPžp4j	najhujša	3d:3Pmd4jj	hujše	3doAj
hudem	2Pse5	hujših	4dPžp5j	najhujših	4d:3Pmd5jj	najhuje	2do:3Ajj
hudim	2Pse6	hujšimi	5dPžp6j	najhujšima	5d:3Pmd6jj	najhujše	3do:3Ajj

videti	GNE	videče	1GČžp1	videča	1PČže1	videna	1GNmd1	videni	1PNmp1
vidim	2etiGae	videčih	2GČžp2	videče	1PČže2	videnih	2GNmd2	videnih	2PNmp2
vidiš	2etiGbe	videčim	2GČžp3	videči	1PČže3	videnima	3GNmd3	videnim	2PNmp3
vidi	1etiGce	videče	1GČžp4	videčo	1PČže4	videna	1GNmd4	videne	1PNmp4
vidimo	3etiGap	videčih	2GČžp5	videči	1PČže5	videnih	2GNmd5	videnih	2PNmp5
vidite	3etiGbp	videčimi	3GČžp6	videčo	1PČže6	videnima	3GNmd6	videnimi	3PNmp6
vidijo	3etiGcp	videči	1GČžd1	videče	1PČžp1	videna	1GNže1	videna	1PNmd1
vidiva	3etiGad	videčih	2GČžd2	videčih	2PČžp2	videne	1GNže2	videnih	2PNmd2
vidita	3etiGbd	videčima	3GČžd3	videčim	2PČžp3	videni	1GNže3	videnima	3PNmd3
vidita	3etiGcd	videči	1GČžd4	videče	1PČžp4	videno	1GNže4	videna	1PNmd4
vidi	1etiGVbe	videčih	2GČžd5	videčih	2PČžp5	videni	1GNže5	videnih	2PNmd5
vidimo	3etiGVap	videčima	3GČžd6	videčimi	3PČžp6	videno	1GNže6	videnima	3PNmd6
vidite	3etiGVbp	videče	1GČse1	videči	1PČžd1	videne	1GNžp1	videna	1PNže1
vidiva	3etiGVad	videčega	3GČse2	videčih	2PČžd2	videnih	2GNžp2	videne	1PNže2
vidita	3etiGVbd	videčemu	3GČse3	videčima	3PČžd3	videnim	2GNžp3	videni	1PNže3
videl	1tiGLme	videče	1GČse4	videči	1PČžd4	videne	1GNžp4	videno	1PNže4
videla	2tiGLže	videčem	2GČse5	videčih	2PČžd5	videnih	2GNžp5	videni	1PNže5
videlo	2tiGLse	videčim	2GČse6	videčima	3PČžd6	videnimi	3GNžp6	videno	1PNže6
videli	2tiGLmp	videča	1GČsp1	videče	1PČse1	videni	1GNžd1	videne	1PNžp1
videle	2tiGLžp	videčih	2GČsp2	videčega	3PČse2	videnih	2GNžd2	videnih	2PNžp2
videla	2tiGLsp	videčim	2GČsp3	videčemu	3PČse3	videnima	3GNžd3	videnim	2PNžp3
videla	2tiGLmd	videča	1GČsp4	videče	1PČse4	videni	1GNžd4	videne	1PNžp4
videli	2tiGLžd	videčih	2GČsp5	videčem	2PČse5	videnih	2GNžd5	videnih	2PNžp5
videli	2tiGLsd	videčimi	3GČsp6	videčim	2PČse6	videnima	3GNžd6	videnimi	3PNžp6
videt	iGNA	videči	1GČsd1	videča	1PČsp1	videno	1GNse1	videni	1PNžd1
videvši	A	videčih	2GČsd2	videčih	2PČsp2	videnega	3GNse2	videnih	2PNžd2
videč	GČme1	videčima	3GČsd3	videčim	2PČsp3	videnemu	3GNse3	videnima	3PNžd3
videčega	3GČme2	videči	1GČsd4	videča	1PČsp4	videno	1GNse4	videni	1PNžd4
videčemu	3GČme3	videčih	2GČsd5	videčih	2PČsp5	videnem	2GNse5	videnih	2PNžd5
videč	GČme4	videčima	3GČsd6	videčimi	3PČsp6	videnim	2GNse6	videnima	3PNžd6
videčega	3GČme4	videči	1GČme1i	videči	1PČsd1	videna	1GNsp1	videno	1PNse1
videčem	2GČme5	videče	A	videčih	2PČsd2	videnih	2GNsp2	videnega	3PNse2
videčim	2GČme6	videč	PČme1	videčima	3PČsd3	videnim	2GNsp3	videnemu	3PNse3
videči	1GČmp1	videčega	3PČme2	videči	1PČsd4	videna	1GNsp4	videno	1PNse4
videčih	2GČmp2	videčemu	3PČme3	videčih	2PČsd5	videnih	2GNsp5	videnem	2PNse5
videčim	2GČmp3	videč	PČme4	videčima	3PČsd6	videnimi	3GNsp6	videnim	2PNse6
videče	1GČmp4	videčega	3PČme4	videči	1PČme1i	videni	1GNsd1	videna	1PNsp1
videčih	2GČmp5	videčem	2PČme5	videče	A	videnih	2GNsd2	videnih	2PNsp2
videčimi	3GČmp6	videčim	2PČme6	viden	GNme1	videnima	3GNsd3	videnim	2PNsp3
videča	1GČmd1	videči	1PČmp1	videnega	3GNme2	videni	1GNsd4	videna	1PNsp4
videčih	2GČmd2	videčih	2PČmp2	videnemu	3GNme3	videnih	2GNsd5	videnih	2PNsp5
videčima	3GČmd3	videčim	2PČmp3	viden	GNme4	videnima	3GNsd6	videnimi	3PNsp6
videča	1GČmd4	videče	1PČmp4	videnega	3GNme4	videni	1GNme1i	videni	1PNsd1
videčih	2GČmd5	videčih	2PČmp5	videnem	2GNme5	videno	A	videnih	2PNsd2
videčima	3GČmd6	videčimi	3PČmp6	videnim	2GNme6	viden	PNme1	videnima	3PNsd3
videča	1GČže1	videča	1PČmd1	videni	1GNmp1	videnega	3PNme2	videni	1PNsd4
videče	1GČže2	videčih	2PČmd2	videnih	2GNmp2	videnemu	3PNme3	videnih	2PNsd5
videči	1GČže3	videčima	3PČmd3	videnim	2GNmp3	viden	PNme4	videnima	3PNsd6
videčo	1GČže4	videča	1PČmd4	videne	1GNmp4	videnega	3PNme4	videni	1PNme1i
videči	1GČže5	videčih	2PČmd5	videnih	2GNmp5	videnem	2PNme5	videno	A
videčo	1GČže6	videčima	3PČmd6	videnimi	3GNmp6	videnim	2PNme6

	Prvi vzorec	%	Drugi vzorec	%

Skupaj besednih oblik	174.579	100,00	36.473	100,00

Prepoznanih s slovarjem oblik iz SSKJ	143.933	82,45	31.656	86,79
Prepoznanih s slovarjem iz gradiva	4.335	2,48	2.924	8,02

Ostanek	26.311	15,07	1.893	5,19