Nazaj: Viri      Naprej: Oblikoslovno označevanje      Kazalo    Začetek    Konec

Doktorska disertacija P. Jakopina, str. 13 - 34

3. poglavje

Priprava besedil

3.1  Format besedil
     3.1.1  Dodatni simboli
     3.1.2  Zaglavja besedil
3.2  Označevanje gradnikov besedila
     3.2.1  Odstavki
     3.2.2  Povedi
     3.2.3  Premi govor
     3.2.4  Citati, vzdevki in ostalo
3.3  Vprašanje napak
     3.3.1  Napake pri prepoznavanju
3.4  Zbirka besed iz SSKJ
     3.4.1  Samostalniki
     3.4.2  Pridevniki
     3.4.3  Glagoli
     3.4.4  Preverjanje s slovarjem izpeljank

3.1 Format besedil

Kot je bilo že omenjeno v poglavju o virih, so bile elektronske verzije besedil obeh vzorcev pripravljene na zelo različne načine. Navadno se tudi niso strogo držale vrstičnega reda v tiskani različici dela, ampak so bile vrstice, predvsem kadar so bila dela pretipkana, dolge toliko, kolikor črk je imel urejevalnik v eni vrstici na zaslonu. Odstavki so se seveda ujemali z izvirnikom, meje strani pa so v veliki večini primerov manjkale. Pri odločanju, kako naj bo besedilo v obeh vzorcih interno shranjeno, je bilo upoštevanih več zahtev:

  • berljivost besedila
  • ustrezanje mednarodnim standardom za shranjevanju besedil
  • primernost za nadaljnje obdelave
  • enostaven prenos na internet   

    Prva zahteva, zahteva po berljivosti, je bila postavljena zaradi čim lažjega ročnega branja in preverjanja besedil. Dodatne informacije, vnesene v besedilo - meje odstavkov, povedi, oznake za premi govor in podobno, morajo biti sicer vidne, vendar ne tako vpadljive, da zaradi njih ni jasno videti besedila samega. Da bi bila zahteva izpolnjena, so bile v okviru možnosti, ki jih je avtorju nudila arhitektura urejevalnika EVA (16-bitni nabor znakov, lasten rastrski zapis njihovih slik), vse dodatne oznake kodirane kot posebni znaki.

    Druge zahteve ni potrebno posebej utemeljevati. V zadnjih dveh letih so standardi (npr. Erjavec 1997) in priporočila (Baker idr. 1997) za shranjevanje besedil dobili že bolj konkretne in jasne oblike; strukturiranje besedil pri tej nalogi je bilo opravljeno do ravni povedi; posebej je označen premi govor. Dodatne oznake, vnešene v besedilo, je mogoče enostavno nadomestiti z oznakami po standardu SGML oz. XML.

    Tretja zahteva, predvsem tako oblikovanje besedila, da ga za kasnejšo morebitno oblikoslovno označitev (angl. part-of-speech tagging) ne bi bilo treba preurejati, je pomenila, da morajo biti vrstice krajše, kot bi sicer lahko bile, saj so oblikoslovne oznake velikokrat daljše od besed in je potrebno za ujemanje začetkov besed in oznak pod njimi predvideti nekaj dodatnega prostora. Na sliki 1 je najprej naveden primer neoznačenega besedila, pisan z običajnimi zaslonskimi črkami urejevalnika, na sliki 2 pa isti odstavek, tokrat dopolnjen z oznakami za začetke in konce odstavkov in povedi ter z oblikoslovnimi oznakami besed v vsaki drugi vrstici:

    Slika 1: Primer neoznačenega besedila (C. Kosmač, Kamen in njiva)


    Slika 2: Označeno besedilo iz slike 1

       

    Za besedami, katerih oblikoslovne oznake so daljše, je še ustrezno število mehkih presledkov.

    V skladu s to zahtevo so bila besedila na novo formatirana v vrstice, ki niso bile daljše kot 57 znakov, kar je pomenilo vsaj 21 znakov dodatnega prostora v vsaki; vrstica urejevalnika EVA z običajnimi zaslonskimi črkami ima pri zaslonski ločljivosti 800 x 600 pik namreč 78 enako širokih znakov.

    Četrta zahteva, naj bo besedilo shranjeno tako, da bo možna kar najenostavnejša pretvorba v format HTML, je zahtevala ureditev predvsem zaglavja pred vsakim besedilom in uvedbo nekaterih dodatnih oznak, npr. za dele besedila, ki morajo biti napisani z enako širokimi črkami (npr. ladijski vozni red v romanu J. Verna V osemdesetih dneh okoli sveta.) Odločiti se je bilo treba tudi, kako interno prikazati meje odstavkov. V knjigah so navadno pisani z zamikom približno 5 presledkov, na internetu pa določilo <p> izpusti eno prazno vrstico in so tako odstavki v knjižnih delih tam navadno upodobljeni brez zamika v desno, zato pa s prazno vrstico. Ker pregledovalnika na internetu običajno uporabljata proporcionalno široke črke, je presledek razmeroma ozek, ožji tudi od večine malih črk in pet presledkov na začetku odstavka ni prav opaznih. Zato je v obeh vzorcih na začetku odstavka zamik 8 presledkov, ki se pri pretvorbi v obliko HTML spremenijo v trde presledke in jih pregledovalnika ne združita. Določilo <p> je pri pretvorbi v obliko HTML izpuščeno, namesto </p> pa je uporabljen le prelom vrstice - <br>.

    3.1.1 Dodatni simboli

    Zaradi zahtev iz prejšnjega razdelka in zaradi omejitve, da se v analizi upoštevajo le slovenski deli besedil (tuji citati pa ne), so bili uvedeni naslednji dodatni simboli iz tabele 5.

    Tabela 5: Simboli za označevanje besedila

       

    Gre za 22 simbolov, ki nastopajo v parih - prvi stoji pred označenim delom besedila, drugi pa za njim. V tabeli sta za slikama obeh znakov vedno navedeni še njuni kodi. Prvi par simbolov, s kodama 246 in 247, služi za označevanje tistega v besedilu, kar ni pravo besedilo. Primer so oznake vrstic (dodane v 16. stoletju) v poglavjih Nove zaveze:

    Sledita simbola s kodama 248 in 249, ki označujeta začetek in konec citatov v tujem jeziku ali v zelo popačeni slovenščini:

    Naslednji trije pari, s kodami 250 in 251, 252 in 253, 254 in 255, označujejo začetek in konec odstavka, premega govora in povedi (v primeru zgoraj):

    Sledi par s kodama 256 in 257, ki označuje besedilo, ki naj ga pregledovalnik na internetu postavi na sredino:

    Tudi par s kodama 258 in 259 je tu zaradi interneta - označuje del besedila, ki ga mora pregledovalnik pustiti pri miru, vrstice morajo ostati, kot so, brez reformatiranja in brez izpuščanja presledkov pred njimi:

    Predzadnja para, s kodama 260 in 261 ter 262 in 263, označujeta citate in vzdevke (angl. citation in so called):

    Na koncu seznama je najprej par s kodama 264 in 265:

    ki je namenjen označevanju delov besedila, za katere označevalec še ne ve, kam bi jih uvrstil - v končni verziji obeh vzorcev se ne pojavi več.
    Zadnji par, s kodama 266 in 267, pa označuje dele besedila, ki naj jih internetna pregledovalnika prikažeta s črkami enake širine:


    3.1.2 Zaglavja besedil

    Ker bi bilo opravljanje večjega števila postopkov pri urejanju, popravljanju in označevanju nad besedili, če bi bilo vsako v svoji datoteki, še veliko bolj zamudno, nepregledno in neobvladljivo, se je avtor odločil, da bo zložil vsa besedila vsakega vzorca skupaj. Nastali sta dve datoteki, po vseh postopkih je prva velika slabih 25 megabajtov, druga pa, z oblikoslovnimi oznakami vred malo manj kot 7. Prvo se ravno še da obdelovati na računalniku z 32 megabajti pomnilnika in operacijskim sistemom Windows 95.

    Na strežniku interneta mora biti vsako besedilo seveda v svoji datoteki, in če naj bodo vse te datoteke (tipa HTML) strojno generirane iz ene same v formatu urejevalnika EVA, je treba pri pretvorbi od nekod črpati tiste parametre o vsakem besedilu, ki so značilni zanj. Avtor se je odločil, da bodo shranjeni v posebnem zaglavju pred vsakim besedilom, kadar je le-to oblikoslovno označeno, pa še v kratkem dodatku na koncu. Primer iz prvega vzorca je zaglavje romana Devet fantov in eno dekle:

    Zaradi analogije z imeni oznak v jeziku SGML, ki so v angleškem jeziku, so tudi imena spremenljivk iz zaglavja v tem jeziku. Zaglavja pri drugem vzorcu so zelo podobna, le da imajo eno spremenljivko več:

        Zaglavje je napisano v obliki komentarskih vrstic (to je vsaka vrstica v EVI, ki se začne z dvojnim karom, presledkom in poševnico - levo ali desno). Vsaka navadno vsebuje ime spremenljivke, njeno vrednost in oznako za konec (ime spremenljivke s poševnico spredaj).

    Določilo hudo.482 v prejšnjem primeru pomeni številko strani v izvirniku, določilo pa, da je besedilo oblikoslovno označeno; na koncu datoteke bi seveda sledila še komentarska vrstica z določilom .

    Ukaz v urejevalniku EVA, ki iz datoteke posameznega vzorca naredi desetine datotek tipa HTML, potrebuje le še pomožno datoteko z osnutkom, parametre besedila in njegovo vsebino pa najde v osnovni datoteki. Datoteka z osnutkom, oropana nebistvenih dodatkov in malo bolj na gosto napisana, bi bila lahko videti takole:

    Vsaka datoteka tipa HTML, ki bo nastala iz datoteke z vzorcem, bo imela na začetku prvi del datoteke z osnutkom do vrstice iz dvojnih karov, kjer pa bodo imena spremenljivk pri vsaki datoteki (označena so z znakom $) nadomeščena z vrednostmi iz zaglavij ustreznega besedila. Na mesto vrstice dvojnih karov (v EVI navadno označuje konec strani) pride besedilo sámo, seveda ustrezno prekodirano, na konec vsake datoteke pa drugi del osnutka, spet z ustreznimi vrednostmi spremenljivk.


    3.2 Označevanje gradnikov besedila

    Od tega, do katere globine je besedilo v elektronski obliki označeno, je v največji meri odvisno, kaj se bo dalo z njim napraviti. Leposlovna besedila v svetovnih jezikih, predvsem seveda v angleškem jeziku, ki so dostopna preko interneta so navadno shranjena kot običajne besedilne datoteke (z imenskim podaljškom TXT), ki jih lahko urejamo s poljubnim urejevalnikom ali pa so, navadno s programom, prevedena v obliko HTML. V prvem primeru so vrstice tudi v datoteki navadno zvesta podoba vrstic v tiskanem besedilu, z izpuščenimi mejami strani, v drugem pa internetna pregledovalnika sama skrbita za dolžine vrstic; označeni so le odstavki, med njimi pa prazne vrstice. Tuji besedilni korpusi, npr. British National Corpus (glej prilogo D na str. 201), so seveda označeni vsaj do ravni povedi, velikokrat, še posebej v zadnjem času, pa so označeni tudi oblikoslovno (angl. part-of-speech).

       

    V primeru obeh vzorcev iz te naloge, zbranih predvsem za ugotavljanje entropije, se je bilo torej treba odločiti, kako daleč naj bosta označena, kaj naj bo osnovna enota besedila, ki še pride v poštev pri analizi. Za to, da morata biti oba vzorca označena, je poleg tujih zgledov seveda še več razlogov. Po eni strani vsako označevanje namreč prinese tudi tako ali drugačno preverjanje besedila; pri preverjanju pa vedno pride tudi do odpravljanja napak, ki umetno povečujejo entropijo. Po drugi strani pa je označevanje nujno za vsako resnejšo statistično analizo besedila in za uporabnost besedila še pri drugih, kasnejših znanstvenih raziskavah ali obdelavah. Kot osnovni gradnik se glede na vrsto besedila v obeh vzorcih kar sama vsiljuje poved kot najmanjša zaključena enota. Odstavek kot alternativna možnost je veliko ohlapnejši. Posebej v delih besedila, kjer je veliko dialogov s premim govorom, pa so meje odstavkov velikokrat tudi meje povedi.

    Glede na razpoložljiv čas in možnosti se je avtor odločil, da bosta oba vzorca označena do ravni povedi in premega govora; kot je bilo že omenjeno v razdelku o dodatnih simbolih, so bili označeni tudi tisti deli besedila, ki ali niso slovenski (tuji citati, popačena slovenščina) ali pa sploh niso besedilo. Število posameznih gradnikov - odstavkov, povedi, premega govora in drugega - je navedeno v razdelku o črkah (str. 48).

    3.2.1 Odstavki

    Označitev odstavkov v besedilih načelno ni bila problematična. Besedila iz Hladnikove zbirke na internetu so že imela ustrezni oznaki za začetek in konec: <p> in </p>, pri drugih besedilih pa se je dalo orientirati ali s pomočjo praznih vrstic ali pa po zamiku na začetku prve vrstice odstavka. Označitev in reformatiranje odstavkov (na 57 znakov dolge vrstice) sta bila opravljena po predobdelavi besedil z ustreznimi makroprogrami urejevalnika EVA, podobnimi skriptom v jeziku PERL (glej prilogo D na str. 201), ki se navadno uporabljajo v ta namen v drugih okoljih. Pri obeh vzorcih je prišlo do napačnih označitev predvsem pri vrinjenih delih besedila, kot so npr. citirani verzi ali pesmim podoben govor (npr. v Novi zavezi). Nekaj se jih je dalo odkriti po mali začetnici na začetku takega vložka, nekaj pa le z ročnim pregledom sumljivih mest.

    3.2.2 Povedi

    Pri označitvi povedi je treba upoštevati bistveno več elementov kot pri odstavkih. Štiri besedila - Platonova Država, Orwellov 1984 ter Kosmačeva Pomladni dan in Prazna ptičnica - so imela konce povedi (znak s kodo 255) označene že prej (Jakopin in Bizjak 1997); tu je bilo treba dodati le oznake začetkov povedi na ustrezna mesta pred prvo naslednjo veliko začetnico. Pri drugih besedilih so bila kot konec povedi upoštevana tale štiri ločila: pika (.), klicaj (!), vprašaj (?) in dvopičje (:), če jim je sledila beseda, pisana z veliko začetnico. Pri pikah so bile upoštevane te kratice:

    Tabela 6: Kratice, upoštevane pri strojnem prelomu na povedi

    angl.      dol.    gen.    izr.    oz.    st.
    arch.      dr.    gor.    l.r.    Ph. D.    str.
    c. k.      etc.    hon.    mag.    pl.    Sv.
    c. kr.     fr.    ilustr.    Mr.    plem.    sv.
    c.kr.      g.    ing.    Mrs.    prof.    št.
    dipl.      ga.    itd.    npr.    sl.    t.i.
    doc.       gdč.    itn.    oec.    St.    t.j.

    Beseda z veliko začetnico za kratico namreč ne pomeni vedno tudi začetka nove povedi. Nekaj kratic je bilo avtorju znanih že od prej, druge pa je poiskal med najpogostejšimi besedami, ki jim sledi pika. Pojavitve števil, za katerimi je pika, so bile pregledane ročno. Upoštevana je bila tudi omejitev, da gnezdenje povedi čez meje odstavkov ni dovoljeno - da se mora poved obvezno končati s koncem odstavka. Omejitev se je izkazala za nestvarno v približno desetih primerih. Večdelne kratice, npr. c. kr., je avtor povezal v celoto tako, da je pri njih povsod nadomestil navaden presledek s trdim presledkom (koda 185), tako da so pri prelomu besedila na besede ostale skupaj kot ena enota. Skupaj je povezal tudi kratice in besede za njimi, kadar tvorijo pojem, ki ga poznamo kot celoto, predvsem pri večbesednih lastnih imenih, npr. Sv. Lucija ali Hong Kong.

    3.2.3 Premi govor

    Označitev premega govora je bila med zamudnejšimi opravili pri pripravi besedil. V manjšem številu primerov je bil premi govor označen z znaki, ki jih najdemo v knjigah: k j  Ś š   § ş   Ş Ť   Ź S. Pri optičnem prepoznavanju znakov so bila nekatera izmed teh ločil napačno interpretirana kot vejice, >> in <<, pike in podobno. Avtor je programsko s posebnim znakom, dvojnim vprašajem, označil mesta v besedilu, kjer je za posamezne pare prihajalo do napačnega gnezdenja, in tista mesta potem ročno popravil.

    V večjem delu je bil začetek in konec premega govora označen z istim znakom, dvojnim narekovajem: " in tu je, spet zaradi pretežno optičnega vnosa, prihajalo do zelo velikega števila neujemanj pri gnezdenju - reda velikosti 1.500 napak za oba vzorca. Napako (npr. manjkajoči zaključek premega govora) je program žal lahko odkril šele pri naslednjem premem govoru in je bilo treba pri ročnem popravljanju iskati včasih daleč nazaj.

    V marsikaterih tiskih pa je bil začetek premega govora označen s pomišljajem (-) na začetku odstavka, konec je pa ali bil ali pa manjkal, kot v spodnjem primeru iz Pomladnega dneva:

    Postopek je bilo v tem primeru mogoče delno avtomatizirati s kontrolo gnezdenja in ročnimi popravki v drugi fazi.

    3.2.4 Citati, vzdevki in drugo

    Ker je predmet proučevanja naloge le slovenski del leposlovnih besedil, je bilo treba označiti vse dele, ki niso bili v slovenskem jeziku. Pri drugem vzorcu, ki je bil večkrat cel ročno pregledan, so bili ti deli besedila označeni ročno, v prvem vzorcu pa v več fazah. Najprej je avtor med zelo pogostimi besednimi oblikami poiskal tiste, ki jih v slovenskem jeziku sploh ni ali so redke, v drugih jezikih, predvsem angleškem, nemškem, italijanskem, francoskem, srbskem in hrvaškem ter latinskem (veliko romanov je zgodovinskih), pa so zelo pogoste. Primeri so: an, and, are, as, das, de, der, di, die, du, e, est, et, for, für, I, is, ist, la, non, of, quod, su, sunt, the, u, und in you. V veliki večini primerov je bila njihova okolica citat v tujem jeziku in potem ročno označena. Delo s sorazmerno največ tujimi citati je Thabiti Kumi Ivana Preglja - dolgo je 9.362 besed; v njem je kar 93 latinskih citatov s 521 besedami ali skoraj 6 % celote. Nekaj preostalih citatov v drugih jezikih je avtor odkril pri pregledovanju besedil zaradi kakih razlogov, ki niso bili povezani z iskanjem citatov, še največ pa pri popravljanju napačnih besed.

    Citati v slovenskem jeziku in vzdevki so bili v knjižnih verzijah pri delih, kjer je bil premi govor označen s simboloma k in j, navadno označeni z drugačnimi navednicami: Ś š § ş Ş Ť Ź S. Kadar je bil označen z dvojnim narekovajem (") spredaj in zadaj, so bili citati in vzdevki običajno v enojnih navednicah ('). Odločitev, kdaj je del besedila vzdevek in ne citat, ni bila vedno povsem zanesljiva; strogega kriterija, kdaj je nekaj res vzdevek (angl. so-called) in ne citat (angl. citation), namreč ni. Primer:

    Poleg citatov, slovenskih in tujih, ter vzdevkov so bili posebej označeni še deli besedila, ki jih ni mogoče šteti za besedilo, so pa vseeno v njem. Sem sodijo predvsem številke opomb in podobne oznake, npr. številke vrstic v poglavjih Nove zaveze. Slednjih ni bilo težko strojno označiti, ker so imeli spredaj zvezdico. Primer:


    3.3 Vprašanje napak

    Pri sestavljanju vsake besedilne zbirke se pojavi tudi vprašanje napak. Napak v besedilih je več vrst, začenši z avtorjevimi (pri znanih imenih so sicer redke, so pa), do tiskarskih, tistih, ki nastanejo pri prenosu dela v elektronsko obliko, s tipkanjem ali optičnim prepoznavanjem (angl. OCR - Optical Character Recognition) in do tistih, ki so nastale pri prenosu iz enega računalniškega formata v drug (npr. deljaji na koncu vrstic, ki se pri reformatiranju ohranijo sredi vrstic, namesto da bi izginili).

    Stališča do napak v besedilnih zbirkah so različna - poleg klasičnih nazorov, po katerih se je treba proti napakam boriti neusmiljeno in do zadnjega diha, do popolnoma nasprotnih, npr.: "Errors are integral part of text. If you correct them, you lose information" (J. M. Sinclair v predavanju na delavnici: TELRI Birmingham Workshop oktobra 1995 - Jakopin 1996a). Pri slednjem gre za odgovor na vprašanje, zakaj je v besedilnem korpusu Bank of English - zdaj ima že 329.000.000 besed - toliko napak (najpogostejša, hte, ima frekvenco pribl. 4.000). Tudi druge velike besedilne zbirke so precej nasmetene, kar gre po mnenju avtorja pripisati predvsem dejstvu, da so bili viri za njihovo postavitev zelo omejeni, pritisk in želje pa velike, tako da je v dilemi: ali količina ali kakovost zmagala prva. Tako je zelo zgovorno dejstvo, da avtorji doslej največje raziskave o entropiji angleškega jezika (Brown idr. 1992a), ki je zajela 583 milijonov besed, v svojem prispevku o napakah niso napisali niti besedice. Pri manj pomembnih besedilih, raznih zapisnikih in podobnem, napake niti niso tako moteče, v leposlovnih besedilih, ki so namenjena branju, tudi v elektronski obliki, pa zelo kvarijo celo podobo. V pripravo leposlovnih del je vloženega vedno zelo veliko truda - več korektur celega besedila že v rokopisu, potem še vsaj dve korekturi iz tiskarne - kar vse izniči površno pripravljena elektronska izdaja. Upoštevati pa je treba konec koncev tudi dejstvo, da napake umetno povečujejo entropije in zmanjšujejo težo vsake statistične raziskave.

    Tako se je avtor odločil, da bo besedila kolikor se le da očistil, še posebej drugi vzorec. Pri tem je seveda upošteval vire, ki so mu bili na razpolago, in omejen čas raziskave.

    3.3.1 Napake pri prepoznavanju

    Besedila, predvsem iz Hladnikove zbirke na internetu in večji del drugega vzorca, so bila v elektronsko obliko prenesena pretežno s pomočjo optičnega prepoznavanja (OCR). Avtorji prenosa so v uvodu vedno poudarili, da so besedilo po prepoznavanju še natančno prebrali in popravili, da pa ne odgovarjajo za morebitne napake, ki bi še ostale. Žal jim je za branje in popravljanje zmanjkalo časa, saj je v skoraj vseh delih napak kar mrgolelo. Poleg napačnih malih črk v besedah, ki se jih ne da odkriti s kakimi preprostimi prijemi, je bilo precej napak še pri ločilih - presledki pred vejicami in pikami, narazen pisane besede, narobe interpretirane navednice in napačne velike začetnice ter števila (npr. 198O, kjer je na zadnjem mestu velika črka O). Te skupine napak je bilo v veliki meri mogoče odkriti programsko, z iskanjem velikih začetnic, obdanih z malimi, ali kombinacij črka-števka in števka-črka. Najpogostejša napaka te vrste je bila beseda ljudje, napačno pisana kot Ijudje. Njena frekvenca je znašala približno 50.


    3.4 Zbirka besed iz SSKJ

    Večina napak v besedilih je bila v obliki narobe napisanih besed. Predvsem pogoste besede so za seboj potegnile cele grozde napačnih satelitov. Primeri so besede samostan, tudi in zadovoljen:

    Tabela 7: Napake, nastale iz besed samostan, tudi in zadovoljen

    samosta           tud    zadooljen
    samostamu         tudij    zadovljen
    samostanju        tudk    zadovljno
    samotan           tui    zadovojen
    samotanom         tuid

    Dostikrat se je tudi zgodilo, da so se napake v abecednem seznamu vseh besednih oblik zbrale okoli nenavadne ali nemogoče začetne kombinacije črk (v oklepajih so navedene ali pravilne besedne oblike ali pa kontekst napake):

    Tabela 8: Napake na ps, pt in vo

    psoebno        (posebno)    voril    (... je go voril ...)
    psolovnem      (poslovnem)    vorili    (... nista go vorili radi o ...)
    psomladi       (spomladi)    voriva    (Pa go voriva pametno!)
    psotala        (postala)    vorčekrvnega    (... njegovega vorčekrvnega sina ...)
    psotavil       (postavil)    vosjki    (... vojski ...)
    psoznamo       (spoznamo)    vote    (... sta si ogledala ex vote.)
    ptolej         (potlej)    vouz    (... Comment allez vouz?)
    ptomci         (potomci)
    ptreboval      (potreboval)
    ptrljage       (prtljage)

    Da bi bilo mogoče preveriti obsežna seznama besednih oblik (175.000 različnih besednih oblik v prvem vzorcu in 37.000 v drugem) je bilo treba najti kar največjo zbirko vseh možnih slovenskih besednih oblik. Avtor je imel na razpolago Slovar slovenskega knjižnega jezika (SSKJ 1994); sodeloval je pri prenosu v elektronsko obliko kot avtor programa za urejanje in optično prepoznavanje. Slovar obsega 93.151 gesel, med katerimi prevladujejo samostalniki, pridevniki in glagoli. Te tri besedne vrste dajo iz osnovnih besednih oblik (lem) tudi največ izpeljank.

    Tabela 9: Število besed in besednih oblik v SSKJ po vrstah

                  paradigem    osnovnih besednih oblik    izpeljanih oblik    različ. izpelj. oblik
          
    samostalnik     59    51.790     941.788     442.451
    pridevnik       18    21.674    1.300.644     265.840
    glagol          59    18.124    1.245.244     377.837
          
    Skupaj         136    91.588    3.487.676    1.075.779

    Pri oblikovanju paradigem in pri klasifikaciji besednih lem naglasi niso bili upoštevani. Z njimi bi bilo število paradigem (in število besednih izpeljank) še nekoliko večje. Razlog je bil predvsem v tem, da so v pisanih besedilih, kot bo videti tudi v razdelku o statistiki črk, naglasi redki.

    3.4.1 Samostalniki

    Pri samostalnikih je bilo 24 paradigem za moški spol (drugačen četrti sklon pri samostalnikih za živa bitja število precej poveča), 21 za ženski in 14 za srednji, število lem pa 22.459 za moški, 21.156 za ženski in 8.175 za srednji. Pri gradnji paradigem je bil upoštevan predvsem slovnični del uvoda v SSKJ (SSKJ 1994). Primer samostalniških paradigem je naveden v tabeli 10.

    Tabela 10: Tri samostalniške paradigme ženskega spola

    Paradigmo ž13 ima npr. samostalnik podlaket, ž14 cerkev, ž15 pa breskev. Tabela paradigem je urejena kot podatkovna zbirka, kjer ima vsak zapis 4 polja. V prvem je ime oz. šifra paradigme, sledijo pa 3 polja z definicijami za vseh šest sklonov ednine, množine in dvojine. S pomišljajem je navedena uporaba leme, drugače pa le dodatki na rodilniško osnovo; alternativne možnosti so ločene z znakom &.

    Prva vrstica za lemo podlaket, ki ima rodilniško osnovo podlakt, konkretno pomeni, da nastane prvi sklon ednine kar z uporabo leme (-), drugi sklon z dodatkom -i (i) na rodilniško osnovo (podlakti), tretji je enak drugemu, četrti prvemu, peti spet drugemu, za šestega pa je treba rodilniški osnovi dodati -jo (s podlaktjo). Množina ni problematična, pri dvojini pa sta posebnost le dajalnik in orodnik, pri katerih sta dve možnosti - obrazili -ma in -ima na rodilniško osnovo (podlaktma in podlaktima). Izsek iz slovarja lem s podatki o paradigmah in rodilniški osnovi je naveden v tabeli 11.

    Tabela 11: 21 samostalniških lem s paradigmo in rodilniško osnovo

       

    Tudi ta zbirka je pripravljena kot podatkovna zbirka, tokrat s tremi polji. V prvem je šifra paradigme, v drugem navodilo za tvorjenje rodilniške osnove, v tretjem pa lema. Navodilo je lahko prazno, kar pomeni, da je rodilniška osnova kar enaka lemi, lahko pa ima najprej n simbolov za odstranitev n končnih črk leme, ki jim sledi še obrazilo, ki ga je treba natakniti na tako dobljen krn. Pri lemi breskev je npr. treba odstraniti zadnji dve črki in dodati v, da dobimo rodilniško osnovo breskv. V tabeli 12 so navedene strojno dobljene izpeljanke iz štirih lem: žolčnost, podlaket, cerkev in breskev. Vsaki izpeljanki sledi še navodilo, kako iz nje dobiti lemo, poleg tega pa še oblikoslovna oznaka. Ta je pri samostalnikih štirimestna - najprej velika črka S (za samostalnik), potem spol ( m, ž ali s), število ( e, p in d) ter sklon (1-6). Primer je breskvami. Prvi del deskriptorja (do velike črke) - 4ev zahteva, da je treba izpeljanki odvzeti na koncu štiri črke (bresk) in dodati ev, da dobimo lemo - breskev. Drugi del deskriptorja pove, da gre za samostalnik ženskega spola v ednini in orodniku. Veliko izpeljank je tudi enakih - npr. za rodilnik in mestnik ednine, zato je število različnih izpeljanih besednih oblik pri samostalnikih za več kot pol manjše od števila vseh izpeljank (442.451 proti 941.788).

    Tabela 12: Programsko tvorjene izpeljanke 4 samostalniških lem ženskega spola

       žolčnostSže1   podlaketSže1   cerkevSže1   cerkvah3evSžd5
       žolčnosti1Sže2   podlakti2etSže2   cerkve2evSže2   cerkvama4evSžd6
       žolčnosti1Sže3   podlakti2etSže3   cerkvi2evSže3   breskevSže1
       žolčnostSže4   podlaketSže4   cerkevSže4   breskve2evSže2
       žolčnosti1Sže5   podlakti2etSže5   cerkvi2evSže5   breskvi2evSže3
       žolčnostjo2Sže6   podlaktjo3etSže6   cerkvijo4evSže6   breskevSže4
       žolčnosti1Sžp1   podlakti2etSžp1   cerkve2evSžp1   breskvi2evSže5
       žolčnosti1Sžp2   podlakti2etSžp2   cerkva2evSžp2   breskvijo4evSže6
       žolčnostim2Sžp3   podlaktim3etSžp3   cerkevSžp2   breskve2evSžp1
       žolčnosti1Sžp4   podlakti2etSžp4   cerkvam3evSžp3   breskevSžp2
       žolčnostih2Sžp5   podlaktih3etSžp5   cerkve2evSžp4   breskvam3evSžp3
       žolčnostmi2Sžp6   podlaktmi3etSžp6   cerkvah3evSžp5   breskve2evSžp4
       žolčnosti1Sžd1   podlakti2etSžd1   cerkvami4evSžp6   breskvah3evSžp5
       žolčnosti1Sžd2   podlakti2etSžd2   cerkvi2evSžd1   breskvami4evSžp6
       žolčnostma2Sžd3   podlaktma3etSžd3   cerkve2evSžd1   breskvi2evSžd1
       žolčnostima3Sžd3   podlaktima4etSžd3   cerkva2evSžd2   breskevSžd2
       žolčnosti1Sžd4   podlakti2etSžd4   cerkevSžd2   breskvama4evSžd3
       žolčnostih2Sžd5   podlaktih3etSžd5   cerkvama4evSžd3   breskvi2evSžd4
       žolčnostma2Sžd6   podlaktma3etSžd6   cerkvi2evSžd4   breskvah3evSžd5
       žolčnostima3Sžd6   podlaktima4etSžd6   cerkve2evSžd4   breskvama4evSžd6

    3.4.2 Pridevniki

    Pridevniki so besedna vrsta z največjim številom pregibnih oblik - iz 21.674 lem je nastalo 1.300.644 izpeljank (265.840 različnih); vseh pridevniških paradigem je bilo 18. Velikemu številu oblik botrujejo predvsem trije spoli pri vsakem pridevniku in pri večini še stopnjevanje. Primer pridevniške paradigme je v tabeli 13.

    Tabela 13: Pridevniška paradigma s primerom

       

    Paradigma je precej obsežnejša od samostalniške, opis pridevnika (v našem primeru hud) pa kratek. Najprej je šifra njegove paradigme, sledi pridevnik sam, v moškem spolu, za njim navodilo za oblikovanje osnovne izpeljanke ženskega spola (in tvorjenje rodilniške osnove obenem), v četrtem polju za srednji spol, v petem pa za tvorjenje primernika. Pri paradigmi je v prvi vrstici njena šifra, v drugi navodilo za izpeljanke ednine, množine in dvojine moškega spola za vseh 6 sklonov (vmes so vejice), v tretji podobno za ženski spol in v četrti za srednji. Prazno navodilo (za prvi sklon in prvo varianto četrtega) pove, da je treba vzeti kar pridevnik sam, pomen dodatnih simbolov pa je razložen v tabeli 14:

    Tabela 14: Simboli v pridevniških paradigmah

    -   rodilniška osnova
    &   sledi še ena varianta za isti sklon
    <   osnovna oblika za ženski spol
    >   osnovna oblika za srednji spol
    =   primerniška osnova (primernik moškega spola brez i na koncu)
    +   primerniška osnova brez končnega š
    ł   oblike ni (npr. pri paradigmah, kjer ni določne oblike)

    V opisu podatkov o paradigmi sledijo v 5., 6. in 7. vrstici navodila za vse tri spole primerniških oblik, v 8., 9. in 10. pa še za presežnik. Vrstice od 5. do 10. nastopajo samo v tistih paradigmah, kjer obstaja stopnjevanje pridevnikov. Sledi prazna vrstica, za njo pa opis določne oblike, pod njim osnovne oblike prislova ter še, če sta, obeh višjih prislovnih stopenj.

    V tabeli 15 na naslednji strani je naveden primer strojnega tvorjenja izpeljank za pridevnik hud. Iz leme je nastalo 172 izpeljanih besednih oblik, od tega 36 različnih. Na levi strani vsakega stolpca so, podobno kot pri samostalnikih, navedene izpeljanke, na desni pa deskriptor, ki opisuje pot do leme in navaja oblikoslovno oznako za to izpeljanko. Oblikoslovne oznake so spet štiri, pet ali šestmestne - najprej P za vrsto (pridevnik), potem koda za spol ( m, ž, s), število ( e, p, d ) in sklon (1-6), na koncu pa, po potrebi, še i za določno obliko, j za primernik in jj za presežnik (Jakopin in Bizjak 1997). Tudi opis leme je tokrat včasih razširjen - pri presežniških oblikah je najprej navedeno, kaj naj se zgodi s koncem izpeljanke, da bi dobili lemo, potem, za dvopičjem, pa še, kaj je treba napraviti na začetku izpeljanke. Primer je npr. najhujšima 5d:3Pžd6jj - na koncu izpeljanke je treba najprej odrezati 5 črk (5), dodati d, potem pa še spredaj odrezati tri črke (3, naj). Pžd6jj pove, da gre za pridevnik ženskega spola v dvojini, orodniku (6) in v presežniku (jj).

    Tabela 15: Izpeljanke iz pridevnika hud

       hudPme1   huda1Psp1   hujši3dPžd1j   najhujša3d:3Pže1jj
       hudega3Pme2   hudih2Psp2   hujših4dPžd2j   najhujše3d:3Pže2jj
       hudemu3Pme3   hudim2Psp3   hujšima5dPžd3j   najhujši3d:3Pže3jj
       hudPme4   huda1Psp4   hujši3dPžd4j   najhujšo3d:3Pže4jj
       hudega3Pme4   hudih2Psp5   hujših4dPžd5j   najhujši3d:3Pže5jj
       hudem2Pme5   hudimi3Psp6   hujšima5dPžd6j   najhujšo3d:3Pže6jj
       hudim2Pme6   hudi1Psd1   hujše3dPse1j   najhujše3d:3Pžp1jj
       hudi1Pmp1   hudih2Psd2   hujšega5dPse2j   najhujših4d:3Pžp2jj
       hudih2Pmp2   hudima3Psd3   hujšemu5dPse3j   najhujšim4d:3Pžp3jj
       hudim2Pmp3   hudi1Psd4   hujše3dPse4j   najhujše3d:3Pžp4jj
       hude1Pmp4   hudih2Psd5   hujšem4dPse5j   najhujših4d:3Pžp5jj
       hudih2Pmp5   hudima3Psd6   hujšim4dPse6j   najhujšimi5d:3Pžp6jj
       hudimi3Pmp6   hujši3dPme1j   hujša3dPsp1j   najhujši3d:3Pžd1jj
       huda1Pmd1   hujšega5dPme2j   hujših4dPsp2j   najhujših4d:3Pžd2jj
       hudih2Pmd2   hujšemu5dPme3j   hujšim4dPsp3j   najhujšima5d:3Pžd3jj
       hudima3Pmd3   hujši3dPme4j   hujša3dPsp4j   najhujši3d:3Pžd4jj
       huda1Pmd4   hujšega5dPme4j   hujših4dPsp5j   najhujših4d:3Pžd5jj
       hudih2Pmd5   hujšem4dPme5j   hujšimi5dPsp6j   najhujšima5d:3Pžd6jj
       hudima3Pmd6   hujšim4dPme6j   hujši3dPsd1j   najhujše3d:3Pse1jj
       huda1Pže1   hujši3dPmp1j   hujših4dPsd2j   najhujšega5d:3Pse2jj
       hude1Pže2   hujših4dPmp2j   hujšima5dPsd3j   najhujšemu5d:3Pse3jj
       hudi1Pže3   hujšim4dPmp3j   hujši3dPsd4j   najhujše3d:3Pse4jj
       hudo1Pže4   hujše3dPmp4j   hujših4dPsd5j   najhujšem4d:3Pse5jj
       hudi1Pže5   hujših4dPmp5j   hujšima5dPsd6j   najhujšim4d:3Pse6jj
       hudo1Pže6   hujšimi5dPmp6j   najhujši3d:3Pme1jj   najhujša3d:3Psp1jj
       hude1Pžp1   hujša3dPmd1j   najhujšega5d:3Pme2jj   najhujših4d:3Psp2jj
       hudih2Pžp2   hujših4dPmd2j   najhujšemu5d:3Pme3jj   najhujšim4d:3Psp3jj
       hudim2Pžp3   hujšima5dPmd3j   najhujši3d:3Pme4jj   najhujša3d:3Psp4jj
       hude1Pžp4   hujša3dPmd4j   najhujšega5d:3Pme4jj   najhujših4d:3Psp5jj
       hudih2Pžp5   hujših4dPmd5j   najhujšem4d:3Pme5jj   najhujšimi5d:3Psp6jj
       hudimi3Pžp6   hujšima5dPmd6j   najhujšim4d:3Pme6jj   najhujši3d:3Psd1jj
       hudi1Pžd1   hujša3dPže1j   najhujši3d:3Pmp1jj   najhujših4d:3Psd2jj
       hudih2Pžd2   hujše3dPže2j   najhujših4d:3Pmp2jj   najhujšima5d:3Psd3jj
       hudima3Pžd3   hujši3dPže3j   najhujšim4d:3Pmp3jj   najhujši3d:3Psd4jj
       hudi1Pžd4   hujšo3dPže4j   najhujše3d:3Pmp4jj   najhujših4d:3Psd5jj
       hudih2Pžd5   hujši3dPže5j   najhujših4d:3Pmp5jj   najhujšima5d:3Psd6jj
       hudima3Pžd6   hujšo3dPže6j   najhujšimi5d:3Pmp6jj   hudi1Pme1i
       hudo1Pse1   hujše3dPžp1j   najhujša3d:3Pmd1jj   hudi1Pme4i
       hudega3Pse2   hujših4dPžp2j   najhujših4d:3Pmd2jj   hudo1A
       hudemu3Pse3   hujšim4dPžp3j   najhujšima5d:3Pmd3jj   huje2doAj
       hudo1Pse4   hujše3dPžp4j   najhujša3d:3Pmd4jj   hujše3doAj
       hudem2Pse5   hujših4dPžp5j   najhujših4d:3Pmd5jj   najhuje2do:3Ajj
       hudim2Pse6   hujšimi5dPžp6j   najhujšima5d:3Pmd6jj   najhujše3do:3Ajj

    3.4.3 Glagoli

    Pregibanje pri glagolih je še bolj zapleteno kot pri pridevnikih. Poleg običajnih glagolskih oblik, ki nastopajo pri vseh glagolih, najdemo pri mnogih glagolih še deležja, ki se pregibajo po predpisih dveh pridevniških paradigem (8. in 9.). Primer je glagol videti v tabeli 16.

    Tabela 16: Glagolska paradigma s primerom

       

    Primer je glagol videti v tabeli 16. Poleg glagolske paradigme (7) sta navedeni še obe pridevniški paradigmi, ki lahko nastopata - 8. za deležnik na -n in 9. za deležnik na . Opis konkretnega glagola ima 5 podatkovnih polj: v prvem je kot po navadi šifra ustrezne paradigme, v drugem glagol sam, v tretjem navodilo za tvorjenje sedanjiške osnove (v tem primeru je treba odvzeti na koncu tri črke in za prvo osebo ednine dodati im), v četrtem informacija, ali je glagol lahko tudi prehoden ( se), v petem pa morebitni podatki o dodatnih oblikah, ki jih je mogoče izpeljati iz glagola. V tem primeru je to deležje videvši in dva deležnika, na in na -n, ki imata še podatke o ženskem in srednjem spolu; stopnjevanje pri glagolskih izpeljankah ne pride v poštev. Opis paradigme je šestvrstičen: v prvi vrstici je kot po navadi šifra paradigme, v drugi navodilo za tvorjenje nedoločniške osnove, v tretji navodila za oblike vseh treh števil in oseb (ednina, množina, dvojina, prva, druga in tretja oseba) sedanjega časa, v četrti za velelnike vseh treh števil (v ednini za drugo osebo, v množini in dvojini za drugo in tretjo), v peti za deležnike na -l, za vsa tri števila in za vse tri spole, v šesti vrstici pa za namenilnik. Pomišljaj (-) v opisu označuje sedanjiško osnovo, ki jo dobimo v tretjem polju pri lemi, vijuga (~) pa nedoločniško osnovo, ki jo dobimo s pomočjo leme in navodila v drugi vrstici paradigme.

    Paradigmi p8 in p9 sta taki kot pri pridevnikih in tudi zelo podobni - razlikujeta se le v obliki prislova na koncu. V tabeli 17 so prikazane vse izpeljanke glagola iz prejšnjega primera (videti). Izpeljank je 252, od tega 40 različnih. Osebe v oblikoslovnih oznakah so označene z a (prva), b (druga) in c (tretja); oznake so podrobneje razložene v članku (Jakopin in Bizjak 1997).

    Tabela 17: Izpeljanke iz glagola videti s podatki o lemi in oblikoslovnimi oznakami

       videtiGNE   videče1GČžp1   videča1PČže1   videna1GNmd1   videni1PNmp1
       vidim2etiGae   videčih2GČžp2   videče1PČže2   videnih2GNmd2   videnih2PNmp2
       vidiš2etiGbe   videčim2GČžp3   videči1PČže3   videnima3GNmd3   videnim2PNmp3
       vidi1etiGce   videče1GČžp4   videčo1PČže4   videna1GNmd4   videne1PNmp4
       vidimo3etiGap   videčih2GČžp5   videči1PČže5   videnih2GNmd5   videnih2PNmp5
       vidite3etiGbp   videčimi3GČžp6   videčo1PČže6   videnima3GNmd6   videnimi3PNmp6
       vidijo3etiGcp   videči1GČžd1   videče1PČžp1   videna1GNže1   videna1PNmd1
       vidiva3etiGad   videčih2GČžd2   videčih2PČžp2   videne1GNže2   videnih2PNmd2
       vidita3etiGbd   videčima3GČžd3   videčim2PČžp3   videni1GNže3   videnima3PNmd3
       vidita3etiGcd   videči1GČžd4   videče1PČžp4   videno1GNže4   videna1PNmd4
       vidi1etiGVbe   videčih2GČžd5   videčih2PČžp5   videni1GNže5   videnih2PNmd5
       vidimo3etiGVap   videčima3GČžd6   videčimi3PČžp6   videno1GNže6   videnima3PNmd6
       vidite3etiGVbp   videče1GČse1   videči1PČžd1   videne1GNžp1   videna1PNže1
       vidiva3etiGVad   videčega3GČse2   videčih2PČžd2   videnih2GNžp2   videne1PNže2
       vidita3etiGVbd   videčemu3GČse3   videčima3PČžd3   videnim2GNžp3   videni1PNže3
       videl1tiGLme   videče1GČse4   videči1PČžd4   videne1GNžp4   videno1PNže4
       videla2tiGLže   videčem2GČse5   videčih2PČžd5   videnih2GNžp5   videni1PNže5
       videlo2tiGLse   videčim2GČse6   videčima3PČžd6   videnimi3GNžp6   videno1PNže6
       videli2tiGLmp   videča1GČsp1   videče1PČse1   videni1GNžd1   videne1PNžp1
       videle2tiGLžp   videčih2GČsp2   videčega3PČse2   videnih2GNžd2   videnih2PNžp2
       videla2tiGLsp   videčim2GČsp3   videčemu3PČse3   videnima3GNžd3   videnim2PNžp3
       videla2tiGLmd   videča1GČsp4   videče1PČse4   videni1GNžd4   videne1PNžp4
       videli2tiGLžd   videčih2GČsp5   videčem2PČse5   videnih2GNžd5   videnih2PNžp5
       videli2tiGLsd   videčimi3GČsp6   videčim2PČse6   videnima3GNžd6   videnimi3PNžp6
       videtiGNA   videči1GČsd1   videča1PČsp1   videno1GNse1   videni1PNžd1
       videvšiA   videčih2GČsd2   videčih2PČsp2   videnega3GNse2   videnih2PNžd2
       videčGČme1   videčima3GČsd3   videčim2PČsp3   videnemu3GNse3   videnima3PNžd3
       videčega3GČme2   videči1GČsd4   videča1PČsp4   videno1GNse4   videni1PNžd4
       videčemu3GČme3   videčih2GČsd5   videčih2PČsp5   videnem2GNse5   videnih2PNžd5
       videčGČme4   videčima3GČsd6   videčimi3PČsp6   videnim2GNse6   videnima3PNžd6
       videčega3GČme4   videči1GČme1i   videči1PČsd1   videna1GNsp1   videno1PNse1
       videčem2GČme5   videčeA   videčih2PČsd2   videnih2GNsp2   videnega3PNse2
       videčim2GČme6   videčPČme1   videčima3PČsd3   videnim2GNsp3   videnemu3PNse3
       videči1GČmp1   videčega3PČme2   videči1PČsd4   videna1GNsp4   videno1PNse4
       videčih2GČmp2   videčemu3PČme3   videčih2PČsd5   videnih2GNsp5   videnem2PNse5
       videčim2GČmp3   videčPČme4   videčima3PČsd6   videnimi3GNsp6   videnim2PNse6
       videče1GČmp4   videčega3PČme4   videči1PČme1i   videni1GNsd1   videna1PNsp1
       videčih2GČmp5   videčem2PČme5   videčeA   videnih2GNsd2   videnih2PNsp2
       videčimi3GČmp6   videčim2PČme6   videnGNme1   videnima3GNsd3   videnim2PNsp3
       videča1GČmd1   videči1PČmp1   videnega3GNme2   videni1GNsd4   videna1PNsp4
       videčih2GČmd2   videčih2PČmp2   videnemu3GNme3   videnih2GNsd5   videnih2PNsp5
       videčima3GČmd3   videčim2PČmp3   videnGNme4   videnima3GNsd6   videnimi3PNsp6
       videča1GČmd4   videče1PČmp4   videnega3GNme4   videni1GNme1i   videni1PNsd1
       videčih2GČmd5   videčih2PČmp5   videnem2GNme5   videnoA   videnih2PNsd2
       videčima3GČmd6   videčimi3PČmp6   videnim2GNme6   videnPNme1   videnima3PNsd3
       videča1GČže1   videča1PČmd1   videni1GNmp1   videnega3PNme2   videni1PNsd4
       videče1GČže2   videčih2PČmd2   videnih2GNmp2   videnemu3PNme3   videnih2PNsd5
       videči1GČže3   videčima3PČmd3   videnim2GNmp3   videnPNme4   videnima3PNsd6
       videčo1GČže4   videča1PČmd4   videne1GNmp4   videnega3PNme4   videni1PNme1i
       videči1GČže5   videčih2PČmd5   videnih2GNmp5   videnem2PNme5   videnoA
       videčo1GČže6   videčima3PČmd6   videnimi3GNmp6   videnim2PNme6

    3.4.4 Preverjanje s slovarjem izpeljank

    V tabeli 9 je bilo navedeno skupno število izpeljanih besednih oblik, 3.487.676, ki nastanejo iz 91.588 lem v Slovarju slovenskega knjižnega jezika. Za preverjanje fonda besed v obeh vzorcih in za ugotavljanje besedam pripadajočih oblikoslovnih oznak v drugem vzorcu je bil slovar besednih oblik SSKJ organiziran v dve datoteki. V prvi so shranjene abecedno urejene besedne oblike in pri vsaki še stisnjene kode s podatki o lemah in oznakah, kakršni so bili navedeni v tabelah 12, 15 in 17 - dolga je 10.470.706 bajtov, v drugi pa dekomprimiranju namenjeni slovar 7.080 stisnjenih kod in ustreznih podatkov - dolga je 142.252 bajtov.

    Poleg tega je bil pri preverjanju uporabljen še slovar besed pri postavljanju in preizkušanju prvega oblikoslovnega označevalnika zbranega gradiva (Jakopin in Bizjak 1997, 330.000 besed), ki vsebuje štiri prozna dela (Pomladni dan in Prazno ptičnico Cirila Kosmača, Platonovo Državo in Orwellov 1984) ter vzorec iz časopisa Delo. Ta slovar obsega 45.304 različne besedne oblike (ki imajo seveda tudi podatke o oblikoslovnih oznakah). Rezultati preverjanja so navedeni v tabeli 18.

    Tabela 18: Rezultat preverjanja besednih oblik iz obeh vzorcev

                                            Prvi vzorec %     Drugi vzorec %  
            
    Skupaj besednih oblik                174.579    100,00    36.473    100,00
            
    Prepoznanih s slovarjem oblik iz SSKJ143.933     82,45    31.656     86,79
    Prepoznanih s slovarjem iz gradiva    4.335     2,48     2.924     8,02
            
    Ostanek                               26.311     15,07     1.893     5,19

       

    Žal niso ohranjeni podatki o številu različnih besed v obeh vzorcih na začetku, še pred kakršnim koli popravljanjem. Napake, ki so bile odkrite pri različnih delih z vzorcema, že ob njunem sestavljanju samem, so bile popravljane sproti in vodenje evidence ob tem ni bilo izvedljivo. Napak je bilo ponekod zelo veliko - tudi več na vrstico, ponekod pa le ena na nekaj vrstic ali še manj.

    Kot je videti iz zgornje tabele, je bilo s pomočjo izpeljank iz SSKJ v prvem vzorcu prepoznanih dobrih 82 % besed, v drugem pa skoraj 87 %. Po upoštevanju še besed iz doslej obdelanega gradiva je na koncu v prvem vzorcu ostalo dobrih 26.000 besed ali 15 % celote, v drugem vzorcu pa veliko manj, le slabih 2.000 ali 5 % vsega; dva romana iz tega vzorca (37 % celote) sta bila namreč že vključena v gradivo. Med neprepoznanimi besedami so predvsem lastna imena, ki jih je bilo v prvem vzorcu (vključuje tudi potopisna in spominska dela ter prevode) razmeroma več kot v drugem. To dejstvo utegne biti eden glavnih razlogov za opazno razliko pri preseku med posameznim vzorcem in SSKJ (82 % proti 87 %).

    Na hipotetično vprašanje, koliko je bilo lem, iz katerih izhajajo prepoznane in neprepoznane besedne oblike, je odgovor mogoče podati za drugi vzorec, ki je bil oblikoslovno označen in lematiziran. Prepoznane besedne oblike v njem so izhajale iz 13.524 lem (11.978 iz SSKJ in 1.546 iz že obdelanega gradiva) od vsega skupaj 15.140, se pravi da je bil tu delež prepoznanega 89,33 %, skoraj 6 % manj kot pri besednih oblikah. Za ugotavljanje števila lem, iz katerih izhajajo prepoznane oblike pri prvem vzorcu, bi bilo potrebno prvi vzorec še lematizirati, ocenimo pa lahko, da bi bil delež tudi tam nižji.

    Preostale besede iz prvega vzorca so bile ročno pregledane in popravljene - na računalniku z 32 MB pomnilnika sta bili v njem sočasno lahko tako vzorec sam kot tudi slovar neznanih besed. Preverjanje sumljive besede v slovarju (ukaz na funkcijski tipki jo je potegnil v iskalni niz in aktiviral iskanje v vzorcu) je trajalo manj kot 10 sekund. Ob tem so bili sproti označevani še do takrat neodkriti tuji citati.

    Postopek pri drugem vzorcu, kjer je bilo besed sicer veliko manj, a jim je bilo treba poleg preverjanja dodati še oblikoslovne oznake, je bil podoben, le da je bil slovar neznanih besed obrnjen (urejen po koncih). Končnice besed vsebujejo veliko informacije o pregibanju, ki je v neposredni zvezi z oblikoslovno oznako, in tako je delo lažje.




    Naslov strani: http://www.jakopin.net/primoz/disertacija/priprava.php        Datum: 26. junij 1999. Zadnja sprememba: 17. februar 2017.             2890

    Naprej: Oblikoslovno označevanje      Nazaj: Viri      Kazalo    Začetek    Konec