1. poglavje

Uvod

1.1  Namen naloge
1.2  Pregled vsebine
1.3  Prispevki naloge

	Niti en Hun ni zamudil trenutka, da bi ne bil potegnil meča,
	zadnji jezdeci pa so vrgli celo kopja in predrli troje konj.
	(Po Finžgarju, 1978)

1.1 Namen naloge

Osnovni namen naloge je odgovoriti na vprašanje, ki si ga zdaj zastavlja že tretji rod slovenskih računalničarjev, kakšna je informacijska vsebina besedil v našem jeziku, odgovoriti z viri in tehnologijo, ki je dostopna danes. Ob nastanku znanosti o informacijah, teorije informacij, pred točno pol stoletja (Shannon 1948) še ni bilo orodja, s katerim bi lahko izmerili vse parametre sporočil. Zaradi ročne obdelave so morali vzorci biti majhni in izmerjene poti po besedilih kratke. Današnji računalniki, skupaj z veliko večjo dostopnostjo elektronskih besedilnih virov, omogočajo, s primerno programsko opremo, obdelavo tisočkrat večjega gradiva in obdelavo v globino, kjer so bile do sedaj možne le ocene.

Tabela 1: Časovni pregled velikosti obdelanih besedil

leto    besed    objava

1962     4.000    Gyergyék 1962

1973     6.000    Gyergyék 1973

1974     60.000    Gyergyék s sod. 1974

1980     100.000    Vasle 1980

1994     650.000    Kristan idr. 1994

1995    1.600.000    Jakopin 1995a

1998    3.100.000    to delo

Drugi namen naloge je statistično osvetliti za merjenje entropije zbrano besedilo v luči črk, besed in povedi ter postaviti nekaj mostov na poti do še veliko večjih, s korpusi velikih narodov primerljivih besedilnih zbirk.

Kot je razvidno že iz naslova, je naloga omejena na leposlovna besedila, točneje na prozna leposlovna besedila. Leposlovju pravimo tudi literatura ali umetniška literatura (SSKJ 1994), ki je razložena kot umetnost, ki ima za izrazno sredstvo besedo, jezik, književnost (SSKJ 1994). Podobni opisi leposlovja so še ... je torej umetnost kot glasba ali slikarstvo, vendar v nasprotju z njima jezikovna vrsta umetnosti. (Kos 1994) in morda najtočnejši označuje ... umetnost, upodabljajočo z uporabo dovršene jezikovne oblike: torej leposlovje (Prijatelj 1952, Kmecl 1996).

Razlog za omejitev naloge na leposlovna besedila je predvsem v večji homogenosti takih besedil, njihovi kakovosti in večji bližini slovenskemu jeziku. Pesniške zbirke so bile izvzete zaradi težje dostopnosti in strukturne neoprijemljivosti pri nekaterih sodobnejših delih.

1.2 Pregled vsebine

Drugo poglavje je posvečeno virom naloge, obema besedilnima vzorcema, ki skupaj obsegata 3.100.000 besed. Prvi vzorec, 7/8 celote, ki je imel pri preverjanju jezikovnega modela v šestem poglavju tudi vlogo učnega vzorca, vsebuje besedila 60 del 41 avtorjev, 46 izvirnih in 14 prevodov, z letnicami izida od 1858 do 1996. Drugi del vsebuje zbrano delo Cirila Kosmača, 408.000 besed oziroma 52 del, objavljenih med 1931 in 1988. V poglavju je ocenjena tudi skupna velikost celotne dosedanje slovenske leposlovne produkcije, na 12.000 del; oba vzorca skupaj predstavljata med 0.5% in 1% te celote.

Tretje poglavje obravnava pripravo besedil. Vsa so bila, v skladu z mednarodnimi priporočili označena do ravni povedi, drugi vzorec pa tudi do ravni besed. Besedila so tudi tako pripravljena, da je mogoč neposreden prenos vseh v format HTML za objavo na internetu. Drugi del poglavja opisuje odstranjevanje napak in v zvezi s tem postopek za tvorjenje zbirke 3.500.000 besednih oblik iz gesel Slovarja slovenskega knjižnega jezika, ki je bila nato uporabljena pri čiščenju besed v gradivu.

Četrto poglavje je namenjeno oblikoslovnemu označevanju besedil. V nalogi je bil na ta način označen drugi vzorec, s statističnim oblikoslovnim označevalnikom (angl. part-of-speech tagger), sestavljenim v ta namen. Označeno besedilo je bilo ročno pregledano na Inštitutu za slovenski jezik ZRC SAZU in ob tem je bilo ugotovljeno, da znaša natančnost označevalnika 92,4%. Po lematizaciji je bil napravljen slovar besednega zaklada Cirila Kosmača, ki obsega 15.140 lem iz 407.938 besednih oblik in je bistveno večji od doslej edinega lematiziranega opusa del Franceta Prešerna: 2.750 lem iz 13.757 besednih oblik (Suhadolnik 1985).

Peto poglavje navaja statistični opis obeh vzorcev, ki je najtemeljitejši doslej. Najprej je prikazan nabor znakov (168 različnih), nato pa še porazdelitve črk, ki kažejo na prevlado črke e (7,92 % vseh znakov) nad a (7,74 %). Sledi opis n-terčkov znakov za n = 1 do n = 14 in besednih oblik. Povprečna dolžina le-teh v obeh vzorcih skupaj znaša 4,55 črke. Prvič v tovrstnih raziskavah so obdelane tudi povedi (prvi vzorec 201.000, drugi 37.000) - navedene so njihove dolžine, naštete najpogostejše, na koncu poglavja pa so še podatki o lipogramskih povedih.

Šesto poglavje naloge je posvečeno entropiji. Opisan je izvirni algoritem, ki s pomočjo informacije o gibanju novih znakovnih n-terčkov s frekvenco 1 (enkratnic) omogoča neposredno računanje entropije za višje n (do n = 62) in pri še veliko večjih besedilnih zbirka, kot je zbirka v nalogi. Za oba vzorca so navedene entropije, normirane vezane entropije in pogojne entropije do n = 24; iz teh podatkov in iz gibanja števila novih enkratnic je avtor ocenil zgornjo mejo entropije v slovenskih leposlovnih besedilih na 2,2 bita na znak. V nadaljevanju so opisani trije modeli za ponazoritev slovenskih leposlovnih besedil, ki bi prišli v poštev za konstruiranje komprimirnega mehanizma, posebej prilagojenega slovenskemu jeziku. S prvim vzorcem kot učno bazo in z drugim kot preizkusnim je bila pri zadnjem modelu, modelu z optimalnim razrezom na n-terčke dosežena vrednost 2,7 bita na znak.

V sedmem, sklepnem poglavju je kritično pregledano delo naloge in so orisane možnosti in smeri nadaljnjih raziskav na področju kvantitativne analize slovenskih besedil.

Sledi seznam navedenk (110 enot) in pet prilog. V prilogi A je naveden seznam in bibliografski opis vseh del iz prvega vzorca, v prilogi B vseh del drugega vzorca in v prilogi C abecedni seznam oblikoslovnih oznak v drugem vzorcu s frekvencami. Priloga Č vsebuje abecedni seznam lem, njihovih oblikoslovnih oznak in frekvenc v drugem vzorcu za leme, ki so dosegle frekvenco vsaj 10, v prilogi D pa so navedeni še najpomembnejši, z nalogo povezani naslovi na internetu. Prilogi A in B ter celoten seznam iz priloge Č (za vse frekvence) so objavljeni tudi na internetu. Za pregledovanje seznama lem in oblikoslovnih oznak preko interneta je bil napisan poseben iskalni program.

1.3 Prispevki naloge

V nalogi je bil na enoten način pripravljen in statistično opisan največji besedilni korpus doslej, prispevki k teoriji informacij in h kvantitativnemu jezikoslovju pa so po mnenju avtorja naslednji:

Ocena zgornje meje entropije za leposlovna besedila, 2,2 bita na znak.

Prvič je bila podana konkretna ocena zgornje meje entropije za slovenska leposlovna besedila, 2,2 bita na znak, ki je bila prej ocenjevana le posredno. Vrednost je nekoliko večja kot pri angleškem jeziku (2,0 bita na znak). Ob tem je bil razvit postopek za neposredno računanje entropije za večje n in za velike besedilne vzorce.
Nizkoentropijski jezikovni model za besedila.

Sestavljen je bil model za ponazoritev slovenskih leposlovnih besedil, ki sloni na pogostostih znakovnih n-terčkov. Model je bil uporabljen kot osnova za komprimirni postopek, obnesel pa se je tudi kot sredstvo za preverjanje, ali je dano besedilo slovensko ali ne in kako daleč je od našega jezika.
Korpus slovenskih leposlovnih besedil.

Iz elektronskih besedilnih virov različnega izvora in kvalitete je nastal prečiščen fond nad 3 milijone besed (dva besedilna vzorca), ki je bil označen do ravni povedi, 408.000 besed pa ima tudi oblikoslovne oznake in podatke o lemi. Pri tem je bil izpeljan slovar besednih oblik za osnovne besedne vrste, ki temelji na Slovarju slovenskega knjižnega jezika in obsega 3,5 milijona enot. Vseh 112 besedil (1858 do 1996) je opremljenih na enak način in pripravljenih za avtomatično konverzijo v format HTML za objavo na internetu.
Kvantitativna analiza besedilnih vzorcev.

Na obeh vzorcih je bila opravljena kvantitativna analiza s porazdelitvami črk in znakovnih nizov, ki je na doslej največji zbirki prvič segla čez raven besednih oblik, tudi na besedne nÆterčke in na povedi.
Statistični oblikoslovni označevalnik.

Narejen je bil statistični oblikoslovni označevalnik z natančnostjo 92 %. Z njim je bil označen celoten korpus slovenskega pisatelja Cirila Kosmača, in po lematizaciji napravljen slovar njegovega besednega zaklada (408.000 besed, 15.000 lem). Z njim je mogoče za nadaljnje raziskovalne namene učinkovito pripravljati večje količine besedil.

Rezultati naloge osvetljujejo pomembno področje na meji med teorijo informacij in jezikoslovjem, kjer je bilo že dolgo načrtovane raziskave večjega obsega mogoče izvesti šele s tehnologijo, dostopno v zadnjem času.

Naslov strani: http://www.jakopin.net/primoz/disertacija/uvod.php Datum: 26. junij 1999. Zadnja sprememba: 17. februar 2017. 395

Naprej: Viri Nazaj: Seznam tabel Kazalo Začetek Konec

leto	besed	objava

1962	4.000	Gyergyék 1962
1973	6.000	Gyergyék 1973
1974	60.000	Gyergyék s sod. 1974
1980	100.000	Vasle 1980
1994	650.000	Kristan idr. 1994
1995	1.600.000	Jakopin 1995a
1998	3.100.000	to delo