Nazaj: Začetek      Naprej: Abstract      Kazalo    Začetek    Konec

Doktorska disertacija P. Jakopina, str. i - iv

Primož Jakopin

ZGORNJA MEJA ENTROPIJE PRI LEPOSLOVNIH BESEDILIH V SLOVENSKEM JEZIKU

Izvleček


V tezi je naveden kvantitativni opis dveh vzorcev s slovenskimi leposlovnimi besedili in iz najpomembnejših parametrov znakovnih n-terčkov, od enojčkov do štiriindvajseterčkov, ocenjena zgornja meja entropije.

Za uvodom, v katerem so navedeni najpomembnejši dosežki naloge, je drugo poglavje posvečeno virom naloge, predvsem obema besedilnima vzorcema. Prvi vzorec vsebuje besedila 60 del 41 avtorjev, od Ivana Cankarja do Ivana Zorca, 46 izvirnih in 14 prevodov, z letnico izida od 1858 do 1996 in v skupnem obsegu 16.784.110 znakov, 2.721.426 besed in 201.416 povedi. Drugi vzorec vsebuje celoten opus Cirila Kosmača, 52 del, objavljenih med letoma 1931 in 1988, z 2.497.308 znaki, 407.938 besedami in 37.459 povedmi. Podana je ocena, da oba vzorca skupaj predstavljata med 0,5 % in 1 % celotne slovenske leposlovne produkcije.

Velik del naloge je bila priprava besedil, ki mu je posvečeno tretje poglavje. Med cilji naloge je bila označitev gradnikov besedila v skladu s sodobnim stanjem v svetu, najmanj do ravni povedi, obenem pa tudi taka priprava gradiva, da ga je potem mogoče neposredno uporabiti za strojno zgraditev ustreznih datotek na internetu, zato so najprej razloženi dodatno uvedeni simboli in zaglavja besedil. Sledi razdelek o označevanju posameznih gradnikov besedila, kot so odstavki, povedi, premi govor in citati. Drugi del poglavja opisuje vprašanje napak in v zvezi s tem postopek za tvorjenje zbirke 3.487.676 besednih oblik iz 91.588 glagolskih, samostalniških in pridevniških gesel Slovarja slovenskega knjižnega jezika. Ta zbirka je bila nato uporabljena pri čiščenju besed v gradivu.

V četrtem poglavju je opisano oblikoslovno označevanje. V tezi je bil na ta način označen drugi vzorec, s statističnim oblikoslovnim označevalnikom, sestavljenim v ta namen. Označeno gradivo je bilo potem ročno pregledano na Inštitutu za slovenski jezik ZRC SAZU in ugotovljeno je bilo, da je natančnost označevalnika 92,35 %. Nekaj rezultatov oblikoslovne označitve drugega vzorca je navedenih v tabeli I/1 na naslednji strani. Deleži posameznih lem v odstotkih se nanašajo na celotno število besed (407.938) - 9,11 % pomeni frekvenco 37.163, 0,06 % pa frekvenco 245. Z biti p, biti r in biti o pa so označene tri komponente glagola biti - pomožni glagol (npr. Janez je videl volka.), glagol biti v relacijskem smislu (npr. Jaz sem lepa.) in glagol biti v ožjem smislu obstajanja (npr. Hiša je tam.)

Tabela 1: Najpogostejše leme za 5 besednih vrst v drugem vzorcu s frekvencami (v %)

      glagoli      samostalniki      pridevniki      zaimki      prislovi
       
1.   biti p9,11   roka0,39   star0,19   on1,60   tako0,39
2.   biti r1,71   glava0,24   velik0,12   ki0,73   zdaj0,33
3.   ne biti p0,65   oči0,20   lep0,11   jaz0,70   nato0,24
4.   reči0,47   otrok0,20   dolg0,09   ta0,69   spet0,21
5.   biti o0,44   dan0,18   črn0,09   ona0,66   potem0,18
6.   imeti0,23   hiša0,17   bel0,09   svoj0,55   počasi0,15
7.   vedeti0,23   leto0,15   dober0,08   ves0,39   lahko0,13
8.   videti0,20   vrata0,13   živ0,07   ti0,36   takoj0,11
9.   iti0,19   beseda0,13   mlad0,07   vse0,29   skoraj0,10
10.   stopiti0,18   oče0,12   težek0,06   oni0,28   bolj0,10
11.   začeti0,17   človek0,11   širok0,06   sam0,22   naglo0,09
12.   pogledati0,16   glas0,11   hud0,06   kako0,20   dobro0,08

Statistični opis obeh vzorcev je naveden v petem poglavju. Prikazan je skupni nabor znakov, ki šteje 168 enot, sledita nabora za vsak vzorec posebej in porazdelitve črk. Porazdelitev najpogostejših 25 črk seštevka obeh vzorcev je upodobljena na sliki 1. Izkaže se, da so najpogostejši samoglasniki: največ je črke e (7,92 % vseh znakov), takoj za njo pa črke a (7,74 % celote).

Slika 1: Porazdelitev najpogostejših 25 črk v obeh vzorcih skupaj

Sledi razdelek o n-terčkih znakov, kjer so navedeni najpogostejši n-terčki za n = 1 do n = 14 in za oba vzorca. Za znaki so obdelane besede - njihova povprečna dolžina v obeh vzorcih skupaj znaša 4,55 črke, najpogostejših 12 besednih oblik pa je: je, in, se, v, da, na, so, ne, pa, ki, bi in z. Navedene so še najdaljše besede v obeh vzorcih in najpogostejši besedni n-terčki. Konec poglavja o statističnem opisu je namenjen povedim. Opisane so njihove dolžine in naštete najpogostejše povedi iz obeh vzorcev.

Šesto poglavje je posvečeno entropiji. Opisan je izvirni algoritem, ki izkorišča informacijo o gibanju števila novih znakovnih n-terčkov s frekvenco 1 (novih enkratnic) in ki je sposoben neposredno računati entropije tudi za višje n in pri še za velikostni razred večjih besedilnih zbirkah, kot sta zbirki iz obeh vzorcev. Vezane entropije H, normirane vezane entropije Hn in pogojne entropije Fn so bile za oba vzorca izračunane do n = 62, navedene pa so (kot tudi v tabeli 2) do n = 24.

Tabela 2: Entropije znakovnih n-terčkov v prvem vzorcu

n   H    Hn    Fn    n   H    Hn    Fn
 
1    4,456   4,456   4,456        13   23,460   1,805   0,239
2    7,994   3,997   3,538        14   23,615   1,687   0,155
3   11,020   3,673   3,026        15   23,715   1,581   0,100
4   13,565   3,391   2,545        16   23,779   1,486   0,064
5   15,739   3,148   2,174        17   23,821   1,401   0,042
6   17,643   2,941   1,904        18   23,848   1,325   0,027
7   19,272   2,753   1,629        19   23,866   1,256   0,018
8   20,587   2,573   1,315        20   23,878   1,194   0,012
9   21,594   2,399   1,007        21   23,886   1,137   0,008
10   22,334   2,233   0,740        22   23,891   1,086   0,005
11   22,861   2,078   0,527        23   23,895   1,039   0,004
12   23,221   1,935   0,360        24   23,898   0,996   0,003

Pri tem n namreč pade pogojna entropija n-tega znaka, če je prejšnjih (n-1) znakov že znanih, v obeh vzorcih, pod 0,0005. Iz gibanja normirane vezane entropije Hn in iz gibanja števila novih enkratnic je zgornja meja entropije v slovenskih leposlovnih besedilih ocenjena na 2,2 bita na znak. Opisan je model, ki temelji na pogostnostih vseh n-terčkov iz prvega vzorca s frekvenco 2 ali več in in ki preslika besedilo drugega vzorca v niz s povprečno dolžino 2,7 bita na znak.

Hitrost polnjenja zaloge n-terčkov in hitro povečevanje njihovega števila v prvem vzorcu sta razvidna iz slike 2, kjer so prikazane krivulje rasti za n-terčke od 1 do 14 - za naraščajoče n si sledijo od leve proti desni. Za polovico vsega besedila je potrebnih 6 najpogostejših črk, 50 dvojčkov, 300 trojčkov, 2.000 četverčkov, 8.000 peterčkov, 32.000 šesterčkov, 80.000 sedmerčkov, 300.000 osmerčkov, 800.000 deveterčkov in 1.500.000 deseterčkov.

Slika 2: Krivulje rasti za n-terčke (1-12) v prvem vzorcu

V sklepnem, sedmem poglavju je orisana prehojena pot in navedene možne smeri nadaljnjih korakov pri raziskavah na področju kvantitativne analize slovenskih leposlovnih besedil.



Naslov strani: http://www.jakopin.net/primoz/disertacija/izvlecek.php        Datum: 16. maj 1999. Zadnja sprememba: 17. februar 2017.             927

Naprej: Abstract      Nazaj: Začetek      Kazalo    Začetek    Konec