Primož Jakopin

ZGORNJA MEJA ENTROPIJE PRI LEPOSLOVNIH BESEDILIH V SLOVENSKEM JEZIKU

Izvleček

V tezi je naveden kvantitativni opis dveh vzorcev s slovenskimi leposlovnimi besedili in iz najpomembnejših parametrov znakovnih n-terčkov, od enojčkov do štiriindvajseterčkov, ocenjena zgornja meja entropije.

Za uvodom, v katerem so navedeni najpomembnejši dosežki naloge, je drugo poglavje posvečeno virom naloge, predvsem obema besedilnima vzorcema. Prvi vzorec vsebuje besedila 60 del 41 avtorjev, od Ivana Cankarja do Ivana Zorca, 46 izvirnih in 14 prevodov, z letnico izida od 1858 do 1996 in v skupnem obsegu 16.784.110 znakov, 2.721.426 besed in 201.416 povedi. Drugi vzorec vsebuje celoten opus Cirila Kosmača, 52 del, objavljenih med letoma 1931 in 1988, z 2.497.308 znaki, 407.938 besedami in 37.459 povedmi. Podana je ocena, da oba vzorca skupaj predstavljata med 0,5 % in 1 % celotne slovenske leposlovne produkcije.

Velik del naloge je bila priprava besedil, ki mu je posvečeno tretje poglavje. Med cilji naloge je bila označitev gradnikov besedila v skladu s sodobnim stanjem v svetu, najmanj do ravni povedi, obenem pa tudi taka priprava gradiva, da ga je potem mogoče neposredno uporabiti za strojno zgraditev ustreznih datotek na internetu, zato so najprej razloženi dodatno uvedeni simboli in zaglavja besedil. Sledi razdelek o označevanju posameznih gradnikov besedila, kot so odstavki, povedi, premi govor in citati. Drugi del poglavja opisuje vprašanje napak in v zvezi s tem postopek za tvorjenje zbirke 3.487.676 besednih oblik iz 91.588 glagolskih, samostalniških in pridevniških gesel Slovarja slovenskega knjižnega jezika. Ta zbirka je bila nato uporabljena pri čiščenju besed v gradivu.

V četrtem poglavju je opisano oblikoslovno označevanje. V tezi je bil na ta način označen drugi vzorec, s statističnim oblikoslovnim označevalnikom, sestavljenim v ta namen. Označeno gradivo je bilo potem ročno pregledano na Inštitutu za slovenski jezik ZRC SAZU in ugotovljeno je bilo, da je natančnost označevalnika 92,35 %. Nekaj rezultatov oblikoslovne označitve drugega vzorca je navedenih v tabeli I/1 na naslednji strani. Deleži posameznih lem v odstotkih se nanašajo na celotno število besed (407.938) - 9,11 % pomeni frekvenco 37.163, 0,06 % pa frekvenco 245. Z biti p, biti r in biti o pa so označene tri komponente glagola biti - pomožni glagol (npr. Janez je videl volka.), glagol biti v relacijskem smislu (npr. Jaz sem lepa.) in glagol biti v ožjem smislu obstajanja (npr. Hiša je tam.)

Tabela 1: Najpogostejše leme za 5 besednih vrst v drugem vzorcu s frekvencami (v %)

       glagoli        samostalniki        pridevniki        zaimki        prislovi



1.    biti p 9,11    roka 0,39    star 0,19    on 1,60    tako 0,39

2.    biti r 1,71    glava 0,24    velik 0,12    ki 0,73    zdaj 0,33

3.    ne biti p 0,65    oči 0,20    lep 0,11    jaz 0,70    nato 0,24

4.    reči 0,47    otrok 0,20    dolg 0,09    ta 0,69    spet 0,21

5.    biti o 0,44    dan 0,18    črn 0,09    ona 0,66    potem 0,18

6.    imeti 0,23    hiša 0,17    bel 0,09    svoj 0,55    počasi 0,15

7.    vedeti 0,23    leto 0,15    dober 0,08    ves 0,39    lahko 0,13

8.    videti 0,20    vrata 0,13    živ 0,07    ti 0,36    takoj 0,11

9.    iti 0,19    beseda 0,13    mlad 0,07    vse 0,29    skoraj 0,10

10.    stopiti 0,18    oče 0,12    težek 0,06    oni 0,28    bolj 0,10

11.    začeti 0,17    človek 0,11    širok 0,06    sam 0,22    naglo 0,09

12.    pogledati 0,16    glas 0,11    hud 0,06    kako 0,20    dobro 0,08

Statistični opis obeh vzorcev je naveden v petem poglavju. Prikazan je skupni nabor znakov, ki šteje 168 enot, sledita nabora za vsak vzorec posebej in porazdelitve črk. Porazdelitev najpogostejših 25 črk seštevka obeh vzorcev je upodobljena na sliki 1. Izkaže se, da so najpogostejši samoglasniki: največ je črke e (7,92 % vseh znakov), takoj za njo pa črke a (7,74 % celote).

Slika 1: Porazdelitev najpogostejših 25 črk v obeh vzorcih skupaj

Sledi razdelek o n-terčkih znakov, kjer so navedeni najpogostejši n-terčki za n = 1 do n = 14 in za oba vzorca. Za znaki so obdelane besede - njihova povprečna dolžina v obeh vzorcih skupaj znaša 4,55 črke, najpogostejših 12 besednih oblik pa je: je, in, se, v, da, na, so, ne, pa, ki, bi in z. Navedene so še najdaljše besede v obeh vzorcih in najpogostejši besedni n-terčki. Konec poglavja o statističnem opisu je namenjen povedim. Opisane so njihove dolžine in naštete najpogostejše povedi iz obeh vzorcev.

Šesto poglavje je posvečeno entropiji. Opisan je izvirni algoritem, ki izkorišča informacijo o gibanju števila novih znakovnih n-terčkov s frekvenco 1 (novih enkratnic) in ki je sposoben neposredno računati entropije tudi za višje n in pri še za velikostni razred večjih besedilnih zbirkah, kot sta zbirki iz obeh vzorcev. Vezane entropije H, normirane vezane entropije H_n in pogojne entropije F_n so bile za oba vzorca izračunane do n = 62, navedene pa so (kot tudi v tabeli 2) do n = 24.

Tabela 2: Entropije znakovnih n-terčkov v prvem vzorcu

n    H    H_n    F_n    n    H    H_n    F_n

1     4,456    4,456    4,456        13    23,460    1,805    0,239

2     7,994    3,997    3,538        14    23,615    1,687    0,155

3    11,020    3,673    3,026        15    23,715    1,581    0,100

4    13,565    3,391    2,545        16    23,779    1,486    0,064

5    15,739    3,148    2,174        17    23,821    1,401    0,042

6    17,643    2,941    1,904        18    23,848    1,325    0,027

7    19,272    2,753    1,629        19    23,866    1,256    0,018

8    20,587    2,573    1,315        20    23,878    1,194    0,012

9    21,594    2,399    1,007        21    23,886    1,137    0,008

10    22,334    2,233    0,740        22    23,891    1,086    0,005

11    22,861    2,078    0,527        23    23,895    1,039    0,004

12    23,221    1,935    0,360        24    23,898    0,996    0,003

Pri tem n namreč pade pogojna entropija n-tega znaka, če je prejšnjih (n-1) znakov že znanih, v obeh vzorcih, pod 0,0005. Iz gibanja normirane vezane entropije H_n in iz gibanja števila novih enkratnic je zgornja meja entropije v slovenskih leposlovnih besedilih ocenjena na 2,2 bita na znak. Opisan je model, ki temelji na pogostnostih vseh n-terčkov iz prvega vzorca s frekvenco 2 ali več in in ki preslika besedilo drugega vzorca v niz s povprečno dolžino 2,7 bita na znak.

Hitrost polnjenja zaloge n-terčkov in hitro povečevanje njihovega števila v prvem vzorcu sta razvidna iz slike 2, kjer so prikazane krivulje rasti za n-terčke od 1 do 14 - za naraščajoče n si sledijo od leve proti desni. Za polovico vsega besedila je potrebnih 6 najpogostejših črk, 50 dvojčkov, 300 trojčkov, 2.000 četverčkov, 8.000 peterčkov, 32.000 šesterčkov, 80.000 sedmerčkov, 300.000 osmerčkov, 800.000 deveterčkov in 1.500.000 deseterčkov.

Slika 2: Krivulje rasti za n-terčke (1-12) v prvem vzorcu

V sklepnem, sedmem poglavju je orisana prehojena pot in navedene možne smeri nadaljnjih korakov pri raziskavah na področju kvantitativne analize slovenskih leposlovnih besedil.

Naslov strani: http://www.jakopin.net/primoz/disertacija/izvlecek.php Datum: 16. maj 1999. Zadnja sprememba: 17. februar 2017. 1162

Naprej: Abstract Nazaj: Začetek Kazalo Začetek Konec

	glagoli		samostalniki		pridevniki		zaimki		prislovi

1.	biti p	9,11	roka	0,39	star	0,19	on	1,60	tako	0,39
2.	biti r	1,71	glava	0,24	velik	0,12	ki	0,73	zdaj	0,33
3.	ne biti p	0,65	oči	0,20	lep	0,11	jaz	0,70	nato	0,24
4.	reči	0,47	otrok	0,20	dolg	0,09	ta	0,69	spet	0,21
5.	biti o	0,44	dan	0,18	črn	0,09	ona	0,66	potem	0,18
6.	imeti	0,23	hiša	0,17	bel	0,09	svoj	0,55	počasi	0,15
7.	vedeti	0,23	leto	0,15	dober	0,08	ves	0,39	lahko	0,13
8.	videti	0,20	vrata	0,13	živ	0,07	ti	0,36	takoj	0,11
9.	iti	0,19	beseda	0,13	mlad	0,07	vse	0,29	skoraj	0,10
10.	stopiti	0,18	oče	0,12	težek	0,06	oni	0,28	bolj	0,10
11.	začeti	0,17	človek	0,11	širok	0,06	sam	0,22	naglo	0,09
12.	pogledati	0,16	glas	0,11	hud	0,06	kako	0,20	dobro	0,08

n	H	H_n	F_n	n	H	H_n	F_n

1	4,456	4,456	4,456	13	23,460	1,805	0,239
2	7,994	3,997	3,538	14	23,615	1,687	0,155
3	11,020	3,673	3,026	15	23,715	1,581	0,100
4	13,565	3,391	2,545	16	23,779	1,486	0,064
5	15,739	3,148	2,174	17	23,821	1,401	0,042
6	17,643	2,941	1,904	18	23,848	1,325	0,027
7	19,272	2,753	1,629	19	23,866	1,256	0,018
8	20,587	2,573	1,315	20	23,878	1,194	0,012
9	21,594	2,399	1,007	21	23,886	1,137	0,008
10	22,334	2,233	0,740	22	23,891	1,086	0,005
11	22,861	2,078	0,527	23	23,895	1,039	0,004
12	23,221	1,935	0,360	24	23,898	0,996	0,003