7. poglavje

Sklep

Pot, prehojena do teh vrstic, je bila precej dolga in dostikrat tudi bolj ovinkasta kot ne. Od prvih raziskav entropije v našem prostoru (Matković 1957 in Gyergyék 1962) in pionirskih kvantitativnih analiz slovenskega jezika (Gyergyék s sod. 1974 in Poniž 1974) so minila skoraj tri desetletja. Šele pospešeni razvoj in široka dostopnost prave računalniške moči v zadnjih letih sta omogočila analizo besedil v obsegu naloge. Pomen besedilnih korpusov za znanost se v zadnjih letih, tudi zaradi naštetega, povečuje (npr. Sinclair 1991, Habert 1997, Oakes 1997) in vzbuja nove, tokrat ne več tako preuranjene upe v uporabnost kvantitativnih raziskav.

Če se ozremo nazaj in pogledamo, kaj manjka in kaj bi se dalo napraviti bolje, naletimo predvsem na dvoje.

Najprej se pojavi vprašanje velikosti in vsebine vzorca slovenskih leposlovnih besedil. Če upoštevamo, da je povprečen pripadnik našega jezikovnega prostora po zaključku srednje šole v obliki obveznega šolskega čtiva in morda še kakšne druge knjige prebral približno 90 leposlovnih del (4 krat 8 in 4 krat 15), dobimo obseg, primerljiv z velikostjo obeh vzorcev v nalogi. Da pa bi lahko napravili model, ki bi služil za podlago res učinkovitemu mehanizmu za komprimiranju slovenskih leposlovnih besedil, bi bilo potrebno dodati predvsem imena, ki so zviševala oceno entropije v modelih iz naloge (glej npr. konec razdelka 6.3.4, str. 106). Virov za to je več, najkrajši pa bi bila nedvomno publikacija s kratkimi vsebinami slovenskih proznih del (npr. Janež 1992). Boljša pot bi bila seveda, če bi vsa ta dela vseboval. Drug nujni dodatek bi bila dopolnitev vzorca z besedili, ki smo jim poleg leposlovnih še izpostavljeni, predvsem časopisnimi in televizijskimi.

Drugi premislek se tiče predvsem mehanizma za komprimiranje slovenskih besedil in je delno povezan s prvim. Gre za to, da bi, če naj se spusti niže v bližino ocene 2,2 bita na znak, moral biti hibriden, to je tak, ki bi poleg pogostih znakovnih nizov, ki se pojavljajo v opazovanem besedilu in ki jih algoritem že pozna v učnem vzorcu, upošteval še lokalne pogostosti, kakršne so recimo imena glavnih junakov ali pa pogostosti, ki spadajo k slogu pisanja in ki jih s pridom izkoriščajo algoritmi v najučinkovitejših komprimirnih programih, kakršni so bili npr. omenjeni v rezdelku 6.3.6.

Poleg načelnih premislekov je vedno zanimiva še bolj bližnja bodočnost. Priprave na oblikoslovno označitev prvega vzorca potekajo že nekaj časa, zbrana pa je tudi že znatna zbirka časopisnega jezika (elektronska verzija časopisa DELO, 17 milijonov besed od januarja 1998 do marca 1999), ki bi omogočila kvantitetni preskok s 3 milijonov besed na več kot 10 milijonov besed veliko besedilno zbirko. Z vsem navedenim bi se dalo učinkovito podpreti graditev besedilnega korpusa slovenskega jezika, t. i. Slovenskega nacionalnega korpusa, katerega nastanek že nekaj časa visi v zraku (Hladnik 1995, Balažic idr. 1998, Dobrišek idr. 1998, Erjavec idr. 1998, Kranjc 1998).

Avtor upa, da se bo dalo pri tem uporabiti tudi izsledke v nalogi.

Naslov strani: http://www.jakopin.net/primoz/disertacija/sklep.php Datum: 27. junij 1999. Zadnja sprememba: 17. februar 2017. 953

Naprej: Literatura Nazaj: Entropija Kazalo Začetek Konec