Nazaj: Priprava besedil Naprej: Statistični opis Kazalo Začetek Konec

Doktorska disertacija P. Jakopina, str. 35 - 45

4. poglavje

Oblikoslovno označevanje

4.1 Uvod
4.2 Prvi označevalnik
4.3 Drugi označevalnik
4.4 Oznake drugega vzorca

4.1 Uvod

Kot je bilo že omenjeno v razdelku o označevanju in o vprašanju napak, se pri gradnji vsake besedilne zbirke, tudi take, ki bi bila namenjena statistični raziskavi in merjenju entropije, postavi problem, kako daleč besedila označiti in preveriti. Oblikoslovno označevanje (angl. part-of-speech tagging ali POS tagging, npr. Dermatas in Kokkinakis 1995) doda vsaki besedi v besedilu še slovnično informacijo; označevanje zahteva, da je beseda ne samo prav napisana (sama zase), ampak mora biti pravilna tudi v kontekstu. Oblikoslovna označitev pa ne prinese samo bolj čistega besedila in novih možnosti za kvantitativno analizo. Je tudi predpogoj za lematizacijo besedila, ki šele da odgovor na osnovno vprašanje o bogastvu besednega zaklada in o entropiji v širšem smislu. V nalogi je bil oblikoslovno označen drugi vzorec; oblikoslovne označitve prvega vzorca, tudi zaradi velikega števila neznanih besed (26.311), ni bilo mogoče dobro izvesti v tem okviru.

Oblikoslovno označevanje se je pojavilo v zgodovini kvantitativnega jezikoslovja kmalu za prvimi besedilnimi korpusi in je, podobno kot te zbirke same, vezano predvsem na angleški jezik. Prvi je bil Brownov korpus, imenovan po univerzi Brown (Francis in Kučera 1982) s 1.000 besedili s po 2.000 besedami iz ameriških virov: skupaj 2 milijona besed, vsa iz besedil, napisanih leta 1961. Korpus je bil označen ročno in je kasneje služil kot podlaga za preizkušanje različnih kvantitativnih modelov. Vključen je tudi, kar se oblikoslovnega označevanja tiče, v doslej najbolj uporabljano in proučevano učno bazo, korpus Penn Treebank s 4,5 milijona besed (Marcus 1993). Tu je poleg Brownovega korpusa še največ gradiva iz časopisa Wall Street Journal; cela zbirka je bila na novo ročno označena, z različnimi nabori oznak.

Hiter razvoj računalnikov je v začetku devetdesetih let omogočil nastanek in kasneje tudi označitev že za velikostni razred večjih zbirk, od katerih sta najbolj znani British National Corpus in Bank of English. BNC je zaključen, obsega 100 milijonov besed, nastal je od leta 1992 do 1994 s sodelovanjem več evropskih univerz - domicil ima na oksfordski, označevalnik pa je z univerze v Lancastru. Zanimivo je, da sta bila uporabljena dva nabora oznak, prvi z 61 oznakami za celoten korpus in drugi, razširjeni, s 139 oznakami za jedro korpusa (2 milijona besed), v katerem so bile oznake tudi ročno preverjene in popravljene, s točnostjo 99,7 %. Natančnost strojnega označevanja cenijo na 98,3 %, dvoumnosti pri označevanju pa niso bile povsod razrešene - 4,7 % besed ima več kot eno oznako (Leech idr. 1994). BNC je (skoraj brezplačno) na razpolago vsem raziskovalcem iz držav Evropske unije. Nemški korpus, približno 200 milijonov besed, zbran na Inštitutu za nemški jezik (IDS) v Mannheimu in francoski korpus, FRANTEXT s 3.000 besedili in podobnim obsegom, sta uporabnikom zunaj matičnih držav veliko teže dostopna in zato tudi dosti manj znana.

Bank of English je projekt, ki sta ga v začetku osemdesetih let zastavili univerza v Birminghamu in založba Collins (prim. Jakopin 1996a); ustanovili sta podjetje Cobuild, ki zbirko dopolnjuje in je zdaj dosegla že 330 milijonov besed. Proti plačilu jo je mogoče uporabljati prek interneta, oblikoslovno pa so jo označili v Helsinkih (Järvinen 1994) - točnost so ocenili na 98,5 %. Glavna centra za oblikoslovno označevanje sta raziskovalni center podjetja Rank Xerox v francoskem Grenoblu, kjer se ukvarjajo s približno 15 evropskimi jeziki, med njimi češkim, poljskim in ruskim ter arabščino (Chanod 1997), in podjetje Lingsoft (skupaj z univerzo) iz Helsinkov, predvsem za angleščino (npr. Tapanainen in Voutilainen 1994), v zadnjem času pa tudi še za nekaj drugih jezikov. Ustanovi sta precej povezani - raziskovalci objavljajo skupaj, s tem da je morda nekaj več teže na finski strani. Angleški jezik fleksijsko ni bogat in so bili nabori oblikoslovnih oznak zato lahko majhni - pri korpusu Penn npr. le 48 oznak (36 za besede in 12 za ločila), pri korpusu BNC 61, pri Brownovem 87 in tudi pri francoskem le 88 (Chanod in Tapanainen 1995).

Drugače je pri slovanskih jezikih, ki so znani po svoji pregibnosti. Če upoštevamo sloves praške jezikoslovne šole, ni čudno, da so v slovanski jezikovni družini doslej prišli najdlje na praški univerzi. V sedemdesetih letih so najprej zbrali in ročno označili 600.000 besed dolg korpus, ki so ga potem uporabljali, tudi s pomočjo Xeroxovega centra v Grenoblu, za izpopolnjevanje lastnega strojnega oblikoslovnega označevalnika. Pred petimi leti so ustanovili Inštitut za češki nacionalni korpus, s financiranjem iz raziskovalnih virov in z namenom vzpostavitve 100 milijonov besed obsegajočega besedilnega korpusa (Klimová 1996 in Čermák 1997). Trenutno je prek interneta mogoče dobiti konkordance iz 20 milijonov besed predvsem časopisnega jezika. Leta 1996 jim je uspelo s sredstvi ministrstva za izobraževanje (najprej za tri leta) in s sodelovanjem več čeških fakultet in inštitutov ustanoviti Laboratorij za jezikoslovne podatke pri Inštitutu za formalno in uporabno jezikoslovje Fakultete za matematiko in fiziko. Njegov namen so raziskave na področju procesiranja naravnega jezika z uporabo kombinacije simboličnih in statističnih metod, tako za pisani kot tudi za govorjeni jezik (Hajičová 1997). Nabor oblikoslovnih oznak je seveda pri češkem jeziku bistveno večji, prek 1.000 enot (Hladká in Hajič 1995), in neprimeren za uporabo običajnih statističnih metod, ki so se obnesle pri angleškem in sorodnih jezikih.

Jeziki malih narodov so seveda, če ni kakih izrednih okoliščin (portugalščino na drugi strani oceana uporablja za velikostni razred več govorcev kot v matični domovini), na obrobju zanimanja multinacionalnih družb, ki se ukvarjajo z jezikovnimi tehnologijami. Tako je npr. korpus bosanskega jezika (1,6 milijona besed) nastal na univerzi v Oslu (Santos 1998), oblikoslovni označevalnik za portugalski jezik (in esperanto) pa najdemo na univerzi v Aarhusu na Danskem (Bick 1996) - s sodelovanjem Pasija Tapanainena iz Helsinkov. Pri nas je stanje, kljub skromnim virom, pri raziskavah govorjenega jezika precej blizu svetovni ravni (Mihelič 1998), na področju pisanega jezika pa je zaostanek večji; poleg drugih razlogov se pozna tudi, da skrb za jezik ni institucionalizirana, kot je npr. v skandinavskih državah (Orešnik 1995).

4.2 Prvi označevalnik

Avtor se je seznanil z oblikoslovnim označevanjem, po virih iz korpusa Penn Treebank, na delavnici Gregoryja Grefenstetteja v Budimpešti (Grefenstette 1996). Do sredine leta 1997 je nastal prvi oblikoslovni označevalnik (Jakopin in Bizjak 1997), ki je zahteval že pripravljen slovar besed in možnih oznak za vse besede v besedilu in ki je slonel predvsem na upoštevanju n-terčkov besed in oznak do globine 5 iz že obdelanega (učnega) gradiva:

(b_i-2,o_i-2) (b_i-1,o_i-1) (b_i,o_i) (b_i+1,o_i+1) (b_i+2,o_i+2) (1)

V izrazu (1) so besede označene z b, oznake z o, nanaša pa se na okolico i-te besede v novem besedilu. Označevalnik je bil dvostopenjski - v prvi fazi je označil samo besede, ki so imele ali

a)	samo eno oznako ali	(2)
b)	za katere je obstajala kaka najmanj dve in ne več kot pet besed dolga okolica, pri čemer šteje tudi opazovana beseda, ki je imela natančno en, iz slovarja označenih stavkov razviden niz oznak.

Druga stopnja označevalnika je slonela na predpostavki, da je zaporedje besed v besedilu markovska veriga n-tega reda, kjer je vsak naslednji člen (dogodek) odvisen od prejšnjih n-1 členov. Tokrat so bile upoštevane okolice (n-terčki) iz slovarja oznak, pri čemer je bila okolica spet dolga od dve do pet besed - opazovana beseda in od ena do štiri besede pred njo ali od ena do štiri besede za njo. Označevalnik je za vsako okolico poiskal množico vseh možnih nizov oznak in pogledal, kateri od teh nizov se v slovarju n-terčkov (dvojčkov, trojčkov, četverčkov in peterčkov) dejansko pojavijo. Če je bil en sam, ga je proglasil za pravega in iz njega vzel oznako za opazovano besedo. Če je bilo možnih nizov možnih oznak, ki so se pojavili tudi v učnem slovarju, več, je označevalnik pregledal še vse preostale (širše) okolice. V primeru, da niti prva niti druga faza za opazovano besedo nista našla ustrezne oznake, je ostala beseda neoznačena.

Pri sestavi nabora oblikoslovnih oznak (4.797 enot) so bili upoštevani slovenska slovnica (Toporišič 1984) in tuji zgledi, predvsem že omenjeni češki, obvezne besedne vrste in pregibni vzorci, navedeni v priročniku za ocenjevanje leksike (Underwood in Navaretta 1997), ter nabor, uporabljen pri mednarodnem projektu MULTEXT-East (MULTEXT-East 1997). Iz slovenske slovnice izhajajoči bogato razčlenjeni nabor oznak sicer res zaplete izdelavo avtomatskega označevalnika in omeji število statističnih metod, ki jih je mogoče uporabiti, po drugi strani pa nas približa kidealu različnih oznak za vse razrede besed, ki imajo različne slovnične pomenej (Garside idr. 1987). Majhno število oznak tudi dodatno oteži izbiro leme - primer je angleška izpeljanka lying (ali izvira iz leme lie (lagati) ali iz lie (ležati)).

S tem označevalnikom je bila obdelana zadnja tretjina romana Pomladni dan in roman Prazna ptičnica v drugem vzorcu. Natančnost je bila ocenjena z 80 %, obe deli pa sta bili kasneje še ročno preverjeni in popravljeni.

4.3 Drugi označevalnik

Da bi bilo mogoče označiti cel drugi vzorec in da bi bilo mogoče strojno dodeljene oznake tudi ročno preveriti še pred iztekom te naloge, je bil potreben boljši označevalnik. Poleg tega, da je bil prvi premalo natančen, je bil zaradi svoje interaktivne narave tudi precej počasen. Pri novem označevalniku, ki ga je avtor napisal v začetku leta 1998, sta oba postopka (upoštevanje zgodovine in ugotavljanje oznak iz podatkov o markovski verigi oznak učnega gradiva) združena in poenostavljena, dodana pa je še redukcija oznak, ki zmanjša nabor pri slovarju n-terčkov oznak na tretjino. Označevalnik se pri delu opira na tri slovarje: slovar besednih oblik z vsemi možnimi oznakami, slovar pogostejših (s frekvenco 2 ali več) besednih n-terčkov (n = 2-5) z oznakami in slovar pogostejših n-terčkov oznak. V tabeli 19 je izsek iz prvega slovarja.

Tabela 19: Besedne oblike na dolgo- z oznakami

V tabeli so v prvem polju vsakega podatkovnega zapisa besedne oblike, v drugem pa možne oblikoslovne oznake, ločene s podpičji. Če oznake izvirajo iz že označenega gradiva, imajo tudi frekvenco, ločeno z vejico, če so bile dobljene iz SSKJ (glej razdelek 3.4) ali določene naknadno, pa frekvence še nimajo. Kratice v oznakah so: A prislov, P pridevnik, S samostalnik, ŠNE nedoločni števnik, m, ž, s spol, e ednina, d dvojina, p množina, števke pa označujejo sklon. Kot je videti, predvsem dvojinske oblike, ki so v besedilih redke, zelo povečajo število možnih oznak. Nasploh je, če upoštevamo vse izpeljanke iz samostalnikov, pridevnikov in glagolov v SSKJ (tabela 9, 3.487.676 izpeljank, od tega 1.075.779 različnih), povprečno 3,24 oznake na besedno obliko. To je bistveno več kot pri angleščini ali portugalščini (pribl. 2) in blizu vrednosti za češki jezik (3,64 - Hladká in Hajič 1995).

Ta slovar uporabi označevalnik za tvorjenje niza vseh možnih oznak za vse besede v opazovani povedi, in kadar ima beseda eno samo oznako (najpogostejši veznik in ima samo oznako Vpr - priredni veznik), je ta tudi že prava in je postopek za to besedo končan.

Nabor oznak, uporabljen pri prvem označevalniku, je bil zaradi predvidene lematizacije označenega besedila dopolnjen z razčlenitvijo glagola biti v vseh njegovih oblikah. Razčlenjen je na tri dele:

Tabela 20: Razčlenitev glagola biti

      lema    razlaga    primer



1.    biti_o    biti v smislu obstajanja v času in prostoru    Hiša je tam.

2.    biti_r    biti v relacijskem smislu    Ona je lepa.

3.    biti_p    pomožni glagol biti    Skoraj sem videl volka.

Lema biti je ostala glagolu biti, bijem. S to razširitvijo in z uvedbo oznake IN za nazive (npr. Don) se je število oznak v naboru povzpelo na 4.907. Kot je bilo že navedeno v tabeli 18, je v drugem vzorcu 36.473 različnih besednih oblik. Oznake za 31.656 se je dalo poiskati s pomočjo slovarja oblik iz SSKJ, 2.924 iz že obdelanega gradiva, 1.893 pa jih je ročno klasificiral avtor.

Drugi označevalnikov slovar vsebuje vse besedne n-terice (n = 2-5) iz že obdelanega gradiva, ki imajo frekvenco vsaj 2, in njihove oznake. Izsek iz tega slovarja (330.000 upoštevanih besed, za vejico so navedene frekvence), najprej peterčkov, s katerimi algoritem začne, zatem četverčkov, trojčkov in dvojčkov, je naveden v tabeli 21 . Če bi program v besedilu naletel na frazo zdelo se ji je, da, ki ima, kot je razvidno iz tabele, samo en niz oznak: GLse Gmp ZOcže3 GPce Vpo (deležnik na -l srednjega spola v ednini, prosti glagolski morfem, osebni zaimek tretja oseba ženski spol ednina dajalnik, pomožni glagol biti tretja oseba ednine in podredni veznik), bi bil postopek dodelitve oznak tem petim besedam že končan. V primeru besednega trojčka že v prvem, ki ima dva možna niza oznak: Č E5 ŠVme5 in Č E5 ŠVse5, je razločevanje končano za prvi dve besedi (v obeh primerih sta oznaki členek in predlog, ki se veže z mestnikom), tretja beseda pa še ostane za nadaljnji postopek (vrstilni števnik ednina mestnik moškega ali srednjega spola).

Tabela 21: Izsek iz slovarja besednih n-terčkov z oznakami

Učinkovitost slovarja besednih n-teric z oznakami je sorazmerna velikosti učnega vzorca, že obdelanega in preverjenega gradiva. Po podatkih, dostopnih iz gradiv projekta MULTEXT-East (MULTEXT-East 1997) znaša 50 % pri 1 milijon besed velikem učnem besedilu. Pri označevanju drugega vzorca, ki je potekalo v več fazah in kjer se je spreminjala tudi velikost učnega gradiva (največ 330.000 besed: Pomladni dan, Prazna ptičnica, Platon: Država, G. Orwell: 1984, vzorec časopisa DELO), je bil ta delež približno 35 %.

V tretjem slovarju označevalnika so shranjeni podatki o pogostejših (spet s frekvenco 2 ali več) n-terčkih oznak iz učnega besedila, posebej za kratke povedi (1-5 besed) in posebej za splošne primere. Ker je število oznak (4.907) zelo veliko, učno besedilo označevalnika pa še vedno razmeroma skromno, je bilo treba za povečanje učinkovitosti tega slovarja nabor zmanjšati - iz njega izločiti vso informacijo, ki pri razločevanju ni nujna. S transformacijsko tabelo, ki je navedena v tabeli 22, so bile oznake, ki imajo spol, število in sklon, za vse vrste, ki nastopajo v samostalniški vlogi, združene v oznako S, vse pridevniške v P, vse zaimkovne pa v Z. S tem je bilo število oznak v tem slovarju zmanjšano s 1.498 na 514, frekvence oznak pa ustrezno večje.

Tabela 22: Redukcijska tabela pred tvorjenjem n-terčkov oznak

   GČ P    ISP S    PIM P    PŠI P    ZI Z    ZR Z    ZSVcd Z

   GN P    ISS S    PIO P    PT P    ZK Z    ZRPO Z    ZSVcme Z

   GT P    IV S    PIP P    S S    ZM Z    ZSVad Z    ZSVcp Z

   IB S    IZ S    PIS P    SG S    ZNE Z    ZSVae Z    ZSVcže Z

   IM S    IŽ S    PIV P    ŠG P    ZNI Z    ZSVap Z    ZSVP Z

   IO S    KI S    PIZ P    ŠM P    ZO Z    ZSVbd Z    ZT Z

   IP S    P P    PL P    ŠV P    ZPO Z    ZSVbe Z    ZTS Z

   IS S    PČ P    PN P    ZD Z    ZPU Z    ZSVbp Z    ZV Z

Algoritem pri razločevanju preostalih dvoumnosti po uporabljenih n-terčkih besed in oznak iz drugega slovarja upošteva najprej dvojčke, potem trojčke, zatem četverčke in nazadnje peterčke. Če uspe najti za vse možne dvojčke oznak opazovane besede in njenih neposrednih sosed v slovarju n-terčkov oznak en sam par, je ta pravi, oznaka iz njega upoštevana in postopek končan. Če ne, se postopek nadaljuje s širšimi okolicami, do n = 5. Izsek iz splošnega dela tega slovarja (330.000 besed učnega besedila), za n = 2 - 5, je naveden v tabeli 23 (za podatkovnim ločilom, dvignjeno piko, so navedene frekvence).

Tabela 23: Izsek iz slovarja n-terčkov oznak

N-terčki iz obeh slovarjev imajo tudi frekvence, tako da je mogoče med postopkom spremljati, kolikokrat se je vsaka izmed možnih oznak pri opazovani besedi pojavila, in seštevati vmesne frekvence te oznake. Na ta način je mogoče v primeru, da postopek ne pripelje do popolne razrešitve dvoumnosti, med preostalimi oznakami izbrati najpogostejšo. Pri postopku razreševanja dvoumnosti je mogoče vplivati na nastavitve, ki so razvidne s slike 3.

Slika 3: Nastavitve pri oblikoslovnem označevanju

Če po uporabi vseh treh slovarjev še vedno ostane za opazovano besedo v novem besedilu več oznak, se navadno izkaže za najboljšo v zgornji sliki izbrana možnost: Izberi oznako, ki se je v postopku najpogosteje pojavila. Za preverjanje šolskih primerov pride dostikrat prav možnost, da odklonimo vsako razreševanje dvoumnosti (Nič - vse dvoumnosti naj ostanejo) in pustimo, da program vse možne oznake pri besedah izpiše (Ostanejo naj). V spodnjem primeru je bila ta možnost uporabljena na povedi Danes je lepo vreme:

Pri besedici je so najprej vse tri možnosti glagola biti - v smislu obstajanja, v relacijskem smislu in kot pomožni glagol, sledi tretja oseba ednine glagola jesti v sedanjem času, nazadnje pa je še osebni zaimek ženskega spola v tretji osebi ednine in v rodilniku. Kadar je možnih oznak zelo veliko, lahko njihovo število pri izpisu omejimo z zadnjim določilom iz nastavitve na sliki 3.

Na sliki 4 je naveden primer besedila pred označitvijo, iz odstavka v drugem vzorcu - odlomek iz pravljice Kamen in njiva. Ima 89 besed v 9 povedih.

Slika 4: Primer besedila iz drugega vzorca pred oblikoslovno označitvijo

Po oblikoslovni označitvi z upoštevanjem nastavitev iz slike 3 nastane besedilo s slike 5. Napačno označene besede so 4 - njihovim oznakam je spredaj dodana zvezdica. Prvi tako bi moral biti označen z A, cvetočega s PČme2, cvetoče s PČže2, bila v zadnji vrstici pa z GLRže. Natačnost označevanja je bila v tem primeru 85/89, kar je 95,51 %.

V splošnem je bila točnost označevalnika nekoliko manjša. Oznake celotnega drugega vzorca so bile ročno preverjene in popravljene na Inštitutu za slovenski jezik ZRC SAZU; natančnost je mogoče podati za zadnjih 157.933 besed (39 % drugega vzorca) od 319.936, ki so bile skupaj označene s tem označevalnikom. Napačno označenih besed je bilo 12.089, kar pomeni 92,35 odstotno natančnost. Številka je nekje vmes med natančnostjo prvega označevalnika (80 %) in najboljšimi dosežki za angleški jezik (98,5 % - Järvinen 1994 in 98,6 % - Ratnaparkhi 1996);

Slika 5: Primer z označevalnikom obdelanega besedila iz drugega vzorca

slednji so bili izmerjeni na vzorcih iz časopisa Wall Street Journal, ki je bil ročno označen v okviru projekta Penn Treebank. Najpogostejše napake so navedene v tabeli 24.

Tabela 24: Najpogostejše napake označevalnika (beseda, prav, narobe, frekvenca)

da    Vpo    Vpr 478                    da    Vpo    Č 158

ne    ČZ    Vpo 373                    bil    GLRme    GLBme 136

ne    ČZ    Vpr 319                    kakor    Vpo    Vpr 134

tako    A    Č 292                    zakaj    ZV    Vpr 127

je    GRce    GOce 231                    tudi    Č    Vpr 104

je    GRce    GPce 183                    tako    A    ZK 101

ali    ČV    Vpr 164                    kaj    ZVse1    Č 93

tako    A    Vpr 163                    kaj    Č    ZVse4 92

Več o nadaljnjih perspektivah označevalnika je videti s slike 6, ki prikazuje krivuljo rasti vseh trojčkov (beseda, prava oznaka, napačna oznaka) s frekvencami. Različnih napak (trojčkov) je bilo 4.188. Iz krivulje razberemo, da bi bilo za 25-odstotni dvig natančnosti treba popraviti 16 najpogostejših napak, za 50-odstotnega približno 128, za 75-odstotnega pa že več kot 1000.

Slika 6: Krivulja rasti za napake označevalnika

4.4 Oznake drugega vzorca

V drugem vzorcu je bilo označenih 407.938 enot - 407.858 besed in 80 števil. Izmed 4.907 možnih različnih oznak jih je bilo uporabljenih 1.498 ali 30,5 %. Frekvenčni slovar oznak vsebuje priloga C (stran 111), popoln slovar lem in njihovih oznak s frekvencami pa je naveden v prilogi Č (stran 117). V spodnji tabeli so po frekvenci razvrščene besedne vrste.

Tabela 25: Besedne vrste v drugem vzorcu, absolutno in v odstotkih

glagoli        130.208    31,92

samostalniki   83.088    20,37

zaimki         41.259    10,11

vezniki        40.094    9,83

predlogi       35.553    8,72

pridevniki     26.661    6,54

prislovi       26.279    6,44

členki         19.151    4,69

števniki       3.048    0,75

medmeti        1.565    0,38

povedkovniki   1.006    0,25

kratice        26     -



Skupaj         407.938    100,00

Med glagoli je bilo 36.977 ali 28,4 % pomožnih, med samostalniki pa 13.194 ali 15,9 % imen. Podrobnejši pregled najpogostejših oznak je razviden iz tabele 26. Najpogostejša je oznaka za priredni veznik, sledijo prislov, glagolski deležnik na -l moškega spola v ednini, oznaka za pomožni glagol je, členek na petem mestu, potem sledijo oznaka za prosti glagolski morfem se, podredni veznik, predlog, ki se veže z mestnikom, sedanjik v tretji osebi ednine in glagolski deležnik na -l ženskega spola v ednini.

Tabela 26: Najpogostejših 60 oznak s frekvencami

   Vpr 28.529    E4 9.605    GPcp 3.771    Pme1 2.706    E3 1.923    ZOcže4 1.396

   A 25.756    Sme1 7.830    Sže5 3.742    GPae 2.663    GZPce 1.908    Sse2 1.347

   GLme 24.463    E6 7.553    ZOcme4 3.338    GNE 2.640    IOže1 1.902    Pse1 1.343

   GPce 22.615    Sže4 7.010    ZVR 3.224    Sme5 2.628    ZV 1.888    Sse5 1.317

   Č 15.353    IOme1 6.626    GBI 3.223    Smp1 2.326    Sme6 1.869    Sse1 1.311

   Gmp 14.631    Sže1 6.093    ČZ 3.215    GRce 2.303    GLse 1.826    GLRme 1.282

   Vpo 11.565    Sme4 5.734    Pže1 3.073    ZOcme3 2.119    Smp4 1.624    ZKse1 1.262

   E5 11.018    E2 5.219    Sme2 2.996    Gae 2.073    Sžp1 1.597    Sžp2 1.189

   Gce 10.700    GLmp 4.780    Sžp4 2.814    Sže6 2.041    M 1.565    GFPce 1.144

   GLže 9.650    Sže2 3.839    Gcp 2.760    Sse4 1.943    Pže4 1.494    Smp2 1.109

Naslov strani: http://www.jakopin.net/primoz/disertacija/oblikozn.php Datum: 26. junij 1999. Zadnja sprememba: 27. marec 2017. 1612

Naprej: Statistični opis Nazaj: Priprava besedil Kazalo Začetek Konec

	lema	razlaga	primer

1.	biti_o	biti v smislu obstajanja v času in prostoru	Hiša je tam.
2.	biti_r	biti v relacijskem smislu	Ona je lepa.
3.	biti_p	pomožni glagol biti	Skoraj sem videl volka.

da	Vpo	Vpr	478	da	Vpo	Č	158
ne	ČZ	Vpo	373	bil	GLRme	GLBme	136
ne	ČZ	Vpr	319	kakor	Vpo	Vpr	134
tako	A	Č	292	zakaj	ZV	Vpr	127
je	GRce	GOce	231	tudi	Č	Vpr	104
je	GRce	GPce	183	tako	A	ZK	101
ali	ČV	Vpr	164	kaj	ZVse1	Č	93
tako	A	Vpr	163	kaj	Č	ZVse4	92

glagoli	130.208	31,92
samostalniki	83.088	20,37
zaimki	41.259	10,11
vezniki	40.094	9,83
predlogi	35.553	8,72
pridevniki	26.661	6,54
prislovi	26.279	6,44
členki	19.151	4,69
števniki	3.048	0,75
medmeti	1.565	0,38
povedkovniki	1.006	0,25
kratice	26	-

Skupaj	407.938	100,00

Vpr	28.529	E4	9.605	GPcp	3.771	Pme1	2.706	E3	1.923	ZOcže4	1.396
A	25.756	Sme1	7.830	Sže5	3.742	GPae	2.663	GZPce	1.908	Sse2	1.347
GLme	24.463	E6	7.553	ZOcme4	3.338	GNE	2.640	IOže1	1.902	Pse1	1.343
GPce	22.615	Sže4	7.010	ZVR	3.224	Sme5	2.628	ZV	1.888	Sse5	1.317
Č	15.353	IOme1	6.626	GBI	3.223	Smp1	2.326	Sme6	1.869	Sse1	1.311
Gmp	14.631	Sže1	6.093	ČZ	3.215	GRce	2.303	GLse	1.826	GLRme	1.282
Vpo	11.565	Sme4	5.734	Pže1	3.073	ZOcme3	2.119	Smp4	1.624	ZKse1	1.262
E5	11.018	E2	5.219	Sme2	2.996	Gae	2.073	Sžp1	1.597	Sžp2	1.189
Gce	10.700	GLmp	4.780	Sžp4	2.814	Sže6	2.041	M	1.565	GFPce	1.144
GLže	9.650	Sže2	3.839	Gcp	2.760	Sse4	1.943	Pže4	1.494	Smp2	1.109