Nazaj: Priprava besedil      Naprej: Statistični opis      Kazalo    Začetek    Konec

Doktorska disertacija P. Jakopina, str. 35 - 45

4. poglavje

Oblikoslovno označevanje

4.1  Uvod
4.2 Prvi označevalnik
4.3 Drugi označevalnik
4.4 Oznake drugega vzorca

4.1 Uvod

Kot je bilo že omenjeno v razdelku o označevanju in o vprašanju napak, se pri gradnji vsake besedilne zbirke, tudi take, ki bi bila namenjena statistični raziskavi in merjenju entropije, postavi problem, kako daleč besedila označiti in preveriti. Oblikoslovno označevanje (angl. part-of-speech tagging ali POS tagging, npr. Dermatas in Kokkinakis 1995) doda vsaki besedi v besedilu še slovnično informacijo; označevanje zahteva, da je beseda ne samo prav napisana (sama zase), ampak mora biti pravilna tudi v kontekstu. Oblikoslovna označitev pa ne prinese samo bolj čistega besedila in novih možnosti za kvantitativno analizo. Je tudi predpogoj za lematizacijo besedila, ki šele da odgovor na osnovno vprašanje o bogastvu besednega zaklada in o entropiji v širšem smislu. V nalogi je bil oblikoslovno označen drugi vzorec; oblikoslovne označitve prvega vzorca, tudi zaradi velikega števila neznanih besed (26.311), ni bilo mogoče dobro izvesti v tem okviru.

Oblikoslovno označevanje se je pojavilo v zgodovini kvantitativnega jezikoslovja kmalu za prvimi besedilnimi korpusi in je, podobno kot te zbirke same, vezano predvsem na angleški jezik. Prvi je bil Brownov korpus, imenovan po univerzi Brown (Francis in Kučera 1982) s 1.000 besedili s po 2.000 besedami iz ameriških virov: skupaj 2 milijona besed, vsa iz besedil, napisanih leta 1961. Korpus je bil označen ročno in je kasneje služil kot podlaga za preizkušanje različnih kvantitativnih modelov. Vključen je tudi, kar se oblikoslovnega označevanja tiče, v doslej najbolj uporabljano in proučevano učno bazo, korpus Penn Treebank s 4,5 milijona besed (Marcus 1993). Tu je poleg Brownovega korpusa še največ gradiva iz časopisa Wall Street Journal; cela zbirka je bila na novo ročno označena, z različnimi nabori oznak.

Hiter razvoj računalnikov je v začetku devetdesetih let omogočil nastanek in kasneje tudi označitev že za velikostni razred večjih zbirk, od katerih sta najbolj znani British National Corpus in Bank of English. BNC je zaključen, obsega 100 milijonov besed, nastal je od leta 1992 do 1994 s sodelovanjem več evropskih univerz - domicil ima na oksfordski, označevalnik pa je z univerze v Lancastru. Zanimivo je, da sta bila uporabljena dva nabora oznak, prvi z 61 oznakami za celoten korpus in drugi, razširjeni, s 139 oznakami za jedro korpusa (2 milijona besed), v katerem so bile oznake tudi ročno preverjene in popravljene, s točnostjo 99,7 %. Natančnost strojnega označevanja cenijo na 98,3 %, dvoumnosti pri označevanju pa niso bile povsod razrešene - 4,7 % besed ima več kot eno oznako (Leech idr. 1994). BNC je (skoraj brezplačno) na razpolago vsem raziskovalcem iz držav Evropske unije. Nemški korpus, približno 200 milijonov besed, zbran na Inštitutu za nemški jezik (IDS) v Mannheimu in francoski korpus, FRANTEXT s 3.000 besedili in podobnim obsegom, sta uporabnikom zunaj matičnih držav veliko teže dostopna in zato tudi dosti manj znana.

Bank of English je projekt, ki sta ga v začetku osemdesetih let zastavili univerza v Birminghamu in založba Collins (prim. Jakopin 1996a); ustanovili sta podjetje Cobuild, ki zbirko dopolnjuje in je zdaj dosegla že 330 milijonov besed. Proti plačilu jo je mogoče uporabljati prek interneta, oblikoslovno pa so jo označili v Helsinkih (Järvinen 1994) - točnost so ocenili na 98,5 %. Glavna centra za oblikoslovno označevanje sta raziskovalni center podjetja Rank Xerox v francoskem Grenoblu, kjer se ukvarjajo s približno 15 evropskimi jeziki, med njimi češkim, poljskim in ruskim ter arabščino (Chanod 1997), in podjetje Lingsoft (skupaj z univerzo) iz Helsinkov, predvsem za angleščino (npr. Tapanainen in Voutilainen 1994), v zadnjem času pa tudi še za nekaj drugih jezikov. Ustanovi sta precej povezani - raziskovalci objavljajo skupaj, s tem da je morda nekaj več teže na finski strani. Angleški jezik fleksijsko ni bogat in so bili nabori oblikoslovnih oznak zato lahko majhni - pri korpusu Penn npr. le 48 oznak (36 za besede in 12 za ločila), pri korpusu BNC 61, pri Brownovem 87 in tudi pri francoskem le 88 (Chanod in Tapanainen 1995).

Drugače je pri slovanskih jezikih, ki so znani po svoji pregibnosti. Če upoštevamo sloves praške jezikoslovne šole, ni čudno, da so v slovanski jezikovni družini doslej prišli najdlje na praški univerzi. V sedemdesetih letih so najprej zbrali in ročno označili 600.000 besed dolg korpus, ki so ga potem uporabljali, tudi s pomočjo Xeroxovega centra v Grenoblu, za izpopolnjevanje lastnega strojnega oblikoslovnega označevalnika. Pred petimi leti so ustanovili Inštitut za češki nacionalni korpus, s financiranjem iz raziskovalnih virov in z namenom vzpostavitve 100 milijonov besed obsegajočega besedilnega korpusa (Klimová 1996 in Čermák 1997). Trenutno je prek interneta mogoče dobiti konkordance iz 20 milijonov besed predvsem časopisnega jezika. Leta 1996 jim je uspelo s sredstvi ministrstva za izobraževanje (najprej za tri leta) in s sodelovanjem več čeških fakultet in inštitutov ustanoviti Laboratorij za jezikoslovne podatke pri Inštitutu za formalno in uporabno jezikoslovje Fakultete za matematiko in fiziko. Njegov namen so raziskave na področju procesiranja naravnega jezika z uporabo kombinacije simboličnih in statističnih metod, tako za pisani kot tudi za govorjeni jezik (Hajičová 1997). Nabor oblikoslovnih oznak je seveda pri češkem jeziku bistveno večji, prek 1.000 enot (Hladká in Hajič 1995), in neprimeren za uporabo običajnih statističnih metod, ki so se obnesle pri angleškem in sorodnih jezikih.

Jeziki malih narodov so seveda, če ni kakih izrednih okoliščin (portugalščino na drugi strani oceana uporablja za velikostni razred več govorcev kot v matični domovini), na obrobju zanimanja multinacionalnih družb, ki se ukvarjajo z jezikovnimi tehnologijami. Tako je npr. korpus bosanskega jezika (1,6 milijona besed) nastal na univerzi v Oslu (Santos 1998), oblikoslovni označevalnik za portugalski jezik (in esperanto) pa najdemo na univerzi v Aarhusu na Danskem (Bick 1996) - s sodelovanjem Pasija Tapanainena iz Helsinkov. Pri nas je stanje, kljub skromnim virom, pri raziskavah govorjenega jezika precej blizu svetovni ravni (Mihelič 1998), na področju pisanega jezika pa je zaostanek večji; poleg drugih razlogov se pozna tudi, da skrb za jezik ni institucionalizirana, kot je npr. v skandinavskih državah (Orešnik 1995).


4.2 Prvi označevalnik

Avtor se je seznanil z oblikoslovnim označevanjem, po virih iz korpusa Penn Treebank, na delavnici Gregoryja Grefenstetteja v Budimpešti (Grefenstette 1996). Do sredine leta 1997 je nastal prvi oblikoslovni označevalnik (Jakopin in Bizjak 1997), ki je zahteval že pripravljen slovar besed in možnih oznak za vse besede v besedilu in ki je slonel predvsem na upoštevanju n-terčkov besed in oznak do globine 5 iz že obdelanega (učnega) gradiva:

 (bi-2,oi-2) (bi-1,oi-1) (bi,oi) (bi+1,oi+1) (bi+2,oi+2)(1)

V izrazu (1) so besede označene z b, oznake z o, nanaša pa se na okolico i-te besede v novem besedilu. Označevalnik je bil dvostopenjski - v prvi fazi je označil samo besede, ki so imele ali

a)samo eno oznako ali(2)
b)       za katere je obstajala kaka najmanj dve in ne več kot pet besed dolga okolica, pri čemer šteje tudi opazovana beseda, ki je imela natančno en, iz slovarja označenih stavkov razviden niz oznak. 

Druga stopnja označevalnika je slonela na predpostavki, da je zaporedje besed v besedilu markovska veriga n-tega reda, kjer je vsak naslednji člen (dogodek) odvisen od prejšnjih n-1 členov. Tokrat so bile upoštevane okolice (n-terčki) iz slovarja oznak, pri čemer je bila okolica spet dolga od dve do pet besed - opazovana beseda in od ena do štiri besede pred njo ali od ena do štiri besede za njo. Označevalnik je za vsako okolico poiskal množico vseh možnih nizov oznak in pogledal, kateri od teh nizov se v slovarju n-terčkov (dvojčkov, trojčkov, četverčkov in peterčkov) dejansko pojavijo. Če je bil en sam, ga je proglasil za pravega in iz njega vzel oznako za opazovano besedo. Če je bilo možnih nizov možnih oznak, ki so se pojavili tudi v učnem slovarju, več, je označevalnik pregledal še vse preostale (širše) okolice. V primeru, da niti prva niti druga faza za opazovano besedo nista našla ustrezne oznake, je ostala beseda neoznačena.

Pri sestavi nabora oblikoslovnih oznak (4.797 enot) so bili upoštevani slovenska slovnica (Toporišič 1984) in tuji zgledi, predvsem že omenjeni češki, obvezne besedne vrste in pregibni vzorci, navedeni v priročniku za ocenjevanje leksike (Underwood in Navaretta 1997), ter nabor, uporabljen pri mednarodnem projektu MULTEXT-East (MULTEXT-East 1997). Iz slovenske slovnice izhajajoči bogato razčlenjeni nabor oznak sicer res zaplete izdelavo avtomatskega označevalnika in omeji število statističnih metod, ki jih je mogoče uporabiti, po drugi strani pa nas približa kidealu različnih oznak za vse razrede besed, ki imajo različne slovnične pomenej (Garside idr. 1987). Majhno število oznak tudi dodatno oteži izbiro leme - primer je angleška izpeljanka lying (ali izvira iz leme lie (lagati) ali iz lie (ležati)).

S tem označevalnikom je bila obdelana zadnja tretjina romana Pomladni dan in roman Prazna ptičnica v drugem vzorcu. Natančnost je bila ocenjena z 80 %, obe deli pa sta bili kasneje še ročno preverjeni in popravljeni.


4.3 Drugi označevalnik

Da bi bilo mogoče označiti cel drugi vzorec in da bi bilo mogoče strojno dodeljene oznake tudi ročno preveriti še pred iztekom te naloge, je bil potreben boljši označevalnik. Poleg tega, da je bil prvi premalo natančen, je bil zaradi svoje interaktivne narave tudi precej počasen. Pri novem označevalniku, ki ga je avtor napisal v začetku leta 1998, sta oba postopka (upoštevanje zgodovine in ugotavljanje oznak iz podatkov o markovski verigi oznak učnega gradiva) združena in poenostavljena, dodana pa je še redukcija oznak, ki zmanjša nabor pri slovarju n-terčkov oznak na tretjino. Označevalnik se pri delu opira na tri slovarje: slovar besednih oblik z vsemi možnimi oznakami, slovar pogostejših (s frekvenco 2 ali več) besednih n-terčkov (n = 2-5) z oznakami in slovar pogostejših n-terčkov oznak. V tabeli 19 je izsek iz prvega slovarja.

Tabela 19: Besedne oblike na dolgo- z oznakami

   

V tabeli so v prvem polju vsakega podatkovnega zapisa besedne oblike, v drugem pa možne oblikoslovne oznake, ločene s podpičji. Če oznake izvirajo iz že označenega gradiva, imajo tudi frekvenco, ločeno z vejico, če so bile dobljene iz SSKJ (glej razdelek 3.4) ali določene naknadno, pa frekvence še nimajo. Kratice v oznakah so: A prislov, P pridevnik, S samostalnik, ŠNE nedoločni števnik, m, ž, s spol, e ednina, d dvojina, p množina, števke pa označujejo sklon. Kot je videti, predvsem dvojinske oblike, ki so v besedilih redke, zelo povečajo število možnih oznak. Nasploh je, če upoštevamo vse izpeljanke iz samostalnikov, pridevnikov in glagolov v SSKJ (tabela 9, 3.487.676 izpeljank, od tega 1.075.779 različnih), povprečno 3,24 oznake na besedno obliko. To je bistveno več kot pri angleščini ali portugalščini (pribl. 2) in blizu vrednosti za češki jezik (3,64 - Hladká in Hajič 1995).

Ta slovar uporabi označevalnik za tvorjenje niza vseh možnih oznak za vse besede v opazovani povedi, in kadar ima beseda eno samo oznako (najpogostejši veznik in ima samo oznako Vpr - priredni veznik), je ta tudi že prava in je postopek za to besedo končan.

Nabor oznak, uporabljen pri prvem označevalniku, je bil zaradi predvidene lematizacije označenega besedila dopolnjen z razčlenitvijo glagola biti v vseh njegovih oblikah. Razčlenjen je na tri dele:

Tabela 20: Razčlenitev glagola biti

     lema    razlaga    primer
      
1.   biti_o    biti v smislu obstajanja v času in prostoru    Hiša je tam.
2.   biti_r    biti v relacijskem smislu    Ona je lepa.
3.   biti_p    pomožni glagol biti    Skoraj sem videl volka.

   

Lema biti je ostala glagolu biti, bijem. S to razširitvijo in z uvedbo oznake IN za nazive (npr. Don) se je število oznak v naboru povzpelo na 4.907. Kot je bilo že navedeno v tabeli 18, je v drugem vzorcu 36.473 različnih besednih oblik. Oznake za 31.656 se je dalo poiskati s pomočjo slovarja oblik iz SSKJ, 2.924 iz že obdelanega gradiva, 1.893 pa jih je ročno klasificiral avtor.

Drugi označevalnikov slovar vsebuje vse besedne n-terice (n = 2-5) iz že obdelanega gradiva, ki imajo frekvenco vsaj 2, in njihove oznake. Izsek iz tega slovarja (330.000 upoštevanih besed, za vejico so navedene frekvence), najprej peterčkov, s katerimi algoritem začne, zatem četverčkov, trojčkov in dvojčkov, je naveden v tabeli 21 . Če bi program v besedilu naletel na frazo zdelo se ji je, da, ki ima, kot je razvidno iz tabele, samo en niz oznak: GLse Gmp ZOcže3 GPce Vpo (deležnik na -l srednjega spola v ednini, prosti glagolski morfem, osebni zaimek tretja oseba ženski spol ednina dajalnik, pomožni glagol biti tretja oseba ednine in podredni veznik), bi bil postopek dodelitve oznak tem petim besedam že končan. V primeru besednega trojčka že v prvem, ki ima dva možna niza oznak: Č E5 ŠVme5 in Č E5 ŠVse5, je razločevanje končano za prvi dve besedi (v obeh primerih sta oznaki členek in predlog, ki se veže z mestnikom), tretja beseda pa še ostane za nadaljnji postopek (vrstilni števnik ednina mestnik moškega ali srednjega spola).

Tabela 21: Izsek iz slovarja besednih n-terčkov z oznakami

Učinkovitost slovarja besednih n-teric z oznakami je sorazmerna velikosti učnega vzorca, že obdelanega in preverjenega gradiva. Po podatkih, dostopnih iz gradiv projekta MULTEXT-East (MULTEXT-East 1997) znaša 50 % pri 1 milijon besed velikem učnem besedilu. Pri označevanju drugega vzorca, ki je potekalo v več fazah in kjer se je spreminjala tudi velikost učnega gradiva (največ 330.000 besed: Pomladni dan, Prazna ptičnica, Platon: Država, G. Orwell: 1984, vzorec časopisa DELO), je bil ta delež približno 35 %.

V tretjem slovarju označevalnika so shranjeni podatki o pogostejših (spet s frekvenco 2 ali več) n-terčkih oznak iz učnega besedila, posebej za kratke povedi (1-5 besed) in posebej za splošne primere. Ker je število oznak (4.907) zelo veliko, učno besedilo označevalnika pa še vedno razmeroma skromno, je bilo treba za povečanje učinkovitosti tega slovarja nabor zmanjšati - iz njega izločiti vso informacijo, ki pri razločevanju ni nujna. S transformacijsko tabelo, ki je navedena v tabeli 22, so bile oznake, ki imajo spol, število in sklon, za vse vrste, ki nastopajo v samostalniški vlogi, združene v oznako S, vse pridevniške v P, vse zaimkovne pa v Z. S tem je bilo število oznak v tem slovarju zmanjšano s 1.498 na 514, frekvence oznak pa ustrezno večje.

Tabela 22: Redukcijska tabela pred tvorjenjem n-terčkov oznak

   GČP   ISPS   PIMP   PŠIP   ZIZ   ZRZ   ZSVcdZ
   GNP   ISSS   PIOP   PTP   ZKZ   ZRPOZ   ZSVcmeZ
   GTP   IVS   PIPP   SS   ZMZ   ZSVadZ   ZSVcpZ
   IBS   IZS   PISP   SGS   ZNEZ   ZSVaeZ   ZSVcžeZ
   IMS   IŽS   PIVP   ŠGP   ZNIZ   ZSVapZ   ZSVPZ
   IOS   KIS   PIZP   ŠMP   ZOZ   ZSVbdZ   ZTZ
   IPS   PP   PLP   ŠVP   ZPOZ   ZSVbeZ   ZTSZ
   ISS   PČP   PNP   ZDZ   ZPUZ   ZSVbpZ   ZVZ

Algoritem pri razločevanju preostalih dvoumnosti po uporabljenih n-terčkih besed in oznak iz drugega slovarja upošteva najprej dvojčke, potem trojčke, zatem četverčke in nazadnje peterčke. Če uspe najti za vse možne dvojčke oznak opazovane besede in njenih neposrednih sosed v slovarju n-terčkov oznak en sam par, je ta pravi, oznaka iz njega upoštevana in postopek končan. Če ne, se postopek nadaljuje s širšimi okolicami, do n = 5. Izsek iz splošnega dela tega slovarja (330.000 besed učnega besedila), za n = 2 - 5, je naveden v tabeli 23 (za podatkovnim ločilom, dvignjeno piko, so navedene frekvence).

Tabela 23: Izsek iz slovarja n-terčkov oznak

N-terčki iz obeh slovarjev imajo tudi frekvence, tako da je mogoče med postopkom spremljati, kolikokrat se je vsaka izmed možnih oznak pri opazovani besedi pojavila, in seštevati vmesne frekvence te oznake. Na ta način je mogoče v primeru, da postopek ne pripelje do popolne razrešitve dvoumnosti, med preostalimi oznakami izbrati najpogostejšo. Pri postopku razreševanja dvoumnosti je mogoče vplivati na nastavitve, ki so razvidne s slike 3.

Slika 3: Nastavitve pri oblikoslovnem označevanju

Če po uporabi vseh treh slovarjev še vedno ostane za opazovano besedo v novem besedilu več oznak, se navadno izkaže za najboljšo v zgornji sliki izbrana možnost: Izberi oznako, ki se je v postopku najpogosteje pojavila. Za preverjanje šolskih primerov pride dostikrat prav možnost, da odklonimo vsako razreševanje dvoumnosti (Nič - vse dvoumnosti naj ostanejo) in pustimo, da program vse možne oznake pri besedah izpiše (Ostanejo naj). V spodnjem primeru je bila ta možnost uporabljena na povedi Danes je lepo vreme:

Pri besedici je so najprej vse tri možnosti glagola biti - v smislu obstajanja, v relacijskem smislu in kot pomožni glagol, sledi tretja oseba ednine glagola jesti v sedanjem času, nazadnje pa je še osebni zaimek ženskega spola v tretji osebi ednine in v rodilniku. Kadar je možnih oznak zelo veliko, lahko njihovo število pri izpisu omejimo z zadnjim določilom iz nastavitve na sliki 3.

Na sliki 4 je naveden primer besedila pred označitvijo, iz odstavka v drugem vzorcu - odlomek iz pravljice Kamen in njiva. Ima 89 besed v 9 povedih.

Slika 4: Primer besedila iz drugega vzorca pred oblikoslovno označitvijo

Po oblikoslovni označitvi z upoštevanjem nastavitev iz slike 3 nastane besedilo s slike 5. Napačno označene besede so 4 - njihovim oznakam je spredaj dodana zvezdica. Prvi tako bi moral biti označen z A, cvetočega s PČme2, cvetoče s PČže2, bila v zadnji vrstici pa z GLRže. Natačnost označevanja je bila v tem primeru 85/89, kar je 95,51 %.

V splošnem je bila točnost označevalnika nekoliko manjša. Oznake celotnega drugega vzorca so bile ročno preverjene in popravljene na Inštitutu za slovenski jezik ZRC SAZU; natančnost je mogoče podati za zadnjih 157.933 besed (39 % drugega vzorca) od 319.936, ki so bile skupaj označene s tem označevalnikom. Napačno označenih besed je bilo 12.089, kar pomeni 92,35 odstotno natančnost. Številka je nekje vmes med natančnostjo prvega označevalnika (80 %) in najboljšimi dosežki za angleški jezik (98,5 % - Järvinen 1994 in 98,6 % - Ratnaparkhi 1996);

Slika 5: Primer z označevalnikom obdelanega besedila iz drugega vzorca

   

slednji so bili izmerjeni na vzorcih iz časopisa Wall Street Journal, ki je bil ročno označen v okviru projekta Penn Treebank. Najpogostejše napake so navedene v tabeli 24.

Tabela 24: Najpogostejše napake označevalnika (beseda, prav, narobe, frekvenca)

da   Vpo   Vpr478                   da   Vpo   Č158
ne   ČZ   Vpo373                   bil   GLRme   GLBme136
ne   ČZ   Vpr319                   kakor   Vpo   Vpr134
tako   A   Č292                   zakaj   ZV   Vpr127
je   GRce   GOce231                  tudi   Č   Vpr104
je   GRce   GPce183                  tako   A   ZK101
ali   ČV   Vpr164                   kaj   ZVse1   Č93
tako   A   Vpr163                   kaj   Č   ZVse492

Več o nadaljnjih perspektivah označevalnika je videti s slike 6, ki prikazuje krivuljo rasti vseh trojčkov (beseda, prava oznaka, napačna oznaka) s frekvencami. Različnih napak (trojčkov) je bilo 4.188. Iz krivulje razberemo, da bi bilo za 25-odstotni dvig natančnosti treba popraviti 16 najpogostejših napak, za 50-odstotnega približno 128, za 75-odstotnega pa že več kot 1000.

Slika 6: Krivulja rasti za napake označevalnika


4.4 Oznake drugega vzorca

V drugem vzorcu je bilo označenih 407.938 enot - 407.858 besed in 80 števil. Izmed 4.907 možnih različnih oznak jih je bilo uporabljenih 1.498 ali 30,5 %. Frekvenčni slovar oznak vsebuje priloga C (stran 111), popoln slovar lem in njihovih oznak s frekvencami pa je naveden v prilogi Č (stran 117). V spodnji tabeli so po frekvenci razvrščene besedne vrste.

Tabela 25: Besedne vrste v drugem vzorcu, absolutno in v odstotkih

glagoli       130.208    31,92
samostalniki   83.088    20,37
zaimki         41.259    10,11
vezniki        40.094    9,83
predlogi       35.553    8,72
pridevniki     26.661    6,54
prislovi       26.279    6,44
členki         19.151    4,69
števniki       3.048    0,75
medmeti        1.565    0,38
povedkovniki   1.006    0,25
kratice        26     -
              
Skupaj        407.938    100,00

   

Med glagoli je bilo 36.977 ali 28,4 % pomožnih, med samostalniki pa 13.194 ali 15,9 % imen. Podrobnejši pregled najpogostejših oznak je razviden iz tabele 26. Najpogostejša je oznaka za priredni veznik, sledijo prislov, glagolski deležnik na -l moškega spola v ednini, oznaka za pomožni glagol je, členek na petem mestu, potem sledijo oznaka za prosti glagolski morfem se, podredni veznik, predlog, ki se veže z mestnikom, sedanjik v tretji osebi ednine in glagolski deležnik na -l ženskega spola v ednini.

Tabela 26: Najpogostejših 60 oznak s frekvencami

   Vpr28.529   E49.605   GPcp3.771   Pme12.706   E31.923   ZOcže41.396
   A25.756   Sme17.830   Sže53.742   GPae2.663   GZPce1.908   Sse21.347
   GLme24.463   E67.553   ZOcme43.338   GNE2.640   IOže11.902   Pse11.343
   GPce22.615   Sže47.010   ZVR3.224   Sme52.628   ZV1.888   Sse51.317
   Č15.353   IOme16.626   GBI3.223   Smp12.326   Sme61.869   Sse11.311
   Gmp14.631   Sže16.093   ČZ3.215   GRce2.303   GLse1.826   GLRme1.282
   Vpo11.565   Sme45.734   Pže13.073   ZOcme32.119   Smp41.624   ZKse11.262
   E511.018   E25.219   Sme22.996   Gae2.073   Sžp11.597   Sžp21.189
   Gce10.700   GLmp4.780   Sžp42.814   Sže62.041   M1.565   GFPce1.144
   GLže9.650   Sže23.839   Gcp2.760   Sse41.943   Pže41.494   Smp21.109




Naslov strani: http://www.jakopin.net/primoz/disertacija/oblikozn.php        Datum: 26. junij 1999. Zadnja sprememba: 27. marec 2017.             647

Naprej: Statistični opis      Nazaj: Priprava besedil      Kazalo    Začetek    Konec