Univerza v Novi Gorici
Fakulteta za humanistiko
Slovenistika - prva stopnja

Navodila za izdelavo
seminarske naloge pri predmetu
Jezikovne tehnologije

(Primož Jakopin)

Vsebina:

1. Uvod
2. Črkovne statistike
3. Statistike besed
     3.1 Krivulja rasti
     3.2 Porazdelitev dolžin različnih besed
     3.3 Porazdelitev dolžin vseh besed
     3.4 Seznami samostalnikov, glagolov in pridevnikov
4. Povedi

1. Uvod

Seminarska naloga obsega oblikoslovno označitev izbranega domačega ali tujega besedila, izdelavo njegovega besednega zaklada in statistični opis besedila. Izbirati je mogoče med proznimi deli, zbranimi za izvedbo naloge in med preko interneta dostopnimi deli v slovenskem ali angleškem jeziku.
Za izvedbo naloge potrebujete:

ki ju namestite na ustrezno diskovno območje vašega računalnika (z levo tipko na miši izberete najprej program in ga shranite, nato pa še datoteko virov). Če delate s kakega omrežja, v katerem na računalnike ni dovoljena namestitev datotek tipa .EXE z interneta, izberite namesto zgornje datoteke EVA.EXE datoteko EVA.EX in jo po namestitvi na vaš računalnik preimenujte - končnico ji spremenite iz .EX v .EXE. Najnovejšo različico programa, z uporabniškim vmesnikom v angleškem jeziku, lahko prenesemo, v drug imenik seveda, prek naslednjih povezav: EVA.EX in EVA.RSF.
Nekaj navodil za uporabo je shranjenih v naslednjih datotekah:

Program lahko nato uporabite na leposlovnem delu, izbranem s pomočjo enega izmed spodaj navedenih seznamov. Naslovi knjig so živi in z njimi prikličete na zaslon kratek odlomek ustreznega dela.

Celotno besedilo izbranega dela dobite pri izvajalcu predmeta. V nadaljevanju je nekaj napotkov za izdelavo seminarske naloge, ki obravnavajo primer Samorastnikov Prežihovega Voranca. V pomoč je tudi vzorec spletne strani s seminarsko nalogo.

Poglejmo najprej, kako bi seminarsko nalogo sploh začeli. V ta namen bomo potrebovali dva programa, program Eva in pregledovalnik spletnih strani, kot so npr. Googlov Chrome ali Microsoftov Internet Explorer, in pa datoteko z besedilom, ki je gradivo za seminarsko nalogo. Ko ga pri predmetu izberemo, ga dobimo od izvajalca predmeta, Samorastnike, če bi želeli vaditi na njih, dobimo pa tukaj. Najprej torej poženemo program Eva in si v njem delo organiziramo na naslednji način: potrebovali bomo več delovnih datotek hkrati, pa jih za začetek razporedimo takole:

V delovni datoteki 1 (do nje pridemo z ukazom ALT 1) naj bo besedilo seminarske naloge, ki ga sproti dopolnjujemo.
V delovni datoteki 2 (ALT 2) bomo imeli pa besedilo izbranega dela, nad katerim bomo izvajali razne postopke in njihove rezultate prenašali v datoteko 1, kjer je besedilo seminarske naloge same.

Števki 1 in 2 v ukazih ALT 1 in ALT 2 sta tisti z navadne tipkovnice (nad črkama q in w) in ne tisti z desne (številske) tipkovnice, ki je v Evi rezervirana za razne ukaze.
Denimo, da je avtorica naloge Marija Novak. Vrstice na začetku strani, napišemo (ali prepišemo iz spodnjega primera) jih v delovno datoteko 1 programa Eva, bi bile lahko videti najmanj takole:

<html> <head> <meta http-equiv="Content-Type" CONTENT="text/html; charset=windows-1250"> <title>Marija Novak: Seminarska naloga pri predmetu Jezikovne tehnologije na Fakulteti za humanistiko Univerze v Novi Gorici </title> </head> <body>

Da bo stran taka, kot se spodobi, jo opremimo še z vsemi drugimi pripadajočimi vrsticami zaglavja, kot so npr. navedene v navodilih za pisanje spletne strani pri tem predmetu, pri čemer ustrezno popravimo predvsem določila o opisu (angl. description) in ključnih besedah (angl. keywords). Tudi določilo body lahko ustrezno dopolnimo, da damo strani lastno barvno noto, na način, ki je npr. opisan v poglavju o barvah navodil za pisanje spletnih strani.
Sledi del strani z naslovom naloge:

<br> <h1 align="center">Kvantitativna analiza dela<br> Prežihov Voranc: <i>Samorastniki</i></h1> <br> <br> <h2 align="center"> Seminarska naloga pri predmetu<br> <i>Jezikovne tehnologije</i></h2> <br> <h2 align="center">Marija Novak<br> april 2013</h2> <br>

Za njo navedemo vsebino, ki je lahko oblikovana kot seznam z oštevilčenimi alineami:

<br> <hr width="70%" noshade><br> <font size="+1"><b> Vsebina:<br> <ol class="nounderline"> <li><a href="#uvod">Uvod</a> <li><a href="#avtor">O avtorju</a> <li><a href="#crke">Črke in ločila</a> <li><a href="#besede">Besede</a> <ul type="disc"> <li><a href="#samostalniki">Samostalniki</a> <li><a href="#glagoli">Glagoli</a> <li><a href="#pridevniki">Pridevniki</a> </ul> <li><a href="#povedi">Povedi</a> <li><a href="#sklep">Zaključek</a> <li><a href="#viri">Viri</a> </ol> </b></font> <br>

Zgornje vrstice smo prepisali iz že omenjenega vzorca seminarske naloge. Naloge je že kar nekaj, pa je pametno, da jo za vsak primer shranimo na disk. To napravimo z zaporedjem izbir:
Disk -> Shrani jo -> Ime datoteke: Seminarska_naloga.html
Ko je datoteka varno shranjena, odpremo na namizju okno z imenikom na disku, kjer je shranjena, in si jo z dvoklikom na datoteko Seminarska_naloga.html. Ko bomo nalogo v Evi kaj dopolnili, jo spet shranimo na zgoraj opisani način, s tem da tokrat nazadnje še potrdimo, da se strinjamo z zamenjavo datoteke na disku z novo različico (DA). In jo potem spet pogledamo v pregledovalniku, tako da kliknemo na gumb Obnovi ali pritisnemo funkcijsko tipko F5.
Tudi sicer, ko prenehamo s pisanjem seminarske naloge in se tega opravila kasneje spet lotimo, preberemo seminarsko nalogo v Evino delovno datoteko 1 vedno z zaporedjem izbir:
Disk -> Beri datoteko -> Seminarska_naloga.html.

Vsakega izmed poglavij seminarske naloge lahko začnemo z naslednjo kodo:

<br> <hr width="70%" noshade><br> <br> <h2><a name="uvod">1. Uvod</a></h2> <p>Tu je navedenih nekaj misli o predmetu in o seminarski nalogi.</p>

- ki je v tem primeru v skladu z malo prej navedeno vsebino, in se nanaša na uvod naloge.
Pri delu z Evo si pomagamo z osnovnimi ukazi kot so Shift Insert, ki vrine prazno vrstico za tekočo, Ctrl d, ki odstrani vrstico, Ctrl y, ki zlomi vrstico in Ctrl j, ki priključi naslednjo vrstico na konec trenutne. Prav pride tudi ukaz Ctrl a l, ki v trenutno vrstico napravi kopijo besedila, napisanega v vrstici nad trenutno. Več je seveda napisanih v navodilih za uporabo programa Eva, navedenih bolj na začetku te strani.

2. Črkovne statistike

Do splošnih podatkov o številu vrstic, številu znakov in številu vseh črk v besedilu pridemo lahko na naslednji način:

najprej se v Evi odpravimo v delovno datoteko 2 (ALT 2) in izbrano besedilo preberemo z diska:
Disk -> Izbira -> Beri datoteko z diska -> ime datoteke (v našem primeru Samorast.eva

Slika 1: Začetek datoteke z besedilom Samorastnikov
odstranimo vse vrstice zaglavja datoteke, to je tiste, ki se začnejo z dvojnim karo - to napravimo z osmimi ukazi <Ctrl><d> na začetku datoteke. Te vrstice so le opis datoteke - ker jih pri nadaljnjih analizah ne potrebujemo, datoteko brez njih kar shranimo nazaj na disk, pod istim imenom, da nam jih pri vsakem postopku ne bo treba spet na novo odstranjevati. Nato
uporabimo zaporedje izbir:
Orodja -> Črkovne statistike -> Posameznih znakov
in v predzadnji vrstici datoteke preberemo število znakov, v zadnji pa število vrstic. V primeru Samorastnikov sta ti dve vrednosti 77944 in 1538.
da bi dobili še število vseh črk, moramo sešteti njihove frekvence. V tabeli na koncu datoteke spravimo v blok vse vrstice s črkami: na prvo, ki ima črko 'A'... postavimo začetek bloka - ukaz <Ctrl><Home>, na zadnjo, navadno s črko 'ž'... ali 'Ž'... pa konec bloka, z ukazom <Ctrl><End>.
Z zaporedjem izbir:
Blok -> Odstrani vse ostalo(1)
odstranimo iz datoteke vse razen črk s frekvencami. Izjema so le znaki, ki so za 'Z'... in pred 'a'.... Potolčemo jih z ustreznim številom ukazov <Ctrl>d (odstrani vrstico).

Zdaj je potrebno le še sešteti frekvence črk. Odpravimo se na začetek (<Home>) in z zaporedjem izbir:

Zbirke -> Orodja z desne strani -> Izračuni
    -> Seštej polje navpično -> Številke polj: 2

dosežemo, da se na koncu datoteke prikaže iskano število vseh črk v besedilu, v našem primeru 58642. Na zelo podoben način pridemo še do števila ločil, števk in oznak (oznake so posebni znaki na začetkih in koncih odstavkov in povedi, premega govora ...), pa že lahko napišemo prve vrstice poglavja o črkah v delovno datoteko 1, kjer je besedilo seminarske naloge (tja pridemo z ALT 1):

<br>
<hr width="70%" noshade><br>
<br>
<h2><a name="crke">3. Črke in ločila</a></h2>
<p><i>Samorastniki</i> obsegajo 77.944 znakov, od tega 58.642 črk, 16.674 ločil, 8
števk in 2.620 oznak. Med črkami je 57.325 pisanih z malo začetnico, 1.317 pa z veliko.

Napišemo jih seveda pred vrstico:

</body>

Ostane še tabela z relativnimi pogostnostmi črk, kot je navedena v vzorcu seminarske naloge. Dobimo jo tako, da v delovni datoteki 2 ALT 2 spet preberemo besedilo z gradivom naloge (npr. Samorastnike) in izberemo naslednje zaporedje izbir:

Orodja -> Črkovne statistike -> posameznih črk

V datoteki pri tem ukazu (v nasprotju z ukazom

Orodja -> Črkovne statistike -> posameznih znakov

) ni nič drugega kot samo pogostnosti črk v odstotkih. Abecedno ga uredimo z:

Zbirke -> 2. SORTIRANJE -> Zaporedje
    ključev: 1,a

.
Zatem pa tabelo oblikujemo, iz nje naredimo vrstice in stolpce:
Uredi -> Izberi vse ter

Orodja -> Orodja za internet
    -> ... vrstic z besedo in pogostnostjo v HTML

ter Pojavi se okno z vprašalnikom Stolpci pri izvozu v HTML, kjer je treba napisati število stolpcev in vrstic ter medstolpčni razmik. Če imamo v seznamu le 25 črk, kolikor jih ima slovenska abeceda, se odločimo za 5 stolpcev in 5 vrstic, če je črk v seznamu več, ustrezno povečamo število stolpcev, npr. na 6. Medstolpčni razmik tudi postavimo na 5. Okence pri določilu Odzadnji slovar pustimo prazno in kliknemo na Prav. Dobimo naslednjo tabelo:

<table>
<tr><td>a</td><td align=right>10.87</td><td>     e</td><td align=right>10.76</td><td>     j</td><td ...
<tr><td>b</td><td align=right>2.07</td><td>     f</td><td align=right>0.02</td><td>     k</td><td al...
<tr><td>c</td><td align=right>0.64</td><td>     g</td><td align=right>1.65</td><td>     l</td><td al...
<tr><td>č</td><td align=right>1.59</td><td>     h</td><td align=right>1.22</td><td>     m</td><td al...
<tr><td>d</td><td align=right>3.45</td><td>     i</td><td align=right>9.33</td><td>     n</td><td al...
</table>

Videti je prav nič obetajoče, namesto presledkov, ki jih vidite v teh navodilih, saj so v njej tudi tkim. trdi presledki, znaki s kodo 185, ki jih za pregledovalnike (da jih ne mečejo proč) navadno pišemo z ∧nbsp;, tu pa so prikazani kot nizke okrogle strešice. Pa je tabela čisto dobra, kot boste hitro videli. Prenesti jo je treba le še v seminarsko nalogo. V ta namen spet postavimo v blok vse, kar imamo: Uredi -> Izberi vse, se z ukazom ALT 1 odpravimo nazaj v besedilo seminarske naloge, spet pred vrstico:

</body>

in tabelo prenesemo tja z ukazom <Ctrl><a><c><2>, pri čemer imamo tipko Ctrl pritisnjeno samo na začetku, ko piknemo še tipko a, potem pa nič več. Izraz piknemo ni tu za šalo, ampak zares - če neko tipko držimo pritisnjeno dlje časa, pri čemer je pol sekunde že dlje časa, se pritisk ne izvede enkrat, ampak večkrat. Prvo vrstico tabele še malo dopolnimo:

<table align="center">

- zato, da bo tabela na sredini, pod tabelo vrinemo še vrstici:

<p align="center">
Tabela 1: Deleži črk med vsemi v odstotkih</p>

pa je narejeno. Datoteko spet shranimo, na že opisani postopek, in se s pregledovalnikom prepričamo, da je res, kot mora biti.

Histogram s porazdelitvijo črk v besedilu dobimo z naslednjim postopkom:

kot že večkrat, se vrnemo v delovno datoteko 2 (ALT 2) in tam izbrano besedilo spet preberemo z diska:
Disk -> Izbira -> Beri datoteko z diska -> ime datoteke
ter na vprašanje, ali povozimo trenutno vsebino pomnilnika, odgovorimo pritrdilno.
Kot prej prikličemo seznam vseh črk s pogostnostmi z:
Orodja -> Črkovne statistike -> posameznih črk
in ga spet abecedno uredimo:
Zbirke -> 2. SORTIRANJE -> Zaporedje ključev: 1,a.
Ostane še, da odstranimo črke, kjer je relativna frekvenca prenizka (npr. < 0.05, navadno pri neslovenskih črkah q, w, x, y); to naredimo spet z ukazom za izbris vrstic: <Ctrl>d. Izjema je črka F, ki jo kljub
Histogram napravimo z:
<Home> -> Zbirke -> 6. DODATKI -> Napravi histogram iz zbirke.

V primeru Samorastnikov bi bil histogram takle:

Slika 2: Osnovni zapis podatkov za generiranje histograma

Dopolnimo in spremenimo ga še z oznakama pri abscisi in ordinati, spremenimo njegovo velikost (na velikost računalnikovega zaslona, druga vrstica), dodamo črtkane vodoravne črte pri vrednostih 2%, 4%, 6%, 8% in 10% (pomišljaji za številkami v peti vrstici, ter na koncu dodamo še konec strani:

Slika 3: Dopolnjen zapis podatkov za generiranje histograma

Znak dvojne kare (double-diamond character) dobimo s pomočjo <Alt>q. Vse, kar še ostane, je, da napravimo sliko histograma in jo shranimo kot datoteko, da jo bo potem uporabilo še internetni prikazovalnik, npr. Internet Explorer. V ta namen najprej preverimo nastavitve v Evinem pregledu strani:
Tisk -> Nastavitve strani ter postavimo vrednosti Left margin in Top margin na 0.

Sledi samo še pregled strani: Tisk -> Pokaži stran, pri čemer mora kazalec na zaslonu seveda biti nekje v opisu histograma (vseeno kje, le na zadnji vrstici z mejo strani - dvema dvojnima karoma - ne).

Slika 4: Prikaz histograma

V pregledu strani preverimo, če je s histogramom vse, kot je treba in, če je treba, še kaj popravimo. V ta namen zapustimo pregled strani (s tipko q), popravimo in gremo z Tisk -> Pokaži stran spet nazaj. Kot je se po naših pričakovanjih, histogram shranimo. V ta namen najprej pritisnemo na tipko <Prt Scr>, ki jo najdemo levo zgoraj nad številčno tipkovnico, desno od funkcijske tipke <F12>. Včasih en pritisk ne zadošča, pa raje pritisnemo dvakrat. Potem se iz Eve odpravimo v kak grafični program, npr. Slikar iz izbire Pripomočki ali Irfanview, tam s Uredi -> Prilepi prikličemo kopijo slike, ki smo jo prej gledali v Evi, s prakotniško izbiro odvržemo, česar ne potrebujemo in potem rezultat shranimo v isti imenik na disku, kjer imamo že seminarsko nalogo, kot datoteko slika_1.gif, v grafičnem načinu .GIF.

Pri poti do histograma lahko uberemo tudi bližnjico - tako, da na datoteki z besedilom izberemo zaporedje izbir:
Orodja -> Označevanje besedila -> Statistike -> Porazdelitev črk in popravimo ta rezultat.

Nastalo sliko potem vključimo pred konec seminarske naloge z vrsticami:

<p>Grafično je porazdelitev pomembnejših črk razvidna iz slike 1:</p> <p align="center"> <img src="slika_1.gif"><br> Slika 1: Porazdelitev pogostejših črk</p>

Seveda lahko napravimo poleg omenjenega pri črkah še kako drugo statistiko - kar nekaj možnosti se skriva predvsem za izbirami:
Orodja -> Črkovne statistike -> Statistika dvojčkov, trojčkov ...

3. Statistike besed

Še več možnosti možnosti kot pri črkovnih statistikah nudi EVA pri številskem opisu besed. Oglejmo si najprej, kako izmerimo število vseh besed in število različnih besed ter kako pridemo do povprečnih dolžin. Najprej spet preberemo izbrano besedilo z diska v pomnilnik, potem ga razbijemo na besede:
Orodja -> Označevanje besedila -> Razno -> Prelom datoteke na besede -> Prav.
Pomaknemo se na konec novonastalega seznama: <End> in s tipko <-> z desne (številske) tipkovnice vprašamo, koliko je vseh besednih oblik (12.944 pri Samorastnikih). Zatem skočimo na začetek seznama (<Home>), besedne oblike najprej spremenimo v malo začetnico:
Uredi -> Izberi vse -> Blok -> Velike v male
jih abecedno uredimo:
Zbirke -> 1. SORTIRANJE -> Zaporedje ključev: 1,a
in z zaporedjem izbir:
Zbirke -> Orodja z leve strani -> Frekvence
dosežemo, da enake besede v seznamu popadajo skupaj, vsaka pa dobi za seboj še frekvenco (število enakih v seznamu). Malo si ga ogledamo, ugotovimo da je prva beseda a, zadnja žvotjo, za njo pa še 1875. Ker nas zanimajo samo besede v ožjem smislu, letnico odstranimo z ukazom <Ctrl>d.

Ker bomo seznam še potrebovali, ga shranimo na disk:
Disk -> Izbira -> Shrani jo na disk -> Ime datoteke: besede.fre
Skok na konec <End> in <-> z desne tipkovnice nam zdaj povesta še število različnih besed.
Da bi dobili povprečno dolžino različnih besed in vseh besed se spet pomaknemo na začetek seznama - <Home> - in z izbiro:
Zbirke -> Orodja z leve strani -> Dolžine -> Polje, za katero naj se izračuna dolžina: 1
pred vsako besedo pripeljemo še njeno dolžino v znakih. Sledi le še izračun vsote dolžin vseh različnih besed:
Zbirke -> Orodja z desne strani -> Izračuni -> Seštej polje navpično -> Številka polja, ki ga je treba sešteti: 1
Na koncu datoteke se znajde vsota dolžin vseh različnih besed (v primeru Samorastnikov 27.159), ki jo je treba deliti s številom različnih besed (4.058). Ko dobimo rezultat (povpr. 6.69 črk na besedo v Vorančevem delu), zadnjo vrstico v datoteki (s tem številom) odstranimo s <Ctrl>d. Vrnemo se na začetek <Home> - in izračunamo se skupno dolžino vseh pojavitev vsake besede:
Zbirke -> Orodja z desne strani -> Izračuni -> Izračunaj novo polje -> Izračunaj: #1 * #3
se pravi zmnožek prvega (dolžina) in tretjega podatkovnega polja (frekvenca ali število pojavitev). Dobljene vrednosti še seštejemo:
Zbirke -> Orodja z desne strani -> Izračuni -> Seštej polje navpično -> Številka polja, ki ga je treba sešteti: 1
in na koncu datoteke (tja seveda pridemo z <end>) se znajde vsota dolžin vseh besednih oblik (v primeru Samorastnikov 58.646). Delimo jo s številom vseh besednih oblik in dobimo iskani rezultat (4.53).
Najdaljšo besedo dobimo tako, da skočimo na začetek seznama in ga padajoče uredimo po drugem polju:
Zbirke -> 1. SORTIRANJE -> Zaporedje ključev: 2,d

Poglejmo še krivuljo rasti in histograma porazdelitev besednih dolžin.

3.1 Krivulja rasti

Krivulja rasti za besede pove hitrost, s katero se polni besedni zaklad besedila.

Slika 5: Prikaz krivulje rasti

V ta namen spet najprej preberemo izbrano besedilo z diska, kot pri črkovnih statistikah:

Disk -> Izbira -> Beri datoteko z diska
-> ime datoteke

(rezultate od prej smo seveda že pospravili na varno in se zato strinjali z odstranitvijo trenutne pomnilniške datoteke):

Slika 6: Začetek datoteke z besedilom Samorastnikov

Sledi ustrezni ukaz za izdelavo krivulje rasti:

Orodja -> Označevanje besedila -> Statistike
-> Krivulja rasti besednih oblik

. Dobimo njeno določitev:

Slika 7: Osnovni zapis podatkov za generiranje histograma

ki jo je treba kot pri histogramu s frekvencami črk le še malo popraviti in dopolniti. V našem primeru je različnih besed samo 4.058, zato zmanjšamo tudi število oznak pod abscisno osjo - nehamo pri 4K, da ne bi imeli na koncu slike dveh praznih stolpcev:

Slika 8: Dopolnjeni zapis podatkov za generiranje histograma

Pogledamo jo le še v pregledu strani (<F3>) in jo, ko smo z njo zadovoljni, shranimo na podoben način kot že prej histogram:

Konec -> Shrani kopijo kot .GIF ->
   Ime datoteke: slika_2.gif

3.2 Porazdelitev dolžin različnih besed

Dolžine različnih besednih oblik povedo precej o zvrsti besedila - strokovne razprave imajo seveda precej daljše dolžine kot leposlovje. V primeru vzorčnega besedila dobimo spodnji porazdelitveni histogram:

Slika 9: Prikaz histograma za porazdelitev dolžin različnih besednih oblik

Pot do njega je razmeroma kratka:

Orodja -> Označevanje besedila -> Statistike
-> ... dolžin različnih besednih oblik

. Dobljeni osnutek:

Slika 10: Osnovni zapis podatkov za generiranje histograma dolžin različnih besednih oblik

le še malo popravimo:

Slika 11: Dopolnjeni zapis podatkov za generiranje histograma dolžin različnih besednih oblik

in ga po uspešnem pregledu strani shranimo z:

Konec -> Shrani kopijo kot .GIF ->
   Ime datoteke: slika_3.gif

3.3 Porazdelitev dolžin vseh besed

Dolžine vseh besednih oblik, v odnosu na dolžine različnih besednih oblik ponujajo precej podatkov o tem, kako gibko je besedilo, koliko je v njem npr. premega govora. V primeru Samorastnikov dobimo porazdelitveni histogram:

Slika 12: Prikaz histograma za porazdelitev dolžin vseh besednih oblik

ki se precej razlikuje od tistega za različne besedne dolžine. Dve črki dolge besedne oblike, tak je pomožni glagol biti (je), veliko veznikov in predlogov, obsegajo skupaj skoraj tretjino besedila in poskrbijo za asimetričnost porazdelitve z izrazitim odklonom pri 2. Pot do nje ni nič daljša kot prej:

Orodja -> Označevanje besedila -> Statistike
-> ... dolžin vseh besednih oblik

. Dobljeni osnutek:

Slika 13: Osnovni zapis podatkov za generiranje histograma dolžin vseh besednih oblik

popravimo kot že prej:

Slika 14: Dopolnjeni zapis podatkov za generiranje histograma dolžin vseh besednih oblik

in ga po uspešnem pregledu strani shranimo z:

Konec -> Shrani kopijo kot .GIF ->
   Ime datoteke: slika_4.gif

3.4 Seznami samostalnikov, glagolov in pridevnikov

Pot do besednega zaklada izbranega dela ni tako kratka in gladka kot do prejšnjih statistik, pa je rezultat vseeno vreden truda. Delo lahko opravimo z oblikoslovnim označevalnikom za slovenski jezik, razvitim v okviru projekta Sporazumevanje v slovenskem jeziku.

3.4.1 Generiranje lem in oblikoslovnih oznak

Potrebovali bomo več delovnih datotek hkrati, pa ki jih tokrat razporedimo na naslednji način:

V delovni datoteki 1 (do nje pridemo z ukazom ALT 1) naj bo besedilo seminarske naloge, ki ga dopolnjujemo, kot gremo z nalogo naprej.
V delovni datoteki 2 (ALT 2) bomo imeli besedilo izbranega dela.
V delovni datoteki 3 (ALT 3) bomo gradili seznam besednih lem in njihovih oblikoslovnih oznak.

Oglejmo si zdaj postopek, s katerim pridemo do seznama lem polnopomenskih besednih vrst.

odpravimo se v delovno datoteko 2 (ALT 2) in z diska preberemo besedilo izbranega dela:
Disk -> Izbira -> Beri datoteko z diska -> samorast.eva
in na vprašanje, ali povozimo trenutno vsebino pomnilnika, odgovorimo pritrdilno.
z zaporedjem ukazov <Ctrl><d> odstranimo vse vrstice na začetku besedila, ki se začnejo z znakom dvojni karo.

Slika 15: Začetek besedila Samorastnikov
Znebimo se zdaj še oznak za začetke in konce odstavkov, povedi in podobnega iz besedila. Uporabimo zaporedje izbir:
Orodja -> Črkovne statistike -> Posameznih znakov
ter se s tipko <end> najprej odpravimo na konec datoteke, potem pa kazalček premaknemo na mesto, označeno na sliki 16:

Slika 16: Prva oznaka v statistiki znakov
z ukazom <Ctrl><Home> na to mesto postavimo začetek pravokotnega bloka, kazalček pomaknemo na zadnjo oznako in s <Ctrl><End> tu določimo konec pravokotnega bloka:

Slika 17: Oznake v pravokotnem bloku
s tipko <End> se pomaknemo na konec datoteke, z <Enter> pa še vrstico niže. S <Ctrl><o><r> tja preslikamo vse oznake ter jih z zaporedjem ukazov <Ctrl><j> združimo v eno vrstico, na začetek pa vrinemo še presledek (<Insert>)

Slika 18: Oznake v vrstici na koncu datoteke
presledke v tej vrstici nadomestimo z vejicami (tudi prvega na začetku) in vse skupaj, z ukazom <Ctrl><Home> na začetku vrstice in <Ctrl><End> na koncu, postavimo v pravokotni blok:

Slika 19: Z vejicami ločene oznake v pravokotnem bloku
z ukazom <Ctrl><c> oznake in vejice prekopiramo na odložišče in se z <Home> pomaknemo na začetek datoteke. Tam se odločimo za večkratno zamenjavo:
Išči -> Večkratna zamenjava
, in v prvi vrstici (<Zamenjaj:>) pobrišemo vse, kar je že bilo tam ter s <Ctrl><v> z odložišča prinesemo vejice in oznake. V naslednjo vrstico (<z:>) napišemo toliko vejic, kot jih je v vrstici višje, v našem primeru 12:

Slika 20: Večkratna zamenjava
oznake po tem postopku izginejo iz besedila:

Slika 21: Besedilo brez oznak
poženemo spletni pregledovalnik, npr. Internet Explorer, in izberemo spletno stran:
http://oznacevalnik.slovenscina.eu/Vsebine/Sl/SpletniServis/SpletniServis.aspx
oblikoslovnega označevalnika za slovenski jezik, ki je nastal v okviru projekta Sporazumevanje v slovenskem jeziku. V okence pod vrstico:
Vnesite besedilo:
odnesemo prvih 500 vrstic našega besedila. Pri tem si v Evi pomagamo z ukazi: <Shift><Home> za označitev začetka vrstičnega bloka, <Ctrl><f><l> za skok na vrstico številka (500), <Shift><End> za označitev konca vrstičnega bloka ter izbiri Uredi -> Kopiraj > za prenos vrstičnega bloka na odložišče. Meje ne postavimo natančno na 500-to vrstico, ampak na konec odstavka za to mejo.
V izbiri pod okencem z besedilom:
Oblika izpisa označenega besedila
izberemo TEI-XML in kliknemo na ploščico Označi besedilo.
Rezultat počrnimo in prenesemo na odložišče s <Ctrl><c> Iz spletnega pregledovalnika se odpravimo spet v Evo, tam v datoteko 3 in rezultat označevalnika prenesemo v Evo z ukazom <Ctrl><c>:

Slika 22: Začetek besedila, obdelanega z oblikoslovnim označevalnikom
Postopek ponovimo z naslednjimi 500 vrsticami besedila, jih po obdelavi dodamo na konec rezultatov v datoteki 3 in tako naprej do konca besedila:

Slika 23: Konec besedila, obdelanega z oblikoslovnim označevalnikom
V datoteki 3 imamo zdaj celotno besedilo, oblikoslovno označeno s pomočjo označevalnika. Odpravimo se na začetek datoteke: <Home> in z zaporedjem izbir: Orodja -> Orodja jezika SGML -> Osnovni postopki -> Naberi le izbrano oznako -> w iz rezultatov polovimo poleg besed le še leme in oblikoslovne oznake:

Slika 24: Začetek seznama besed z lemami in oblikoslovnimi oznakami
Datoteko 3 še malo uredimo. Najprej z zaporedjem izbir:
Išči -> Zamenjava -> Zamenjaj: </w> z: <188> -> Gremo! na konec vsake vrstice dodamo dvignjeno piko, podatkovno ločilo. Nato s podobno izbiro: Išči -> Zamenjava -> Zamenjaj: "" z: <188> -> Gremo! osamimo leme in oblikoslovne oznake, z izbiro Išči -> Zamenjava -> Zamenjaj: > z: <188> -> Gremo! pa še besedne oblike same:

Slika 25: Začetek že malo preurejenega seznama besed
Nastala je zbirka s sedmimi podatkovnimi polji (vsaka vrstica ima 6 dvignjenih pikic, podatkovnih ločil), izmed katerih so za nadaljnjo obdelavo zanimiva polja 4, 2 in 6. Z zaporedjem izbir Zbirke -> 3. IZBOR POLJ -> 4,2,6 se znebimo balasta:

Slika 26: Leme, oblikoslovne oznake in besede
Ker nas pri oblikoslovnih oznakah, shranjene so v drugem podatkovnem polju, zanima le besedna vrsta (S = samostalnik, G = glagol, P = pridevnik, R = prislov, D = predlog ...), ne pa dodatne podrobnosti, v drugem polju odvržemo vse znake razen prvega:
Zbirke -> Orodja z desne strani -> Dodaj, krajšaj, premakni -> Skrajšaj polje -> Oznaka polja, nova dolžina, poravnava, dopolnitev: 2,1,L,*

Slika 27: Začetek seznama lem s skrajšanimi oblikoslovnimi oznakami
Besednih oblik v tretjem podatkovnem polju ne potrebujemo več, zato se jih znebimo z:
Zbirke -> 3. IZBOR POLJ -> 1,2
zatem pa se omejimo še na le polnopomenske besedne vrste, glagole (G), pridevnike (P) in samostalnike (S):
Zbirke -> 1. Iskanje -> #2=G,#2=P,#2=S

Slika 28: Polnopomenske leme z oznakami besednih vrst
Zbirka v delovni datoteki 3 (ALT 3) je zdaj že blizu resnice. Besede še razvrstimo po besednih vrstah in lemah:
Zbirke -> 2. Sortiranje -> Zaporedje ključev: 2,a,1,a. Z določilom: 2,a,1,a smo izbrali najprej abecedno razvrščanje po drugem podatkovnem polju, to je po besedni vrsti (2,a), znotraj besedne vrste pa še abecedno razvrščanje po lemah (1,a)

Slika 29: Po besednih vrstah in po abecedi urejen seznam lem
Na začetku se je znašlo nekaj napak, ki jih bomo popravili v naslednji alinei. Zdaj je potrebno še pošteti enake leme, kar naredimo z zaporedjem izbir:
Home -> Zbirke -> Orodja z leve strani -> Frekvence:

Slika 30: Po besednih vrstah in po abecedi urejen seznam lem s frekvencami
Dobljeni seznam še enkrat pregledamo in po potrebi popravimo. Tako npr. lema dobračati ni prava, ampak je to v resnici samostalnik, ime gore Dobrač.

Pot do tega seznama ni bila ravno kratka zato ga hitro shranimo, z zaporedjem izbir:

Disk -> Izbira -> Shrani jo na disk ->
    Ime datoteke: leme_b_vrste.fre

(leme, besedne vrste, frekvence).

3.4.2 Priprava seznamov za vključitev v spletno stran seminarske naloge

Ostane še, da ločimo sezname samostalnikov, pridevnikov in glagolov in jih pripravimo za spletno predstavitev. V ta namen najprej izberemo samo samostalnike:
Zbirke -> 1. ISKANJE -> Iskalni izraz: #2=S.
V seznamu ostanejo le še samostalniki, zato tega podatka ne potrebujemo več in ga odvržemo:
Home -> Zbirke -> 3. IZBOR POLJ -> Izberi polja: 1,3
Ostanejo le še leme in njihove pogostnosti. Da bi jih lepo pripravili za izpis, jih damo v blok:
Uredi -> Izberi vse
in zložimo v stolpce:
Orodja -> Orodja za internet -> ... vrstic z besedo in pogostnostjo v HTML
Na zaslonu se pojavi naslednji vprašalnik:

Slika 50: Nastavitev stolpcev za izvoz tabele v HTML

Pustimo vse kot je, bo ravno 100 lem na enem zaslonu (5 krat 20). Zadnje določilo, o tem ali gre za odzadnji slovar ali ne, bi uporabili, če bi imeli besede razvrščene po koncih in bi želeli, da so tudi v stolpcih poravnane ne po začetkih ampak po koncih. Kakorkoli že, pojavi se tabela, na prvi pogled nič kaj lepa:

Slika 51: Tabela s podatki o samostalniških lemah v formatu HTML

ki pa nam postane veliko bolj všeč, ko jo prenesemo v seminarsko nalogo, shranimo in pogledamo s spletnim pregledovalnikom:

aherc	1	bogatija	1	brežina	1	čar	2	deklič	3
amažnik	2	bognasvaruj	1	bridkost	1	čas	19	deklina	2
baba	4	boj	7	bršlin	1	čast	4	del	3
bajta	20	bok	1	bučanje	1	čeljust	1	delež	1
bala	1	bolečina	8	bukva	1	čelo	2	delo	10
barti	1	bolest	1	Burga	3	čer	1	denar	2
Bela	1	bolezen	1	camar	3	četrt	1	desetina	1
belina	1	borba	1	carapa	1	človek	8	desetletje	1
berač	1	Borovlje	1	Celovec	3	čredica	1	dež	1
beseda	7	boter	4	cepljenje	1	črv	1	dežela	4
besnost	1	božanje	1	cerkev	2	čustvo	3	dih	1
birič	17	bran	1	cesar	1	čutilo	1	dimnica	9
biser	1	branje	1	cesta	2	dača	1	dir	2
bivališče	3	brat	4	ciganstvo	1	dan	27	dlan	7
bivanje	1	brazda	2	cmerač	1	dar	1	dnina	1
blisk	1	brazgotina	1	cmeravka	1	dečva	1	dninar	1
bližina	2	breg	3	cokle	1	dediščina	1	dninarica	1
bližnji	1	breme	1	cula	2	dejanje	1	dninarstvo	1
bodočnost	1	brezobzirnež	1	cundra	3	dekla	10	doba	1
bog	1	brezovina	1	cunja	1	dekle	2	Dobrač	3

Slika 52: Tabela iz slike 51, kot jo prikaže spletni pregledovalnik
Lahko bi jo uredili tudi padajoče po pogostnostih, da bi bili najpogostejši samostalniki spredaj.
Kot se hitro prepričamo, je program celoten seznam samostalnikov pripravil v obliki takih strani kot je zgornja - vsakič 5 stolpcev po 20 vrstic. Da se te strani ne bi preveč stikale, jih lahko še malo razmaknemo. To naredimo tako, da v spoj posameznih tabel:

Slika 53: Spoj dveh tabel - konec predhodne in začetek nove

dodamo z dvema ukazoma <Shift><Insert> najprej dve prazni vrstici, potem pa vanju napišemo še dva ukaza za konec vrstice <br>:

Slika 54: Spoj dveh tabel z dodanima dvema praznima vrsticama

Na zelo podoben način (le v iskanju nadomestimo izraz #2=S z #2=P za pridevnike oz. #2=G za glagole) pripravimo še tabeli za obe drugi polnopomenski besedni vrsti.

4. Povedi

Nekaj možnosti nudi EVA tudi pri povedih. Pri besedilih, ki že vsebujejo oznake stavčnih mej, kakršna so npr. besedila v priporočenih virih za seminarsko nalogo, je postopek enostaven in predstavljen v nadaljevanju, kako opremiti s stavčnimi mejami poljubno drugo besedilo, pa je možno izvedeti pri pouku predmeta.

Da bi spremenili z oznakami začetkov in koncev povedi opremljeno besedilo v podatkovno zbirko povedi, besedilo najprej preberemo v Evino delovno datoteko 2 (ALT 2), potem pa izvedemo zaporedje ukazov:
Orodja -> Označevanje besedila -> Razni splošni postopki -> Prelom datoteke na povedi
V primeru Samorastnikov se znajdemo pred takole podatkovno zbirko:

Slika 55: Povedi iz Samorastnikov kot podatkovna zbirka

Vsaka poved ima 3 podatkovna polja, ločena z dvignjeno piko, podatkovnim ločilom. V prvem je dolžina povedi v besedah, v drugem dolžina povedi v znakih, v tretjem pa je poved sama. Da bi videli, koliko povedi ima besedilo, skočimo na konec datoteke, s tipko <End>, potem pa s tipko <-> na desni tipkovnici prikličemo na zaslon podatek, da imajo Samorastniki

Slika 56: Število povedi v Samorastnikih

827 povedi. Če število besed v tem besedilu (12944) delimo s številom povedi (827), kar napravimo tako, da v prazno vrstico v Evi napišemo 12944/827.00, .00 smo dodali zato, da bi dobili rezultat na dve decimalni mesti, potem pa uporabimo ukaz <Shift><+>, kjer je <+> tipka na desni tipkovnici, izvemo, da je povprečna dolžina povedi 15.65 ali, zaokroženo, 16 besed. Da bi se dokopali še do najdaljše in najkrajše povedi, datoteko uredimo padajoče po dolžini v besedah, znotraj tega padajoče po dolžini v znakih, znotraj tega pa naraščajoče po abecedi - če sta dve povedi enako dolgi tako po besedah kot po znakih, naj bosta razvrščeni po abecedi. Uporabimo zaporedje izbir:
<Home> -> Zbirke -> 2. SORTIRANJE -> Zaporedje ključev: 1,d,2,d,3,a
in dobimo takole datoteko:

Slika 57: Po dolžinah padajoče razvrščene povedi

Takoj vidimo, da je najdaljša poved, o Metinem mučenju, dolga 74 besed in 405 znakov, najkrajša pa le eno besedo oz. 3 znake, Ne!. In kako najdaljšo poved skopiramo v seminarsko nalogo? Z naslednjimi ukazi:

Najprej <Shift><Home> in <Shift><End> na prvi vrstici (ki vsebuje najdaljšo poved) - s tem označimo začetek in konec vrstičnega bloka na tej vrstici. Potem se pomaknemo nazaj v seminarsko nalogo (z ALT 1), tam na primerno mesto (s <Shift><Insert> napravimo prazno vrstico nad </body>), potem pa z <Ctrl><a><c><2> preslikamo vrstični blok iz Evine delovne datoteke 2. Ostane le še, da namesto prvih sedmih znakov v tej vrstici (ki vsebujejo obe dolžini in podatkovni ločili) napišemo <i> - oznako za poševne črke, poved s <Ctrl><y> zlomimo na primernih mestih v več vrstic, da celotno besedilo povedi vidimo na enem zaslonu, in da na konec dodamo še oznako za konec poševnih črk: </i>. Najkrajšo poved kar napišemo, tako je kratka, da preslikavanje ni vredno truda. Še malo dodatkov, pa imamo kodo za osnovne podatke o dolžinah povedi:

<br>
<h2><a name="povedi">5. Povedi</a></h2>
<p><i>Samorastniki</i> imajo 827 povedi, ki so dolge od 1 do 74 besed, povprečna dolžina
povedi je 16 besed. Podatek kaže, da premi govor v besedilu ni
prevladujoč.</p>
<p>Najkrajši povedi sta <i>Ne!</i> in <i>Huj…</i>,
najdaljša pa je:<br>
<i>Tudi ihtenje je popustilo, in solze, ki so še lile iz njenih oči, niso bile več tiste
bridke solze, ki curljajo iz srčnih bridkosti; kmalu pa so se tudi te posušile v novi moči,
ki je rasla v njej, ko je sedala na martrnico, ko je polagala svoje roke na psico, da jih
je okrutni gospodar mogel pod zapestjem privezati na les, da sta se navzgor obrnjeni, tesno
stisnjeni dlani zaokrožili v majhno skledico.</i></p>

Ni veliko dela, da dodamo še histogram z dolžinami povedi. V ta namen v Evini delovni datoteki 2, kjer imamo povedi kot podatkovno zbirko, odvržemo proč vse razen dolžin povedi v besedah:
<Home> -> Zbirke -> 3. IZBOR POLJ -> Izberi polja: 1
nato dobljeni seznam dolžin še uredimo:
<Home> -> Zbirke -> 2. SORTIRANJE -> Zaporedje ključev: 1,a
in izračunamo frekvence dolžin:
<Home> -> Zbirke -> Orodja z leve strani -> Frekvence.

Tipko <Home> smo vedno uporabili, ker v Evi ukazi pri podatkovnih zbirkah skoraj brez izjeme potekajo od trenutne lege kazalčka proti koncu datoteke, pa če bi recimo seznam sortirali tako, da bi bil kazalček na zaslonu v zadnji vrstici, bi sortirali samo zadnjo vrstico, se pravi da ne bi naredili nič.
Nastane frekvenčni seznam dolžin povedi v besedah:

Slika 58: Pogostnosti dolžin povedi v besedah za Samorastnike

Opazimo, da frekvence od dolžine 40 naprej hitro padejo, od dolžine 44 naprej niso več niti vse dolžine zastopane - dolžine 45, 50, 52, 55 in tako naprej imajo pogostnost 0, pa se odločimo, da seznam skrajšamo. Histograma namreč ni mogoče napraviti, če bi bil seznam prekinjen, če bi vrednosti y za določen x manjkale. Postavimo kazalček na vrstico z dolžino 41 in z ukazom <Ctrl><q><k> odstranimo neželeni rep seznama. Tudi tu velja, kar je bilo sicer že povedano - tipko <Ctrl> držimo pritisnjeno samo pri prvem delu ukaza, ko piknemo tudi tipko <q>, potem pa nič več.

Histogram bo primerljiv s histogrami dolžin povedi drugih besedil, če bodo vrednosti frekvenc v odstotkih, ne pa absolutne, zato najprej napravimo še to. Z izbirami:
<Home> -> Zbirke -> Orodja z desne strani -> Izračuni -> Izračunaj novo polje -> #2 * 100.00/827 iz absolutnih frekvenc v polju 2 (#2) izračunamo relativne. Delili smo z 827, številom povedi, da bi dobili odstotke, in to na dve decimalni mesti, smo pa prej še pomnožili s 100.00. Nastane spodnja datoteka:

Slika 59: Relativne pogostnosti dolžin povedi, dolžine in absolutne pogostnosti

Največ povedi, 6.17 %, je dolgih 7 besed, sledijo 6 besed dolge povedi s pogostnostjo 5.93 %, za njimi pa 10 besed dolge povedi s pogostnostjo 5.44 %. Da bi iz tega seznama lahko napravili9 histogram, ga še malo preuredimo - dolžina mora biti v prvem polju, njena relativna frekvenca pa v drugem:
<Home> -> Zbirke -> 3. IZBOR POLJ -> Izberi polja: 2,1
in pa
<Home> -> Zbirke -> 6. DODATKI -> Napravi histogram iz zbirke.

Slika 60: Osnutek kode za histogram pogostnosti dolžin povedi

Malo ga še uredimo, kot smo tudi druge histograme - ob ordinati odstranimo vrednost 7, ker je najvišja relativna frekvenca le 6.17%, bo histogram čisto lep že, če se merske enote na ordinati končajo s 6, pri ordinatni vrednosti 3 (polovica od 6) pa dodali znak -, da bo imel histogram v tej višini črtkano črto. Na koncu smo dodali še vrstico z dvema dvojnima karama, za pravilen konec zaslonske strani:

Slika 61: Urejena Evina koda za histogram pogostnosti dolžin povedi

Histogram je zrel, da si ga ogledamo na zaslonu, s Tisk -> Pokaži stran, skopiramo sliko na odložišče, s <Prt Scr>, ga prek Slikarja ali programa Irfanview shranimo kot datoteko slika_5.gif:

Slika 62: Porazdelitev pogostnosti dolžin povedi (slika 5 v seminarski nalogi)

in vključimo pred konec seminarske naloge z naslednjo kodo:

<p align="center">
<img src="slika_5.gif"><br>
Slika 5: Porazdelitev dolžin povedi</p>

Tako smo seminarsko nalogo pripeljali bolj ali manj do konca. Ostane le še, da napišemo zaključek in poglavje o uporabljenih virih in literaturi.

Pa veliko uspeha pri pisanju!

Stran je postavil Primož Jakopin ter jo nazadnje spremenil 12. novembra 2015

Naslov strani: http://www.jakopin.net/fh/viri/seminar/sm.html

Univerza v Novi Gorici Fakulteta za humanistiko Slovenistika - prva stopnja

Navodila za izdelavo seminarske naloge pri predmetu Jezikovne tehnologije

(Primož Jakopin)

Univerza v Novi Gorici
Fakulteta za humanistiko
Slovenistika - prva stopnja

Navodila za izdelavo
seminarske naloge pri predmetu
Jezikovne tehnologije