Seminarska naloga obsega oblikoslovno označitev izbranega domačega
ali tujega besedila, izdelavo njegovega besednega zaklada in
statistični opis besedila. Izbirati je mogoče med proznimi deli,
zbranimi za izvedbo naloge in med preko interneta
dostopnimi deli v slovenskem ali angleškem jeziku.
Za izvedbo naloge potrebujete:
ki ju namestite na ustrezno diskovno območje
vašega računalnika (z levo tipko na miši izberete najprej
program in ga shranite, nato pa še datoteko virov). Če delate s
kakega omrežja, v katerem na računalnike
ni dovoljena namestitev datotek tipa .EXE z interneta, izberite
namesto zgornje datoteke Eva.exe datoteko
Eva.ex in jo po
namestitvi na vaš računalnik preimenujte - končnico ji spremenite iz
.ex v .exe. Najnovejšo različico programa, z uporabniškim vmesnikom v
angleškem jeziku, lahko prenesemo, v drug imenik seveda, prek
naslednjih povezav: Eva.ex in
Eva.rsf.
Nekaj navodil za uporabo je shranjenih v naslednjih datotekah:
Celotno besedilo izbranega dela dobite pri izvajalcu predmeta. V nadaljevanju je nekaj napotkov za izdelavo seminarske naloge, ki obravnavajo primer Samorastnikov Prežihovega Voranca. V pomoč je tudi vzorec spletne strani s seminarsko nalogo.
Poglejmo najprej, kako bi seminarsko nalogo sploh začeli. V ta namen bomo potrebovali dva programa, program Eva in pregledovalnik spletnih strani, kot so npr. Googlov Chrome ali Microsoftov Internet Explorer, in pa datoteko z besedilom, ki je gradivo za seminarsko nalogo. Ko ga pri predmetu izberemo, ga dobimo od izvajalca predmeta, Samorastnike, če bi želeli vaditi na njih, dobimo pa tukaj. Najprej torej poženemo program Eva in si v njem delo organiziramo na naslednji način: potrebovali bomo več delovnih datotek hkrati, pa jih za začetek razporedimo takole:
ALT 1
)
naj bo besedilo seminarske naloge, ki ga sproti dopolnjujemo.
ALT 2
)
bomo imeli pa besedilo izbranega dela, nad katerim bomo izvajali
razne postopke in njihove rezultate prenašali v datoteko 1, kjer je
besedilo seminarske naloge same.
Števki 1 in 2 v ukazih ALT 1
in ALT 2
sta tisti z navadne
tipkovnice (nad črkama q in w) in ne tisti z desne (številske)
tipkovnice, ki je v Evi rezervirana za razne ukaze.
Denimo, da je avtorica naloge Marija Novak. Vrstice na začetku strani,
napišemo (ali prepišemo iz spodnjega primera) jih v delovno datoteko 1
programa Eva, bi bile lahko videti najmanj takole:
<html> <head> <meta http-equiv="Content-Type" CONTENT="text/html; charset=windows-1250"> <title>Marija Novak: Seminarska naloga pri predmetu Jezikovne tehnologije na Fakulteti za humanistiko Univerze v Novi Gorici </title> </head> <body> |
<br> <h1 align="center">Kvantitativna analiza dela<br> Prežihov Voranc: <i>Samorastniki</i></h1> <br> <br> <h2 align="center"> Seminarska naloga pri predmetu<br> <i>Jezikovne tehnologije</i></h2> <br> <h2 align="center">Marija Novak<br> april 2013</h2> <br> |
<br> <hr width="70%" noshade><br> <font size="+1"><b> Vsebina:<br> <ol class="nounderline"> <li><a href="#uvod">Uvod</a> <li><a href="#avtor">O avtorju</a> <li><a href="#crke">Črke in ločila</a> <li><a href="#besede">Besede</a> <ul type="disc"> <li><a href="#samostalniki">Samostalniki</a> <li><a href="#glagoli">Glagoli</a> <li><a href="#pridevniki">Pridevniki</a> </ul> <li><a href="#povedi">Povedi</a> <li><a href="#sklep">Zaključek</a> <li><a href="#viri">Viri</a> </ol> </b></font> <br> |
Zgornje vrstice smo prepisali iz že omenjenega
vzorca seminarske naloge.
Naloge je že kar nekaj, pa je pametno, da jo za vsak primer shranimo
na disk. To napravimo z zaporedjem izbir:
Disk -> Shrani jo -> Ime datoteke: Seminarska_naloga.html
Ko je datoteka varno shranjena, odpremo na namizju okno z imenikom na
disku, kjer je shranjena, in si jo z dvoklikom na datoteko Seminarska_naloga.html.
Ko bomo nalogo v Evi kaj dopolnili, jo spet shranimo na zgoraj
opisani način, s tem da tokrat nazadnje še potrdimo, da se strinjamo
z zamenjavo datoteke na disku z novo različico (DA). In jo
potem spet pogledamo v pregledovalniku, tako da kliknemo na gumb Obnovi
ali pritisnemo funkcijsko tipko F5.
Tudi sicer, ko prenehamo s pisanjem seminarske naloge in se tega opravila kasneje
spet lotimo, preberemo seminarsko nalogo v Evino delovno datoteko 1 vedno z
zaporedjem izbir:
Disk -> Beri datoteko -> Seminarska_naloga.html
.
Vsakega izmed poglavij seminarske naloge lahko začnemo z naslednjo
kodo:
<br> <hr width="70%" noshade><br> <br> <h2><a name="uvod">1. Uvod</a></h2> <p>Tu je navedenih nekaj misli o predmetu in o seminarski nalogi.</p> |
Do splošnih podatkov o številu vrstic, številu znakov in številu vseh črk v besedilu pridemo lahko na naslednji način:
ALT 2
)
in izbrano besedilo preberemo z diska:Disk -> Izbira -> Beri datoteko z diska
-> ime datoteke
(v našem primeru Samorast.eva
Slika 1: Začetek datoteke z besedilom Samorastnikov
<Ctrl><d>
na začetku
datoteke. Te vrstice so le opis datoteke - ker jih pri nadaljnjih
analizah ne potrebujemo, datoteko brez njih kar shranimo nazaj na
disk, pod istim imenom, da nam jih pri vsakem postopku ne bo treba
spet na novo odstranjevati. Nato
Orodja -> Črkovne statistike -> Posameznih znakov
'A'...
postavimo
začetek bloka - ukaz <Ctrl><Home>
,
na zadnjo, navadno s črko 'ž'...
ali 'Ž'...
pa konec bloka, z ukazom
<Ctrl><End>
.
Blok -> Odstrani vse ostalo(1)
'Z'...
in pred
'a'...
. Potolčemo jih z ustreznim
številom ukazov <Ctrl>d
(odstrani vrstico).
<Home>
) in z zaporedjem
izbir:Zbirke -> Orodja z desne strani -> Izračuni
-> Seštej polje navpično -> Številke polj: 2
ALT 1
):<br> <hr width="70%" noshade><br> <br> <h2><a name="crke">3. Črke in ločila</a></h2> <p><i>Samorastniki</i> obsegajo 77.944 znakov, od tega 58.642 črk, 16.674 ločil, 8 števk in 2.620 oznak. Med črkami je 57.325 pisanih z malo začetnico, 1.317 pa z veliko. |
</body> |
ALT 2
spet preberemo besedilo z gradivom naloge (npr. Samorastnike)
in izberemo naslednje zaporedje izbir:Orodja -> Črkovne statistike -> posameznih črk
Orodja -> Črkovne statistike -> posameznih znakov
) ni nič drugega kot samo pogostnosti črk v
odstotkih. Abecedno ga uredimo z:Zbirke -> 2. SORTIRANJE -> Zaporedje
ključev: 1,a
.Uredi -> Izberi vse
ter
Orodja -> Orodja za internet
-> ... vrstic z besedo in pogostnostjo v HTML
ter
Pojavi se okno z vprašalnikom Stolpci pri izvozu v HTML,
kjer je treba napisati število stolpcev in vrstic ter medstolpčni
razmik. Če imamo v seznamu le 25 črk, kolikor jih ima slovenska
abeceda, se odločimo za 5 stolpcev in 5 vrstic, če je črk v
seznamu več, ustrezno povečamo število stolpcev, npr. na 6.
Medstolpčni razmik tudi postavimo na 5. Okence pri določilu
Odzadnji slovar pustimo prazno in kliknemo na Prav.
Dobimo naslednjo tabelo:<table> <tr><td>a</td><td align=right>10.87</td><td> e</td><td align=right>10.76</td><td> j</td><td ... <tr><td>b</td><td align=right>2.07</td><td> f</td><td align=right>0.02</td><td> k</td><td al... <tr><td>c</td><td align=right>0.64</td><td> g</td><td align=right>1.65</td><td> l</td><td al... <tr><td>č</td><td align=right>1.59</td><td> h</td><td align=right>1.22</td><td> m</td><td al... <tr><td>d</td><td align=right>3.45</td><td> i</td><td align=right>9.33</td><td> n</td><td al... </table> |
Uredi -> Izberi vse
, se z ukazom
ALT 1
odpravimo nazaj v
besedilo seminarske naloge, spet pred vrstico:</body> |
<Ctrl><a><c><2>
,
pri čemer imamo tipko Ctrl pritisnjeno samo na začetku, ko
piknemo še tipko a, potem pa nič več. Izraz piknemo ni tu
za šalo, ampak zares - če neko tipko držimo pritisnjeno dlje časa,
pri čemer je pol sekunde že dlje časa, se pritisk ne izvede enkrat, ampak
večkrat. Prvo vrstico tabele še malo dopolnimo:<table align="center"> |
<p align="center"> Tabela 1: Deleži črk med vsemi v odstotkih</p> |
Histogram s porazdelitvijo črk v besedilu dobimo z naslednjim postopkom:
ALT 2
) in tam
izbrano besedilo spet preberemo z diska:Disk -> Izbira -> Beri datoteko z diska
-> ime datoteke
Orodja -> Črkovne statistike -> posameznih črk
Zbirke -> 2. SORTIRANJE -> Zaporedje
ključev: 1,a
.<Ctrl>d
. Izjema je
črka F, ki jo kljub
<Home> -> Zbirke -> 6. DODATKI ->
Napravi histogram iz zbirke
.
V primeru Samorastnikov bi bil histogram takle:
Slika 2: Osnovni zapis podatkov za generiranje histograma
Dopolnimo in spremenimo ga še z oznakama pri abscisi in ordinati, spremenimo njegovo velikost (na velikost računalnikovega zaslona, druga vrstica), dodamo črtkane vodoravne črte pri vrednostih 2%, 4%, 6%, 8% in 10% (pomišljaji za številkami v peti vrstici, ter na koncu dodamo še konec strani:
Slika 3: Dopolnjen zapis podatkov za generiranje histograma
Znak dvojne kare (double-diamond character) dobimo s pomočjo
<Alt>q
. Vse, kar še ostane,
je, da napravimo sliko histograma in jo shranimo kot datoteko, da jo
bo potem uporabilo še internetni prikazovalnik, npr. Internet Explorer.
V ta namen najprej preverimo nastavitve v Evinem pregledu strani:
Tisk -> Nastavitve strani
ter
postavimo vrednosti
Left margin
in
Top margin
na
0
.
Sledi samo še pregled strani:
Tisk -> Pokaži stran
, pri čemer
mora kazalec na zaslonu seveda biti nekje v opisu histograma (vseeno kje,
le na zadnji vrstici z mejo strani - dvema dvojnima karoma - ne).
Slika 4: Prikaz histograma
q
), popravimo in gremo z
Tisk -> Pokaži stran
spet nazaj.
Kot je se po naših pričakovanjih, histogram shranimo. V ta namen
najprej pritisnemo na tipko
<Prt Scr>
, ki jo
najdemo levo zgoraj nad številčno tipkovnico, desno od funkcijske
tipke <F12>
. Včasih
en pritisk ne zadošča, pa raje pritisnemo dvakrat. Potem se iz Eve
odpravimo v kak grafični program, npr. Slikar iz izbire Pripomočki
ali Irfanview, tam s Uredi -> Prilepi
prikličemo kopijo slike, ki smo jo prej gledali v Evi, s
prakotniško izbiro odvržemo, česar ne potrebujemo in potem rezultat
shranimo v isti imenik na disku, kjer imamo že seminarsko nalogo,
kot datoteko slika_1.gif, v grafičnem načinu .GIF.
Pri poti do histograma lahko uberemo tudi bližnjico - tako, da na
datoteki z besedilom izberemo zaporedje izbir:
Orodja -> Označevanje besedila ->
Statistike -> Porazdelitev črk
in popravimo ta
rezultat.
Nastalo sliko potem vključimo pred konec seminarske naloge z vrsticami:
<p>Grafično je porazdelitev pomembnejših črk razvidna iz slike 1:</p> <p align="center"> <img src="slika_1.gif"><br> Slika 1: Porazdelitev pogostejših črk</p> |
Seveda lahko napravimo poleg omenjenega pri črkah še kako drugo
statistiko - kar nekaj možnosti se skriva predvsem za izbirami:
Orodja -> Črkovne statistike ->
Statistika dvojčkov, trojčkov ...
Še več možnosti možnosti kot pri črkovnih statistikah nudi EVA pri
številskem opisu besed. Oglejmo si najprej, kako izmerimo število vseh
besed in število različnih besed ter kako pridemo do povprečnih dolžin.
Najprej spet preberemo izbrano besedilo z diska v pomnilnik, potem
ga razbijemo na besede:
Orodja -> Označevanje besedila -> Razno
-> Prelom datoteke na besede -> Prav
.
Pomaknemo se na konec novonastalega seznama:
<End>
in s tipko
<->
z desne (številske)
tipkovnice vprašamo, koliko je vseh besednih oblik (12.944 pri
Samorastnikih). Zatem skočimo na
začetek seznama (<Home>
),
besedne oblike najprej spremenimo v malo začetnico:
Uredi -> Izberi vse -> Blok ->
Velike v male
jih abecedno uredimo:
Zbirke -> 1. SORTIRANJE -> Zaporedje ključev:
1,a
in z zaporedjem izbir:
Zbirke -> Orodja z leve strani -> Frekvence
dosežemo, da enake besede v seznamu popadajo skupaj, vsaka pa dobi za seboj
še frekvenco (število enakih v seznamu). Malo si ga ogledamo,
ugotovimo da je prva beseda a, zadnja žvotjo, za njo pa še 1875.
Ker nas zanimajo samo besede v ožjem smislu, letnico odstranimo z
ukazom <Ctrl>d
.
Ker bomo seznam še potrebovali, ga shranimo na disk:
Disk -> Izbira -> Shrani jo na disk ->
Ime datoteke: besede.fre
Skok na konec
<End>
in
<->
z desne tipkovnice nam
zdaj povesta še število različnih besed.
Da bi dobili povprečno dolžino različnih besed in vseh besed se spet
pomaknemo na začetek seznama -
<Home>
- in z izbiro:
Zbirke -> Orodja z leve strani -> Dolžine
-> Polje, za katero naj se izračuna dolžina: 1
pred vsako besedo pripeljemo še njeno dolžino v znakih. Sledi le še izračun
vsote dolžin vseh različnih besed:
Zbirke -> Orodja z desne strani -> Izračuni
-> Seštej polje navpično -> Številka polja, ki ga je treba sešteti: 1
Na koncu datoteke se znajde vsota dolžin vseh različnih besed (v primeru
Samorastnikov 27.159), ki jo je
treba deliti s številom različnih besed (4.058). Ko dobimo rezultat
(povpr. 6.69 črk na besedo v Vorančevem delu),
zadnjo vrstico v datoteki (s tem številom) odstranimo s
<Ctrl>d
. Vrnemo se na začetek
<Home>
- in izračunamo se
skupno dolžino vseh pojavitev vsake besede:
Zbirke -> Orodja z desne strani -> Izračuni
-> Izračunaj novo polje -> Izračunaj: #1 * #3
se pravi zmnožek prvega (dolžina) in tretjega podatkovnega polja (frekvenca
ali število pojavitev). Dobljene vrednosti še seštejemo:
Zbirke -> Orodja z desne strani -> Izračuni
-> Seštej polje navpično -> Številka polja, ki ga je treba sešteti: 1
in na koncu datoteke (tja seveda pridemo z
<end>
) se znajde vsota dolžin
vseh besednih oblik (v primeru Samorastnikov 58.646). Delimo jo s
številom vseh besednih oblik in dobimo iskani rezultat (4.53).
Najdaljšo besedo dobimo tako, da skočimo na začetek seznama in ga padajoče
uredimo po drugem polju:
Zbirke -> 1. SORTIRANJE -> Zaporedje ključev:
2,d
Poglejmo še krivuljo rasti in histograma porazdelitev besednih dolžin.
Krivulja rasti za besede pove hitrost, s katero se polni besedni zaklad
besedila.
Slika 5: Prikaz krivulje rasti
Disk -> Izbira -> Beri datoteko z diska
-> ime datoteke
(rezultate od prej smo seveda že pospravili
na varno in se zato strinjali z odstranitvijo trenutne pomnilniške
datoteke):
Slika 6: Začetek datoteke z besedilom Samorastnikov
Orodja -> Označevanje besedila -> Statistike
-> Krivulja rasti besednih oblik
.
Dobimo njeno določitev:
Slika 7: Osnovni zapis podatkov za generiranje histograma
Slika 8: Dopolnjeni zapis podatkov za generiranje histograma
<F3>
) in jo, ko smo z njo
zadovoljni, shranimo na podoben način kot že prej histogram:Konec -> Shrani kopijo kot .GIF ->
Ime datoteke: slika_2.gif
.
Dolžine različnih besednih oblik povedo precej o zvrsti besedila - strokovne
razprave imajo seveda precej daljše dolžine kot leposlovje. V primeru
vzorčnega besedila dobimo spodnji porazdelitveni histogram:
Slika 9: Prikaz histograma za porazdelitev dolžin različnih besednih oblik
Orodja -> Označevanje besedila -> Statistike
-> ... dolžin različnih besednih oblik
. Dobljeni osnutek:
Slika 10: Osnovni zapis podatkov za generiranje histograma dolžin različnih besednih oblik
Slika 11: Dopolnjeni zapis podatkov za generiranje histograma dolžin različnih besednih oblik
Konec -> Shrani kopijo kot .GIF ->
Ime datoteke: slika_3.gif
.
Dolžine vseh besednih oblik, v odnosu na dolžine različnih besednih oblik
ponujajo precej podatkov o tem, kako gibko je besedilo, koliko je v njem
npr. premega govora. V primeru Samorastnikov
dobimo porazdelitveni histogram:
Slika 12: Prikaz histograma za porazdelitev dolžin vseh besednih oblik
Orodja -> Označevanje besedila -> Statistike
-> ... dolžin vseh besednih oblik
. Dobljeni osnutek:
Slika 13: Osnovni zapis podatkov za generiranje histograma dolžin vseh besednih oblik
Slika 14: Dopolnjeni zapis podatkov za generiranje histograma dolžin vseh besednih oblik
Konec -> Shrani kopijo kot .GIF ->
Ime datoteke: slika_4.gif
.
Pot do besednega zaklada izbranega dela ni tako kratka in gladka kot do
prejšnjih statistik, pa je rezultat vseeno vreden truda. Delo lahko opravimo
z oblikoslovnim označevalnikom za slovenski jezik,
razvitim v okviru projekta Sporazumevanje
v slovenskem jeziku.
ALT 1
)
naj bo besedilo seminarske naloge, ki ga dopolnjujemo, kot gremo z nalogo naprej.
ALT 2
)
bomo imeli besedilo izbranega dela.
ALT 3
)
bomo gradili seznam besednih lem in njihovih oblikoslovnih oznak.
Oglejmo si zdaj postopek, s katerim pridemo do seznama lem polnopomenskih besednih vrst.
ALT 2
) in
z diska preberemo besedilo izbranega dela:Disk -> Izbira -> Beri datoteko z diska
-> samorast.eva
<Ctrl><d>
odstranimo
vse vrstice na začetku besedila, ki se začnejo z znakom dvojni karo.
Slika 15: Začetek besedila Samorastnikov
Orodja -> Črkovne statistike -> Posameznih znakov
<end>
najprej odpravimo na konec
datoteke, potem pa kazalček premaknemo na mesto, označeno na sliki 16:
Slika 16: Prva oznaka v statistiki znakov
<Ctrl><Home>
na to mesto postavimo začetek pravokotnega bloka, kazalček pomaknemo na
zadnjo oznako in s <Ctrl><End>
tu določimo konec pravokotnega bloka:
Slika 17: Oznake v pravokotnem bloku
<End>
se pomaknemo na
konec datoteke, z <Enter>
pa
še vrstico niže. S <Ctrl><o><r>
tja preslikamo vse oznake ter jih z zaporedjem ukazov
<Ctrl><j>
združimo v eno
vrstico, na začetek pa vrinemo še presledek
(<Insert>
)
Slika 18: Oznake v vrstici na koncu datoteke
<Ctrl><Home>
na začetku vrstice
in <Ctrl><End>
na koncu,
postavimo v pravokotni blok:
Slika 19: Z vejicami ločene oznake v pravokotnem bloku
<Ctrl><c>
oznake in vejice
prekopiramo na odložišče in se z <Home>
pomaknemo na začetek datoteke. Tam se odločimo za večkratno zamenjavo:Išči -> Večkratna zamenjava
<Zamenjaj:>
)
pobrišemo vse, kar je že bilo tam ter s
<Ctrl><v>
z odložišča
prinesemo vejice in oznake. V naslednjo vrstico
(<z:>
) napišemo toliko vejic,
kot jih je v vrstici višje, v našem primeru 12:
Slika 20: Večkratna zamenjava
Slika 21: Besedilo brez oznak
Vnesite besedilo:
<Shift><Home>
za
označitev začetka vrstičnega bloka,
<Ctrl><f><l>
za
skok na vrstico številka (500),
<Shift><End>
za
označitev konca vrstičnega bloka ter izbiri
Uredi -> Kopiraj >
za prenos vrstičnega bloka na odložišče. Meje ne postavimo natančno na
500-to vrstico, ampak na konec odstavka za to mejo.
Oblika izpisa označenega besedila
TEI-XML
in kliknemo na
ploščico Označi besedilo
.
<Ctrl><c>
Iz spletnega pregledovalnika se odpravimo spet v Evo, tam v datoteko 3
in rezultat označevalnika prenesemo v Evo z ukazom
<Ctrl><c>
:
Slika 22: Začetek besedila, obdelanega z oblikoslovnim označevalnikom
Slika 23: Konec besedila, obdelanega z oblikoslovnim označevalnikom
<Home>
in
z zaporedjem izbir:
Orodja -> Orodja jezika SGML ->
Osnovni postopki -> Naberi le izbrano oznako -> w
iz rezultatov
polovimo poleg besed le še leme in oblikoslovne oznake:
Slika 24: Začetek seznama besed z lemami in oblikoslovnimi oznakami
Išči -> Zamenjava -> Zamenjaj: </w>
z: <188> -> Gremo!
na konec vsake vrstice dodamo
dvignjeno piko, podatkovno ločilo. Nato s podobno izbiro:
Išči -> Zamenjava -> Zamenjaj: ""
z: <188> -> Gremo!
osamimo leme in oblikoslovne
oznake, z izbiro
Išči -> Zamenjava -> Zamenjaj: >
z: <188> -> Gremo!
pa še besedne oblike same:
Slika 25: Začetek že malo preurejenega seznama besed
Zbirke -> 3. IZBOR POLJ -> 4,2,6
se znebimo balasta:
Slika 26: Leme, oblikoslovne oznake in besede
Zbirke -> Orodja z desne strani -> Dodaj, krajšaj, premakni ->
Skrajšaj polje -> Oznaka polja, nova dolžina, poravnava, dopolnitev: 2,1,L,*
Slika 27: Začetek seznama lem s skrajšanimi oblikoslovnimi oznakami
Zbirke -> 3. IZBOR POLJ -> 1,2
Zbirke -> 1. Iskanje -> #2=G,#2=P,#2=S
Slika 28: Polnopomenske leme z oznakami besednih vrst
ALT 3
)
je zdaj že blizu resnice. Besede še razvrstimo po besednih vrstah in lemah:Zbirke -> 2. Sortiranje -> Zaporedje ključev: 2,a,1,a
.
Z določilom: 2,a,1,a
smo izbrali najprej abecedno razvrščanje
po drugem podatkovnem polju, to je po besedni vrsti (2,a
),
znotraj besedne vrste pa še abecedno razvrščanje po lemah
(1,a
)
Slika 29: Po besednih vrstah in po abecedi urejen seznam lem
Home -> Zbirke -> Orodja z leve strani -> Frekvence
:
Slika 30: Po besednih vrstah in po abecedi urejen seznam lem s frekvencami
Disk -> Izbira -> Shrani jo na disk ->
Ime datoteke: leme_b_vrste.fre
Zbirke -> 1. ISKANJE -> Iskalni izraz: #2=S
.Home -> Zbirke -> 3. IZBOR POLJ -> Izberi polja: 1,3
Uredi -> Izberi vse
Orodja -> Orodja za internet -> ... vrstic z besedo in pogostnostjo v HTML
Slika 50: Nastavitev stolpcev za izvoz tabele v HTML
Slika 51: Tabela s podatki o samostalniških lemah v formatu HTML
aherc | 1 | bogatija | 1 | brežina | 1 | čar | 2 | deklič | 3 |
amažnik | 2 | bognasvaruj | 1 | bridkost | 1 | čas | 19 | deklina | 2 |
baba | 4 | boj | 7 | bršlin | 1 | čast | 4 | del | 3 |
bajta | 20 | bok | 1 | bučanje | 1 | čeljust | 1 | delež | 1 |
bala | 1 | bolečina | 8 | bukva | 1 | čelo | 2 | delo | 10 |
barti | 1 | bolest | 1 | Burga | 3 | čer | 1 | denar | 2 |
Bela | 1 | bolezen | 1 | camar | 3 | četrt | 1 | desetina | 1 |
belina | 1 | borba | 1 | carapa | 1 | človek | 8 | desetletje | 1 |
berač | 1 | Borovlje | 1 | Celovec | 3 | čredica | 1 | dež | 1 |
beseda | 7 | boter | 4 | cepljenje | 1 | črv | 1 | dežela | 4 |
besnost | 1 | božanje | 1 | cerkev | 2 | čustvo | 3 | dih | 1 |
birič | 17 | bran | 1 | cesar | 1 | čutilo | 1 | dimnica | 9 |
biser | 1 | branje | 1 | cesta | 2 | dača | 1 | dir | 2 |
bivališče | 3 | brat | 4 | ciganstvo | 1 | dan | 27 | dlan | 7 |
bivanje | 1 | brazda | 2 | cmerač | 1 | dar | 1 | dnina | 1 |
blisk | 1 | brazgotina | 1 | cmeravka | 1 | dečva | 1 | dninar | 1 |
bližina | 2 | breg | 3 | cokle | 1 | dediščina | 1 | dninarica | 1 |
bližnji | 1 | breme | 1 | cula | 2 | dejanje | 1 | dninarstvo | 1 |
bodočnost | 1 | brezobzirnež | 1 | cundra | 3 | dekla | 10 | doba | 1 |
bog | 1 | brezovina | 1 | cunja | 1 | dekle | 2 | Dobrač | 3 |
Slika 53: Spoj dveh tabel - konec predhodne in začetek nove
<Shift><Insert>
najprej dve prazni vrstici, potem pa vanju napišemo še dva ukaza za konec
vrstice <br>
:
Slika 54: Spoj dveh tabel z dodanima dvema praznima vrsticama
Nekaj možnosti nudi EVA tudi pri povedih. Pri besedilih, ki že vsebujejo oznake stavčnih mej, kakršna so npr. besedila v priporočenih virih za seminarsko nalogo, je postopek enostaven in predstavljen v nadaljevanju, kako opremiti s stavčnimi mejami poljubno drugo besedilo, pa je možno izvedeti pri pouku predmeta.
Da bi spremenili z oznakami začetkov in koncev povedi opremljeno
besedilo v podatkovno zbirko povedi, besedilo najprej preberemo v
Evino delovno datoteko 2 (ALT 2
),
potem pa izvedemo zaporedje ukazov:
Orodja -> Označevanje besedila -> Razni splošni postopki
-> Prelom datoteke na povedi
V primeru Samorastnikov se znajdemo pred takole podatkovno zbirko:
Slika 55: Povedi iz Samorastnikov kot podatkovna zbirka
Vsaka poved ima 3 podatkovna polja, ločena z dvignjeno piko,
podatkovnim ločilom. V prvem je dolžina povedi v besedah, v drugem
dolžina povedi v znakih, v tretjem pa je poved sama. Da bi videli,
koliko povedi ima besedilo, skočimo na konec datoteke, s tipko
<End>
, potem pa s tipko
<->
na desni tipkovnici
prikličemo na zaslon podatek, da imajo Samorastniki
Slika 56: Število povedi v Samorastnikih
827 povedi. Če število besed v tem besedilu (12944) delimo s
številom povedi (827), kar napravimo tako, da v prazno vrstico v Evi
napišemo 12944/827.00
, .00 smo dodali zato,
da bi dobili rezultat na dve decimalni mesti, potem pa uporabimo ukaz
<Shift><+>
, kjer je <+>
tipka na desni tipkovnici, izvemo, da je povprečna dolžina povedi 15.65 ali, zaokroženo,
16 besed. Da bi se dokopali še do najdaljše in najkrajše povedi,
datoteko uredimo padajoče po dolžini v besedah, znotraj tega padajoče
po dolžini v znakih, znotraj tega pa naraščajoče po abecedi - če
sta dve povedi enako dolgi tako po besedah kot po znakih, naj bosta
razvrščeni po abecedi. Uporabimo zaporedje izbir:
<Home> -> Zbirke -> 2. SORTIRANJE ->
Zaporedje ključev: 1,d,2,d,3,a
in dobimo takole datoteko:
Slika 57: Po dolžinah padajoče razvrščene povedi
Takoj vidimo, da je najdaljša poved, o Metinem mučenju, dolga 74 besed in 405 znakov, najkrajša pa le eno besedo oz. 3 znake, Ne!. In kako najdaljšo poved skopiramo v seminarsko nalogo? Z naslednjimi ukazi:
Najprej <Shift><Home>
in
<Shift><End>
na
prvi vrstici (ki vsebuje najdaljšo poved) - s tem označimo začetek in
konec vrstičnega bloka na tej vrstici. Potem se pomaknemo nazaj v
seminarsko nalogo (z ALT 1
),
tam na primerno mesto (s <Shift><Insert>
napravimo prazno vrstico nad </body>
), potem
pa z <Ctrl><a><c><2>
preslikamo vrstični blok iz Evine delovne datoteke 2. Ostane le še,
da namesto prvih sedmih znakov v tej vrstici (ki vsebujejo obe
dolžini in podatkovni ločili) napišemo <i> - oznako za
poševne črke, poved s <Ctrl><y>
zlomimo
na primernih mestih v več vrstic, da celotno besedilo povedi vidimo
na enem zaslonu, in da na konec dodamo še oznako za konec poševnih
črk: </i>. Najkrajšo poved kar napišemo, tako je kratka, da
preslikavanje ni vredno truda. Še malo dodatkov, pa imamo kodo za osnovne podatke
o dolžinah povedi:
<br> <h2><a name="povedi">5. Povedi</a></h2> <p><i>Samorastniki</i> imajo 827 povedi, ki so dolge od 1 do 74 besed, povprečna dolžina povedi je 16 besed. Podatek kaže, da premi govor v besedilu ni prevladujoč.</p> <p>Najkrajši povedi sta <i>Ne!</i> in <i>Huj…</i>, najdaljša pa je:<br> <i>Tudi ihtenje je popustilo, in solze, ki so še lile iz njenih oči, niso bile več tiste bridke solze, ki curljajo iz srčnih bridkosti; kmalu pa so se tudi te posušile v novi moči, ki je rasla v njej, ko je sedala na martrnico, ko je polagala svoje roke na psico, da jih je okrutni gospodar mogel pod zapestjem privezati na les, da sta se navzgor obrnjeni, tesno stisnjeni dlani zaokrožili v majhno skledico.</i></p> |
Ni veliko dela, da dodamo še histogram z dolžinami povedi. V ta
namen v Evini delovni datoteki 2, kjer imamo povedi kot podatkovno
zbirko, odvržemo proč vse razen dolžin povedi v besedah:
<Home> -> Zbirke -> 3. IZBOR POLJ ->
Izberi polja: 1
nato dobljeni seznam dolžin še uredimo:
<Home> -> Zbirke -> 2. SORTIRANJE ->
Zaporedje ključev: 1,a
in izračunamo frekvence dolžin:
<Home> -> Zbirke -> Orodja z leve strani ->
Frekvence
.
Tipko <Home>
smo
vedno uporabili, ker v Evi ukazi pri podatkovnih zbirkah skoraj brez
izjeme potekajo od trenutne lege kazalčka proti koncu datoteke, pa če
bi recimo seznam sortirali tako, da bi bil kazalček na zaslonu v
zadnji vrstici, bi sortirali samo zadnjo vrstico, se pravi da ne bi
naredili nič.
Nastane frekvenčni seznam dolžin povedi v besedah:
Slika 58: Pogostnosti dolžin povedi v besedah za Samorastnike
Opazimo, da frekvence od dolžine 40 naprej hitro padejo, od
dolžine 44 naprej niso več niti vse dolžine zastopane - dolžine 45,
50, 52, 55 in tako naprej imajo pogostnost 0, pa se odločimo, da
seznam skrajšamo. Histograma namreč ni mogoče napraviti, če bi bil
seznam prekinjen, če bi vrednosti y za določen x manjkale.
Postavimo kazalček na vrstico z dolžino 41 in z
ukazom <Ctrl><q><k>
odstranimo neželeni rep seznama. Tudi tu velja, kar je bilo sicer že
povedano - tipko <Ctrl>
držimo pritisnjeno samo pri prvem delu ukaza, ko piknemo tudi tipko
<q>
, potem pa nič več.
Histogram bo primerljiv s histogrami dolžin povedi drugih besedil,
če bodo vrednosti frekvenc v odstotkih, ne pa absolutne, zato najprej
napravimo še to. Z izbirami:
<Home> -> Zbirke -> Orodja z desne strani ->
Izračuni -> Izračunaj novo polje -> #2 * 100.00/827
iz absolutnih frekvenc v polju 2 (#2) izračunamo relativne. Delili
smo z 827, številom povedi, da bi dobili odstotke, in to na dve decimalni mesti,
smo pa prej še pomnožili s 100.00. Nastane spodnja datoteka:
Slika 59: Relativne pogostnosti dolžin povedi, dolžine in absolutne pogostnosti
Največ povedi, 6.17 %, je dolgih 7 besed, sledijo 6 besed dolge
povedi s pogostnostjo 5.93 %, za njimi pa 10 besed dolge povedi s
pogostnostjo 5.44 %. Da bi iz tega seznama lahko napravili9 histogram,
ga še malo preuredimo - dolžina mora biti v prvem polju, njena
relativna frekvenca pa v drugem:
<Home> -> Zbirke -> 3. IZBOR POLJ ->
Izberi polja: 2,1
in pa
<Home> -> Zbirke -> 6. DODATKI ->
Napravi histogram iz zbirke
.
Slika 60: Osnutek kode za histogram pogostnosti dolžin povedi
Malo ga še uredimo, kot smo tudi druge histograme - ob ordinati odstranimo vrednost 7, ker je najvišja relativna frekvenca le 6.17%, bo histogram čisto lep že, če se merske enote na ordinati končajo s 6, pri ordinatni vrednosti 3 (polovica od 6) pa dodali znak -, da bo imel histogram v tej višini črtkano črto. Na koncu smo dodali še vrstico z dvema dvojnima karama, za pravilen konec zaslonske strani:
Slika 61: Urejena Evina koda za histogram pogostnosti dolžin povedi
Histogram je zrel, da si ga ogledamo na zaslonu, s
Tisk -> Pokaži stran
, skopiramo sliko na
odložišče, s <Prt Scr>
, ga prek Slikarja
ali programa Irfanview shranimo kot datoteko slika_5.gif:
Slika 62: Porazdelitev pogostnosti dolžin povedi (slika 5 v seminarski nalogi)
in vključimo pred konec seminarske naloge z naslednjo kodo:
<p align="center"> <img src="slika_5.gif"><br> Slika 5: Porazdelitev dolžin povedi</p> |
Tako smo seminarsko nalogo pripeljali bolj ali manj do konca. Ostane le še, da
napišemo zaključek in poglavje o uporabljenih virih in literaturi.
Pa veliko uspeha pri pisanju!
Stran je postavil
Primož Jakopin ter jo nazadnje spremenil 27. novembra 2016
Naslov strani: http://www.jakopin.net/JT/viri/Navodila_za_izdelavo_seminarske_naloge.php
3071