Pri vsaki kvantitativni obdelavi je zanimivo vprašanje, kako se lotiti ustreznega opisa gradiva. Pri leposlovnih besedilih gre za opis gradnikov hierarhije - delo, stran, odstavek, poved, beseda, znak (oziroma črka v ožjem smislu). Pri elektronskih besedilih navadno ni podatkov o mejah strani, ki tudi pri knjižnih verzijah niso stalne - razlikujejo se od izdaje do izdaje. V tabeli 27 je navedeno število teh gradnikov za oba vzorca.
Tabela 27: Število enot v obeh vzorcih
Znakov | Besed | Povedi | Odstavkov | |
Prvi vzorec | 16.784.110 | 2.721.416 | 201.445 | 62.493 |
Drugi vzorec | 2.497.308 | 407.938 | 37.459 | 12.710 |
Skupaj | 19.281.418 | 3.129.354 | 238.904 | 75.203 |
Drugi vzorec, ki vsebuje vsa dela (52) Cirila Kosmača, je po velikosti v znakih približno 15 % prvega vzorca, ki obsega 60 del 41 avtorjev. Oba skupaj sta velika približno stotino največje sedanje besedilne zbirke na svetu - Bank of English, kjer pa je leposlovja malo.
Statistični opis v nalogi je razdeljen na razdelke o znakih, besedah in povedih, ki jim sledi še poglavje o entropiji.
Najmanjši delci pisanega besedila in drugih negovorjenih sporočil, delci, ki se jih ne da še naprej deliti, so znaki. Sem spadajo črke, ločila, med katerimi je najpomembnejši presledek, simboli, kakršen je recimo paragraf, in razne oznake, ki sicer niso del besedila, kot npr. kazalci na opombe. Namesto izraza znaki je v literaturi dostikrat uporabljen tudi izraz simboli.
Tabela 28: Nabor znakov iz obeh vzorcev skupaj, absolutno in v odstotkih
V tabeli 28 na prejšnji strani je naveden skupni nabor znakov iz obeh vzorcev. Pri tem niso upoštevana zaglavja pred besedili, so pa zajete oznake meja povedi, odstavkov, premega govora in podobnega, vsi dodatni simboli, ki so že bili navedeni v tabeli 5. Vsega skupaj je v obeh vzorcih nastopalo skupaj 168 različnih znakov, v prvem 165, v drugem pa 128. Največ črk, ki ne nastopajo v slovenski abecedi, so prinesli prevodi, predvsem delo Libuše Moníkove Fasada. V njem je bilo celo nekaj citatov v cirilici, ki so bili označeni kot neslovensko besedilo in nadomeščeni z zvezdico. Trije dodatni znaki, ki jih je v skupni nabor prispeval drugi vzorec, so bili znak za paragraf ter par dvojnih navednic zgoraj in spodaj - simbola § in ş.
Kode znakov iz tabele 28 so kode, kakršne imajo ti znaki v naboru urejevalnika EVA (16-bitni nabor znakov, njegov naslov na internetu je naveden v prilogi D na strani 293). Pari znakov z nizkimi kodami razmejujejo vrsto pisave - par (17, 18) pomeni začetek in konec poudarjenega tiska (skupaj je bilo takih delov tiska 874), par (23, 24) začetek in konec kurzive (966-krat), par (25, 26) pa začetek in konec potenc (predvsem za opombe, 621-krat). Indeksov v besedilih ni bilo, bil pa je, v besedilu prvega vzorca, dvakrat uporabljen poseben znak za kvadrat (, koda 648).
Znaki od kode 32 do 122 sledijo naboru ASCII, začenši s presledkom, ki ima pogostost 17,96, kar je približno odstotek več kot v primerljivi raziskavi (Kristan idr. 1994); razliko gre pripisati predvsem deležu časopisnega jezika v njej, ki ima opazno daljše besede. Neslovenske črke q, w, x in y s frekvencami 283, 675, 628 in 3.195 (0,02 % celote) se po pogostosti s črkami našega jezika, niti s črko f, ne morejo primerjati, kar je v skladu s pričakovanji. Izredno redki znaki v tem območju, vsi s frekvenco 5 ali manj, so dvojni narekovaj (4), dolar (1), odstotek (5), znak manjše (1) in enačaj (3). Tako malo dvojnih narekovajev v besedilu je zaradi tega, ker jih v tiskanih leposlovnih delih res ni. Povsod tam, kjer ni bilo eksplicitno razvidno, da je bil res mišljen ta znak, npr. pri premem govoru in podobno, je v rabi par >> in <<. Posebno pozornost zasluži še pomišljaj (-) s kodo 45. V besedilih je navadno nastopal v obeh vlogah - kot nestični (npr. v povedi Poglej - žoga!) in kot stični pomišljaj ali vezaj (npr. v izrazu Ve-li-ka ne-de-lja). Da ne bi prihajalo do težav pri prelomu na besede in pri podobnih postopkih, je bil pomišljaj v stični vlogi v obeh vzorcih povsod nadomeščen s posebnim stičnim pomišljajem, ki ima kodo 658. Bilo ga je približno desetkrat manj kot nestičnega (2.711 proti 25.632); nestični pomišljaj je bil zelo pogosto uporabljen za označitev premega govora namesto narekovajev.
V območju kod od 129 do 164 nastopajo črke z diakritičnimi znamenji, ki so v rabi predvsem v zahodni Evropi; med njimi so daleč najpogostejši samoglasniki é, á, í in ó z ostrivcem (2.101, 1.247, 704 in 701), sledi pa jim è s krativcem (565).
Tabela 29: Nabor znakov iz prvega vzorca, absolutno in v odstotkih
Tabela 30: Nabor znakov iz drugega vzorca, absolutno in v odstotkih
Črke z diakritičnimi znamenji, ki se ne uporabljajo v slovenskem jeziku, npr. samoglasniki s preglasi, so spet zelo redke. Na kodah od 166 do 171 sledijo šumniki Č, č, Š, š, Ž, ž, za njimi pa dve črki od štirih s srbskega oziroma hrvaškega govornega področja, ć (86) in Ð (1). Črka đ ne nastopa niti enkrat, kar pomeni da je bila najverjetneje že v originalnih besedilih transkribirana v dj. S kodo 185 malo naprej najdemo trdi presledek, lahko bi mu rekli tudi nedeljivi presledek, s frekvenco 2.057. Z njim je bil nadomeščen navaden presledek v primerih nedeljivih besednih enot, npr. pri krajevnih imenih, kot so Sv. Lucija, New York in podobno. Na kodah od 246 do 267 so simboli za označevanje besedila, razloženi v razdelku 3.1.1 (Dodatni simboli). Iz tega dela tabele sledi, da je bilo v besedilu 9.358 primerov nizov, ki niso besedilo (predvsem oznak vrstic v poglavjih Nove zaveze), 1.344 citatov v drugih jezikih, 75.203 odstavki, 56.240 primerov premega govora, 238.904 povedi, 1.712 vrstic, ki morajo biti pomaknjene na sredino, 3.814 delov besedila, ki se jih ne sme reformatirati (pesmice, lepo zloženi citati), 893 vzdevkov, 556 citatov v slovenskem jeziku in trije deli, ki morajo biti (na internetu) izpisani s črkami fiksne širine. Na koncu je še nekaj redkejših črk, predvsem z diakritičnimi znamenji, tropičje (s frekvenco 10.112), ki je bilo uvedeno zaradi lažjega določevanja meja povedi, ter razne oblike navednic.
V tabelah 28 in 29 na prejšnjih dveh straneh sta navedena nabora črk za prvi in za drugi vzorec posebej. Odstotne vrednosti v obeh tabelah so dokaj blizu, nekaj razlik je pa vendar opaznih. Tako je v prvem vzorcu presledkov 17,78 %, v drugem pa 19,19 %, kar kaže na krajšo dolžino besed v Kosmačevem besedilu; ta bo potrjena v naslednjem razdelku. V prvem vzorcu pride en premi govor na 4,39 povedi, v drugem pa na 3,62, kar kaže na večji delež dialoga pri Kosmaču. V drugem vzorcu opazimo tudi izredno majhno zastopanost števk - skupaj jih je komaj 0,01 % vseh znakov, v prvem vzorcu pa 0,17 %.
Na sliki 7 je prikazana porazdelitev najpogostejših črk v obeh vzorcih, kjer so bile velike in male črke združene, deleži pa se nanašajo na vse črke in ne na vse znake. Opazimo, kot je bilo ugotovljeno že v vseh prejšnjih raziskavah, prevlado črke e nad a. Odnos je 7,92 % proti 7,74 % glede na vse znake v obeh vzorcih, kar pomeni, da je e-jev za 2,33 % več kot a-jev. Hipotezi, postavljeni v članku (Kristan idr. 1994), da je odnos med vodilnima samoglasnikoma odvisen od starosti besedila in da je v novejših prevladujoč a, je nekoliko bliže odnos v prevodih, novejših besedilih prvega vzorca (6.128.484 znakov). Tam sicer še vedno prevladuje e, vendar že manj - 7,73 : 7,66. Po mnenju avtorja je odnos med obema bolj odvisen od žanra besedila - v nekaterih pravljicah je zaradi imen glavnih junakov odnos precej porušen v korist a-ja, npr. 7,55 : 8,81 (Jakopin in Musar 1997). Druga razlika je v pogostosti nadaljnjih dveh samoglasnikov, i in o. V predhodni raziskavi je črka i pogostejša od črke o, po
Slika 7: Porazdelitev najpogostejših 25 črk v obeh vzorcih skupaj
rezultatih, dobljenih za oba vzorca skupaj, pa je nekoliko pogostejši o - odnos je 6,72 % : 6,69 %. Porazdelitev drugih črk je v skladu s pričakovanji in ne odstopa bistveno od vrednosti, izmerjenih na manjšem vzorcu v predhodni, že omenjeni raziskavi (Kristan idr. 1994).
Primerjava porazdelitev vseh črk v obeh vzorcih je prikazana na sliki 8. Odstotki se tudi tokrat nanašajo na delež posamezne črke med vsemi črkami in ne med vsemi znaki.
Slika 8: Porazdelitev najpogostejših 25 črk za prvi (črn) in drugi vzorec
Razlike so majhne, pa zanimive. Takoj je videti, da je v drugem vzorcu delež črke a za malenkost večji kot delež črke e, obakrat pa spet večji kot v prvem vzorcu, medtem ko so deleži preostalih treh samoglasnikov, črk i, o in u, v drugem vzorcu opazno manjši kot v prvem - lahko bi rekli, da je Kosmačeva govorica "širša" od govorice v drugih slovenskih leposlovnih besedilih.
Poleg porazdelitve vseh črk sta najbolj zanimivi še dve porazdelitvi - porazdelitev prvih in zadnjih črk v vseh besedah. Prikazani sta na slikah 9 in 10. Na sliki 9 najprej opazimo, v primerjavi s sliko 8, majhne frekvence samoglasnikov in večjo urejenost cele slike. V nasprotju s prejšnjo raziskavo (kjer je prvi p) je najpogostejša prva črka pri obeh vzorcih s (ki je od vseh črk najlažje izgovorljiva), sledijo p, n, j in v. Črke c, e in f so na začetku besed zelo redko.
Slika 9: Porazdelitev prvih črk vseh besed za prvi (črn) in drugi vzorec
Slika 10: Porazdelitev zadnjih črk vseh besed za prvi (črn) in drugi vzorec
Informacijsko še veliko revnejša je porazdelitev zadnjih črk v vseh besedah. Samoglasniki e, a, i in o in pa l, ki se na koncu besede izgovori kot 6, skupaj s pravim u-jem zavzamejo kar 71 % celote. Po drugi strani pa je cela vrsta črk, ki so brez naslednika težko izgovorljive in jih zato na koncih besed najdemo le redko: b, c, f, g, p in ž. V sliko 10 bi po frekvenci sodila tudi črka y (0,06 %), ki presega črko f (0,03 %), a je bila zaradi medsebojne primerljivosti slik 8, 9 in 10 izpuščena.
Znakovni n-terčki, se pravi nizi po 1, 2, 3, 4, 5, ... znakov iz besedila imajo pri kodiranju sporočil veliko uporabno vrednost in tudi sicer o besedilu zelo dosti povedo. Prav pridejo pri krajših mehanizmih za preverjanje pravilnosti besedila, njihovo porazdelitev je mogoče uporabiti tudi pri deljenju besed na koncu vrstic (Jakopin 1995b), na koncu razdelka pa je omenjen njihov pomen za identifikacijo jezika.
Njihovo število z rastočim n izredno hitro narašča, še vedno pa seveda dosti počasneje kot število teoretično možnih kombinacij, ki bi jih dobili, če bi bili vsi znaki na vseh mestih enako pogosti. Hitrost naraščanja n-terčkov je razložena v poglavju o entropiji, na naslednjih dveh straneh pa je v tabelah 31 in 32 naštetih 60 najpogostejših n-terčkov s frekvencami, za n od 1 do 14 in za oba vzorca. Tabeli sta bili napravljeni iz besedil, potem ko so bila že razrezana na povedi, ko so bili izločeni dodatni simboli, tuji citati in razni kazalci (številke opomb in podobno), ki niso besedilo v ožjem smislu; presledek je povsod nadomeščen s podčrtajem (_).
Frekvence najpogostejših n-terčkov v prvem vzorcu za posamezen n: _/ e_/ je_/ ,_da/ _se_je/ _se_je_/ _je_bil_/ _je_bilo_/ _prijatelj/ ,_da_se_je_/ ,<<_je rekel_/ ?<<_je_vprašal in ,_kakor_da_bi_ padajo z zelo spremenljivim tempom: 5,92 : 1, 2,42 : 1, 1,22 : 1, 4,03 : 1, 1,73 : 1, 1,04 : 1, 2,85 : 1, 1,38 : 1, 3,02 : 1, 1,69 : 1, 1,44 : 1, 1,39 : 1 in 1,57 : 1. Hitrost padanja je, poleg največjega skoka na začetku, očitno povezana z redundantnostjo v besedilu. Ker je iz najpogostejšega trojčka je_ in iz dejstva, da je je najpogostejša beseda, utemeljeno sklepati, da bo najpogostejši četverček _je_, je kvocient frekvence med obema le 1,22. Podobno je pri prehodu od šesterčkov na sedmerčke, ko imamo spet niz _se_je, ki se skoraj vedno konča z je in je potem pričakovani najpogostejši sedmerček _se_je_ s kvocientom komaj 1,04. Od deseterčkov naprej se hitrost padanja ustali.
Primerjava obeh vzorcev pokaže precejšnje ujemanje pri nizkih n: pri enojčkih in dvojčkih je 56 istih nizov v obeh vzorcih, pri trojčkih, četverčkih in peterčkih po 51, pri šesterčkih 45, sedmerčkih 44, osmerčkih 35, deveterčkih 29, deseterčkih in enajsterčkih pa po 22. Istih dvanajsterčkov v obeh vzorcih je bilo le 9: ,_ki_je_bil_/ ,_ki_je_bila/ _ki_je_bila_/ ,<<_je_rekel_/ _je_vprašal_/ <<_je_vprašal/ ?<<_je_vpraša/ _pripovedova in se_je_obrnil, trinajsterčkov 7: ,_ki_je_bila_/ <<_je_vprašal_/ ?<<_je_vprašal/ _se_je_obrnil/ _se_je_oglasi/
Tabela 31: Najpogostejši n-terčki v prvem vzorcu s frekvencami; presledek je označen z _1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | |||||||||||||||
1. | _ | 2.533.799 | e_ | 427.712 | je_ | 176.964 | _je_ | 144.677 | ,_da_ | 35.897 | _se_je | 20.728 | _se_je_ | 19.958 | _je_bil_ | 6.999 | _je_bilo_ | 5.061 | _prijatelj | 1.674 | ,_da_se_je_ | 992 | ,<<_je_rekel_ | 688 | ?<<_je_vprašal | 495 | ,_kakor_da_bi_ | 315 |
2. | e | 1.327.337 | a_ | 359.407 | _je | 154.998 | _in_ | 86.675 | e_je_ | 27.153 | se_je_ | 20.394 | _je_bil | 17.565 | ,_da_je_ | 5.832 | _je_bila_ | 4.424 | a_je_bila_ | 1.617 | ,_kakor_da_ | 983 | _pripovedova | 546 | _pripovedoval | 370 | _se_je_zgodilo | 299 |
3. | a | 1.280.028 | i_ | 314.040 | _po | 103.531 | _se_ | 68.110 | a_je_ | 26.354 | _je_bi | 17.676 | _kakor_ | 7.241 | _je_bilo | 5.642 | _življenj | 2.572 | _življenje | 1.327 | ,_ki_se_je_ | 953 | <<_je_vprašal | 525 | _je_odgovoril | 367 | ?<<_je_vprašal_ | 275 |
4. | o | 1.125.321 | _s | 313.541 | _se | 100.117 | _da_ | 43.182 | ,_ki_ | 22.771 | je_bil | 17.588 | _da_bi_ | 7.051 | ,_da_bi_ | 5.169 | _ni_bilo_ | 1.939 | _da_bi_se_ | 1.195 | ,_ki_je_bil | 929 | ,_ki_je_bil_ | 509 | _kakor_da_bi_ | 355 | _je_bilo_treba | 228 |
5. | i | 1.113.539 | o_ | 308.474 | _pr | 97.320 | _pri | 37.807 | _se_j | 22.703 | _tudi_ | 11.008 | je_bil_ | 7.006 | je_bilo_ | 5.066 | _so_bili_ | 1.737 | _da_se_je_ | 1.166 | <<_je_rekel_ | 887 | ?<<_je_vpraša | 495 | _se_je_zgodil | 324 | _je_nadaljeval | 221 |
6. | n | 766.179 | je | 264.492 | _na | 92.672 | ,_da | 36.619 | se_je | 21.179 | _tako_ | 10.163 | _da_je_ | 6.843 | ,_ki_je_ | 5.019 | a_je_bila | 1.728 | _je_rekel_ | 1.091 | ,<<_je_rekel | 829 | _pripravljen | 491 | ,_ki_je_bila_ | 324 | _je_zdelo,_da_ | 204 |
7. | l | 643.772 | ,_ | 263.668 | in_ | 89.305 | _bil | 34.085 | _je_b | 19.466 | ,_da_s | 9.632 | _njegov | 6.192 | _je_bila | 4.616 | prijatelj | 1.703 | _kakor_da_ | 1.080 | ,_da_bi_se_ | 829 | ,_ki_jih_je_ | 437 | ,<<_je_odvrnil | 315 | je_bilo_treba_ | 196 |
8. | r | 609.580 | _p | 253.713 | _in | 88.407 | _na_ | 33.949 | _je_p | 19.111 | _bilo_ | 8.803 | ,_da_je | 5.876 | je_bila_ | 4.428 | _je_rekel | 1.680 | <<_je_rekel | 1.047 | _je_vprašal | 784 | <<_je_odvrnil | 414 | ,_kakor_da_bi | 315 | ,<<_je_odvrnil_ | 191 |
9. | s | 606.674 | _n | 217.991 | se_ | 76.669 | _pre | 33.803 | e_bil | 18.795 | _je_po | 8.382 | je_bilo | 5.648 | ,_da_se_ | 4.331 | _prijatel | 1.674 | _se_mu_je_ | 1.009 | ,_ki_ga_je_ | 779 | _bilo_treba_ | 403 | se_je_zgodilo | 299 | <<_je_vzkliknil | 190 |
10. | j | 574.485 | _j | 186.702 | _za | 65.015 | _so_ | 32.464 | je_bi | 17.915 | _je_pr | 8.364 | _so_se_ | 5.547 | a_se_je_ | 4.306 | _svojega_ | 1.481 | ,_da_se_je | 995 | _življenje_ | 692 | _je_vprašal_ | 387 | <<_je_vprašal_ | 293 | prepričan,_da_ | 182 |
11. | t | 516.061 | _v | 168.785 | ,_k | 60.909 | e_je | 28.940 | _sem_ | 16.839 | kakor_ | 7.835 | ,_da_se | 5.456 | ,_kakor_ | 3.884 | _odgovori | 1.332 | ,_kakor_da | 987 | ,_potem_pa_ | 638 | je_odgovoril | 381 | ega_življenja | 261 | _prepričan,_da | 182 |
12. | v | 455.360 | na | 146.630 | _bi | 59.420 | a_je | 28.018 | o_je_ | 16.513 | ,_ki_s | 7.817 | e_bilo_ | 5.321 | ,_ki_so_ | 3.631 | življenje | 1.328 | ,_ki_se_je | 965 | ,_ne_da_bi_ | 610 | pripovedoval | 371 | _je_vzkliknil | 261 | ?<<_je_vprašala | 179 |
13. | k | 432.708 | ni | 145.845 | la_ | 54.804 | ega_ | 26.618 | i_je_ | 15.811 | e_bil_ | 7.356 | ,_da_bi | 5.184 | a_je_bil | 3.541 | ,_vendar_ | 1.312 | o_je_bilo_ | 963 | _je_odvrnil | 608 | _nekaj_časa_ | 371 | _Passepartout | 242 | _drugi_strani_ | 171 |
14. | d | 416.032 | se | 143.604 | da_ | 54.219 | e_bi | 23.332 | a_se_ | 13.530 | da_je_ | 7.348 | _da_se_ | 5.099 | o_se_je_ | 2.890 | ,<<_je_rek | 1.270 | _ki_se_je_ | 962 | ,_da_je_bil | 603 | Passepartout | 369 | <<_je_odvrnil_ | 241 | ,_kar_je_bilo_ | 170 |
15. | m | 392.753 | _k | 141.367 | _da | 53.704 | _pa_ | 23.320 | _svoj | 13.087 | ,_ki_j | 7.317 | _ki_je_ | 5.089 | _se_je_z | 2.646 | a,_ki_je_ | 1.256 | _ki_je_bil | 942 | _je_prišel_ | 593 | _je_odgovori | 367 | ,_ki_so_bili_ | 236 | <<_je_odgovoril | 167 |
16. | p | 389.062 | _d | 136.875 | _ne | 53.601 | se_j | 23.215 | a_in_ | 13.024 | _kakor | 7.290 | ,_ki_je | 5.061 | _življen | 2.605 | da_se_je_ | 1.243 | _odgovoril | 940 | _popolnoma_ | 576 | _je_pomislil | 367 | _se_je_obrnil | 231 | <<_je_vprašala_ | 160 |
17. | , | 272.482 | ra | 136.715 | na_ | 53.373 | _ki_ | 23.175 | _in_s | 13.003 | _bila_ | 7.237 | _in_se_ | 4.871 | _vendar_ | 2.603 | da_bi_se_ | 1.215 | ,_ki_je_bi | 932 | _računalnik | 569 | _je_odvrnil_ | 365 | je_bilo_treba | 228 | _se_je_zasmeja | 156 |
18. | z | 247.782 | po | 134.618 | em_ | 53.194 | _ne_ | 22.922 | _tako | 12.981 | da_bi_ | 7.198 | _lahko_ | 4.718 | življenj | 2.583 | _da_bi_se | 1.213 | ,_da_bi_se | 843 | pripovedova | 547 | ,<<_je_rekla_ | 360 | je_nadaljeval | 228 | se_je_zasmejal | 155 |
19. | u | 233.933 | st | 134.288 | a_s | 52.182 | ,_ki | 22.829 | i_in_ | 12.833 | ,_da_j | 7.109 | e_bila_ | 4.626 | i_je_bil | 2.455 | _se_je_za | 1.202 | ,<<_je_reke | 829 | _pripovedov | 546 | kakor_da_bi_ | 355 | _je_bilo_treb | 228 | ,_ne_da_bi_se_ | 154 |
20. | b | 228.457 | al | 133.657 | _v_ | 50.936 | je_p | 22.700 | o_se_ | 12.710 | ,_kako | 7.107 | je_bila | 4.620 | _se_je_p | 2.452 | _da_se_je | 1.170 | je_vprašal | 825 | <<_je_vpraša | 525 | _kakor_da_bi | 355 | _je_nadaljeva | 222 | _se_je_oglasil | 153 |
21. | g | 196.137 | il | 133.299 | ko_ | 50.243 | ila_ | 22.546 | e_in_ | 12.074 | _da_bi | 7.072 | a_se_je | 4.474 | ,_ki_se_ | 2.402 | ,_da_bi_s | 1.165 | _računalni | 818 | _ki_je_bil_ | 516 | _predstavlja | 338 | Passepartout_ | 214 | _je_vzkliknil_ | 149 |
22. | č | 178.849 | pr | 129.557 | li_ | 49.653 | _bi_ | 21.661 | _kako | 11.616 | ,_da_b | 7.012 | _je_pri | 4.420 | o_je_bil | 2.261 | _se_je_po | 1.159 | _je_vpraša | 799 | pripravljen | 513 | ,_ki_je_bila | 330 | e_bilo_treba_ | 207 | ,_kakor_da_je_ | 142 |
23. | . | 154.993 | _i | 128.665 | e_p | 47.600 | sem_ | 21.605 | _je_z | 11.515 | _da_je | 6.898 | _ga_je_ | 4.354 | _ni_bilo | 2.246 | ,_da_se_j | 1.153 | _je_bilo_t | 794 | ,_ki_jo_je_ | 505 | _ki_je_bila_ | 328 | _drugi_strani | 207 | a_drugi_strani | 139 |
24. | h | 125.750 | ko | 128.468 | i_s | 47.075 | ali_ | 20.522 | _tudi | 11.390 | _je_za | 6.613 | _nekaj_ | 4.304 | _sem_se_ | 2.113 | ko_se_je_ | 1.151 | _pa_se_je_ | 792 | ?<<_je_vpraš | 499 | _pravzaprav_ | 325 | je_zdelo,_da_ | 204 | !<<_je_vzklikni | 139 |
25. | š | 120.117 | in | 126.556 | ga_ | 44.437 | je_b | 20.461 | _da_s | 11.245 | _da_se | 6.375 | _mu_je_ | 4.093 | ni_bilo_ | 1.940 | _se_mu_je | 1.147 | _še_vedno_ | 790 | _nadaljeval | 497 | _se_je_zgodi | 325 | _je_zdelo,_da | 204 | _se_je_obrnil_ | 137 |
26. | ž | 77.948 | re | 124.223 | a,_ | 43.973 | e_po | 20.431 | tudi_ | 11.207 | o,_da_ | 6.299 | ,_kakor | 3.900 | so_bili_ | 1.913 | _se_je_na | 1.138 | _ki_ga_je_ | 788 | o_življenje | 491 | se_je_zgodil | 324 | _je_vprašala_ | 203 | _se_mi_je_zdel | 136 |
27. | c | 77.331 | la | 123.822 | pre | 43.926 | ako_ | 19.657 | _je_v | 11.192 | njegov | 6.200 | _pa_je_ | 3.840 | ,_da_so_ | 1.907 | je_rekel_ | 1.133 | ,_ki_ga_je | 788 | _pripravlje | 491 | ,_kakor_da_b | 324 | _je_bilo,_da_ | 202 | _je_odgovoril_ | 135 |
28. | << | 45.600 | _z | 122.171 | o_s | 43.648 | e_pr | 19.464 | _bil_ | 11.096 | _njego | 6.192 | _gospod | 3.743 | i_se_je_ | 1.902 | o_je_bilo | 1.125 | i_so_bili_ | 744 | ,_ki_so_se_ | 490 | ,<<_je_dejal_ | 319 | <<_je_vprašala | 191 | je_pripovedova | 133 |
29. | >> | 45.600 | _t | 120.900 | ne_ | 43.598 | _za_ | 19.044 | _je_s | 11.014 | e_bilo | 5.958 | _ki_so_ | 3.690 | _odgovor | 1.844 | o,_da_je_ | 1.123 | _pripravlj | 744 | _bilo_treba | 481 | ,<<_je_odvrni | 315 | <<_je_vzklikni | 190 | <<_je_odvrnila_ | 132 |
30. | P | 29.869 | n_ | 119.476 | ti_ | 42.800 | ,_ka | 18.778 | i_so_ | 10.860 | i,_da_ | 5.842 | ,_ki_so | 3.668 | _zaradi_ | 1.836 | ,_ki_se_j | 1.105 | _da_bi_bil | 740 | <<_je_rekla_ | 479 | e_je_zgodilo | 299 | prepričan,_da | 182 | se_je_zgodilo_ | 132 |
31. | T | 24.728 | ne | 116.207 | no_ | 42.627 | a_se | 18.651 | o_in_ | 10.825 | _je_na | 5.827 | _potem_ | 3.574 | _se_je_s | 1.832 | _njegovo_ | 1.103 | _katerega_ | 735 | _naravnost_ | 476 | ,_da_je_bil_ | 283 | repričan,_da_ | 182 | ,_da_bi_lahko_ | 128 |
32. | K | 23.950 | li | 113.499 | il_ | 42.449 | _sem | 18.391 | tako_ | 10.232 | _svoje | 5.824 | a_je_bi | 3.562 | ,_potem_ | 1.819 | _so_bile_ | 1.101 | _je_bilo_v | 726 | ,_ko_se_je_ | 473 | ,_medtem_ko_ | 282 | _prepričan,_d | 182 | _se_je_spomnil | 126 |
33. | ! | 22.920 | _b | 112.852 | _so | 41.880 | o_je | 17.990 | _bilo | 9.921 | _so_se | 5.806 | _ni_bil | 3.374 | _njegove | 1.815 | _se_je_pr | 1.099 | a_je_bilo_ | 725 | ,<<_je_dejal | 471 | _je_vprašala | 275 | _kar_je_bilo_ | 181 | e_pripovedoval | 125 |
34. | N | 22.823 | l_ | 105.090 | i,_ | 41.715 | prav | 17.407 | _in_p | 9.816 | so_se_ | 5.585 | _bi_bil | 3.253 | ,_ko_je_ | 1.798 | _kakor_da | 1.096 | _da_je_bil | 720 | _njegovega_ | 467 | je_vzkliknil | 268 | _katerega_je_ | 179 | _medtem_ko_je_ | 122 |
35. | S | 20.634 | da | 105.078 | _ka | 41.669 | _tak | 17.358 | je_po | 9.750 | govori | 5.560 | _so_bil | 3.229 | rijatelj | 1.789 | kakor_da_ | 1.080 | računalnik | 712 | ,_da_bi_bil | 460 | ega_življenj | 267 | ,_kar_je_bilo | 178 | Jurij_Ljudevit | 121 |
36. | V | 19.123 | ti | 104.037 | ,_d | 41.505 | _ni_ | 17.356 | je_pr | 9.700 | _in_se | 5.524 | govoril | 3.228 | _so_bili | 1.777 | ,_da_sem_ | 1.068 | življenje_ | 692 | ,_kakor_je_ | 451 | ga_življenja | 262 | tem_trenutku_ | 175 | <<_je_nadaljeva | 120 |
37. | M | 17.819 | en | 103.772 | aj_ | 41.191 | o_se | 16.969 | i_se_ | 9.623 | da_se_ | 5.344 | ,_kako_ | 3.155 | _vprašal | 1.765 | ,_kar_je_ | 1.065 | _potem_pa_ | 679 | <<_je_dejal_ | 447 | em_trenutku_ | 261 | drugi_strani_ | 171 | _se_je_zdelo,_ | 120 |
38. | ? | 15.751 | _m | 103.599 | ni_ | 40.863 | i_je | 16.915 | _je_n | 9.604 | ki_je_ | 5.318 | o_se_je | 3.135 | _se_je_v | 1.764 | _je_bil_p | 1.053 | <<_je_dejal | 678 | _ki_jih_je_ | 442 | _je_vzklikni | 261 | i_bilo_treba_ | 169 | ,<<_je_odgovori | 120 |
39. | A | 15.472 | _o | 102.415 | pri | 40.525 | ala_ | 16.036 | _drug | 9.585 | _kater | 5.264 | _svoje_ | 3.048 | je_rekel | 1.751 | <<_je_reke | 1.047 | _nekoliko_ | 668 | ,<<_je_rekla | 439 | ,_v_katerem_ | 259 | <<_je_odgovori | 167 | ega_gospodarja | 119 |
40. | B | 13.255 | el | 101.436 | bil | 39.837 | e_na | 15.958 | _pred | 9.356 | _ki_je | 5.132 | _vendar | 3.046 | _ne_more | 1.734 | računalni | 1.045 | _ne_da_bi_ | 668 | ,_ki_jih_je | 438 | _je_pogledal | 253 | _po_stopnicah | 166 | j_se_je_zgodil | 117 |
41. | I | 12.565 | te | 97.897 | e_s | 39.438 | je_s | 15.430 | _kot_ | 9.313 | _lahko | 5.075 | _govori | 2.989 | i_so_se_ | 1.727 | _pogledal | 1.025 | ,_kjer_je_ | 662 | _tisti,_ki_ | 432 | a,_ki_se_je_ | 250 | _računalnikov | 165 | aj_se_je_zgodi | 116 |
42. | O | 12.540 | ka | 94.523 | e,_ | 38.651 | _ga_ | 15.050 | _da_b | 9.144 | ga_je_ | 5.022 | i_bilo_ | 2.985 | _veliko_ | 1.714 | ,_kakor_d | 1.023 | i_je_bilo_ | 659 | _nekaj_časa | 425 | e_bilo_treba | 245 | _je_pomislila | 163 | _je_pripovedov | 116 |
43. | : | 12.520 | ri | 94.117 | _st | 37.468 | o_po | 14.866 | _prav | 9.074 | e,_da_ | 4.973 | _bi_se_ | 2.975 | prijatel | 1.703 | se_mu_je_ | 1.022 | _pa_je_bil | 658 | <<_je_odvrni | 414 | o_življenje_ | 243 | _ne_da_bi_se_ | 163 | na_drugi_stran | 115 |
44. | Z | 12.468 | m_ | 93.476 | _ko | 36.932 | _kak | 14.543 | bilo_ | 9.053 | ,<<_je_ | 4.972 | _vpraša | 2.946 | _jih_je_ | 1.695 | ki_se_je_ | 1.021 | _ko_se_je_ | 651 | _prijatelji | 410 | _Passepartou | 242 | Phileas_Fogg_ | 162 | _na_drugi_stra | 115 |
45. | f | 10.719 | no | 93.439 | e_b | 36.523 | _pos | 14.454 | akor_ | 8.505 | in_se_ | 4.961 | _pogled | 2.935 | _je_reke | 1.680 | a_je_bil_ | 1.020 | ,_potem_pa | 649 | ,_kakor_bi_ | 406 | _življenje,_ | 242 | _nisem_mogel_ | 161 | se_je_nasmehni | 113 |
46. | D | 10.331 | em | 92.866 | _ni | 36.505 | e_za | 14.181 | e_pri | 8.416 | a,_da_ | 4.937 | ,_ki_se | 2.907 | _prijate | 1.674 | _gospodar | 1.009 | je_odvrnil | 643 | je_vprašal_ | 405 | e_nadaljeval | 239 | ,_da_je_bilo_ | 161 | e_je_nasmehnil | 112 |
47. | J | 9.692 | ve | 92.426 | ih_ | 36.403 | _nje | 14.120 | _da_j | 8.368 | _velik | 4.936 | _človek | 2.689 | _je,_da_ | 1.659 | _je_dejal | 1.006 | _življenja | 641 | _je_govoril | 405 | ,_ki_so_bili | 239 | _kakor_da_je_ | 159 | _se_je_nasmehn | 112 |
48. | - | 8.651 | ov | 89.293 | so_ | 36.274 | udi_ | 14.011 | <<_je_ | 8.319 | je_pri | 4.921 | se_je_z | 2.664 | _da_bi_s | 1.638 | i,_ki_so_ | 1.004 | _je_prišel | 640 | bilo_treba_ | 403 | _ki_so_bili_ | 238 | e_pripovedova | 158 | ,_kakor_da_se_ | 110 |
49. | L | 8.590 | aj | 88.774 | o,_ | 36.035 | ilo_ | 13.868 | _ali_ | 8.318 | l,_da_ | 4.917 | ivljenj | 2.661 | _se_je_o | 1.626 | ,_ki_je_b | 986 | _je_bila_p | 635 | ripovedoval | 402 | se_je_obrnil | 232 | _je_še_vedno_ | 158 | _Passepartout_ | 109 |
50. | ; | 8.548 | ta | 82.405 | ako | 35.993 | a_po | 13.830 | _je_o | 8.306 | a_se_j | 4.855 | vendar_ | 2.648 | <<_je_rek | 1.623 | ki_je_bil | 984 | i_je_bila_ | 630 | akor_da_bi_ | 394 | e_življenje_ | 231 | se_je_zasmeja | 156 | ,<<_je_odvrnila | 109 |
51. | R | 7.901 | za | 79.989 | _ve | 35.804 | _raz | 13.767 | a_bi_ | 8.279 | e_bila | 4.838 | življen | 2.638 | _se_je_n | 1.623 | i_je_bil_ | 983 | _ni_mogel_ | 626 | e_odgovoril | 391 | Phileas_Fogg | 231 | _se_je_zasmej | 156 | lo_se_mu_je,_d | 108 |
52. | G | 7.300 | od | 79.756 | ki_ | 35.764 | je_v | 13.650 | _je_t | 8.142 | _in_po | 4.790 | _proti_ | 2.609 | _pogleda | 1.598 | ,_ki_jih_ | 977 | o_življenj | 622 | _prav_tako_ | 391 | _se_je_obrni | 231 | e_je_zasmejal | 155 | o_se_mu_je,_da | 108 |
53. | ... | 6.746 | le | 79.306 | o_p | 35.294 | o_pr | 13.626 | bila_ | 8.036 | lahko_ | 4.755 | _je_pre | 2.609 | _svojega | 1.516 | l,_da_je_ | 975 | e_je_bilo_ | 620 | _je_odgovor | 385 | je_nadaljeva | 229 | _Phileas_Fogg | 155 | _se_mu_je_zdel | 108 |
54. | Č | 5.643 | bi | 78.900 | nje | 35.076 | _svo | 13.560 | kakor | 8.026 | _nekaj | 4.735 | _življe | 2.607 | _njegovi | 1.504 | _ki_se_je | 974 | ,_da_je_bi | 611 | je_odgovori | 383 | _spregovoril | 229 | ,_ne_da_bi_se | 155 | _se_mu_je,_da_ | 108 |
55. | H | 4.146 | lo | 78.441 | ost | 34.755 | _sta | 13.552 | ,_kak | 7.958 | ko_je_ | 4.719 | _je_rek | 2.539 | svojega_ | 1.482 | i,_da_je_ | 961 | ,_ne_da_bi | 610 | je_odvrnil_ | 382 | je_bilo_treb | 228 | se_je_oglasil | 154 | _je_odgovoril: | 107 |
56. | E | 3.496 | an | 76.467 | e_n | 34.430 | _še_ | 13.395 | _ki_s | 7.933 | _samo_ | 4.622 | _ko_je_ | 2.518 | ,_ampak_ | 1.478 | _ki_je_bi | 945 | _je_odvrni | 608 | _zato,_ker_ | 374 | _je_bilo_tre | 228 | je_vzkliknil_ | 153 | _ne_more_biti_ | 107 |
57. | Š | 3.330 | nj | 75.104 | ega | 33.266 | in_s | 13.318 | pravi | 7.668 | _pred_ | 4.611 | se_je_p | 2.504 | _najbolj | 1.475 | odgovoril | 941 | je_prišel_ | 604 | nekaj_časa_ | 371 | a,_ki_je_bil | 225 | _se_je_oglasi | 153 | ,_medtem_ko_je | 107 |
58. | F | 3.254 | ja | 72.310 | al_ | 33.245 | a_in | 13.299 | _bila | 7.580 | _ga_je | 4.499 | i_je_bi | 2.460 | _govoril | 1.472 | _je_imel_ | 931 | ,_tako_da_ | 604 | e_življenje | 370 | _je_nadaljev | 222 | ,_da_je_bila_ | 150 | je_nadaljeval_ | 106 |
59. | y | 3.056 | ak | 69.848 | lo_ | 33.147 | je_z | 13.261 | je_za | 7.504 | a,_ki_ | 4.493 | _ki_se_ | 2.441 | _skoraj_ | 1.454 | _je_tudi_ | 930 | _prepričan | 603 | assepartout | 369 | _mislil,_da_ | 219 | <<_je_odvrnila | 149 | elo_se_mu_je,_ | 105 |
60. | Ť | 2.980 | v_ | 69.639 | sta | 33.002 | svoj | 13.240 | govor | 7.487 | _mu_je | 4.344 | _mi_je_ | 2.440 | ,_ki_ga_ | 1.424 | e,_ki_so_ | 924 | _je_dejal_ | 602 | Passepartou | 369 | _mu_je_bilo_ | 219 | ,_kako_se_je_ | 149 | mikroračunalni | 105 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | ||||||||||||||||
1. | _ | 376.859 | e_ | 67.455 | je_ | 28.622 | _je_ | 24.198 | e_je_ | 5.182 | se_je_ | 4.324 | _se_je_ | 4.064 | ,_kakor_ | 1.160 | _je_bila_ | 674 | _kakor_bi_ | 654 | ,_kakor_bi_ | 635 | Peter_Majcen | 270 | _Peter_Majcen | 180 | l_Peter_Majcen | 151 | |
2. | e | 192.105 | a_ | 53.644 | _je | 26.105 | _in_ | 16.493 | ,_da_ | 4.557 | _se_je | 4.207 | _je_bil | 2.409 | _je_bil_ | 974 | _je_bilo_ | 661 | ,_kakor_bi | 636 | eter_Majcen | 270 | ,_kakor_bi_s | 184 | Peter_Majcen_ | 154 | ,_kakor_bi_se_ | 136 | |
3. | a | 191.828 | _s | 49.407 | _se | 17.599 | _se_ | 12.944 | a_je_ | 4.478 | _je_bi | 2.418 | _kakor_ | 1.995 | a_se_je_ | 870 | _kakor_bi | 656 | eter_Majce | 270 | Peter_Majce | 270 | _Peter_Majce | 180 | l_Peter_Majce | 151 | ,_kakor_bi_bil | 89 | |
4. | i | 157.435 | o_ | 45.161 | in_ | 17.019 | e_je | 5.510 | se_je | 4.471 | je_bil | 2.416 | _in_se_ | 1.562 | ,_ki_je_ | 866 | kakor_bi_ | 655 | Peter_Majc | 270 | ,_ki_se_je_ | 262 | eter_Majcen_ | 154 | _kakor_bi_se_ | 139 | _Peter_Majcen. | 79 | |
5. | o | 152.863 | i_ | 40.325 | _in | 16.524 | _da_ | 5.056 | _se_j | 4.402 | kakor_ | 2.051 | ,_kakor | 1.161 | ,_da_je_ | 864 | ,_kakor_b | 644 | ter_Majcen | 270 | ,_ki_je_bil | 222 | l_Peter_Majc | 151 | ,_kakor_bi_se | 137 | _se_je_oglasil | 73 | |
6. | n | 107.030 | je | 39.931 | _po | 16.513 | a_je | 4.785 | _je_p | 3.256 | _kakor | 1.997 | je_bil_ | 976 | ,_da_bi_ | 790 | _življenj | 374 | _je_rekel_ | 269 | _kakor_bi_s | 187 | _kakor_bi_se | 140 | ?<<_je_vprašal | 109 | ekleta_strešni | 70 | |
7. | l | 95.889 | _p | 38.248 | se_ | 14.573 | se_j | 4.676 | _in_s | 3.245 | _in_se | 1.701 | _pa_je_ | 933 | _je_bilo | 711 | _je_rekel | 363 | _ki_se_je_ | 264 | <<_je_rekel_ | 185 | kakor_bi_se_ | 139 | _kakor_bi_bil | 93 | kleta_strešnic | 70 | |
8. | r | 93.670 | ,_ | 34.612 | _pr | 12.602 | _na_ | 4.659 | ,_ki_ | 2.962 | ,_kako | 1.681 | _da_je_ | 930 | _je_bila | 695 | _pogledal | 330 | ,_ki_se_je | 263 | _Peter_Majc | 180 | ,_ki_je_bil_ | 122 | ,_kakor_bi_bi | 89 | leta_strešnica | 70 | |
9. | s | 87.342 | _j | 30.257 | _na | 11.795 | ,_da | 4.647 | a_in_ | 2.751 | _tako_ | 1.620 | _da_bi_ | 929 | _kakor_b | 690 | je_rekel_ | 311 | _pa_se_je_ | 260 | ,_da_se_je_ | 172 | <<_je_vprašal | 114 | se_je_oglasil | 88 | rekleta_strešn | 70 | |
10. | j | 80.632 | _n | 28.420 | _za | 10.909 | _pri | 4.631 | _je_b | 2.730 | in_se_ | 1.606 | a_se_je | 921 | je_bila_ | 677 | _se_je_po | 296 | a_je_bila_ | 244 | _je_vprašal | 171 | i,_kakor_bi_ | 110 | <<_je_prikimal | 81 | ?<<_je_vprašal_ | 70 | |
11. | t | 68.984 | se | 24.141 | la_ | 9.935 | _bil | 4.281 | _kako | 2.686 | _je_za | 1.482 | _ki_je_ | 875 | akor_bi_ | 664 | _Temnikar | 291 | _ki_je_bil | 223 | ,_da_bi_se_ | 162 | ?<<_je_vpraša | 109 | Peter_Majcen. | 79 | zmajal_z_glavo | 69 | |
12. | k | 67.293 | _v | 23.768 | il_ | 8.537 | _pre | 4.254 | _je_z | 2.571 | _je_po | 1.450 | ,_da_je | 867 | je_bilo_ | 663 | ,_ki_se_j | 271 | ,_ki_je_bi | 222 | ter_Majcen_ | 154 | >>Tantadruj,_ | 107 | ,_ki_je_bila_ | 78 | _zmajal_z_glav | 69 | |
13. | v | 58.293 | in | 22.032 | ,_k | 7.927 | _so_ | 4.167 | e_bil | 2.541 | _tudi_ | 1.438 | ,_ki_je | 866 | kakor_bi | 657 | er_Majcen | 270 | je_vprašal | 212 | l_Peter_Maj | 151 | _je_prikimal | 107 | majal_z_glavo | 76 | _Peter_Majcen_ | 67 | |
14. | p | 56.467 | il | 21.711 | _bi | 7.868 | _pa_ | 4.067 | je_bi | 2.446 | _je_pr | 1.405 | _pogled | 824 | _se_je_z | 606 | eter_Majc | 270 | <<_je_rekel | 212 | ,_potem_pa_ | 148 | e,_kakor_bi_ | 105 | _je_prikimal_ | 76 | Prekleta_streš | 65 | |
15. | m | 56.054 | n_ | 21.353 | a_s | 7.730 | ila_ | 4.001 | _sem_ | 2.429 | ,_da_s | 1.142 | ,_da_bi | 790 | _pogleda | 581 | ki_se_je_ | 270 | _da_bi_se_ | 211 | akor_bi_se_ | 141 | o,_kakor_bi_ | 104 | _se_je_oglasi | 73 | zamahnil_z_rok | 65 | |
16. | d | 54.124 | ni | 21.238 | e_p | 7.553 | je_p | 3.742 | o_in_ | 2.392 | ,_ki_s | 1.099 | _njegov | 739 | ,_da_se_ | 562 | Peter_Maj | 270 | _življenje | 193 | _popolnoma_ | 141 | ,<<_je_rekel_ | 104 | <<_je_vprašal_ | 72 | _zamahnil_z_ro | 65 | |
17. | z | 37.076 | la | 21.156 | da_ | 7.314 | e_po | 3.380 | e_in_ | 2.387 | ,_ki_j | 1.088 | ,_da_se | 733 | _se_je_p | 554 | ter_Majce | 270 | kakor_bi_s | 187 | kakor_bi_se | 140 | a,_kakor_bi_ | 98 | ekleta_strešn | 70 | avnikarjev_str | 64 | |
18. | , | 35.978 | _k | 21.028 | _v_ | 7.162 | in_s | 3.320 | o_je_ | 2.378 | ,_da_b | 1.087 | _ga_je_ | 724 | a_je_bil | 490 | _ki_se_je | 265 | _pogledal_ | 181 | _naravnost_ | 125 | kakor_bi_bil | 93 | eta_strešnica | 70 | nikarjev_stric | 64 | |
19. | b | 32.573 | _i | 20.955 | em_ | 7.116 | e_bi | 3.216 | i_je_ | 2.210 | _bilo_ | 1.077 | _so_se_ | 723 | _vprašal | 484 | a_je_bila | 262 | _Peter_Maj | 180 | _ki_je_bil_ | 122 | _kakor_bi_bi | 93 | kleta_strešni | 70 | ravnikarjev_st | 64 | |
20. | u | 29.635 | _z | 20.416 | aj_ | 6.985 | _bi_ | 3.174 | _svoj | 2.201 | e_bil_ | 1.017 | je_bilo | 713 | o_se_je_ | 473 | pa_se_je_ | 261 | _da_se_je_ | 176 | _še_enkrat_ | 122 | ,_kakor_bi_b | 93 | leta_strešnic | 70 | Travnikarjev_s | 64 | |
21. | g | 28.821 | ra | 20.310 | na_ | 6.975 | sem_ | 3.150 | a_se_ | 2.198 | da_je_ | 1.008 | _je_pri | 704 | _počasi_ | 469 | _pa_se_je | 261 | _glavo_in_ | 173 | je_prikimal | 119 | Travnikarjev | 90 | rekleta_streš | 70 | vnikarjev_stri | 64 | |
22. | . | 27.479 | l_ | 20.067 | _ne | 6.903 | e_pr | 3.022 | _tako | 2.192 | _bila_ | 1.005 | je_bila | 698 | ,_ki_so_ | 452 | _se_je_za | 256 | _je_vpraša | 172 | ,<<_je_rekel | 118 | e_je_oglasil | 88 | zmajal_z_glav | 69 | amahnil_z_roko | 63 | |
23. | č | 25.993 | po | 19.984 | ko_ | 6.658 | _ki_ | 2.991 | i_in_ | 2.180 | ,_da_j | 1.001 | kakor_b | 694 | ,_ki_se_ | 447 | ,_ker_je_ | 255 | ,_da_se_je | 172 | _nepremično | 115 | se_je_oglasi | 88 | _zmajal_z_gla | 69 | <<_je_prikimal_ | 63 | |
24. | š | 17.923 | al | 19.966 | _ka | 6.650 | ,_ki | 2.970 | akor_ | 2.132 | _pa_je | 981 | e_bila_ | 691 | je_rekel | 425 | _se_je_na | 251 | _nasmehnil | 171 | <<_je_vpraša | 114 | _je_vprašal_ | 85 | _Travnikarjev | 68 | e_je_popraskal | 61 | |
25. | h | 17.898 | re | 18.778 | i_s | 6.478 | _kak | 2.949 | _je_s | 2.129 | _in_po | 969 | _vpraša | 691 | i_se_je_ | 408 | _in_se_za | 244 | ,_nato_pa_ | 168 | >>Tantadruj, | 113 | <<_je_prikima | 83 | <<_je_ponovil_ | 67 | se_je_popraska | 61 | |
26. | c | 12.741 | na | 18.629 | al_ | 6.410 | ega_ | 2.941 | kakor | 2.055 | a_se_j | 962 | e_bilo_ | 688 | _se_je_v | 403 | a,_ki_je_ | 241 | _se_mu_je_ | 166 | Tantadruj,_ | 112 | ,_ker_se_je_ | 81 | amahnil_z_rok | 65 | _se_je_poprask | 61 | |
27. | ž | 11.443 | ko | 17.723 | _da | 6.406 | ala_ | 2.932 | <<_je_ | 2.000 | pa_je_ | 946 | akor_bi | 666 | Temnikar | 402 | e_vprašal | 239 | ,_da_bi_se | 165 | i,_kakor_bi | 110 | je_prikimal_ | 80 | Prekleta_stre | 65 | <<_se_je_popras | 59 | |
28. | << | 7.547 | _t | 17.288 | ako | 6.389 | _ga_ | 2.914 | _je_v | 1.966 | da_bi_ | 944 | kor_bi_ | 664 | _se_je_s | 402 | ,_da_bi_s | 236 | er_Majcen_ | 154 | ?<<_je_vpraš | 110 | _nepremično_ | 80 | zamahnil_z_ro | 65 | la_Temnikarica | 58 | |
29. | >> | 7.547 | st | 17.144 | e_s | 6.374 | _ne_ | 2.909 | o_se_ | 1.863 | _da_je | 935 | _mu_je_ | 664 | _skoraj_ | 396 | ,_ki_je_b | 233 | _je_stopil | 154 | _je_prikima | 109 | eter_Majcen. | 79 | _zamahnil_z_r | 65 | al_Peter_Majce | 52 | |
30. | ! | 6.092 | ka | 16.891 | _st | 6.324 | ako_ | 2.904 | _in_p | 1.848 | _rekel | 931 | se_je_z | 652 | _se_je_o | 388 | _se_je_pr | 228 | _potem_pa_ | 152 | _je_počasi_ | 108 | _je_ponovil_ | 79 | avnikarjev_st | 64 | e_je_nasmehnil | 52 | |
31. | T | 5.166 | pr | 16.753 | ga_ | 6.222 | a_se | 2.889 | ,_kak | 1.803 | _da_bi | 930 | pogleda | 634 | <<_se_je_ | 381 | ki_je_bil | 227 | l_Peter_Ma | 151 | _je_stopil_ | 108 | _ki_je_bila_ | 79 | ikarjev_stric | 64 | se_je_nasmehni | 52 | |
32. | P | 4.861 | _b | 16.606 | ne_ | 6.206 | je_z | 2.875 | in_se | 1.746 | _zdaj_ | 926 | _da_se_ | 606 | _sem_se_ | 378 | _ki_je_bi | 223 | _še_enkrat | 150 | _s_svojimi_ | 106 | ,_ki_je_bila | 79 | nikarjev_stri | 64 | il_Peter_Majce | 51 | |
33. | N | 4.044 | _d | 16.213 | o_s | 6.181 | je_b | 2.869 | n_se_ | 1.723 | ki_je_ | 896 | se_je_p | 574 | življenj | 374 | _prikimal | 218 | ,_potem_pa | 148 | e,_kakor_bi | 105 | <<_je_ponovil | 78 | ravnikarjev_s | 64 | Peter_Majcen_j | 49 | |
34. | S | 3.940 | ne | 15.524 | no_ | 6.116 | e_za | 2.867 | je_za | 1.665 | _svoje | 893 | _je_rek | 574 | _življen | 374 | _da_bi_se | 215 | akor_bi_se | 142 | o,_kakor_bi | 104 | ajal_z_glavo | 76 | Travnikarjev_ | 64 | _je_popraskal_ | 49 | |
35. | - | 3.931 | da | 15.182 | e_j | 5.947 | nil_ | 2.838 | je_po | 1.629 | pogled | 880 | _bi_se_ | 568 | i_je_bil | 363 | je_vpraša | 214 | _popolnoma | 142 | _Temnikaric | 104 | majal_z_glav | 76 | vnikarjev_str | 64 | _ponovil_Matic | 49 | |
36. | K | 3.562 | el | 14.927 | a,_ | 5.925 | ,_ka | 2.830 | tako_ | 1.625 | _ki_je | 875 | ,_toda_ | 553 | _je_reke | 363 | _potegnil | 214 | kor_bi_se_ | 141 | Temnikarica | 102 | _se_je_oglas | 73 | mahnil_z_roko | 63 | se_je_oglasil_ | 48 | |
37. | V | 3.147 | _o | 14.638 | nil | 5.828 | kako | 2.797 | i_se_ | 1.618 | !<<_je_ | 861 | _svoje_ | 540 | pogledal | 359 | da_bi_se_ | 212 | popolnoma_ | 141 | ,_kakor_je_ | 102 | _Temnikarica | 73 | ,_nato_pa_je_ | 62 | _obema_rokama_ | 48 | |
38. | ? | 3.076 | li | 14.428 | o_p | 5.678 | je_s | 2.780 | je_pr | 1.563 | _samo_ | 859 | ,_kako_ | 516 | _in_se_z | 340 | <<_je_reke | 212 | _potegnil_ | 140 | je_vprašal_ | 101 | ekleta_streš | 70 | a_Temnikarica | 61 | _se_je_nasmehn | 48 | |
39. | M | 3.060 | aj | 13.635 | _pa | 5.641 | _po_ | 2.764 | i_so_ | 1.509 | _pogle | 857 | _počasi | 496 | l_se_je_ | 339 | _s_svojim | 205 | _naravnost | 137 | a,_kakor_bi | 99 | eta_strešnic | 70 | e_je_popraska | 61 | ,<<_se_je_popra | 48 | |
40. | I | 2.494 | ri | 13.544 | li_ | 5.553 | a_in | 2.752 | _tudi | 1.494 | _in_za | 846 | _rekel_ | 494 | _se_je_n | 335 | _je_rekla | 203 | Temnikaric | 134 | e_nasmehnil | 99 | kleta_strešn | 70 | se_je_poprask | 61 | ajpak,<<_se_je_ | 47 | |
41. | : | 2.476 | _m | 13.188 | e_b | 5.475 | _tak | 2.745 | _bil_ | 1.467 | ,_ker_ | 835 | o_se_je | 493 | _vendar_ | 333 | _je_spet_ | 201 | _je_rekla_ | 132 | _prav_tako_ | 99 | leta_strešni | 70 | _je_popraskal | 61 | eter_Majcen_je | 47 | |
42. | Q | 2.324 | en | 13.156 | a_j | 5.361 | _sem | 2.672 | _prav | 1.454 | _je_na | 823 | a_je_bi | 492 | _je_tako | 328 | _ni_bilo_ | 201 | ,_kako_je_ | 128 | _kakor_bi_b | 97 | rekleta_stre | 70 | _se_je_popras | 61 | Hm,_kajpak,<<_s | 47 | |
43. | Z | 2.223 | za | 13.124 | pre | 5.321 | o_je | 2.620 | _je_n | 1.450 | gledal | 813 | vprašal | 488 | _povedal | 324 | i,_kakor_ | 196 | _nekoliko_ | 127 | ,_da_je_bil | 97 | ta_strešnica | 70 | <<_se_je_popra | 59 | kajpak,<<_se_je | 47 | |
44. | O | 2.178 | ti | 12.966 | _so | 5.293 | o_po | 2.558 | tudi_ | 1.441 | l,_da_ | 812 | ,_ki_se | 486 | <<_je_rek | 318 | _svojega_ | 196 | naravnost_ | 125 | _je_ponovil | 95 | zmajal_z_gla | 69 | la_Temnikaric | 58 | m,_kajpak,<<_se | 47 | |
45. | D | 1.736 | m_ | 12.932 | e_z | 5.279 | o_in | 2.394 | _je_t | 1.393 | ga_je_ | 806 | _stopil | 477 | e_rekel_ | 317 | življenje | 193 | o_je_bilo_ | 125 | akor_bi_bil | 94 | _zaničljivo_ | 69 | _obema_rokama | 58 | >>Hm,_kajpak,<<_ | 47 | |
46. | B | 1.590 | ta | 12.768 | ,_d | 5.224 | e_in | 2.389 | _je_o | 1.387 | _spet_ | 800 | _nekaj_ | 474 | _stopil_ | 312 | ,_da_se_j | 192 | ki_je_bil_ | 123 | kakor_bi_bi | 93 | _zmajal_z_gl | 69 | _se_je_obrnil | 57 | ter_Majcen_je_ | 47 | |
47. | A | 1.520 | em | 12.749 | bil | 5.207 | i_je | 2.373 | _in_z | 1.371 | _da_se | 785 | počasi_ | 471 | se_je_po | 307 | akor_bi_s | 190 | je_prikima | 122 | ,_ki_ga_je_ | 93 | _pripovedova | 68 | _je_nasmehnil | 56 | _kajpak,<<_se_j | 47 | |
48. | J | 1.284 | te | 12.280 | i,_ | 5.131 | prav | 2.366 | gleda | 1.306 | je_pri | 780 | _pa_se_ | 463 | _ker_je_ | 302 | Tantadruj | 188 | še_enkrat_ | 122 | je_ponovil_ | 92 | _Travnikarje | 68 | _in_se_zamakn | 55 | ,_kajpak,<<_se_ | 47 | |
49. | f | 1.122 | no | 12.215 | e,_ | 5.066 | o_se | 2.347 | _da_b | 1.255 | _je_re | 759 | _lahko_ | 459 | _Temnika | 292 | il_se_je_ | 187 | _nepremičn | 122 | _ker_se_je_ | 91 | _zamahnil_z_ | 68 | _naravnost_v_ | 53 | el_Peter_Majce | 46 | |
50. | L | 988 | ak | 11.796 | ila | 4.982 | je_v | 2.328 | e_pri | 1.239 | _vpraš | 757 | _ki_so_ | 456 | se_je_za | 291 | _je_tudi_ | 187 | _odgovoril | 122 | _življenje_ | 91 | _zaradi_tega | 68 | al_Peter_Majc | 52 | e_popraskal_km | 46 | |
51. | R | 960 | ve | 11.355 | ni_ | 4.930 | _ni_ | 2.318 | l_je_ | 1.232 | _so_se | 751 | _potem_ | 455 | o_je_bil | 290 | e_počasi_ | 185 | e_prikimal | 121 | ravnikarjev | 90 | _karabinjerj | 67 | e_je_nasmehni | 52 | je_popraskal_k | 46 | |
52. | ; | 905 | ar | 11.039 | e_n | 4.911 | _svo | 2.242 | _da_s | 1.229 | _ga_je | 750 | ,_ki_so | 452 | _da_bi_s | 290 | o,_kakor_ | 184 | Tantadruj, | 120 | Travnikarje | 90 | amahnil_z_ro | 65 | se_je_nasmehn | 52 | popraskal_kmet | 46 | |
53. | H | 822 | le | 10.933 | o,_ | 4.894 | svoj | 2.209 | _bilo | 1.206 | e_bilo | 742 | _ki_se_ | 451 | _prikima | 283 | _je_tako_ | 184 | _je_takoj_ | 119 | _je_oglasil | 89 | mahnil_z_rok | 65 | tem_trenutku_ | 52 | z_obema_rokama | 46 | |
54. | Č | 769 | bi | 10.323 | pri | 4.868 | tako | 2.204 | l_in_ | 1.201 | njegov | 740 | _svojo_ | 448 | a_in_se_ | 282 | _se_mu_je | 184 | _prikimal_ | 118 | e_je_oglasi | 88 | Prekleta_str | 65 | il_Peter_Majc | 51 | _popraskal_kme | 46 | |
55. | Ž | 655 | j_ | 10.140 | e_v | 4.864 | i_in | 2.186 | nila_ | 1.190 | _njego | 739 | e_rekel | 440 | _ki_se_j | 274 | e,_kakor_ | 183 | ,<<_je_reke | 118 | se_je_oglas | 88 | se_je_obrnil | 65 | _in_se_obrnil | 51 | _Prekleta_stre | 46 | |
56. | G | 645 | od | 9.890 | _ni | 4.824 | e_na | 2.184 | _in_n | 1.168 | i,_da_ | 734 | _se_mu_ | 429 | ki_se_je | 271 | pogledal_ | 181 | _začudeno_ | 116 | <<_je_rekla_ | 84 | zamahnil_z_r | 65 | eter_Majcen_j | 49 | _z_obema_rokam | 46 | |
57. | Š | 567 | lo | 9.776 | a_p | 4.708 | kor_ | 2.169 | bila_ | 1.156 | la_in_ | 729 | _bi_bil | 428 | er_Majce | 270 | da_se_je_ | 180 | nepremično | 115 | <<_je_prikim | 83 | ,_ker_je_bil | 65 | je_popraskal_ | 49 | ak,<<_se_je_pop | 45 | |
58. | - | 532 | ro | 9.560 | ti_ | 4.662 | _še_ | 2.163 | _pred | 1.131 | so_se_ | 729 | _je_pre | 428 | eter_Maj | 270 | _nasmehni | 180 | <<_je_vpraš | 115 | ,_ki_so_se_ | 83 | avnikarjev_s | 64 | ponovil_Matic | 49 | jpak,<<_se_je_p | 45 | |
59. | U | 413 | v_ | 9.526 | so_ | 4.659 | akor | 2.151 | _se_p | 1.115 | e_je_z | 721 | _sem_se | 428 | Peter_Ma | 270 | _Peter_Ma | 180 | _kakor_je_ | 115 | e_prikimal_ | 81 | a_Temnikaric | 64 | _ponovil_Mati | 49 | k,<<_se_je_popr | 45 | |
60. | ş | 378 | ga | 9.458 | _bo | 4.640 | _za_ | 2.149 | _ki_s | 1.110 | e_bila | 716 | je_reke | 425 | r_Majcen | 270 | o_pogleda | 177 | je_ponovil | 114 | ki_je_bila_ | 81 | ikarjev_stri | 64 | e_je_oglasil_ | 48 | pak,<<_se_je_po | 45 |
se_je_oglasil in tem_trenutku_, štirinajsterčkov pa le še 5 (oziroma še manj): ?<<_je_vprašal_/ _se_je_nasmehn/ e_je_nasmehnil/ se_je_nasmehni in _se_je_oglasil. Splošnost prvega vzorca v celoti vzdrži do n = 10, ko opazimo prvi niz, ki se ga da umestiti v konkretno delo. Kot po navadi je iz prevoda: niz _računalni s frekvenco 818 je iz dela R. Cringelyja Naključni imperiji (ali Kratka zgodovina Silicijeve doline). Vendar so tudi še pri n = 14 le trije "konkretni" nizi med prvimi 60-timi: Jurij_Ljudevit iz novele Ivana Tavčarja: Janez Sonce, _Passepartout_ iz prevoda Julesa Verna V osemdesetih dneh okoli sveta in mikroračunalni iz že omenjenega prevoda R. Cringelyja. Drugi vzorec je manjši in tako najdemo prvi konkretni niz, Temnikar že pri osmerčkih, pri štirinajsterčkih pa jih je kar 22, to je 37 %, od tega 16 iz Balade o trobenti in oblaku.
N-terčke znakov je mogoče uporabiti tudi za identifikacijo jezika, v katerem je besedilo. O tem je poročal Gregory Grefenstette v članku, kjer so bili primerjalno obdelani trojčki iz prvih milijon znakov enakih besedil v desetih jezikih Evropske unije, ki so izšla na cederomu (Grefenstette 1995). Jeziki so angleški, danski, francoski, nizozemski, italijanski, nemški, norveški, portugalski in švedski. V tabeli 33 je najpogostejših 12 trojčkov za slovenski jezik (oba vzorca skupaj) in omenjenih deset jezikov, kjer je bil kot vir upoštevan omenjeni članek.
Tabela 33: Najpogostejših 12 trojčkov v slovenskem in desetih jezikih EU
Slo | Ang | Dan | Fra | Niz | Ita | Nem | Nor | Por | Špa | Šve | |
1. | je_ | _th | er_ | _de | en_ | _di | en_ | et_ | _de | _de | en_ |
2. | _je | he_ | en_ | es_ | de_ | to_ | er_ | en_ | de_ | de_ | er_ |
3. | _po | the | for | de_ | _de | _de | _de | er_ | os_ | os_ | et_ |
4. | _se | nd_ | et_ | ent | et_ | di_ | der | _de | do_ | _la | tt_ |
5. | _pr | ed_ | ing | nt_ | an_ | _co | ie_ | _ha | que | el_ | _de |
6. | in_ | _an | _fo | _le | n_d | la_ | ich | an_ | _qu | la_ | ar_ |
7. | _in | and | _af | e_d | _he | re_ | sch | de_ | _co | que | för |
8. | _na | _to | _de | le_ | er_ | ion | ein | det | as_ | as_ | om_ |
9. | se_ | ing | nde | ion | _va | ent | che | ar_ | ent | ue_ | _oc |
10. | _za | to_ | els | s_d | van | e_d | die | _og | ăo_ | _qu | ch_ |
11. | ,_k | ng_ | lse | e_l | een | le_ | ch_ | og_ | ue_ | _co | de_ |
12. | _bi | er_ | ret | _la | ver | o_d | den | te_ | _a_ | _en | och |
Od 120 trojčkov neslovenskih jezikov iz zgornje tabele je kar 76 različnih. Tistih s frekvenco več kot 1 je 22: _de (9), de_ (6), er_ (6), en_ (5), et_ (4), _co (3), ent (3) in _la, _qu, an_, ar_, as_, ch_, e_d, ing, ion, la_, le_, os_, que, to_, ue_ s frekvenco 2. Med vsemi 76 pa ni niti enega, ki bi ga našli tudi med najpogostejšimi slovenskimi. Zelo zanimiva bi bila še primerjava z jeziki, ki so slovenskemu bolj sorodni od zgornjih germanskih in romanskih, kot se je to delno posrečilo pri primerjavi najpogostejših besed.
Čeprav so osnovni gradniki pisanega besedila znaki, so besede tisto, kar nekako sami od sebe najprej povežemo z jezikom. Tudi obseg besedilnih zbirk je bil od prvega, Brownovega korpusa naprej vedno merjen v besedah. Pri dosedanjih kvantitativnih raziskavah slovenskega jezika, tudi zaradi velikosti besedilnih vzorcev, pri besedah ni bilo mogoče dlje kot do obdelave besednih oblik kot takih, samih zase. Iz tabele najpogostejših besednih n-terčkov na strani 70 je videti, da frekvence s povezovanjem več besed izredno hitro padajo in tako tudi ta, doslej največja besedilna zbirka nenadoma ni več tako velika, kot bi si človek želel. V tem razdelku so obravnavane besedne oblike (v nadaljnjem imenovane besede), v poglavju o oblikoslovnem označevanju pa še besedne leme, osnovne oblike, ki jih je avtor poiskal za besedila drugega vzorca. V tabeli 34 je navedenih nekaj splošnih podatkov o besedah iz obeh vzorcev. Po stolpcih si sledijo število vseh besed, število različnih besed, število enkratnic, to je besed, ki nastopajo samo enkrat, povprečna frekvenca besede in povprečna dolžina besed.
Tabela 34: Podatki o besedah v obeh vzorcih
Vseh | Različnih | Povprečna | Povprečna | ||
besed | besed | Enkratnic | frekvenca | dolžina | |
Prvi vzorec | 2.721.416 | 174.579 | 84.800 | 15,59 | 4,58 |
Drugi vzorec | 407.938 | 40.475 | 20.110 | 10,08 | 4,38 |
Skupaj | 3.129.354 | 184.052 | 87.812 | 17,01 | 4,55 |
Pri štetju različnih besed je bila začetnica besed ohranjena - besede, pisane z veliko začetnico na začetku povedi, so bile štete kot take in niso bile pretvorjene v malo. Ta postopek je bil opravljen kasneje, na besedah drugega vzorca, v poglavju o oblikoslovnem označevanju. Kot je videti iz tabele, se je v prvem vzorcu vsaka beseda pojavila povprečno 16 krat, v drugem pa 10 krat. Glede na to, da je prvi vzorec skoraj osemkrat večji od drugega, kaže ta razmeroma majhna razlika na dokaj veliko pestrost in majhno homogenost prvega. Tudi povprečna dolžina besed kaže na to, da je drugi vzorec, v celoti gledano, bolj gibek od prvega. Skupna povprečna dolžina je za 0.11 manjša od dolžine, ki so jo namerili raziskovalci s fakultete za elektrotehniko (Kristan idr. 1994). Opazen je tudi zelo velik delež besed, ki se pojavijo samo enkrat. V obeh vzorcih je takih med različnimi skoraj polovica.
Kako hitro se polni besedni zaklad obeh vzorcev skupaj, se najbolje vidi iz krivulje rasti, ki je prikazana na sliki 11. Krivulja je pollogaritemska -
Slika 11: Krivulja rasti za besede v obeh vzorcih
na osi x so dvojiški logaritmi zaporednih številk besed v seznamu (i), ki je padajoče urejen po pogostostih besed (pi) - najpogostejša beseda je prva, druga najpogostejša druga . . ., na osi y pa je skupna vsota frekvenc besed v odstotkih od celote:
Za boljšo ponazoritev so v tabeli 35 navedene relativne pogostosti (delež od celote) za
Tabela 35: Najpogostejših 64 besed iz obeh vzorcev z relativnimi frekvencami
je | 5,63 | ne | 0,90 | s | 0,53 | to | 0,36 | kakor | 0,30 | sta | 0,24 | me | 0,20 | nekaj | 0,16 |
in | 3,31 | ki | 0,84 | po | 0,51 | bilo | 0,36 | ali | 0,29 | pri | 0,23 | več | 0,18 | naj | 0,16 |
se | 2,65 | bi | 0,80 | še | 0,51 | od | 0,34 | jo | 0,28 | kar | 0,23 | samo | 0,18 | kako | 0,16 |
v | 1,86 | z | 0,70 | tako | 0,42 | že | 0,34 | bila | 0,28 | kaj | 0,22 | ti | 0,17 | tem | 0,16 |
da | 1,56 | za | 0,68 | bil | 0,42 | bo | 0,33 | mi | 0,27 | o | 0,22 | lahko | 0,17 | ji | 0,15 |
na | 1,24 | sem | 0,67 | tudi | 0,41 | iz | 0,32 | In | 0,26 | če | 0,21 | ker | 0,17 | Ko | 0,15 |
so | 1,19 | ni | 0,66 | si | 0,41 | ko | 0,32 | vse | 0,26 | do | 0,21 | pred | 0,17 | ob | 0,15 |
pa | 0,91 | ga | 0,59 | mu | 0,41 | kot | 0,31 | jih | 0,25 | k | 0,20 | V | 0,17 | potem | 0,14 |
najpogostejših 64 besed v seznamu obeh vzorcev. Prva pika na krivulji je delež besede je (5,63 %), druga vsota deležev besed je in in (8,94 %), tretja besed je, in in se (11,58 %) in tako naprej. Iz krivulje je videti, da s prvimi 16 besedami zajamemo 25 % vsega besedila, s 64 besedami (navedene so v tabeli 35) malo manj kot 40 % (37,08 %), z 256 približno polovico, s 4.092 tri četrtine, za 90 % pa je potrebnih že 32 K besed. Potek krivulje je dokaj regularen približno do n = 32, potem sledi hrbet v območju do n = 128 in spet lep potek do približno n = 100.000, potem pa je jasno viden zlom krivulje na mestu (označeno je s kratko pokončno črtico), kjer nastopijo enkratnice, besede s frekvenco 1.
Zanimiva je primerjava te krivulje s krivuljo (Jakopin 1998), ki jo dobimo za besede v korpusu Bank of English (stanje iz leta 1996, seznam besed in frekvenc je odstopil Jeremy Clear).
Slika 12: Krivulja rasti za besede v Bank of English (1996)
V tem korpusu je bilo 203.648.478 besed, od tega 633.165 različnih in od teh 291.133 takih s frekvenco 1 (enkratnic). Povprečna frekvenca besede je bila 322, krivulja pa je navedena na sliki 12. Na njej opazimo v prvem delu podobno nihanje kot na sliki 11, le da je vzpon seveda hitrejši, 90 % doseže že pri 8 K in potem se asimptoti (100 %) zelo počasi približuje na skoraj tretjini svojega poteka. Nepravilnost na koncu, ki pa ni jasno vidna, spet povzročijo enkratnice.
Podobno kot n-terčke znakov je mogoče tudi najpogostejše besede uporabiti za identifikacijo jezika. V že omenjenem članku (Grefenstette 1995) je avtor za statistično ugotavljanje jezika uporabil najpogostejše kratke besede (do 5 črk). V tabeli 36 so navedene najpogostejše kratke besede za slovenski jezik, jezik Bosanskega korpusa na univerzi v Oslu (Leko 1998) in za 10 jezikov Evropske unije, istih kot v tabeli 33.
Tabela 36: Najpogostejših 12 kratkih besed (do 5 črk) v slovenskem in še enajstih jezikih
Slo | Srh | Ang | Dan | Niz | Fra | Ita | Nem | Nor | Por | Špa | Šve | |
1. | je | i | the | i | de | de | di | der | og | de | de | och |
2. | in | je | and | af | van | la | e | die | det | a | la | i |
3. | se | u | to | og | het | le | il | und | han | que | que | att |
4. | v | da | of | at | een | et | che | den | i | o | el | som |
5. | da | se | a | til | en | des | la | in | er | e | en | en |
6. | na | na | in | for | in | les | a | von | på | do | y | är |
7. | so | su | was | en | dat | du | in | zu | til | da | a | på |
8. | pa | ne | his | om | is | en | per | dem | at | no | los | det |
9. | ne | a | that | der | te | un | del | für | som | um | del | av |
10. | ki | to | I | er | op | que | un | mit | var | em | se | för |
11. | bi | od | he | U | voor | a | non | das | jeg | para | por | med |
12. | z | za | as | ikke | met | qui | i | des | med | com | las | den |
Slovenske besede so vzete iz obeh vzorcev skupaj in so kar vse - med prvimi dvanajstimi namreč ni nobena daljša kot 2 črki. Tokrat je med 132 besedicami v drugih jezikih 92 različnih. Takih s frekvenco nad 1 je 24: a (6), en (5), i (5), de (4), in (4), la (3), que (3) in at, da, del, den, der, des, det, e, er, med, og, på, se, som, til, to, un s frekvenco 2. Kot je ugotovil že Grefenstette, so najpogostejši trojčki vseeno boljši indikator od najpogostejših besed. Presek med slovenskim in drugimi jeziki namreč pri besedah ni prazen - v njem najdemo šest pogostih besedic: da, in, je, na, ne in se. In se pojavi še pri angleškem, italijanskem in nemškem jeziku, da pri portugalskem in srbskem/hrvaškem, se pri srbskem/hrvaškem in španskem, je, na in ne pa še pri srbskem/hrvaškem.
Parameter, ki veliko pove o zvrsti besedila, so dolžine besed. V leposlovju so krajše kot v tehničnih besedilih, v delih z dialogom spet krajše kot v opisnih stavkih. V tabeli 37 so navedene poprečne dolžine vseh besed in različnih besed za oba vzorca.
Tabela 37: Povprečne dolžine vseh besed in različnih besed v obeh vzorcih
Vseh | Povprečna | Standardni | Različnih | Povprečna | Standardni | |
besed | dolžina | odklon | besed | dolžina | odklon | |
Prvi vzorec | 2.721.416 | 4,58 | 2.60 | 174.579 | 8,12 | 2.33 |
Drugi vzorec | 407.938 | 4,38 | 2.44 | 40.475 | 7,44 | 2.12 |
Skupaj | 3.129.354 | 4,55 | 2.57 | 184.052 | 8,00 | 2.31 |
Še posebej pri povprečnih dolžinah različnih besed je zelo očitna razlika med prvim in drugim vzorcem. Tega ni več mogoče pripisati večji količini premega govora v Kosmačevem opusu, ampak tudi temu, da je njegova pripoved bolj tekoča (Štih 1958). Dobljene vrednosti za različne besede so manjše od tistih za samostalnike iz Slovarja slovenskega knjižnega jezika (Jakopin 1996b).
V tabelah 38, 39 in 40 so navedene najdaljše besede v obeh vzorcih in v Bank of English - pred vsako besedo je izpisana njena dolžina. V tabeli 39 so bila izvzeta večbesedna imena, v tabeli 40 pa je bilo že v viru vse pisano z malo
Tabela 38: Najdaljše besede v prvem vzorcu
1. | 57 | prijatelj-sovražnik-prijateljsovražnik-sovražnikprijatelj |
2. | 45 | klik-klik-klik-klik-klik-klik-klik-klik-TRESK |
3. | 37 | ti-hojlarija-hojlarija-hojlarija-drom |
4. | 28 | hodi-hodi-prestopi-hodi-hodi |
5. | 27 | ti-hojlarija-hojlarija-drom |
6. | 27 | petnajststošestinpetdesetem |
7. | 26 | pasti-drug-drugemu-v-objem |
8. | 26 | petstošestinsedemdesetkrat |
9. | 26 | petnajstimi-minutami-slave |
10. | 26 | sedemstodevetindvajsetkrat |
Tabela 39: Najdaljše besede v drugem vzorcu
1. | 30 | tisočdevetstodvaintridesetkrat |
2. | 22 | stoštiriinštiridesetih |
3. | 20 | petintridesetletnega |
4. | 19 | literarnokritičnemu |
5. | 19 | petinosemdesetletni |
6. | 19 | dvaindvajsetletnemu |
7. | 19 | kakršnegakolisibodi |
8. | 18 | triinštiridesetega |
9. | 18 | javolheršturmfirer |
10. | 18 | sedemstosedemdeset |
Tabela 40: Najdaljše besede v Bank of English
1. | 65 | confidenceunderstandingcreativitycollaborationexcellenceenjoyment |
2. | 60 | weeeeeeeeaaaaarrrdddrrraaaaaaannnnggggnnnneeeeaaaarrrrrwwwww |
3. | 58 | llanfairpwyllgwyngyllgogerychwyrndrobwlllantysiliogogogoch |
4. | 58 | officialpeacehappinessstrudelbeerflagscelebrationshysteria |
5. | 58 | whatchurchfestivalinfebruaryiscelebratedwithlightedcandles |
6. | 54 | fightthepowerlouderthanabombblacksteelinthehourofchaos |
7. | 53 | verordnetenfriedefreudestrudelbierfahnenfeierhysterie |
8. | 52 | dandybeanotoppervictorhotspurhornethurricanedianabun |
9. | 52 | takethepowerbackbombtrackfistfulofsteelknowyourenemy |
10. | 43 | pneumoultramicroscopicsilicovolcanoconiosis |
začetnico. Po pričakovanju je povsod najti predvsem večbesedne sestavljenke, če sem štejemo tudi števila. Teh je v tabeli prvega vzorca 3, drugega 7, med najdaljšimi besedami zbirke Bank of English pa prav na vrh niso mogla.
Zanimive so še porazdelitve dolžin besed, vseh na sliki 13 in različnih na sliki 14. Stolpci prvega vzorca so spet označeni s črno barvo, drugega pa z belo.
Slika 13: Porazdelitev dolžin vseh besed v obeh vzorcih
Do vključno dolžine 6 so v vseh primerih, razen pri dolžini 3, vrednosti v drugem vzorcu večje kot v prvem, potem pa ves čas do konca nižje. Ker je tudi povprečna dolžina besed v drugem vzorcu manjša (glej tabelo 31) je tak potek pričakovan. Konica pri dolžini 2 (vezniki, pomožni glagol je) je pri obeh vzorcih bistveno višja, kot so jo namerili v predhodni raziskavi (Kristan idr. 1994), sicer pa je potek podoben. Razliko gre pripisati bolj tekočemu jeziku v vzorcih te naloge; predhodni vzorec je vseboval tudi časopisni jezik.
Slika 14: Porazdelitev dolžin različnih besed v obeh vzorcih
Tokrat imamo opravka s precej pravilnima krivuljama, ki pa nimata vrha na istem x. Največ različnih besed pri prvem vzorcu je dolgih 8 črk, pri drugem pa 7.
V tabelah 42, 43, 44 in 45 na naslednjih straneh so najpogostejše besede iz prvega in drugega vzorca, urejene po frekvencah in po abecedi. Tabeli 42 in 34 odkrivata 250 najpogostejših besednih oblik v vsakem vzorcu. Ker je bil oblikoslovno označen in lematiziran samo drugi vzorec, je treba nekaj sklepov potegniti že iz teh podatkov. Izkaže se, da je prvih 6 besed v obeh seznamih (je, in, se, v, da in na) istih in na istih mestih (brez upoštevanja mest 9 besed), da obsega presek najpogostejših 50 besed v obeh vzorcih 42 besed, presek 100 najpogostejših 86 besed, prvih 250 pa 180 besed. Jezik Cirila Kosmača se je torej razmeroma dobro ujel z jezikom v prvem vzorcu.
Pogled na tabelo 42 tudi razkrije, da je našlo pot v seznam prvih 250 besed eno samo ime (Bog na 147. mestu), ki pa tudi ni značilno samo za eno delo. Absolutne frekvence se začnejo s 150.984 in končajo z 953, relativne frekvence (delež celote) se začnejo pa na 5,55 % (je) in končajo na 0,0350 % (kdaj). Samostalnikov, glagolov in pridevnikov je malo, prevladujejo zaimki, prislovi, vezniki in predlogi.
Drugi vzorec je veliko manjši in se zato ne more pohvaliti s tako splošnim seznamom najpogostejših besed. V tabeli 43 zato najdemo imena Peter, Martin, Matic, Sova, Majcen, Drejc, Temnikar, Tantadruj, Stane in Venc, ki jih z lahkoto umestimo v konkretno črtico ali roman. Absolutne frekvence se začnejo pri 25.798 in končajo pri 161, relativne pa pri 6,32 % in končajo pri 0,0395 %, kar je oboje precej nad vrednostmi v prvem vzorcu. Delež samostalnikov, glagolov in pridevnikov je večji kot pri prvem vzorcu, a še vedno majhen.
V tabeli 41 je navedenih najpogostejših 20 samostalnikov iz obeh vzorcev, pri čemer so bili za prvi vzorec le ocenjeni (iz oblik v tabeli 42), za drugi vzorec pa
Tabela 41: Najpogostejši samostalniki iz vsakega vzorca s frekvencami
1. | dan | 3.300 | 1. | roka | 1.577 | |
2. | ljudje | 2.939 | 2. | glava | 985 | |
3. | roka | 2.895 | 3. | oči | 833 | |
4. | čas | 2.792 | 4. | otrok | 821 | |
5. | oči | 2.584 | 5. | dan | 749 | |
6. | leto | 2.068 | 6. | hiša | 700 | |
7. | človek | 1.683 | 7. | leto | 628 | |
8. | oče | 1.674 | 8. | vrata | 536 | |
9. | glava | 1.583 | 9. | beseda | 513 | |
10. | obraz | 1.369 | 10. | oče | 486 | |
11. | gospod | 1.354 | 11. | človek | 453 | |
12. | življenje | 1.337 | 12. | glas | 438 | |
13. | stran | 1.298 | 13. | srce | 424 | |
14. | pot | 1.267 | 14. | vas | 414 | |
15. | glas | 1.173 | 15. | obraz | 396 | |
16. | noč | 1.092 | 16. | miza | 392 | |
17. | beseda | 1.071 | 17. | noga | 384 | |
18. | mož | 1.052 | 18. | življenje | 373 | |
19. | mati | 1.033 | 19. | ljudje | 369 | |
20. | svet | 997 | 20. | voda | 362 |
so mesta in frekvence točni, saj izhajajo iz lematiziranega besedila. V obeh seznamih nastopa polovica, to je 10 samostalnikov: beseda, človek, dan, glava, leto, ljudje, oče, oči, roka, in življenje. Enajsti bi utegnil biti vas, a ga v prvem vzorcu ni bilo mogoče enostavno ločiti od enakega zaimka.
V tabelah 44 in 45 so iste besede kot v tabelah 42 in 43, le da so tokrat urejene abecedno in so jim v oklepaju dodani še rangi iz frekvenčno urejenih seznamov. Tako je mogoče za iskano besedo iz prvega ali drugega vzorca takoj ugotoviti, ali je med prvimi 250 in kateri je njen rang po pogostosti.
Tabela 42: Najpogostejše besedne oblike iz prvega vzorca s frekvencami1. je | 150.984 | 51. lahko | 5.318 | 101. imel | 2.334 | 151. on | 1.484 | 201. glas | 1.173 |
2. in | 93.314 | 52. potem | 5.308 | 102. ste | 2.226 | 152. sicer | 1.484 | 202. moral | 1.173 |
3. se | 69.885 | 53. nekaj | 5.211 | 103. vas | 2.200 | 153. toliko | 1.480 | 203. rad | 1.173 |
4. v | 55.564 | 54. več | 5.192 | 104. dan | 2.182 | 154. boš | 1.466 | 204. vsaj | 1.169 |
5. da | 45.181 | 55. pred | 5.043 | 105. vam | 2.180 | 155. nam | 1.460 | 205. pač | 1.152 |
6. na | 36.699 | 56. ker | 5.029 | 106. bodo | 2.125 | 156. vseh | 1.437 | 206. njegov | 1.151 |
7. so | 33.040 | 57. k | 5.010 | 107. zaradi | 2.101 | 157. dolgo | 1.428 | 207. vsem | 1.150 |
8. ne | 27.850 | 58. naj | 4.993 | 108. kdo | 2.092 | 158. moj | 1.420 | 208. misli | 1.143 |
9. pa | 25.643 | 59. le | 4.711 | 109. njim | 2.082 | 159. dejal | 1.419 | 209. seboj | 1.138 |
10. ki | 23.277 | 60. ob | 4.587 | 110. čez | 2.061 | 160. časa | 1.418 | 210. sedaj | 1.131 |
11. bi | 21.973 | 61. tem | 4.495 | 111. veliko | 2.058 | 161. sebi | 1.403 | 211. tisto | 1.128 |
12. za | 20.480 | 62. zdaj | 4.443 | 112. niti | 1.996 | 162. drugega | 1.400 | 212. njem | 1.123 |
13. z | 20.260 | 63. med | 4.320 | 113. tu | 1.971 | 163. rekla | 1.398 | 213. ravno | 1.119 |
14. ni | 19.125 | 64. ji | 4.271 | 114. treba | 1.959 | 164. čas | 1.374 | 214. dni | 1.118 |
15. sem | 18.517 | 65. ta | 4.179 | 115. zakaj | 1.951 | 165. ljudi | 1.373 | 215. skupaj | 1.115 |
16. ga | 15.576 | 66. prav | 4.022 | 116. nad | 1.936 | 166. obraz | 1.369 | 216. let | 1.112 |
17. še | 14.788 | 67. smo | 3.887 | 117. sva | 1.886 | 167. gospod | 1.354 | 217. teh | 1.097 |
18. po | 14.748 | 68. nič | 3.760 | 118. nas | 1.860 | 168. nazaj | 1.350 | 218. noč | 1.092 |
19. s | 14.382 | 69. te | 3.719 | 119. celo | 1.834 | 169. življenje | 1.337 | 219. svojih | 1.084 |
20. tako | 13.818 | 70. a | 3.679 | 120. zelo | 1.824 | 170. danes | 1.332 | 220. svoji | 1.082 |
21. ko | 13.361 | 71. jaz | 3.541 | 121. ima | 1.806 | 171. šel | 1.320 | 221. takrat | 1.078 |
22. tudi | 13.177 | 72. bili | 3.465 | 122. ves | 1.792 | 172. mogoče | 1.313 | 222. drugo | 1.074 |
23. to | 13.054 | 73. vendar | 3.421 | 123. prišel | 1.784 | 173. vedel | 1.309 | 223. besede | 1.071 |
24. bil | 12.332 | 74. tega | 3.279 | 124. nikoli | 1.781 | 174. kadar | 1.302 | 224. njimi | 1.071 |
25. ali | 11.557 | 75. rekel | 3.267 | 125. drugi | 1.762 | 175. strani | 1.298 | 225. doma | 1.063 |
26. si | 11.402 | 76. svoje | 3.245 | 126. torej | 1.707 | 176. skozi | 1.297 | 226. kmalu | 1.056 |
27. mu | 10.940 | 77. jim | 3.083 | 127. tedaj | 1.690 | 177. roke | 1.293 | 227. dokler | 1.053 |
28. od | 10.488 | 78. toda | 3.051 | 128. človek | 1.683 | 178. no | 1.292 | 228. mož | 1.052 |
29. bilo | 10.365 | 79. zato | 3.015 | 129. videl | 1.675 | 179. njega | 1.276 | 229. more | 1.034 |
30. kot | 9.877 | 80. bolj | 3.001 | 130. oče | 1.674 | 180. vprašal | 1.276 | 230. mati | 1.033 |
31. že | 9.537 | 81. tam | 3.000 | 131. morda | 1.643 | 181. vem | 1.271 | 231. vsa | 1.027 |
32. iz | 9.474 | 82. ter | 2.987 | 132. skoraj | 1.637 | 182. pot | 1.267 | 232. daleč | 1.026 |
33. kaj | 9.066 | 83. saj | 2.916 | 133. vsak | 1.623 | 183. namreč | 1.259 | 233. hitro | 1.023 |
34. bo | 8.806 | 84. pod | 2.885 | 134. sploh | 1.612 | 184. njih | 1.247 | 234. šele | 1.016 |
35. če | 8.613 | 85. brez | 2.873 | 135. roko | 1.602 | 185. dva | 1.244 | 235. imela | 1.005 |
36. vse | 8.149 | 86. sam | 2.814 | 136. glavo | 1.583 | 186. mora | 1.236 | 236. mene | 1.005 |
37. bila | 7.957 | 87. proti | 2.774 | 137. nato | 1.575 | 187. gre | 1.227 | 237. dal | 1.003 |
38. kakor | 7.943 | 88. res | 2.746 | 138. mogel | 1.571 | 188. njo | 1.217 | 238. svet | 997 |
39. mi | 7.911 | 89. niso | 2.670 | 139. ljudje | 1.566 | 189. njegovo | 1.214 | 239. ona | 993 |
40. pri | 7.530 | 90. oči | 2.584 | 140. biti | 1.559 | 190. svoj | 1.210 | 240. pride | 979 |
41. jo | 7.513 | 91. vedno | 2.550 | 141. naprej | 1.558 | 191. kje | 1.203 | 241. tri | 976 |
42. kar | 7.069 | 92. bom | 2.543 | 142. takoj | 1.557 | 192. vi | 1.199 | 242. vso | 970 |
43. jih | 7.048 | 93. vsi | 2.495 | 143. tisti | 1.556 | 193. čeprav | 1.192 | 243. eno | 969 |
44. sta | 6.720 | 94. dobro | 2.494 | 144. seveda | 1.553 | 194. čisto | 1.192 | 244. sebe | 967 |
45. o | 6.155 | 95. spet | 2.455 | 145. svojega | 1.541 | 195. okoli | 1.189 | 245. najbolj | 964 |
46. do | 6.008 | 96. kjer | 2.448 | 146. bile | 1.531 | 196. pravi | 1.186 | 246. videti | 961 |
47. ti | 5.719 | 97. nisem | 2.440 | 147. Bog | 1.522 | 197. lepo | 1.185 | 247. prvi | 960 |
48. kako | 5.674 | 98. ampak | 2.425 | 148. prej | 1.508 | 198. sama | 1.184 | 248. moje | 958 |
49. samo | 5.620 | 99. svojo | 2.410 | 149. meni | 1.498 | 199. kajti | 1.182 | 249. leta | 956 |
50. me | 5.465 | 100. malo | 2.388 | 150. hotel | 1.493 | 200. nihče | 1.176 | 250. kdaj | 953 |
1. je | 25.798 | 51. pri | 899 | 101. stopil | 361 | 151. njej | 233 | 201. Drejc | 190 |
2. in | 18.471 | 52. mi | 859 | 102. nad | 357 | 152. svoj | 233 | 202. vem | 189 |
3. se | 13.330 | 53. spet | 857 | 103. naglo | 357 | 153. vedel | 231 | 203. življenje | 189 |
4. v | 7.809 | 54. ter | 852 | 104. bolj | 352 | 154. ozrl | 230 | 204. noge | 185 |
5. da | 5.412 | 55. ti | 847 | 105. Martin | 348 | 155. teta | 230 | 205. Temnikar | 185 |
6. na | 5.124 | 56. kako | 845 | 106. dobro | 347 | 156. dni | 228 | 206. domov | 184 |
7. pa | 4.625 | 57. prav | 831 | 107. nisem | 346 | 157. kadar | 228 | 207. vanj | 184 |
8. so | 4.243 | 58. me | 803 | 108. oče | 340 | 158. ljudje | 228 | 208. bomo | 183 |
9. ne | 3.695 | 59. sta | 794 | 109. tega | 339 | 159. včasih | 228 | 209. glasom | 183 |
10. bi | 3.221 | 60. pred | 765 | 110. vprašal | 339 | 160. povedal | 227 | 210. kam | 181 |
11. z | 3.181 | 61. potem | 754 | 111. seveda | 338 | 161. nemara | 226 | 211. župnik | 181 |
12. ga | 3.039 | 62. res | 730 | 112. videl | 332 | 162. kje | 225 | 212. sama | 180 |
13. ki | 2.995 | 63. do | 696 | 113. bili | 329 | 163. nikdar | 225 | 213. stric | 179 |
14. po | 2.948 | 64. ob | 693 | 114. dan | 327 | 164. zaradi | 225 | 214. potegnil | 177 |
15. sem | 2.812 | 65. več | 671 | 115. šel | 323 | 165. hišo | 224 | 215. sva | 177 |
16. ni | 2.636 | 66. glavo | 661 | 116. otrok | 307 | 166. imel | 222 | 216. smrt | 176 |
17. s | 2.441 | 67. oči | 601 | 117. bodo | 303 | 167. zmeraj | 222 | 217. šele | 176 |
18. še | 2.410 | 68. počasi | 595 | 118. brez | 303 | 168. hitro | 219 | 218. mizo | 173 |
19. za | 2.327 | 69. pod | 583 | 119. zelo | 303 | 169. nas | 218 | 219. bile | 172 |
20. tako | 2.155 | 70. naj | 576 | 120. Matic | 301 | 170. prišel | 217 | 220. glas | 172 |
21. kakor | 2.079 | 71. ji | 570 | 121. skozi | 301 | 171. obraz | 216 | 221. noč | 172 |
22. mu | 1.952 | 72. svoje | 567 | 122. niso | 296 | 172. pravi | 216 | 222. Tantadruj | 172 |
23. že | 1.828 | 73. nekaj | 552 | 123. začel | 289 | 173. vasi | 216 | 223. vrnil | 172 |
24. tudi | 1.799 | 74. roko | 539 | 124. vrata | 285 | 174. sebi | 215 | 224. prikimal | 171 |
25. bo | 1.776 | 75. ta | 539 | 125. dolgo | 284 | 175. dva | 214 | 225. srce | 171 |
26. si | 1.735 | 76. tam | 521 | 126. kdo | 283 | 176. rad | 211 | 226. nam | 170 |
27. bil | 1.695 | 77. zakaj | 516 | 127. okrog | 281 | 177. hiše | 210 | 227. široko | 170 |
28. to | 1.528 | 78. lahko | 513 | 128. človek | 278 | 178. komaj | 210 | 228. kdaj | 169 |
29. iz | 1.470 | 79. nič | 504 | 129. doma | 272 | 179. kot | 208 | 229. očmi | 169 |
30. kaj | 1.366 | 80. no | 500 | 130. Sova | 272 | 180. pogleda | 208 | 230. misli | 168 |
31. k | 1.355 | 81. roke | 497 | 131. Majcen | 270 | 181. čeprav | 207 | 231. njem | 168 |
32. zdaj | 1.350 | 82. bom | 490 | 132. glasno | 268 | 182. obrnil | 207 | 232. njemu | 168 |
33. vse | 1.333 | 83. te | 487 | 133. jaz | 266 | 183. sredi | 207 | 233. svoji | 168 |
34. bilo | 1.289 | 84. smo | 479 | 134. jim | 266 | 184. sebe | 204 | 234. danes | 167 |
35. ko | 1.260 | 85. vsi | 475 | 135. ves | 266 | 185. kjer | 203 | 235. on | 167 |
36. jo | 1.246 | 86. svojo | 463 | 136. celo | 265 | 186. pob | 202 | 236. sonce | 167 |
37. saj | 1.151 | 87. sam | 458 | 137. let | 263 | 187. svojega | 202 | 237. obstal | 166 |
38. samo | 1.129 | 88. takoj | 457 | 138. takrat | 261 | 188. šla | 202 | 238. svojih | 166 |
39. toda | 1.127 | 89. zato | 455 | 139. besede | 259 | 189. enkrat | 201 | 239. dve | 165 |
40. bila | 1.106 | 90. med | 448 | 140. vsak | 255 | 190. mimo | 201 | 240. mati | 165 |
41. a | 1.103 | 91. Peter | 438 | 141. pogledal | 252 | 191. otroci | 201 | 241. sedel | 165 |
42. ker | 1.060 | 92. rekla | 437 | 142. niti | 251 | 192. kmalu | 200 | 242. ponovil | 164 |
43. če | 1.052 | 93. njim | 432 | 143. ima | 245 | 193. tisti | 199 | 243. Stane | 164 |
44. kar | 1.027 | 94. le | 429 | 144. mama | 244 | 194. mirno | 197 | 244. tedaj | 164 |
45. o | 1.004 | 95. tem | 429 | 145. vas | 244 | 195. reče | 197 | 245. tu | 163 |
46. nato | 993 | 96. skoraj | 424 | 146. lepo | 243 | 196. stari | 196 | 246. moj | 162 |
47. od | 952 | 97. boš | 389 | 147. naprej | 238 | 197. tiho | 195 | 247. mora | 162 |
48. ali | 947 | 98. čez | 380 | 148. treba | 236 | 198. tri | 193 | 248. Venc | 162 |
49. rekel | 947 | 99. proti | 379 | 149. sicer | 235 | 199. globoko | 192 | 249. govoril | 161 |
50. jih | 924 | 100. vendar | 371 | 150. vsa | 234 | 200. prišla | 192 | 250. rokami | 161 |
a (70) | 3.679 | ima (121) | 1.806 | mož (228) | 1.052 | pri (40) | 7.530 | takrat (221) | 1.078 |
ali (25) | 11.557 | imel (101) | 2.334 | mu (27) | 10.940 | pride (240) | 979 | tam (81) | 3.000 |
ampak (98) | 2.425 | imela (235) | 1.005 | na (6) | 36.699 | prišel (123) | 1.784 | te (69) | 3.719 |
besede (223) | 1.071 | in (2) | 93.314 | nad (116) | 1.936 | proti (87) | 2.774 | tedaj (127) | 1.690 |
bi (11) | 21.973 | iz (32) | 9.474 | naj (58) | 4.993 | prvi (247) | 960 | tega (74) | 3.279 |
bil (24) | 12.332 | jaz (71) | 3.541 | najbolj (245) | 964 | rad (203) | 1.173 | teh (217) | 1.097 |
bila (37) | 7.957 | je (1) | 150.984 | nam (155) | 1.460 | ravno (213) | 1.119 | tem (61) | 4.495 |
bile (146) | 1.531 | ji (64) | 4.271 | namreč (183) | 1.259 | rekel (75) | 3.267 | ter (82) | 2.987 |
bili (72) | 3.465 | jih (43) | 7.048 | naprej (141) | 1.558 | rekla (163) | 1.398 | ti (47) | 5.719 |
bilo (29) | 10.365 | jim (77) | 3.083 | nas (118) | 1.860 | res (88) | 2.746 | tisti (143) | 1.556 |
biti (140) | 1.559 | jo (41) | 7.513 | nato (137) | 1.575 | roke (177) | 1.293 | tisto (211) | 1.128 |
bo (34) | 8.806 | k (57) | 5.010 | nazaj (168) | 1.350 | roko (135) | 1.602 | to (23) | 13.054 |
bodo (106) | 2.125 | kadar (174) | 1.302 | ne (8) | 27.850 | s (19) | 14.382 | toda (78) | 3.051 |
Bog (147) | 1.522 | kaj (33) | 9.066 | nekaj (53) | 5.211 | saj (83) | 2.916 | toliko (153) | 1.480 |
bolj (80) | 3.001 | kajti (199) | 1.182 | ni (14) | 19.125 | sam (86) | 2.814 | torej (126) | 1.707 |
bom (92) | 2.543 | kako (48) | 5.674 | nič (68) | 3.760 | sama (198) | 1.184 | treba (114) | 1.959 |
boš (154) | 1.466 | kakor (38) | 7.943 | nihče (200) | 1.176 | samo (49) | 5.620 | tri (241) | 976 |
brez (85) | 2.873 | kar (42) | 7.069 | nikoli (124) | 1.781 | se (3) | 69.885 | tu (113) | 1.971 |
celo (119) | 1.834 | kdaj (250) | 953 | nisem (97) | 2.440 | sebe (244) | 967 | tudi (22) | 13.177 |
čas (164) | 1.374 | kdo (108) | 2.092 | niso (89) | 2.670 | sebi (161) | 1.403 | v (4) | 55.564 |
časa (160) | 1.418 | ker (56) | 5.029 | niti (112) | 1.996 | seboj (209) | 1.138 | vam (105) | 2.180 |
če (35) | 8.613 | ki (10) | 23.277 | njega (179) | 1.276 | sedaj (210) | 1.131 | vas (103) | 2.200 |
čeprav (193) | 1.192 | kje (191) | 1.203 | njegov (206) | 1.151 | sem (15) | 18.517 | več (54) | 5.192 |
čez (110) | 2.061 | kjer (96) | 2.448 | njegovo (189) | 1.214 | seveda (144) | 1.553 | vedel (173) | 1.309 |
čisto (194) | 1.192 | kmalu (226) | 1.056 | njem (212) | 1.123 | si (26) | 11.402 | vedno (91) | 2.550 |
človek (128) | 1.683 | ko (21) | 13.361 | njih (184) | 1.247 | sicer (152) | 1.484 | veliko (111) | 2.058 |
da (5) | 45.181 | kot (30) | 9.877 | njim (109) | 2.082 | skoraj (132) | 1.637 | vem (181) | 1.271 |
dal (237) | 1.003 | lahko (51) | 5.318 | njimi (224) | 1.071 | skozi (176) | 1.297 | vendar (73) | 3.421 |
daleč (232) | 1.026 | le (59) | 4.711 | njo (188) | 1.217 | skupaj (215) | 1.115 | ves (122) | 1.792 |
dan (104) | 2.182 | lepo (197) | 1.185 | no (178) | 1.292 | smo (67) | 3.887 | vi (192) | 1.199 |
danes (170) | 1.332 | let (216) | 1.112 | noč (218) | 1.092 | so (7) | 33.040 | videl (129) | 1.675 |
dejal (159) | 1.419 | leta (249) | 956 | o (45) | 6.155 | spet (95) | 2.455 | videti (246) | 961 |
dni (214) | 1.118 | ljudi (165) | 1.373 | ob (60) | 4.587 | sploh (134) | 1.612 | vprašal (180) | 1.276 |
do (46) | 6.008 | ljudje (139) | 1.566 | obraz (166) | 1.369 | sta (44) | 6.720 | vsa (231) | 1.027 |
dobro (94) | 2.494 | malo (100) | 2.388 | oče (130) | 1.674 | ste (102) | 2.226 | vsaj (204) | 1.169 |
dokler (227) | 1.053 | mati (230) | 1.033 | oči (90) | 2.584 | strani (175) | 1.298 | vsak (133) | 1.623 |
dolgo (157) | 1.428 | me (50) | 5.465 | od (28) | 10.488 | sva (117) | 1.886 | vse (36) | 8.149 |
doma (225) | 1.063 | med (63) | 4.320 | okoli (195) | 1.189 | svet (238) | 997 | vseh (156) | 1.437 |
drugega (162) | 1.400 | mene (236) | 1.005 | on (151) | 1.484 | svoj (190) | 1.210 | vsem (207) | 1.150 |
drugi (125) | 1.762 | meni (149) | 1.498 | ona (239) | 993 | svoje (76) | 3.245 | vsi (93) | 2.495 |
drugo (222) | 1.074 | mi (39) | 7.911 | pa (9) | 25.643 | svojega (145) | 1.541 | vso (242) | 970 |
dva (185) | 1.244 | misli (208) | 1.143 | pač (205) | 1.152 | svoji (220) | 1.082 | z (13) | 20.260 |
eno (243) | 969 | mogel (138) | 1.571 | po (18) | 14.748 | svojih (219) | 1.084 | za (12) | 20.480 |
ga (16) | 15.576 | mogoče (172) | 1.313 | pod (84) | 2.885 | svojo (99) | 2.410 | zakaj (115) | 1.951 |
glas (201) | 1.173 | moj (158) | 1.420 | pot (182) | 1.267 | še (17) | 14.788 | zaradi (107) | 2.101 |
glavo (136) | 1.583 | moje (248) | 958 | potem (52) | 5.308 | šel (171) | 1.320 | zato (79) | 3.015 |
gospod (167) | 1.354 | mora (186) | 1.236 | prav (66) | 4.022 | šele (234) | 1.016 | zdaj (62) | 4.443 |
gre (187) | 1.227 | moral (202) | 1.173 | pravi (196) | 1.186 | ta (65) | 4.179 | zelo (120) | 1.824 |
hitro (233) | 1.023 | morda (131) | 1.643 | pred (55) | 5.043 | tako (20) | 13.818 | že (31) | 9.537 |
hotel (150) | 1.493 | more (229) | 1.034 | prej (148) | 1.508 | takoj (142) | 1.557 | življenje (169) | 1.337 |
a (41) | 1.103 | ji (71) | 570 | nekaj (73) | 552 | reče (195) | 197 | takrat (138) | 261 |
ali (48) | 947 | jih (50) | 924 | nemara (161) | 226 | rekel (49) | 947 | tam (76) | 521 |
besede (139) | 259 | jim (134) | 266 | ni (16) | 2.636 | rekla (92) | 437 | Tantadruj (222) | 172 |
bi (10) | 3.221 | jo (36) | 1.246 | nič (79) | 504 | res (62) | 730 | te (83) | 487 |
bil (27) | 1.695 | k (31) | 1.355 | nikdar (163) | 225 | rokami (250) | 161 | tedaj (244) | 164 |
bila (40) | 1.106 | kadar (157) | 228 | nisem (107) | 346 | roke (81) | 497 | tega (109) | 339 |
bile (219) | 172 | kaj (30) | 1.366 | niso (122) | 296 | roko (74) | 539 | tem (95) | 429 |
bili (113) | 329 | kako (56) | 845 | niti (142) | 251 | s (17) | 2.441 | Temnikar (205) | 185 |
bilo (34) | 1.289 | kakor (21) | 2.079 | njej (151) | 233 | saj (37) | 1.151 | ter (54) | 852 |
bo (25) | 1.776 | kam (210) | 181 | njem (231) | 168 | sam (87) | 458 | teta (155) | 230 |
bodo (117) | 303 | kar (44) | 1.027 | njemu (232) | 168 | sama (212) | 180 | ti (55) | 847 |
bolj (104) | 352 | kdaj (228) | 169 | njim (93) | 432 | samo (38) | 1.129 | tiho (197) | 195 |
bom (82) | 490 | kdo (126) | 283 | no (80) | 500 | se (3) | 13.330 | tisti (193) | 199 |
bomo (208) | 183 | ker (42) | 1.060 | noč (221) | 172 | sebe (184) | 204 | to (28) | 1.528 |
boš (97) | 389 | ki (13) | 2.995 | noge (204) | 185 | sebi (174) | 215 | toda (39) | 1.127 |
brez (118) | 303 | kje (162) | 225 | o (45) | 1.004 | sedel (241) | 165 | treba (148) | 236 |
celo (136) | 265 | kjer (185) | 203 | ob (64) | 693 | sem (15) | 2.812 | tri (198) | 193 |
če (43) | 1.052 | kmalu (192) | 200 | obraz (171) | 216 | seveda (111) | 338 | tu (245) | 163 |
čeprav (181) | 207 | ko (35) | 1.260 | obrnil (182) | 207 | si (26) | 1.735 | tudi (24) | 1.799 |
čez (98) | 380 | komaj (178) | 210 | obstal (237) | 166 | sicer (149) | 235 | v (4) | 7.809 |
človek (128) | 278 | kot (179) | 208 | oče (108) | 340 | skoraj (96) | 424 | vanj (207) | 184 |
da (5) | 5.412 | lahko (78) | 513 | oči (67) | 601 | skozi (121) | 301 | vas (145) | 244 |
dan (114) | 327 | le (94) | 429 | očmi (229) | 169 | smo (84) | 479 | vasi (173) | 216 |
danes (234) | 167 | lepo (146) | 243 | od (47) | 952 | smrt (216) | 176 | včasih (159) | 228 |
dni (156) | 228 | let (137) | 263 | okrog (127) | 281 | so (8) | 4.243 | več (65) | 671 |
do (63) | 696 | ljudje (158) | 228 | on (235) | 167 | sonce (236) | 167 | vedel (153) | 231 |
dobro (106) | 347 | Majcen (131) | 270 | otroci (191) | 201 | Sova (130) | 272 | vem (202) | 189 |
dolgo (125) | 284 | mama (144) | 244 | otrok (116) | 307 | spet (53) | 857 | Venc (248) | 162 |
doma (129) | 272 | Martin (105) | 348 | ozrl (154) | 230 | srce (225) | 171 | vendar (100) | 371 |
domov (206) | 184 | mati (240) | 165 | pa (7) | 4.625 | sredi (183) | 207 | ves (135) | 266 |
Drejc (201) | 190 | Matic (120) | 301 | Peter (91) | 438 | sta (59) | 794 | videl (112) | 332 |
dva (175) | 214 | me (58) | 803 | po (14) | 2.948 | Stane (243) | 164 | vprašal (110) | 339 |
dve (239) | 165 | med (90) | 448 | pob (186) | 202 | stari (196) | 196 | vrata (124) | 285 |
enkrat (189) | 201 | mi (52) | 859 | počasi (68) | 595 | stopil (101) | 361 | vrnil (223) | 172 |
ga (12) | 3.039 | mimo (190) | 201 | pod (69) | 583 | stric (213) | 179 | vsa (150) | 234 |
glas (220) | 172 | mirno (194) | 197 | pogleda (180) | 208 | sva (215) | 177 | vsak (140) | 255 |
glasno (132) | 268 | misli (230) | 168 | pogledal (141) | 252 | svoj (152) | 233 | vse (33) | 1.333 |
glasom (209) | 183 | mizo (218) | 173 | ponovil (242) | 164 | svoje (72) | 567 | vsi (85) | 475 |
glavo (66) | 661 | moj (246) | 162 | potegnil (214) | 177 | svojega (187) | 202 | z (11) | 3.181 |
globoko (199) | 192 | mora (247) | 162 | potem (61) | 754 | svoji (233) | 168 | za (19) | 2.327 |
govoril (249) | 161 | mu (22) | 1.952 | povedal (160) | 227 | svojih (238) | 166 | začel (123) | 289 |
hiše (177) | 210 | na (6) | 5.124 | prav (57) | 831 | svojo (86) | 463 | zakaj (77) | 516 |
hišo (165) | 224 | nad (102) | 357 | pravi (172) | 216 | še (18) | 2.410 | zaradi (164) | 225 |
hitro (168) | 219 | naglo (103) | 357 | pred (60) | 765 | šel (115) | 323 | zato (89) | 455 |
ima (143) | 245 | naj (70) | 576 | pri (51) | 899 | šele (217) | 176 | zdaj (32) | 1.350 |
imel (166) | 222 | nam (226) | 170 | prikimal (224) | 171 | široko (227) | 170 | zelo (119) | 303 |
in (2) | 18.471 | naprej (147) | 238 | prišel (170) | 217 | šla (188) | 202 | zmeraj (167) | 222 |
iz (29) | 1.470 | nas (169) | 218 | prišla (200) | 192 | ta (75) | 539 | že (23) | 1.828 |
jaz (133) | 266 | nato (46) | 993 | proti (99) | 379 | tako (20) | 2.155 | življenje (203) | 189 |
je (1) | 25.798 | ne (9) | 3.695 | rad (176) | 211 | takoj (88) | 457 | župnik (211) | 181 |
Pestrost jezika se kaže prav v veliki svobodi zlaganja besed med seboj in zato raziskave besednih n-terčkov oziroma fraz, kot bi jim rekli jezikoslovci, zahtevajo zelo velike besedilne vzorce. Če je bilo že pri najpogostejših znakovnih n-terčkih z rastočim n opaziti skokovito upadanje frekvenc, to razumljivo še veliko bolj velja za besedne n-terčke. Predvsem prvi vzorec te naloge pa je že tako velik, da je smiselnih nekaj korakov tudi v tej smeri.
V tabeli 46 je naveden pregled števila besednih n-terčkov prvega vzorca za n od 1 do 5, pri čemer je bila tabela pri znakovnih n-terčkih, tvorjena iz besedil, že razrezanih na povedi in očiščenih oznak in tujih citatov.
Tabela 46: Število besednih n-terčkov (1-5) v prvem vzorcu
Vseh | Različnih | Delež enkr. med | Delež enkr. med | ||
n | n-terčkov | n-terčkov | Enkratnic | različnimi v % | vsemi n-terčki v % |
1 | 2.721.416 | 174.579 | 84.800 | 48,57 | 3,12 |
2 | 2.523.050 | 1.218.506 | 999.475 | 82,02 | 39,61 |
3 | 2.326.469 | 1.930.363 | 1.793.579 | 92,91 | 77,09 |
4 | 2.136.579 | 2.057.833 | 2.010.939 | 97,72 | 94,12 |
5 | 1.955.526 | 1.937.820 | 1.923.628 | 99,27 | 98,37 |
Opaziti je predvsem zelo hitro rast deleža n-terčkov s frekvenco 1 (enkratnic) z večanjem števila n. Pri peterčkih je delež enkratnic med vsemi že 98,37 %, kar pomeni, da je fraz z dolžino pet besed že zelo malo. Podobo dopolnjuje še krivulja rasti za besede, dvojčke, trojčke in četverčke besed na sliki 15.
Slika 15: Krivulje rasti za besedne n-terčke (1-4) v prvem vzorcu
Prva krivulja z leve, za besede, ima do približno 97 %, kjer nastopijo enkratnice, razmeroma regularen potek. Z najpogostejšimi 16 besedami pokrijemo 25 % celega vzorca, z 256 slabo polovico, s 4.096 približno 75 % in z 32.768 dobrih 90 %. Pri dvojčkih, naslednji krivulji, potrebujemo za pokritje 25 % besedila že 4 K najpogostejših besednih parov, za 50 % besedila nekaj manj kot 100.000, za 75 % več kot 512 K, za 90 % pa že skoraj milijon. Pri trojčkih je treba za 25 % besedila vse besedne trojčke s frekvenco nad 1 (več kot 128.000), za 50 % že približno 700.000 in tako naprej. Pri četverčkih je še precej slabše - z vsemi, ki imajo frekvenco nad 1, pridemo komaj do 6 % celotnega besedila (mesta, kjer se začnejo enkratnice, so na krivulji označena s kratko pokončno črtico nad ustrezno točko).
V tabelah 47 in 48 na naslednjih straneh so navedeni najpogostejši besedni n-terčki (n = 2-5) za oba vzorca. V njih so močno udeležene najpogostejše besede: pri prvem vzorcu nastopa pomožni glagol je v 54 % dvojčkov, 68 % trojčkov, 74 % četverčkov in 78 % peterčkov. Predvsem pri dvojčkih in trojčkih gre bolj ali manj za vezivo, za povezave veznikov, pomožnih glagolov in prostega glagolskega morfema se, sem in tja pa najdemo še kakšen osebni zaimek. V tabelah prvega vzorca je pri dvojčkih en sam pravi glagol, samostalnik ali pridevnik, v je rekel, pri trojčkih tudi, v se je zgodilo, pri četverčkih že 22, a od tega v kar 15 primerih nastopa glagol zdeti se (ostanejo od časa do časa/ se je zgodilo, da/ Bouvard in Pécuchet sta/ kar se je zgodilo/ iz dneva v dan/ je bil prepričan, da in prišlo na misel, da), pri peterčkih pa 38 (od tega v 18 primerih nastopata zdeti se ali zazdeti se). Konkretnih n-terčkov, za katere lahko takoj ugotovimo izvor, je pri prvem vzorcu malo - v celi tabeli 47 sta samo dva: četverček Bouvard in Pécuchet sta iz Flaubertovega romana z naslovom iz prvih treh besed in peterček in mir od Boga, našega iz Nove zaveze. Frekvence najpogostejših n-terčkov z rastočim n padajo še dosti hitreje kot pri n-terčkih znakov: razmerja so 7,3 : 1 (je : se je), 17,2 : 1 ( se je : da bi se), 7,4 : 1 ( da bi se : ne da bi se) in 3,5 : 1 (ne da bi se : se mi je zdelo, da). Zanimivo je tudi, da ima zadnji, 50. peterček v tabeli 47 frekvenco že komaj 9.
Drugi vzorec je skromnejši in najdemo že med dvojčki 3 take, ki imajo kakšen glagol, samostalnik ali pridevnik: je rekel, je rekla in Peter Majcen. Med trojčki jih je 10: zmajal z glavo, zamahnil z roko, se je popraskal, se je oglasil, se je obrnil, Peter Majcen je, je popraskal kmet, z obema rokama, se je vrnil in in se obrnil. Konkretnih n-terčkov, ki jim lahko zlahka najdemo izvor, je 34 in so vsi iz del Balada o trobenti in oblaku, Potepuh Najdù in Tantadruj. Prekrivanje vzorcev je znatno do n = 3, sicer pa je pri enojčkih med najpogostejšimi 50 42 enakih, pri dvojčkih 37, pri trojčkih 26, pri četverčkih 7 ( da se mu je/ ne da bi se/ potem pa se je/ se je obrnil k/ se mi je, da/ se mu je zdelo in se mu je, da) in pri peterčkih samo 2 ( se mu je zazdelo, da in se mu je zdelo, da).
Tabela 47: Najpogostejši besedni n-terčki (2-4) v prvem vzorcu, s frekvencami2 | 3 | 4 | 5 | ||||
1. se je | 20.657 | da bi se | 1.202 | ne da bi se | 163 | se mi je zdelo, da | 47 |
2. je bil | 7.297 | da se je | 1.169 | se mu je, da | 108 | Zdelo se mi je, da | 42 |
3. da bi | 7.077 | se mu je | 1.145 | se mi je zdelo | 93 | Zdelo se mu je, da | 41 |
4. da je | 6.903 | ki se je | 972 | se je zdelo, da | 92 | se mu je zdelo, da | 39 |
5. je bilo | 5.643 | pa se je | 809 | kaj se je zgodilo | 79 | zdelo se mu je, da | 35 |
6. so se | 5.609 | ki ga je | 797 | se mu je zdelo | 78 | se je zgodilo, da je | 26 |
7. ki je | 5.136 | ne da bi | 668 | se mi je, da | 73 | in zdelo se mu je | 21 |
8. da se | 5.123 | ko se je | 652 | ki se mu je | 71 | ki mu je bilo ime | 20 |
9. in se | 4.894 | se mi je | 643 | da se ne bi | 70 | prišlo na misel, da bi | 20 |
10. je bila | 4.618 | ki je bil | 524 | kakor da bi se | 65 | se mu je, da je | 20 |
11. ga je | 4.484 | ki jo je | 520 | se je, da je | 64 | se mu je, da se | 20 |
12. mu je | 4.336 | ki so se | 495 | da se mu je | 63 | Zdelo se ji je, da | 19 |
13. pa je | 3.993 | se ji je | 465 | Zdelo se mi je | 62 | je bila v tem, da | 18 |
14. ki so | 3.712 | ki jih je | 443 | od časa do časa | 58 | se je zdelo, da je | 17 |
15. bi se | 3.003 | se je v | 431 | Zdi se mi, da | 57 | in zdelo se je, da | 15 |
16. mi je | 2.690 | in se je | 411 | se je zgodilo, da | 55 | je bilo vse, kar je | 15 |
17. ko je | 2.528 | Ko se je | 359 | tako da se je | 55 | je od časa do časa | 15 |
18. je v | 2.501 | kakor da bi | 355 | se je obrnil k | 54 | ne glede na to, ali | 15 |
19. jo je | 2.474 | da bi ga | 350 | Zdelo se mu je | 53 | se je in se je | 15 |
20. ki se | 2.452 | da je bil | 348 | mi je zdelo, da | 47 | se je zdelo, da se | 15 |
21. se mu | 2.377 | ki je bila | 335 | Zdelo se je, da | 47 | se ji je zdelo, da | 15 |
22. sem se | 2.269 | da so se | 315 | in ko se je | 46 | so se odprla vrata in | 15 |
23. da so | 2.254 | da bi bil | 311 | se mi zdi, da | 46 | se mi je, da sem | 14 |
24. ni bilo | 2.246 | se je zgodilo | 299 | ne da bi bil | 45 | tistega, ki me je poslal | 14 |
25. ne bi | 2.043 | ki so ga | 299 | zdi se mi, da | 45 | zdelo se mi je, da | 14 |
26. pa se | 1.959 | je, da je | 296 | zdelo se mu je | 44 | Zdelo se je, da je | 13 |
27. in je | 1.880 | so se mu | 295 | Bouvard in Pécuchet sta | 43 | je bilo jasno, da je | 12 |
28. me je | 1.783 | ki mu je | 287 | je bilo, da je | 43 | je prišlo na misel, da | 12 |
29. so bili | 1.778 | pa je bil | 278 | ki mu je bilo | 43 | ne da bi se bil | 12 |
30. jih je | 1.763 | se je na | 273 | potem pa se je | 42 | je bil prepričan, da je | 11 |
31. ji je | 1.742 | da ne bi | 272 | je, da se je | 41 | je zdelo, da se je | 11 |
32. je rekel | 1.740 | da ga je | 272 | se je in je | 41 | ki so bili z njim | 11 |
33. si je | 1.685 | da se ne | 268 | da bi se bil | 40 | se ji je zazdelo, da | 11 |
34. je, da | 1.659 | se je, da | 258 | pa se mu je | 40 | se ji je, da je | 11 |
35. ne bo | 1.639 | mu je bilo | 254 | mu je zdelo, da | 39 | se mu je zazdelo, da | 11 |
36. je že | 1.575 | ki so bili | 244 | da se mi je | 38 | tri dni in tri noči | 11 |
37. se ne | 1.567 | da se bo | 239 | se ji je, da | 37 | Zazdelo se mu je, da | 11 |
38. se mi | 1.528 | je bil v | 239 | kar se je zgodilo | 36 | da je vse v redu | 10 |
39. ki ga | 1.462 | ne bi bilo | 233 | ki ga je bil | 36 | je prijel za roko in | 10 |
40. je na | 1.447 | se je bil | 233 | iz dneva v dan | 35 | je zgodilo, da se je | 10 |
41. so ga | 1.402 | se je že | 232 | je bilo jasno, da | 35 | milost vam in mir od | 10 |
42. sta se | 1.387 | je bilo treba | 228 | je bil prepričan, da | 34 | ne da bi pri tem | 10 |
43. je še | 1.386 | da je to | 226 | ki si ga je | 34 | ne da bi se bila | 10 |
44. je to | 1.336 | pa so se | 224 | prišlo na misel, da | 34 | okna v zidovih in stenah | 10 |
45. in ga | 1.334 | je bilo v | 221 | se ji je zdelo | 34 | se je odločil, da bo | 10 |
46. in da | 1.297 | je, da se | 216 | je v tem, da | 33 | se je zgodilo, da se | 10 |
47. pa so | 1.292 | da mu je | 216 | je, da bi se | 33 | zdelo se ji je, da | 10 |
48. To je | 1.269 | pa je bilo | 211 | ne glede na to | 33 | Čez nekaj časa se je | 9 |
49. da sem | 1.225 | in da je | 207 | s tem, da je | 33 | ga je obudil od mrtvih | 9 |
50. kar je | 1.214 | ki so jih | 207 | vse, kar je bilo | 33 | in mir od Boga, našega | 9 |
2 | 3 | 4 | 5 | ||||
1. se je | 4.327 | ki se je | 265 | se je popraskal kmet | 46 | kajpak,<< se je popraskal kmet | 36 |
2. in se | 1.563 | pa se je | 261 | kajpak,<< se je popraskal | 45 | kaj hočemo, je že tako | 22 |
3. je bil | 1.004 | da bi se | 211 | ne da bi se | 38 | ne da bi se ozrl | 19 |
4. pa je | 977 | se mu je | 184 | je rekel Peter Majcen | 32 | in rdečega vina, temnih gozdov | 14 |
5. da je | 935 | da se je | 176 | Peter Majcen se je | 30 | rdečega vina, temnih gozdov in | 14 |
6. da bi | 929 | kakor bi se | 139 | se je obrnil k | 28 | temnih gozdov in zelenega morja | 14 |
7. ki je | 876 | ki je bil | 122 | nato pa se je | 27 | vina, temnih gozdov in zelenega | 14 |
8. ga je | 759 | se je v | 105 | hočemo, je že tako | 26 | sonca in rdečega vina, temnih | 13 |
9. so se | 732 | ki ga je | 93 | zmajal z glavo in | 26 | zlatega sonca in rdečega vina | 13 |
10. je bilo | 712 | ker se je | 91 | je zmajal z glavo | 24 | je zmajal z glavo in | 12 |
11. mu je | 701 | ki so se | 84 | kaj hočemo, je že | 22 | je rekel Peter Majcen in | 11 |
12. je bila | 696 | ki je bila | 80 | in se zamaknil v | 21 | ker se je bal, da | 10 |
13. kakor bi | 655 | ko se je | 80 | je ponovil Matic in | 21 | smrt, moj hramček bo zaprt | 10 |
14. da se | 609 | ne da bi | 73 | to se pravi, da | 21 | bo bridka smrt, moj hramček | 9 |
15. bi se | 574 | se je na | 71 | da bi se ozrl | 20 | bridka smrt, moj hramček bo | 9 |
16. pa se | 464 | zmajal z glavo | 69 | da se mu je | 19 | se mu je zdelo, da | 9 |
17. ki so | 456 | se mi je | 69 | zamahnil z roko in | 19 | s svojimi velikimi, nejasnimi | |
18. je v | 453 | da bi ga | 66 | je zamahnil z roko | 17 | očmi | 8 |
19. ki se | 453 | nato pa je | 64 | se je zdrznil in | 16 | se mu je zazdelo, da | 8 |
20. sem se | 451 | z glavo in | 63 | ki se je v | 15 | dvignil kazalec, da bi si | 7 |
21. se mu | 437 | zamahnil z roko | 63 | od hiše do hiše | 15 | in vse je kazalo, da | 7 |
22. je rekel | 423 | se je spet | 63 | rekel Peter Majcen in | 15 | je zamahnil z roko in | 7 |
23. in ga | 395 | so se mu | 63 | gozdov in zelenega morja | 14 | je zmajala z glavo in | 7 |
24. je že | 353 | da ne bi | 62 | in rdečega vina, temnih | 14 | je-e sonce, na zemljici mraz | 7 |
25. ne bi | 349 | se je popraskal | 61 | in zamahnil z roko | 14 | kakor bi smrt švignila mimo | 7 |
26. si je | 321 | se je in | 58 | kako bi se reklo | 14 | nebu je-e sonce, na zemljici | 7 |
27. jo je | 310 | ki jo je | 54 | Peter Majcen in se | 14 | zmajal z glavo in se | 7 |
28. ker je | 303 | da mu je | 53 | potem pa se je | 14 | in spomnila se je, kako | 6 |
29. ne bo | 292 | da se bo | 53 | rdečega vina, temnih | in vsi so za vas | 6 | |
30. mi je | 279 | da je bil | 52 | gozdov | 14 | ja-az zvonce in vsi so | 6 |
31. je še | 272 | se je oglasil | 52 | se je ozrl v | 14 | je ponovil Matic in dvignil | 6 |
32. so ga | 272 | ki jih je | 50 | se mu je zdelo | 14 | ne da bi se ozrla | 6 |
33. Peter | je, da je | 49 | temnih gozdov in zelenega | 14 | se je bal, da bo | 6 | |
Majcen | 270 | se je obrnil | 49 | vina, temnih gozdov in | 14 | udaril s pestjo po mizi | 6 |
34. je z | 249 | to se pravi | 48 | ker se mu je | 13 | zaradi tega, ker se je | 6 |
35. ter se | 246 | ker je bil | 48 | sonca in rdečega vina | 13 | zvonce in vsi so za | 6 |
36. je rekla | 245 | Peter Majcen je | 47 | zlatega sonca in rdečega | 13 | bi si zapomnil ta ukaz | 5 |
37. me je | 244 | kajpak,<< se je | 47 | k njemu in ga | 12 | če je moje okno še | 5 |
38. ko je | 243 | je popraskal | k njemu in mu | 12 | da bi se ozrl v | 5 | |
39. ni bilo | 241 | kmet | 46 | kakor bi se mu | 12 | da bi si zapomnil ta | 5 |
40. je na | 241 | z obema rokama | 46 | kakor šiba na vodi | 12 | imam in ta bo prava | 5 |
41. da so | 229 | potem pa je | 46 | se je bal, da | 12 | in sam ni vedel, kdaj | 5 |
42. in jo | 224 | se je še | 45 | se je nasmehnil in | 12 | in se ozrl okrog sebe | 5 |
43. in si | 221 | se je vrnil | 45 | se mi je, da | 12 | in še ena, pa je | 5 |
44. je s | 214 | da se mu | 44 | se mu je, da | 12 | in zdelo se mi je | 5 |
45. jih je | 212 | mu je bilo | 44 | z glavo in se | 12 | je lase s čela in | 5 |
46. je tako | 207 | se je bil | 43 | in se ozrl po | 11 | je moje okno še zaprto | 5 |
47. je spet | 206 | da bi si | 43 | in se ozrl v | 11 | kakor bi se bala, da | 5 |
48. se ni | 206 | in se obrnil | 42 | je prikimal Peter Majcen | 11 | kakor bi se bal, da | 5 |
49. da bo | 206 | kakor bi ga | 42 | lase s čela in | 11 | kazalec, da bi si zapomnil | 5 |
50. se ne | 205 | ki mu je | 42 | zmajala z glavo in | 11 | ker se mu je zdelo | 5 |
1 | 2 | 3 | 4 | ||||
1. In | 5.034 | Ko je | 1.157 | Ko se je | 356 | Zdelo se mi je, | 48 |
2. V | 4.019 | To je | 850 | Potem se je | 130 | Zdelo se je, da | 47 |
3. Ko | 3.844 | Ko se | 508 | To je bilo | 111 | Zdelo se mu je, | 43 |
4. Na | 2.279 | Bil je | 485 | Tedaj se je | 105 | Bouvard in Pécuchet sta | 39 |
5. Ali | 2.077 | Ko so | 417 | Ko so se | 90 | Zdi se mi, da | 35 |
6. Če | 1.999 | Tako je | 417 | Tako se je | 90 | In tako se je | 28 |
7. To | 1.989 | >>To je | 402 | To je bil | 87 | Jezus jim je odgovoril: | 24 |
8. Tako | 1.639 | Ko sem | 384 | In ko je | 85 | Po teh besedah je | 24 |
9. Toda | 1.512 | >>Kaj pa | 305 | Ko pa je | 85 | Videti je bilo, da | 22 |
10. Tudi | 1.463 | Potem je | 294 | Ko sem se | 74 | Zdelo se ji je, | 22 |
11. >>Kaj | 1.455 | Če bi | 287 | Ko je bil | 67 | >>Zdi se mi, da | 22 |
12. Po | 1.361 | Bilo je | 281 | Zdelo se je, | 63 | Tedaj pa se je | 18 |
13. Z | 1.219 | Bila je | 272 | >>Kaj pa je | 61 | >>Kaj pa je to?<< | 18 |
14. Kaj | 1.216 | Tedaj je | 241 | Nato se je | 58 | Ne da bi se | 17 |
15. Potem | 1.214 | Zdelo se | 217 | Zdelo se mi | 56 | Čez nekaj časa se | 16 |
16. Ne | 1.163 | In ko | 214 | To je bila | 55 | Ko pa se je | 16 |
17. Za | 1.113 | Nato je | 214 | Veronika se je | 53 | On pa jim je | 16 |
18. Pa | 1.056 | Potem se | 211 | Zdelo se mu | 53 | Tu in tam je | 16 |
19. >>In | 1.055 | V tem | 210 | Ne da bi | 51 | In ko se je | 15 |
20. >>Ne | 1.040 | Če je | 208 | In tako je | 49 | Od časa do časa | 15 |
21. >>Ali | 949 | In če | 194 | Potem pa je | 45 | Če ne bi bilo | 14 |
22. S | 911 | Ko pa | 190 | Bouvard in Pécuchet | 44 | In tedaj se je | 14 |
23. Ta | 904 | Če pa | 187 | Phileas Fogg je | 44 | Pri tem se je | 14 |
24. Še | 891 | Ker je | 185 | Tu in tam | 44 | Jezus pa jim je | 13 |
25. Ni | 871 | >>Tako je.<< | 184 | Vse je bilo | 44 | Njen obraz je bil | 13 |
26. >>To | 863 | Da bi | 183 | Obrnil se je | 43 | Obrnil se je k | 13 |
27. A | 847 | In tako | 180 | Po teh besedah | 42 | Res pa je, da | 13 |
28. Vse | 843 | Vsi so | 173 | Čez nekaj časa | 41 | V tem trenutku se | 13 |
29. Pri | 824 | Pri tem | 169 | Medtem ko je | 41 | Njegov glas je bil | 12 |
30. Zdaj | 771 | Če se | 168 | V tem trenutku | 41 | Obrnil se je in | 12 |
31. >>Če | 731 | Vse je | 167 | Zdi se mi, | 41 | Po drugi strani pa | 12 |
32. Zato | 704 | Jaz sem | 165 | Jezus jim je | 40 | Potem pa se je | 12 |
33. Tedaj | 702 | Ali je | 163 | Ker je bil | 40 | Pri teh besedah je | 12 |
34. Saj | 689 | Kaj pa | 160 | Če bi se | 39 | V tistem trenutku se | 12 |
35. Od | 679 | Tako se | 159 | Ko je bilo | 39 | Vendar pa se je | 12 |
36. Kako | 665 | Ko sta | 156 | Kakor da bi | 38 | Vrnil se je v | 12 |
37. Da | 643 | Ko bi | 155 | Zato se je | 38 | Bal se je, da | 11 |
38. Ker | 632 | Tam je | 151 | Ko sta se | 37 | Bilo je, kakor da | 11 |
39. Bil | 621 | Zdaj je | 151 | Nenadoma se je | 37 | Bilo je, kot bi | 11 |
40. Jaz | 613 | Ali pa | 149 | Tako je bilo | 37 | Čez nekaj časa je | 11 |
41. Iz | 604 | Sicer pa | 136 | >>Nič se ne | 37 | Jezus mu je rekel: | 11 |
42. >>Saj | 587 | Bouvard je | 132 | Alena se je | 36 | Kakor da bi se | 11 |
43. Vendar | 577 | Ta je | 131 | Ko je prišel | 36 | Kdor ima ušesa, naj | 11 |
44. Ob | 575 | Pécuchet je | 128 | Pécuchet se je | 36 | Med njimi je bil | 11 |
45. Samo | 572 | Zdaj pa | 128 | Zdaj se je | 36 | Njegov obraz je bil | 11 |
46. Nato | 571 | Tedaj se | 125 | In tako se | 35 | Očitno je bilo, da | 11 |
47. Tam | 564 | Zato je | 125 | Ko ga je | 35 | Zazdelo se mu je, | 11 |
48. Kakor | 563 | Kaj je | 123 | On pa je | 35 | Bilo je, kot da | 10 |
49. >>Tako | 562 | S tem | 121 | V tistem trenutku | 35 | Glede na to, da | 10 |
50. >>Kako | 557 | Potem pa | 117 | Vedel je, da | 35 | Jezus mu je odgovoril: | 10 |
1 | 2 | 3 | 4 | ||||
1. In | 1546 | Ko je | 181 | Ko se je | 88 | >>Hm, kajpak,<< se je | 47 |
2. V | 543 | To je | 136 | Nato se je | 54 | Peter Majcen se je | 30 |
3. Ko | 520 | Bil je | 120 | Peter Majcen je | 47 | Prekleta strešnica se je | 11 |
4. Toda | 475 | Nato je | 110 | >>Hm, kajpak,<< se | 47 | Raus e patacis, repa | 10 |
5. Nato | 367 | Ko se | 102 | In tako je | 31 | Spomnila se je, kako | 10 |
6. Saj | 349 | Tako je | 97 | Peter Majcen se | 30 | V tem trenutku se | 9 |
7. Na | 333 | Peter Majcen | 87 | Potem se je | 26 | >>Prišla bo bridka smrt, | 9 |
8. >>In | 304 | Nato se | 85 | V tem trenutku | 25 | Nanca in Kati sta | 8 |
9. To | 298 | >>Kaj pa | 85 | Vse je bilo | 25 | Tedaj pa se je | 8 |
10. Pa | 263 | Potem je | 81 | Ozrl se je | 24 | Ozrl se je v | 7 |
11. Zdaj | 258 | In tako | 73 | Martin se je | 23 | >>Na-a nebu je-e sonce, | 7 |
12. A | 256 | Ko so | 66 | Venc se je | 23 | >>Pa kaj hočemo, je | 7 |
13. Tako | 246 | Vse je | 63 | To je bil | 18 | >>Raus e patacis, repa | 7 |
14. Potem | 233 | Zdaj je | 56 | Matic se je | 17 | In tako se je | 6 |
15. Tudi | 233 | Saj je | 55 | Nato si je | 17 | Ko se je Žef | 6 |
16. Vse | 227 | Bila je | 54 | Te besede so | 17 | Naslonil se je na | 6 |
17. >>Saj | 226 | Če bi | 51 | Kaj pa je | 16 | Nato pa se je | 6 |
18. >>Ali | 208 | Očka Orel | 50 | Tantadruj se je | 16 | Na-a-biram ja-az zvonce in | 6 |
19. Samo | 197 | Pa tudi | 50 | Zdaj pa je | 16 | Nenadoma pa se je | 6 |
20. Ali | 195 | Bilo je | 47 | >>Kaj pa je | 16 | Pa kaj hočemo, je | 6 |
21. >>Kaj | 185 | In tudi | 47 | Nato pa je | 15 | Potem pa se je | 6 |
22. Če | 181 | Zdaj pa | 47 | Oče se je | 15 | Segel je v žep | 6 |
23. >>No, | 179 | >>Hm, kajpak,<< | 47 | Ozrl sem se | 15 | To pa je bilo | 6 |
24. Kaj | 169 | Kaj pa | 46 | Pob se je | 15 | To se pravi, da | 6 |
25. Še | 164 | Martin je | 46 | Počasi se je | 15 | Travnikarjev stric se je | 6 |
26. Vsi | 162 | Matic je | 46 | Potem pa je | 15 | Zamaknil se je v | 6 |
27. Bil | 144 | Potem pa | 46 | To je bilo | 15 | Zdaj pa se je | 6 |
28. Peter | 143 | In če | 44 | Venček se je | 15 | >>In kaj je bilo | 6 |
29. Z | 142 | In še | 44 | Bilo mu je | 14 | Bilo je, kakor bi | 5 |
30. Po | 141 | In ker | 42 | Peter se je | 14 | In potem se je | 5 |
31. No, | 139 | Temnikar je | 41 | Zdaj se je | 14 | In tako je tudi | 5 |
32. Za | 139 | In zdaj | 40 | In ker je | 13 | Ko pa se je | 5 |
33. Ta | 136 | Sicer pa | 40 | In res je | 13 | Ko se je vrnil | 5 |
34. Sova | 127 | In prav | 38 | In to je | 13 | Ko so prišli do | 5 |
35. S | 125 | Vsi so | 38 | >>V imenu postave, | 13 | Obrnil se je k | 5 |
36. Tam | 121 | In potem | 37 | In da bi | 12 | Ozrl sem se v | 5 |
37. Kar | 118 | Tam je | 36 | Ko pa je | 12 | Tako je bilo tudi | 5 |
38. >>Tantadruj, | 107 | Venček je | 36 | Stopil je k | 12 | Vedel je, da je | 5 |
39. >>Pa | 104 | Moj Jezus | 35 | Tu pa tam | 12 | Vse je kazalo, da | 5 |
40. Ne | 101 | V tem | 35 | Z obema rokama | 12 | Zamaknil sem se v | 5 |
41. Martin | 100 | In to | 34 | In ko je | 11 | Zdelo se mi je, | 5 |
42. Počasi | 95 | Potem se | 34 | Ko sem se | 11 | Zravnal se je in | 5 |
43. Pri | 94 | Žef je | 34 | Ljudje so se | 11 | >>Javolheršturmfirer!<< | |
44. >>To | 93 | >>To je | 34 | Naslonil se je | 11 | je zagrgral Prekleta | 5 |
45. Iz | 92 | Ko sem | 33 | Nemška smrt je | 11 | >>Kaj pa je?<< je | 5 |
46. >>Ne, | 92 | Nato pa | 33 | Otroci so se | 11 | >>Pha!<< je zaničljivo prhnil | 5 |
47. Ob | 90 | Pa saj | 33 | Prekleta strešnica se | 11 | >>Ti si nor!<< je | 5 |
48. Prav | 87 | Stopil je | 33 | Res je, da | 11 | Bilo mu je tako | 4 |
49. Tedaj | 87 | >>Ali je | 33 | Tedaj pa se | 11 | In ker je bil | 4 |
50. >>Ti | 87 | Otroci so | 32 | Temnikarica se je | 11 | In ko se je | 4 |
1 | 2 | 3 | 4 | ||||
1. rekel: | 685 | je rekel: | 290 | mu je rekel: | 66 | Jezus jim je odgovoril: | 24 |
2. je. | 587 | >>Tako je.<< | 184 | jim je rekel: | 62 | kaj se je zgodilo. | 21 |
3. oči. | 500 | in rekel: | 165 | se je zgodilo. | 40 | pa jim je rekel: | 21 |
4. več. | 370 | je rekel. | 142 | in mu rekel: | 38 | pa mu je rekel: | 19 |
5. njim. | 369 | z njim. | 139 | je rekel Bouvard. | 38 | je odvrnil Phileas Fogg. | 15 |
6. ne. | 327 | ni bilo. | 137 | jim je odgovoril: | 36 | ki me je poslal. | 11 |
7. je.<< | 314 | na tla. | 124 | je rekla Alica. | 35 | Jezus mu je rekel: | 11 |
8. glavo. | 298 | za njim. | 114 | je rekel Pécuchet. | 34 | Jezus mu je odgovoril: | 10 |
9. rekel. | 296 | je odgovoril: | 107 | ni bilo več. | 34 | našega Gospoda Jezusa Kristusa. | 9 |
10. naprej. | 277 | na svetu. | 94 | in jim rekel: | 29 | je skomignil z rameni. | 9 |
11. roko. | 256 | s seboj. | 94 | mu je odgovoril: | 27 | - je vzkliknil Passepartout. | 9 |
12. je: | 243 | se je. | 94 | pa je rekel: | 27 | Jezus jim je rekel: | 9 |
13. obraz. | 239 | je rekla. | 90 | Rekel jim je: | 26 | ga ni bilo več. | 8 |
14. bilo. | 236 | v oči. | 85 | na vse strani. | 25 | je dejal Mr. Fogg. | 8 |
15. domov. | 235 | k sebi. | 80 | je dejala Alica. | 24 | iz dneva v dan. | 8 |
16. seboj. | 235 | v obraz. | 76 | je pomislila Alica. | 23 | >>Kaj pa je to?<< | 8 |
17. sebi. | 233 | za njo. | 74 | se je zasmejal. | 23 | svojo smrt in vstajenje | 7 |
18. njo. | 231 | v hišo. | 73 | je rekel Winston. | 22 | in Gospoda Jezusa Kristusa. | 7 |
19. dejal: | 223 | z njo. | 72 | Gospoda Jezusa Kristusa. | 21 | je vprašal Mr. Fogg. | 7 |
20. reče: | 215 | je bilo. | 68 | Odgovoril jim je: | 21 | ki je v nebesih. | 7 |
21. nazaj. | 213 | k njemu. | 68 | gor in dol. | 20 | kar se je zgodilo. | 7 |
22. dan. | 206 | in dejal: | 67 | je rekla Martina. | 20 | ni bilo od nikoder. | 7 |
23. sebe. | 205 | reče Orten. | 67 | je rekla Veronika. | 20 | pa jim je odgovoril: | 7 |
24. tla. | 202 | sem rekel. | 66 | ni bilo nikjer. | 20 | je rekel svojim učencem: | 7 |
25. ni. | 200 | z njimi. | 64 | je rekel O'Brien. | 19 | >>V tem imaš prav.<< | 7 |
26. se. | 197 | in rekla: | 60 | po vsem telesu. | 19 | >>Kaj misliš s tem?<< | 7 |
27. življenje. | 194 | je bil. | 60 | se je nasmehnil. | 19 | vam, pismouki in farizeji! | 6 |
28. svetu. | 192 | z glavo. | 60 | >>Kako to misliš?<< | 19 | pri cerkvi sv. Jakoba. | 6 |
29. >>Da.<< | 191 | ali ne?<< | 58 | in tako naprej. | 18 | je dejala Rdeča kraljica. | 6 |
30. ljudi. | 188 | reče Podol. | 58 | >>Tako se zdi.<< | 18 | ne duha ne sluha. | 6 |
31. rekla: | 188 | jim je: | 57 | je rekel Ray. | 17 | od dne do dne. | 6 |
32. Alica. | 187 | je vprašal. | 56 | kakor je pisano: | 17 | je bilo vse tiho. | 6 |
33. drugega. | 186 | ali ne. | 54 | mi je rekel: | 17 | je vse v redu. | 6 |
34. strani. | 185 | je dejal: | 53 | odvrnil Phileas Fogg. | 17 | je rekel Krilati lev. | 6 |
35. njega. | 184 | po sobi. | 52 | in ga vprašal: | 16 | na področju osebnih računalnikov. | 6 |
36. let. | 183 | je rekla: | 51 | na drugo stran. | 16 | - je odvrnil Fix. | 6 |
37. ne?<< | 183 | po tleh. | 51 | na ves glas. | 16 | je rekel Mali Miklavž. | 6 |
38. sam. | 181 | v roki. | 51 | sam pri sebi. | 16 | in jim je rekel: | 6 |
39. nič. | 179 | rekla Alica. | 49 | sam s seboj. | 16 | pa mu je odgovoril: | 6 |
40. srce. | 173 | v njem. | 49 | sem si rekel. | 16 | junij '91, Novo mesto | 5 |
41. pot. | 170 | za seboj. | 49 | so ga vprašali: | 16 | si je rekla Veronika. | 5 |
42. glas. | 169 | iz sobe. | 48 | je vprašala Alica. | 15 | Vrata so se odprla. | 5 |
43. roke. | 169 | pri sebi. | 48 | se je nasmehnila. | 15 | Veronika,<< je rekla Martina. | 5 |
44. doma. | 165 | z menoj. | 48 | v svojo sobo. | 15 | jih ni bilo več. | 5 |
45. besede. | 164 | za to. | 47 | vse v redu. | 15 | in se ne gane. | 5 |
46. hišo. | 159 | na dan. | 46 | in mu rekli: | 14 | to je bilo vse. | 5 |
47. meni. | 159 | pred njim. | 46 | je rekel Timmy. | 14 | od nog do glave. | 5 |
48. njem. | 156 | v sobo. | 46 | sem ter tja. | 14 | je dejal Phileas Fogg. | 5 |
49. noč. | 155 | z rameni. | 45 | drug v drugega. | 13 | je odvrnil Mr. Fogg. | 5 |
50. vprašal. | 154 | je zgodilo. | 44 | je vprašala Anica. | 13 | od glave do nog. | 5 |
1 | 2 | 3 | 4 | ||||
1. oči. | 170 | Peter Majcen. | 79 | je popraskal kmet. | 40 | se je popraskal kmet. | 40 |
2. je. | 155 | za njim. | 58 | zamahnil z roko. | 33 | hočemo, je že tako! | 18 |
3. glavo. | 147 | z glavo. | 55 | zmajal z glavo. | 26 | je rekel Peter Majcen. | 17 |
4. njim. | 123 | z roko. | 45 | je že tako! | 19 | in zamahnil z roko. | 11 |
5. rekel. | 114 | je rekel. | 44 | rekel Peter Majcen. | 19 | patacis, repa in krompir! | 11 |
6. rekel: | 112 | popraskal kmet. | 40 | in se obrnil. | 15 | gozdov in zelenega morja. | 10 |
7. roko. | 106 | sem rekel. | 38 | in tako dalje. | 14 | kakor šiba na vodi. | 10 |
8. naprej. | 90 | k sebi. | 35 | in se zamislil. | 13 | kajpak,<< se je popraskal. | 9 |
9. več. | 84 | na tla. | 35 | in zaprl oči. | 13 | moj hramček bo zaprt Q | 9 |
10. ni. | 84 | je rekla. | 33 | kakor se reče. | 12 | da bi se ozrl. | 8 |
11. Majcen. | 79 | k njemu. | 33 | se je popraskal. | 12 | je prikimal Peter Majcen. | 8 |
12. vprašal. | 73 | in rekel: | 32 | repa in krompir! | 11 | je zamahnil z roko. | 7 |
13. roke. | 71 | je vprašal. | 29 | se je vprašal. | 11 | je vprašal Peter Majcen. | 6 |
14. vanj. | 68 | okrog sebe. | 28 | in zelenega morja. | 10 | je zmajal z glavo. | 6 |
15. vrata. | 67 | se je. | 28 | ozrl okrog sebe. | 10 | kakor bi hotel reči: | 6 |
16. očmi. | 63 | z njim. | 28 | šiba na vodi. | 10 | kakor griva divjega konja. | 6 |
17. ne. | 63 | iz hiše. | 27 | vrata za sabo. | 10 | sonce, na zemljici mraz. | 6 |
18. teta. | 63 | v hišo. | 26 | ga je prešinilo. | 9 | svojimi velikimi, nejasnimi očmi. | 6 |
19. hišo. | 62 | v izbo. | 25 | hramček bo zaprt Q | 9 | bi smrt švignila mimo. | 5 |
20. otrok. | 61 | v oči. | 25 | in se nasmehnil. | 9 | da bi se ozrla. | 5 |
21. dan. | 59 | v dolino. | 24 | je rekel kamen. | 9 | in zmajal z glavo. | 5 |
22. oče. | 59 | na noge. | 23 | je rekla teta. | 9 | in zmaje z glavo. | 5 |
23. sebe. | 59 | sem vprašal. | 23 | Tako je to! | 9 | iz kota v kot. | 5 |
24. rekla: | 58 | v kuhinjo. | 23 | zmignil z rameni. | 9 | je pomislil Peter Majcen. | 5 |
25. obraz. | 58 | in rekla: | 22 | bi se ozrl. | 8 | kakor oči divje živali. | 5 |
26. hiše. | 57 | na cesto. | 22 | je rekel macesen. | 8 | moje okno še zaprto. | 5 |
27. kmet. | 56 | ni več. | 21 | Matic Enaka Palica. | 8 | od hiše do hiše. | 5 |
28. mama. | 55 | in šel. | 20 | prikimal Peter Majcen. | 8 | ponovil Matic Enaka Palica. | 5 |
29. domov. | 53 | na mizo. | 20 | velikimi, nejasnimi očmi. | 8 | s pestjo po mizi. | 5 |
30. doma. | 53 | ni bilo. | 20 | vprašal Peter Majcen. | 8 | si zapomnil ta ukaz. | 5 |
31. sebi. | 51 | z rameni. | 20 | zmaje z glavo. | 8 | svoje debele, solzave oči. | 5 |
32. besede. | 50 | k njej. | 19 | in zaprla oči. | 7 | vsi so za vas. | 5 |
33. tla. | 50 | pred njim. | 19 | je zagrmel Luka. | 7 | zaprl vrata za sabo. | 5 |
34. pob. | 49 | proti vratom. | 19 | naravnost v oči. | 7 | ga je prekinil pob. | 4 |
35. vprašal: | 49 | v njem. | 19 | pomislil Peter Majcen. | 7 | in glasno požrl slino. | 4 |
36. vasi. | 49 | v obraz. | 19 | z obema rokama. | 7 | in ta bo prava! | 4 |
37. njej. | 48 | in vstal. | 18 | zapomnil ta ukaz. | 7 | je zaničljivo prhnil Furlan. | 4 |
38. glas. | 48 | očka Orel. | 18 | zmajala z glavo. | 7 | ne bele ne črne. | 4 |
39. mizo. | 47 | v vodo. | 18 | >>Kaj pa je?<< | 7 | opotekel, a padel ni. | 4 |
40. stric. | 44 | k mizi. | 17 | bi hotel reči: | 6 | otrpnili na poraščeni bradi. | 4 |
41. glasom: | 44 | po dolini. | 17 | griva divjega konja. | 6 | pritajeno drsi skozi veje. | 4 |
42. Martin. | 44 | >>Hm, kajpak Q | 17 | je ponovil Matic. | 6 | se bo Krist rodil. | 4 |
43. noge. | 43 | in dejal: | 16 | je prikimal Hotejec. | 6 | se ozrl okrog sebe. | 4 |
44. njem. | 43 | in vprašal: | 16 | je rekel oče. | 6 | žalostno zmajal z glavo. | 4 |
45. je! | 43 | pri srcu. | 16 | je rekla jelka. | 6 | in čakali, kaj bo. | 3 |
46. Luka. | 42 | se ozrl. | 16 | je rekla mama. | 6 | iz čistega srebra ulit. | 3 |
47. rekla. | 42 | Travnikarjev stric. | 16 | je vprašal pob. | 6 | je bilo že prepozno. | 3 |
48. hiši. | 41 | za njo. | 16 | Mar ni res? | 6 | je obdržal na nogah. | 3 |
49. njemu. | 41 | o tem. | 15 | na vse grlo: | 6 | je pribil Peter Majcen. | 3 |
50. življenje. | 40 | se nasmehnil. | 15 | na zemljici mraz. | 6 | je prikimal stari mornar. | 3 |
Poleg najpogostejših n-terčkov besed kjer koli v povedih je zanimivo še, s kakšnimi besednimi n-terčki oziroma frazami se povedi najpogosteje začnejo in končajo. V tabelah 49 in 50 so navedeni najpogostejši n-terčki na začetkih povedi v prvem in v drugem vzorcu, v tabelah 51 in 52, vse na prejšnjih straneh, pa na koncih povedi za oba vzorca.
Ker je povedi veliko manj kot besed, so manjše tudi frekvence v tabelah od 49 do 52. V tabeli 49, ki se nanaša na začetke povedi in na prvi vzorec, je videti zelo zanimivo strukturo pri enojčkih. Na začetkih povedi najpogosteje najdemo kratke besede, predvsem veznike, predloge in členke. Skoraj polovica (24) jih je dolgih 2 črki ali manj, tri četrtine 3 črke ali manj in le ena beseda, vendar, je dolga 6 črk. Morda malo presenetljivo je odločno na prvem mestu, v drugem vzorcu še veliko bolj, veznik in, ki smo ga sicer vajeni sredi povedi. V celi tabeli 49 najdemo le 12 konkretnih n-terčkov med 200, od katerih jih 11 izvira iz prevodov in le 1 iz izvirnega leposlovja (Veronika se je). Na začetkih povedi se oba vzorca tudi precej dobro ujemata - pri enojčkih je istih 78 %, pri dvojčkih 52 %, pri trojčkih 28 %, pri trojčkih pa le še 14 % ali 7 (In ko se je, In tako se je, Ko pa se je, Obrnil se je k, Potem pa se je, Tedaj pa se je, V tem trenutku se in Zdelo se mi je).
Morda še bolj zanimivi so besedni n-terčki na koncih povedi, ki jih najdemo v tabelah 51 in 52. V nasprotju z začetki povedi tu pri enojčkih najdemo skoraj izključno samostalnike, glagole in zaimke. Če odštejemo ločilo na koncu povedi in navednice premega govora, je v obeh vzorcih na prvem mestu glagolski deležnik rekel, značilen predhodnik povedi s premim govorom, na drugem mestu glagol je, na tretjem mestu pa prvi samostalnik, oči. Pri četrtem mestu se vzorca razideta. Ujemanje je pri enojčkih 52 %, pri dvojčkih 44 %, pri trojčkih in četvorčkih pa ni niti enega, ki bi nastopal med najpogostejšimi 50 v obeh vzorcih. Če pogledamo trojčke prvega vzorca, hitro tudi postane jasno, zakaj. Med njimi jih je namreč kar 14 ali več kot četrtina tipa je rekel Ime: je dejala Alica. je vprašala Alica. je pomislila Alica. je rekla Alica. je vprašala Anica. je rekla Veronika. je rekla Martina. je rekel Bouvard. odvrnil Phileas Fogg. je rekel O'Brien. je rekel Winston. je rekel Pécuchet. je rekel Ray. in je rekel Timmy. Vsi ti n-terčki so seveda konkretni, takoj jih lahko postavimo v konkretno knjigo in v veliki večini spet izvirajo iz prevodov.
Besedni n-terčki na koncih povedi imajo tudi večjo entropijo od tistih na začetku - v prvem vzorcu ima najpogostejši enojček na začetkih (In) relativno frekvenco 3,02 %, na koncih (rekel) pa le 0,49 %. Razporeditev n-terčkov besed na začetkih, še bolj pa na koncih povedi bi utegnila biti zanimiva za ugotavljanje avtorstva.
Povedi so, v nasprotju s črkami in besedami, že zaključene enote besedila. Njihova struktura in raznovrstnost ločita besedila med seboj po kvaliteti in tudi drugače. Zato bi bila kvantitativna raziskava povedi, še posebno v oblikoslovno označenem besedilu, zelo zanimivo in hvaležno opravilo. Žal pa je preskok od besed k povedim še večji od tistega s črk na besede in bi bil za tako raziskavo, kakršna je bila še možna pri besedah, potreben bistveno, vsaj za velikostni razred večji vzorec. Nekaj o povedih je bilo že navedenega v razdelku o besednih n-terčkih, sledi pa še nekaj podatkov o dolžinah povedi in o najpogostejših povedih.
Iz dolžin povedi se da razbrati marsikaj o zvrsti besedila: besedila s kratkimi povedmi so bolj tekoča in lažje berljiva od tistih z dolgimi, dolžine povedi pa veliko povedo tudi o avtorjevem stilu. V tabeli 53 so navedene dolžine povedi za oba vzorca, v besedah.
Tabela 53: Dolžine povedi za oba vzorca v besedah
najmanjša | največja | povprečna | standardni | ||
povedi | dolžina | dolžina | dolžina | odklon | |
Prvi vzorec | 201.445 | 1 | 1.002 | 13,51 | 11,86 |
Drugi vzorec | 37.459 | 1 | 284 | 10,91 | 9,51 |
Skupaj | 238.904 | 1 | 1.002 | 13,10 | 11,56 |
Povprečne dolžine v znakih so 77 za prvi vzorec, 60 za drugi in 75 za oba skupaj. Najdaljša poved v prvem je dolga 6.035 znakov, v drugem pa 1.836. Standardni odklon je bil dodan zaradi zelo velikih razlik med povprečnimi in največjimi dolžinami. Ker je ta odklon v vseh treh primerih skoraj tako velik kot aritmetična sredina, so porazdelitve daleč od normalne. Porazdelitev dolžin za oba vzorca skupaj je na sliki 16. Najbolj pade v oči, da je močno asimetrična v levo. Največ povedi, po približno 6 % celote, je dolgih od 4 do 7 besed, z vrhom pri 5. Porazdelitev se strmo dvigne od skoraj 3 % pri eno besedo dolgih povedih do vrha pri dolžini 5, potem pa vse počasneje pada proti koncu. Aritmetična sredina pri 13 besedah je že precej naprej od vrha.
Na sliki 17 sta prikazani porazdelitvi za vsak vzorec posebej. Stolpci prvega vzorca so označeni s črno barvo, drugega pa z belo. Vrh je pri obeh vzorcih ostal, kjer je bil tudi pri skupnem besedilu (5), opaziti pa je znatno prevlado kratkih povedi v drugem vzorcu, do vključno dolžine 8.
Slika 16: Porazdelitev dolžin povedi v besedah za oba vzorca skupaj
Največ povedi, po več kot 7 %, je dolgih 4, 5 in 6 besed, zelo veliko, bistveno več kot pri prvem vzorcu pa je tudi zelo kratkih povedi, z dolžino 1, 2 in 3. Očitno je v drugem vzorcu veliko več premega govora, kar lahko preverimo s pomočjo podatkov o premem govoru v tabelah 29 in 30. V prvem vzorcu je 45.887 pojavitev oznak za začetek in konec premega govora, v drugem vzorcu pa 10.353. V prvem pride torej 4,39 povedi na en premi govor, v drugem vzorcu pa le 3,62.
Slika 17: Porazdelitev dolžin povedi v besedah za vsak vzorec posebej
Najkrajše povedi so lepo razvidne iz tabel 57 in 58 v naslednjem razdelku, po 5 najdaljših povedi za oba vzorca pa je navedenih v tabelah 54 in 55. V prvem vzorcu je vseh 5 iz istega dela - Zmot dijaka Tjaža Florjana Lipuša, v drugem vzorcu pa so 1., 3. in 5. med najdaljšimi povedmi iz Hiše št. 14, 2. iz Balade o trobenti in oblaku, 4. pa iz Življenja in dela Venca Poviškaja.
Tabela 54: Najdaljših 5 povedi iz prvega vzorca1. (1002 besedi) Brez rjuh se odeje doma ne smejo uporabljati, med spanjem mora biti blazina obrnjena, da se le ne umaže ali preveč izrabi, bi moral vsakdo imeti med blazino in rjuho, lastno odejo ali kaj podobnega, prvi torek v mesecu mora vsak pustiti rjuhe na postelji, prevleke pa mora vsak sneti z zglavnika zastran menjave, če so rjuhe popackane zaradi nočnih izlivov semena, je treba taka mesta skriti na ljubo nunam, ki pobirajo rjuhe, v kopalnicah je treba že pred slačenjem vsakikrat previdno uporabiti plastično zaveso, poleg tega prha ne sme biti preveč in predolgo odprta, da se voda ne trati, če se je kaj vode razlilo, jo mora vsak takoj obrisati s cunjo, po kopanju je treba pustiti kopalnico tako snažno, kakor bi jo hotel najti vsak, zato jo je treba osnažiti z gobo ali metlico in paziti, da ne ostane odtok zamašen z lasmi, isto pravilo mora veljati tudi v straniščih, da se le-ta ne zamašijo, se smejo riti brisati le s toaletnim papirjem, za odpiranje hlačnega razporka je treba uporabljati levo roko, tisto reč je treba izvleči in držati s tremi prsti levice, curek je treba usmeriti v školjko in pri tem paziti, da se ne razpršuje, zadnje kaplje je treba otresti z roko, na tleh ne sme biti ne koščka papirja in ne kapljice vode, med scanjem naj bo pogled uprt naprej, torej pokončno, naravnost, zavodar je naraven in pokončen človek, še vedno smo pri dobesednem navajanju, obiskovanje stranišč in kopalnic je treba vključiti v vsakodnevno izpraševanje vesti, ker so dijaki tu najbolj izpostavljeni nečistosti, izpraševanje vesti mora potekati po določenem izpraševalnem pravilniku: se nečisto slačil, dotikal, opazoval, gledal, kupoval, daroval v nesramne namene, nesramno pisal ali risal ali hotel nesramno pisati in risati, nesramno govoril, pel, pripovedoval, se smejal, mežikal, namigoval, poslušal, vohal, k nesramnosti spodbujal, dajal povod, svojega bližnjega ne odvračal od nje, se ji ne javno uprl, nečisto mislil, želel, hrepenel, si predstavljal, delal ali tudi samo hotel nečisto misliti, govoriti, peti, pripovedovati, se smejati, želeti, hrepeneti, si predstavljati, pogledovati, mežikati, namigovati, poslušati, vohati, k nesramnosti spodbujati, dajati povod, svojega bližnjega ne odvračati od nje, se ji ne javno upreti, nečistovati, sam ali z drugimi, s kom, s fantom ali deklico, s kakim starim fantom in kako mlado deklico, fantom ali deklico kakšnega rodu, premožnega ali revnega stanu, je uspelo, ni uspelo, kolikokrat in kako pogosto, kako dolgo vsega skupaj in kako dolgo posamič, in tako naprej, zapomni si: kar je za čistočo in telesno zdravje potrebno, to je tudi dovoljeno, vse, kar se s tvojim telesom dogodi, ne da bi bil to sam hotel ali sam zakrivil, vse to ni greh, temveč božja volja, vidiš taka je božja volja, bog te je iz svoje neskončne milosti ustvaril takega, izkaži se vrednega tega, posnemaj dobre zglede, ugašaj luč, luč ne sme nikjer goreti brez potrebe, kaditi je prepovedano, tudi odraslim ni dovoljeno kaditi, ker gre dim v kapelo in Jezus ne prenese kajenja, ako je v kapeli služba božja, naj je nihče ne moti z glasnim govorjenjem, če se sliši na hodnike zborovsko petje, petje korala, odpevov, ljudsko petje in tako dalje, ga je treba spoštljivo poslušati, služba božja je božja služba, v dvorani je televizor vključen navadno od pol osmih do desetih, pomembne oddaje izven tega časa bodo oznanjene na oglasni deski, tam, kjer je nabito tudi oznanilo tedenskih božjih služb, torej red svetih maš, televizorja se ne sme dotikati nihče razen tistega, ki je za dotikanje pooblaščen, časa za gledanje televizije ne bo na pretek, vsak stanovalec doma je dolžan prispevati nekaj svojega prostega časa za skupne potrebe, poleti na primer nabiranje črnic po farovških gozdovih v soseščini, doma je treba obirati sadje, ki ga stiskamo in sok prodamo, da se z izkupičkom more znižati zavodnina, vsak je dolžan nabrati določeno količino teh sadežev za skupnost, kdor bo nabral več, bo javno pohvaljen in nabit na oglasni deski, pri nabiranju mora vladati red, pred očmi je treba imeti občo blaginjo, nabirati je treba vzorno in marljivo, več kot sto metrov se nihče ne sme oddaljiti od zbiralnega tovornjaka, kajti zgodilo se je že, da so se nekateri preveč oddaljili, izginili v grmovju in podraščeni, se tam slekli ali pa tudi ne in kar tako občevali v črničju, ali pa so drug drugemu segali v hlačne žepe in se šlatali, dokler ni prišlo, to je seve prepovedano in zdravju škodljivo, zato bo upoštevanje teh navodil strogo nadzorovano, kajti marsikatera ženska zaman čaka na izliv semena, tu pa igračkanje in potrata, to ne gre več, vodstvo doma tega ne bo trpelo več, zato tisto določilo o sto metrih, to mora zadostovati, poleti črnice, kot smo rekli, jeseni pa pobiramo krompir pri večjih okoliških kmetih, če imajo kmetje hčere ali druge nastavljenke, pobirajo te na drugi njivi ali ob drugem času, zato kmetje dajo domu zastonj nekaj stotov krompirja, za kmete je treba moliti, da jim bog da dobro letino, kadar pobiramo krompir na grofovskih poljih, je treba pobirati urno in natančno, misliti je treba na to, da se pri gospodu grofu zapusti dober vtis, grof je ugleden gospod in ima vpliv, počasi prihajamo h koncu dobesednega navajanja hišnega reda, kdor se pregreši proti hišnemu redu, pa četudi samo proti eni sami določbi, dobi za kazensko nalogo spis pod naslovom >>Krščanske vrline hišnega reda<<, kdor je tak spis že pisal in se vnovič pregreši ter mora to nalogo pisati vdrugič, bo izključen iz doma, dva taka spisa pomenita torej isto kot odpust iz doma, to je Tjaž dobro vedel, za to imamo dokaz in to je Tjažev svojeročni spis o krščanskih vrlinah hišnega reda, ki ga hranimo kot dragocen spomenik med njegovimi dokumenti v trezorju, kljub temu se je znova pregrešil in bi bil moral spis pisati vdrugič, tega seveda ni več storil in ga tudi nismo silili v to, sam si je izrekel sodbo, njegova izključitev iz doma je bila torej vseskozi postavna, torej v skladu z določili hišnega reda in smo imeli potemtakem vso pravico do nje, sam nam je potisnil v roke pravne prijeme.
2. (659 besed) Da bo čez nekaj časa tako končal, tega ni nihče mogel predvidevati in tudi ne slutiti, tega tudi nismo nameravali, Tjaž pač ni bil človek za zavod in je bolj zašel kot prišel sem, predolgo se je zadrževal pri nas, zaradi njegovega socialnega položaja smo ga vzeli, iz krščanskega usmiljenja tako rekoč, nobene prave vzgoje, nobenih dobrih zgledov, nobenega ugleda, brez idealov, in to, starši na slabem glasu, oče odstavljen drvar in zapit cestni pometač, mati kacetovka, podpirala je partizane, tega bi ji ne bilo treba, takih in podobnih svinjarij si je nakopala, vso okolico je okužila, sama je bila kriva in prav se ji je godilo, zločince je treba odstraniti iz človeške družbe in jo zavarovati pred njimi, izdajalce je treba uničiti, iz teh vzrokov smo ga vzeli v dom, samomor pa nima z domom sploh nič opraviti, o samomoru ni nikoli govoril, samomorilskih misli ni nikoli razlagal, tudi njegovo vedenje ni dopuščalo tega sklepa, čeprav je bilo nekoliko čudaško, predaleč bi šel, kdor bi spravil njegov samomor kakor koli v zvezo z zavodom, človek njegove sorte pač ni mogel končati drugače kot tako, kot je končal, kaznoval se je sam, ker je zašel na kriva pota in se nepripravljen znašel pred nesmiselnostjo svojega početja, njegova vest je bila tankočutno vzgojena, to se nam je v teh kratkih letih z božjo pomočjo posrečilo, s takšno vestjo je do zadnjih odtenkov spregledal svojo zanikrnost, presedlo mu je dolgočasje tako votlega životarjenja iz dneva v dan in si je zato sodil sam, to je treba jasno pribiti, ne da bi odobravali njegovega koraka, nikakor, čeprav odpade zdaj neka skrb in smo se z njegovim koncem znebili spet neke odgovornosti, skrb in odgovornost manj, tudi to je nekaj, kar je treba videti, neko breme nam je bilo odvzeto, ljudje delamo in bog naredi, ljudje pripravljamo in bog izvrši, ljudje stopamo, bog stopi, breme nosimo in omahujemo pod njim, pa nas razbremeni on, ki je neskončno dobrotljiv, odvali od bremen breme, katero najmanj pričakujemo, da ga bo, pa ga, težkim bremenom sami ne moremo do živega, on pa jih odpihne, slava in čast mu za to, naše ljudstvo ni zastonj verno ljudstvo, božja volja je bila, da je umrl, preden je mogel storiti še večje hudobije, prav gotovo bi jih bil storil in je bilo tako za vse najboljše, da se je tako rešil, bog mu bodi dober sodnik, ni imel kaj prida na tem svetu, molili bomo za zveličanje njegove duše, to bo potrebno, jutri bomo s tem začeli, kajti njegova krivda vpije v nebo, res žal za črnilo in papir, saj je vsak lahko vnaprej vedel, da se bo postavil proti nam, vrgel je senco na zavod, ponižal nas je, ki smo bili njegovi prijatelji in smo mu želeli samo dobro, slekel nam je kožo, da bi nas očrnil, vendar mu odpuščamo, nismo se umaknili v stolp samozadovoljnosti in se obdali z užaljenostjo, nismo ga samo vrgli iz doma, kakor je po pravici zaslužil, temveč smo mu tudi odpustili, Malharju je tako rekoč odsekal uho, mi pa smo ga ozdravili, brez ušesa ne more biti, Malhar ne more biti brez njega in uhelj ne more biti brez Malharja, kajti uho brez Malharja ni uho in Malhar brez uhlja ni Malhar, vsaka stvar se mora družiti s pravo stvarjo, vsaka stvar mora biti na pravem mestu, vedno smo bili pripravljeni, da ga ozdravimo, ako bi se vrnil, čut in ljubezen do bližnjega sta nam branila, da bi ga dokončno odstranili, kot bi po pravici zaslužil, ne da bi se nam ne bil maral, kdo to pravi, nismo zaprli vseh poti do njega, vedno bi se bil lahko vrnil iz noči v nerazbiten, svetal dan, če bi bil hotel, pa ni, čudovite izraze premore zavod, nerazbiten svetal dan, besede se ti stopijo na jeziku, ni se vrnil in se je vrnil, vidite, to je tisto, vrnil se je samo toliko, da registriramo njegovo smrt, naredimo križec pri njegovem imenu, niti pozdravil ni več.
3. (591 besed) Zavod je storil vse, kar je bilo v Tjaževem primeru mogoče storiti, vzgajal ga je in mu zaradi težje vzgojljivosti in trdosrčnega vztrajanja v slabem posvetil neznansko veliko skrbi in časa, lahko trdimo, da več kot vsem drugim, ki jih je moral zategadelj zanemariti, dajal mu je nasvete, delil koristne nauke za življenje, poskušal zlepa in poskušal zgrda, skratka, storil je vse, ne samo da bi Tjaž živel, temveč da bi živel, kot se za krščenega človeka spodobi, in če bi zdaj še živel, bi ga lahko sami vprašali, ali se je teh naukov držal, zakaj se jih ni, če se jih ni, in tako dalje, od svojih krivih poti ni obogatel, zavod zaradi njih ni obubožal, Tjaž je ostal takšen, kot se je mislil spremeniti, samo da se je prej že osramotil, za isto mero je klecnil v kolenih, za katero se je hotel povzpeti, ljudje so nerodni in se zunaj sami le redkokdaj znajdejo, posebno še, če dom ni imel dovolj prilike, da bi človeka za to pripravljal, zavod njegove smrti ni zakrivil, pri nas se tega ni naučil, take stvari preprečujemo, kolikor je v naši moči, nismo pogrebni klub ali pokopališko društvo, če se tako vzame, vsega je kriv sam, ker si ni znal naložiti prave količine svobode, pri nas jo je prejemal po malem, vsakič prav toliko, da si je poželiš za kanec več, ko jo umaknejo, zadostila te je in te spet ni zadostila, ker si je prav zaradi tistega pridržanega kanca znova zaželiš, dozirano tako rekoč, po toliko, kolikor je človek prenese, ne da bi pretrpel škodo, v pravi količini torej, tako kot hoče bog, Tjaž pa se je svobode nažrl, drugače njegovih pustolovščin ni mogoče imenovati kot s to grdo besedo nažrl, to so bili tudi vzroki, da je šel rakom žvižgat, zdaj žvižga rakom, kakor je zaslužil, zaradi žrtja se je pretegnil, vedel se je kakor svinja z mehom, ni bil kos življenju v svobodi, ni našel mere in sredine, zato je videl rešitev v samomoru, mislil je, da se samo tako more za svoje presedlanje opravičiti pred lastno vestjo in pred javnim mnenjem, verjetno so vplivali na tako vedenje tudi določeni kompleksi, ki so bili povezani s poklicno neuravnovešenostjo, kar je treba upoštevati kot olajševalne okoliščine, svobodo besede, mnenja, mišljenja, odločanja in ravnanja smo mu dajali tudi mi, seveda v smislu hišnega reda, red mora biti, v njegovih mejah so bile možne vse svoboščine, v tem okviru si je lahko dovolil najbolj si nasprotujoče razlage določil in predpisov, ki vsi izvirajo iz krščanske skrbi za našo mladino, kar je obče znano, in ki so za mlačne kristjane prav zato precej zahtevni, to uvidimo in upoštevamo, kolikor se da, sicer pa je treba vedno več zahtevati, da se malo doseže, sami se lahko prepričate o krščanskem duhu, ki veje iz vseh določil in predpisov hišnega reda, temu v dokaz citiramo dobesedno od škofijstva potrjena sveta besedila, tako dobesedno citiranje se nam zdi umestno, da tako razodenemo hišni red iz prve roke, torej v nedotaknjeni in neomadeževani, tako rekoč v deviški obliki, kolikor široki javnosti še ni znan, in nam nihče ne more podtakniti, da smo ga po svoje zasukali, narobe, takšen tekst bo poznavalca snovi napotil do sklepa, kako lahko bi se ga bilo držati in kako lahkomiselno so ravnali tisti, ki se ga niso držali, težko je priti do drugih sklepov, sploh ne moreš priti do njih vpričo nevarnosti, da bodo dobesedni citati mogoče spačili slog in pokvarili barvitost našega stališča, vendar je kaj takega pač treba stvari na ljubo vzeti nase.
4. (587 besed) Hišni red torej zelo nazorno zahteva, da se morajo vsi v domu stanujoči počutiti kot družina, zdaj že začenjamo z dobesednim citiranjem, zato mora vsak skrbeti za dobre medsebojne odnose, takšne, kakršne hoče bog, od vsakega stanovalca se zahteva pošteno obnašanje v domu in zunaj njega ter vestno upoštevanje hišnega reda ob vseh prilikah, kakor tudi slučajnih predpisov, stanovska dolžnost vsakogar je, da se pridno uči in da pravočasno opravlja izpite, poleg tega pa skrbi za dušni blagor, grobo zanemarjanje te dolžnosti bi imelo za posledico tudi izključitev iz doma, zaradi nevarnosti izgubljanja časa ni dovoljeno, da se kdo mudi v sobi koga drugega dalj časa kot deset minut, za daljši razgovor so na voljo številni skupni prostori, za skupno učenje v privatni sobi je potrebno izrecno dovoljenje, obiski so dovoljeni le v pritličnih prostorih in le do pol desetih zvečer, brez posebnega dovoljenja ne sme nihče nikogar pripeljati v stanovanjske prostore ali ga sprejeti v sobi razen lastnih staršev, vendar je treba tudi v tem primeru obvestiti vodstvo doma, služkinje, ki stanujejo v domu, imajo prost vhod le za opravke v uradu doma, vstop v prostore zunaj lastne sobe jim je strogo prepovedan, enako je prepovedan tudi fantom vstop v prostore uslužbencev, v sobah in v vsem domu morata vladati red in snaga in je treba paziti, da se nič ne poškoduje, v čitalnicah in skupnih prostorih je treba pustiti vsako stvar po uporabi na svojem mestu, kdor povzroči kako škodo v domu, jo mora poravnati, če krivec ostane neznan, bodo stroški popravila naloženi vsem, pribijati ali lepiti slike na zidove ali opremo je strogo prepovedano, kdor želi obesiti na steno kak okrasek, potrebuje za to posebno dovoljenje, v vsaki sobi mora viseti razpelo, v razpelo se je treba večkrat ozreti, paziti je treba tudi, da se tok, plin in voda ne uporabljajo po nepotrebnem, za sušenje perila se lahko napelje trak nad umivalnikom med vijakoma, prilepljene ali z zrakom pritrjene plastične kljuke povzročajo škodo in so zato prepovedane, bivanje v domu bo toliko bolj prijetno, kolikor bolj se bo vsak zavzel za dobro obnašanje, zato naj vsak te predpise in hišni red nosi pri sebi ali hrani na priročnem kraju in jih prebira, tudi premišljuje naj o njih, vsak naj skrbi za dober glas med tovariši v hiši in zunaj nje, obrekovanje zavoda in njegovega vodstva ni dovoljeno, ponoči mora imeti vsak največjo skrb, da nikakor ne moti nočne tišine, vrata je treba zapirati zelo počasi, da ne treskajo, kljuke ni dovoljeno nenadoma izpustiti, ker drugače v železju zaškrta, tudi ključe je treba obračati počasi, da se prepreči ropot, tekanje po stopnicah in hodnikih je prepovedano, hoditi je treba na moč potiho, prav tako ni dovoljeno glasno govorjenje, vsak naj večkrat pomete svojo sobo in jo obriše z mokro cunjo, ki naj meri 20 x 15 cm, po navoščenem podu je treba hoditi v copatah, vsak kos obleke ali papirja mora biti v sobi na pravem mestu, vsako soboto je treba umiti okna z mokro cunjo in obrisati s časopisnim papirjem, za zračenje sobe navadno zadostuje, da je odprta vrhnja oknica, vsak je odgovoren za morebitno poškodbo šip ali zaves, da se pozimi prepreči nepotrebno izgubljanje toplote, je treba sobo zračiti le kratek čas, oknice je treba premikati zelo previdno, da se ne poškodujejo, raba hladilnika je omejena na določeno plastično škatlo, ki stane 39 šilingov, in na pollitersko steklenico, v hladilniku ne sme biti navadno nič drugega, zdaj smo sredi dobesednega navajanja, vsak naj ima svojo odejo, ki jo sme uporabljati, da na njej leži ali sedi.
5. (564 besed) Nunam je najino poznanstvo ostalo še prikrito, potlej sva tvegala zmeraj več, doživel je prve vrhunce z menoj, ostajal do jutra, zdaj ko je mrtev, to lahko povem, pustila sem mu, ker mi je ugajalo, za šalo in iz radovednosti, pomagala sem mu, da je vse zamujeno in zapravljeno spravil pod streho, skraja je odhajal zelo pobit in zaskrbljen, pekla ga je vest in obujal je kes, ob misli na zavod se ga je polaščal živalski nemir, toda počasi se je navadil, mirila sem ga, mu razlagala in ga prepričevala, skupno sva krotila božjast in privide in šlo je, nekaj v njem se je prelomilo na dvoje, nekaj se je obrnilo, kar čutila sem, kako se v njem obrača in presnavlja, kot v kvasu je delovalo v njem, ljubil me je iz odpora, nalašč in iz kljubovanja, v meni je našel sredstvo, da je krenil iz brazde, nikoli ni grdo ravnal z menoj, surovosti ni poznal, to moram priznati in bi priznala tudi v primeru, ko bi še živel, ne govorim samo zaradi njegove smrti tako o njem, bil je dober z menoj, v dokaz navajam, da mi je, čeprav je bil brez denarja, kupil uro, verižico, knjige in druge stvari, ki sem jih potrebovala ali si jih želela, znal je uganiti, vselej je bil nežen in obziren, poniževal me je samo občutek, da mu nisem bila namen, temveč sredstvo, mogoče sem si to samo domišljala, opravičuje pa me dejstvo, da nisva mislila nič resnega, nazadnje me to ni več motilo, sprijaznila sem se, nisem tega storila zastonj, sama sem skrbela, da nisem ostajala prikrajšana, ni bil prvi in ne zadnji moški, bil je eden od tistih, ki so bili po svoji usodi edinstveni in zato nekako vendarle prvi in hkrati zadnji, hočem reči, ta mladi moški je z mojo pomočjo uresničil samega sebe, postal je Tjaž, kakor še nikoli pred menoj in nikoli za menoj, najbolj resnični, prvobitni in izvirni Tjaž, kot ga poleg njega ni bilo drugega, prepričana sem, da nikjer na svetu, kot ga ni bilo drugače in ob drugem času in iz drugih razlogov in z drugih vidikov in v drugi nakladi, pri tem dvomim, da ponovim domnevo, da je ta čudaški človek kdaj prej prekopal svojo naravo res za vsemi duhovnimi in telesnimi dobrinami in z njimi tvegal strast, in če jih je bil izkopal, komu naj bi jih bil izkazal, vse to je imel za preveliko nedostojnost in greh, raje se jim je odpovedal in jih s silo zatrl, junak Tjaž ni bil, manjkalo mu je poguma in samozavesti, bal se je, da bi ga strast ljubljenja ne razvnela tako, da bi zraven od naporov in razburjenja crknil, ugasnil kot sveča, pobodlo bi, mogoče bi v dolžini četrt kolesa zapeklo in najbrž bi zamudil, da je mimo, da je život dotrajal in se enkrat za vselej zavozlal ravno v trenutku, ko bi se pričel orgazem, tako da njegovega konca ne bi več pričakal, pred to možnostjo je vselej trepetal in se zgrozil, čeprav bi bil to lep in lahek konec, kar nasladna, pravljična smrt bi ga doletela, ne, junak Tjaž nikakor ni bil, kvečjemu je bil junak tisto uro, ko se je odločil za skok z najvišje stolpnice celega mesta, a to je bilo pozneje in čisto ob koncu, toliko da se je še tik pred svojim koncem nalezel junaškega slovesa, junak ali nejunak, naj bo, kakor hoče.
1. (284 besed) Na vse zadnje so se socialno čuteči, po sami rimski in božji previdnosti postavljeni tržaški občinski svetniki do grla nasitili, gledati in poslušati brezposelne, na cesto pognane družinske očete, zapuščene vdove in onemogle starce, ki so slabokrvni in jetični od lakote, garjavi, nadušljivi in polni revmatizma od prenočevanja po zatohlih kavernah in zasmrajenih mestnih podzemskih kanalih, skrhani in sključeni, razjedeni in oglodani od trdega življenja, vsak dan v večjih trumah prihajali na magistrat ter krevljali po dolgih svetlih hodnikih, puščali na preprogah rjave odtise svojih blatnih, pošvedranih obutev, pobirali čike izza pljuvalnikov, se vsekavali kar s prsti, zamolklo kašljali, grkali, smrkali in metali široke pljunke kamor je naneslo, stresali bolhe, uši in stenice, zaudarjali po kislem smradu raztrganih in gnilih cunj, prijemali s svojimi umazanimi lopatastimi rokami za svetle medene kljuke na vratih, vstopali v sobe in se raztezavali po njih kakor smradljiv, dušeč dim, se obešali za suknje gospodom uradnikom, ki so tako lepo dišali po milu, se odkrivali, držali raztrgana pokrivala z obema rokama nizko na kolenih ter dokazovali, da niso divjaki, temveč ljudje, ustvarjeni po božji podobi in volji, trdili, da so Italijani od pamtiveka, fašisti od vsega začetka, državljani, udani Mussoliniju, kralju in papežu, ter prosili košček strehe svojim prezeblim otrokom in bolnim ženam: saj morajo vendar živeti, dokler jim je usojeno; ali naj se mar lepo zleknejo ob cesti in mirno počakajo na ljubo smrt; ali naj se pobesijo na hlačne jermene; ali naj svoje otroke pobijejo, pokoljejo, pomečejo v morje; ali naj noseče žene usmajajo ponoči po cestah in ponujajo po dve liri svoje kosti - o, saj bi jih, toda nihče se ne zmeni zanje, ker je dovolj bolje ohranjenih žensk; ali naj začnejo krasti, pobijati - ali kaj?
2. (240 besed) In zakaj je ne bi dokazali, če se nudi priložnost? - mrzlo in uradno dokazujejo, da je ločila postavljal smiselno, čeprav jih ni postavljal po splošno veljavnih pravilih; da je njegov jezik živ, lep in tekoč, čeprav ne bi mogli trditi, da bi bil kremenit; da je bil dober stilist, nemara celo predober, saj ga je včasih zaneslo v drugo skrajnost, v artizem; da je bil mojster verističnega, realističnega dialoga, čeprav ga ne moremo prištevati k čistim realistom; da je v njegovih delih precej pristnih epičnih momentov, a da se nikdar ni povzpel do pravega epičnega pisanja; da je bil zakrknjen lirik s precejšnjim romantičnim navdihom; da je bila njegova satirična žila tako močna, da je včasih brizgnilo iz nje tudi tam, kjer ne bi bilo treba; da so njegove misli kar lepo zaokrožene, večkrat celo izvirne, čeprav niso nenavadno globoke; da je bil miselno napreden, čeprav z lahkoto zasledimo, da se ni ukvarjal s proučevanjem družboslovnih del; da so njegovi značaji doživeti in živi, ljudje iz mesa in krvi, čeprav niso monumentalne, enkratne figure; da je gledal na svet nekoliko zviška in z rahlim posmehom, čeprav je bil v resnici prežet s humanizmom; da je napisal zelo malo, a da je njegovo pisanje kulturno, dokaj svojsko in sugestivno, čeprav mu naposled vendarle nekaj manjka; da so Q da je Q skratka, vsemu navzlicu navkljub je bil mož človek in umetnik in zato je prav res škoda, ker je legel v prerani grob Q
3. (164 besed) Odprla je svoja težka okovana hrastova vrata in začela požirati stare črvive omare z neštevilnimi predali; škripajoče postelje s trhlimi nogami; polomljene stole; raztrgane divane, iz katerih je silila vlažna in umazana morska trava in ki so bili v tej gneči tako podobni ranjencem s preparanimi trebuhi; kolesa otroškega vozička, pribita k navadnemu zaboju s širokim napisom § Cirio zmerom in povsodş ali pa §Vzemite po kosilu pomarančo Gaddi, ki Vas osveži in Vam pospešuje prebavoş in v njem jokajoč, koščen otrok; razklane kovčege, pisane cule, raztrgane vreče in podobno slikovito ljudsko bogastvo; požirala je hiša starce z redkimi, ščetinastimi, sivimi bradami; upognjene ženice s pridušenim stokanjem na ustih; trde, zarjavele može, ki so preklinjali pod težkimi bremeni; žene s širokimi nosečimi trebuhi in z dojenčki na mlahavih, cunjastih prsih; otroke, ki so venomer vreščali, hlipali in smrkali; hihitajoče se blodnice po ljudskih cenah in žvižgajoče potepuhe, ki so mirno prihajali s kapo postrani, s pisano kričečo ruto za vratom, in kadili svoje večne čike.
4. (156 besed) Poslovil se je od nadaljnjih radosti in tegob življenja na zemlji, od norčavih južnih vetrov, ki so razigrano pihali od vseh štirih strani na vse štiri strani sveta, veselo oznanjali pomlad in naravnost z otroško razigranostjo vneto tlačili dim iz dimnikov nazaj v kuhinje, da so se gospodinje cmerile okrog ognjišč in s solzami zalivale jedi, ki so se kuhale po piskrih; poslovil se je od zemlje, ki se je dramila iz zimskega spanja, od teloha, ki je že odcvetal in se vdano pripravljal na smrt, od cvetočega resja, od čebel, od vrb in njihovih mačic, od mladik, ki so se vijugale k mlademu soncu in naglo poganjale očesca, od vonja po pravkar nakidanem gnoju, od bližajočih se velikonočnih praznikov in od otrok, ki so se podili po lužah, se lasali, se obdelovali s pestmi in proti ter se vselej, kadar koli so zagledali Venca Poviškaja, z novimi močmi grabili za trebuhe in kričali za njim.
5. (138 besed) O, tudi njim od skrbi sivijo lasje: delnice N. G. I. rapidno padajo; delnice Cosulich Line so že brez vsake vrednosti in jih lahko mirne duše vzamejo s sabo na stranišče; je v obupnem položaju - treba bo napovedati prisilno poravnavo, da se nekoliko opomorejo; se ne obrestuje; žena ima kamne v mehurju in hoče na vsak način v Viareggio; služkinja je razbila dragoceno japonsko vazo in milostljiva bo prav gotovo dobila živčni napad, ko bo to zvedela; hči je zbežala s centurionom milice in zdaj pošilja pisma ter grozi z družabnim škandalom, če ji ne odštejejo mastne dote; v gimnaziji je afera s sinom, ki je pokazal več talenta za zvodništvo mladih deklet kakor za Risorgimento; Lola, §angel plaviş, zahteva sto lir na večer, in če jih ne dobi, odpotuje - težko je dati stotak, toda še težje je biti brez Lole.
Povedi je za velikostni red manj kot besed. Iz tega in iz dejstva, da je največ vsaj nekajbesednih, bi bilo pričakovati, da bo najpogostejša poved imela že precej nizko frekvenco. V tabelah 57 in 58 je navedenih približno 100 (do zaključene meje neke frekvence) najpogostejših povedi iz prvega in iz drugega vzorca. Po pričakovanju prevladujejo kratke povedi, vzete iz premega govora ali povezane z njim. V prvem vzorcu je približno desetina (13) konkretnih, od tega 9 iz Nove zaveze ( Jezus je odgovoril: Jezus ji reče: Jezus jim je odgovoril: Jezus jim je rekel: Jezus mu je odgovoril: Jezus mu je rekel: Jezus mu odvrne: Jezus pa jim je rekel: Jezus pa mu je rekel:), v drugem pa še dosti več, predvsem iz Balade o trobenti in oblaku in iz Tantadruja.
Po zvrsti je v prvem vzorcu med prvimi 109 32 % pritrdilnih (npr. Da. Tako je. Vsekakor.), 22 % vprašalnih (npr. Kako? Ali ne? Kako to misliš?), 18 % takih, ki uvajajo premi govor (npr. Rekel jim je: Krpan odgovori: Odgovorili so mu:), 13 % nikalnih (npr. Ne. Ne vem. Mislim, da ne.), 9 % velelnih (npr. Lahko noč! Ha, ha! Ne boj se!) in samo 6 % povednih (npr. Nič. Zasmejal se je.).
Pri drugem vzorcu je podoba precej drugačna: pritrdilnih povedi je 13 %, vprašalnih je 22 %, takih, ki uvajajo premi govor sploh ni, nikalnih je 6 %, velelnih 39 %, povednih pa 20 % (npr. Tišina. >>Hm, kajpak,<< se je popraskal kmet. Tišina. >>Na nebu je sonce, na zemljici mraz.).
V preseku med obema vzorcema (naveden je v tabeli 56) je le 16 povedi, ki so vse zelo kratke in stereotipne.
Tabela 56: Presek najpogostejših povedi obeh vzorcev
>>Da. | Kam? | >>Ne! | >>Seveda. |
Kaj? | >>Kje?<< | >>Ne, ne! | >>Tako! |
>>Kaj? | Ne! | Nič! | >>Tako je! |
>>Kako? | >>Ne. | Nič. | Zakaj? |
1. >>Da.<< | 191 | 38. >>Ne vem.<< | 14 | 75. >>Da, tako je.<< | 8 |
2. >>Tako je.<< | 184 | 39. >>Strinjam se.<< | 14 | 76. Odgovorili so: | 8 |
3. >>Vsekakor.<< | 86 | 40. Rekel je: | 14 | 77. >>Kaj pa je to?<< | 8 |
4. >>Seveda.<< | 71 | 41. >>Jasno.<< | 13 | 78. >>Kje?<< | 8 |
5. >>Gotovo.<< | 54 | 42. >>Pravilno.<< | 13 | 79. >>Ne boj se! | 8 |
6. >>Ne.<< | 47 | 43. >>Zakaj? | 13 | 80. >>Ne, ne! | 8 |
7. >>Kako?<< | 46 | 44. Ne! | 12 | 81. >>Nič. | 8 |
8. Doktor Pipec. | 38 | 45. >>Popolnoma pravilno.<< | 12 | 82. >>Pridi!<< | 8 |
9. Doktorand Kolenec. | 35 | 46. >>Se strinjam.<< | 12 | 83. >>Tako je! | 8 |
10. Ali ne?<< | 34 | 47. Dejal je: | 11 | 84. Jezus jim je rekel: | 7 |
11. >>Prav gotovo.<< | 33 | 48. Jezus mu je rekel: | 11 | 85. Jezus ji reče: | 7 |
12. >>Nikakor ne.<< | 32 | 49. Kaj? | 11 | 86. Jezus pa mu je rekel: | 7 |
13. >>Nujno.<< | 32 | 50. Lahko noč!<< | 11 | 87. Je tako?<< | 7 |
14. Ne. | 31 | 51. Odgovoril je: | 11 | 88. Kajne?<< | 7 |
15. >>Kaj? | 30 | 52. Jezus je odgovoril: | 10 | 89. Kaj je to? | 7 |
16. >>Kaj?<< | 28 | 53. Jezus mu je odgovoril: | 10 | 90. Nikakor ne! | 7 |
17. >>Zakaj?<< | 26 | 54. >>Ja. | 10 | 91. Odgovorili so mu: | 7 |
18. Rekel jim je: | 26 | 55. >>Nikakor ne!<< | 10 | 92. >>Dobro.<< | 7 |
19. Jezus jim je odgovoril: | 24 | 56. >>Prav.<< | 10 | 93. >>Kaj misliš s tem?<< | 7 |
20. >>Očitno.<< | 24 | 57. >>Veronika!<< | 10 | 94. >>Kako misliš to?<< | 7 |
21. >>Dobro. | 23 | 58. >>Zakaj ne?<< | 10 | 95. >>Kateri?<< | 7 |
22. Odgovoril jim je: | 21 | 59. Da. | 9 | 96. >>Kdo? | 7 |
23. >>Ne. | 21 | 60. Ha, ha!<< | 9 | 97. >>Mislim, da ne.<< | 7 |
24. >>Ne! | 20 | 61. Jezus pa jim je rekel: | 9 | 98. >>Ne!<< | 7 |
25. >>Kako to misliš?<< | 19 | 62. >>Da! | 9 | 99. >>Res? | 7 |
26. Amen. | 18 | 63. >>Gotovo. | 9 | 100. >>Sem.<< | 7 |
27. >>Tako se zdi.<< | 18 | 64. >>Jaz? | 9 | 101. >>Seveda! | 7 |
28. >>Kako? | 17 | 65. >>Nič!<< | 9 | 102. >>Tako! | 7 |
29. Zakaj? | 17 | 66. On pa jim je rekel: | 9 | 103. >>Vsekakor. | 7 |
30. >>Brez dvoma.<< | 16 | 67. >>Štiri!<< | 9 | 104. >>V tem imaš prav.<< | 7 |
31. >>Seveda. | 16 | 68. >>Tako? | 9 | 105. Prav. | 7 |
32. >>Da. | 15 | 69. Zasmejal se je. | 9 | 106. Rekli so mu: | 7 |
33. >>Dobro! | 15 | 70. Jezus mu odvrne: | 8 | 107. Seveda! | 7 |
34. >>Res je.<< | 15 | 71. Kam? | 8 | 108. Tako! | 7 |
35. Nič. | 14 | 72. Krpan odgovori: | 8 | 109. Vprašali so ga: | 7 |
36. >>Ja.<< | 14 | 73. Ne vem. | 8 | ||
37. >>Ne vem. | 14 | 74. Nič! | 8 |
1. >>Hm, kajpak,<< se je popraskal kmet. | 32 | 42. >>Pa kaj hočemo, je že tako! Q | 5 |
2. Tišina. | 24 | 43. >>Stane! | 5 |
3. >>Hm, kajpak Q | 22 | 44. Aha! | 4 |
4. >>Kaj? | 22 | 45. Ali razumeš?<< | 4 |
5. >>Ne! | 18 | 46. Hahaha!<< | 4 |
6. Tak! | 14 | 47. Halo! | 4 |
7. >>Aha! | 14 | 48. Halo!<< | 4 |
8. Hm? | 12 | 49. In kajne, gospod?<< | 4 |
9. Ne! | 12 | 50. Kaj še! | 4 |
10. Mhm Q | 11 | 51. Kaj? | 4 |
11. >>Pha! | 11 | 52. Kje pa! | 4 |
12. A? | 10 | 53. Nič! | 4 |
13. >>Seveda. | 10 | 54. Nič. | 4 |
14. Tako je to! | 9 | 55. Pa kaj hočemo, je že tako! Q<< | 4 |
15. >>Hm, kajpak,<< se je popraskal. | 9 | 56. Peter je molčal. | 4 |
16. >>Prišla bo bridka smrt, | 57. Pijte! Q<< | 4 | |
moj hramček bo zaprt Q<< | 9 | 58. Raus e patacis, repa in krompir!<< | 4 |
17. >>Tak! | 9 | 59. Stane! | 4 |
18. Zakaj? | 8 | 60. Ta-a-ta-an ta-a-ta-an ta-a-an-ta-druj. | 4 |
19. >>Drejc! | 8 | 61. Top! | 4 |
20. >>Tako je! | 8 | 62. Trenutek tišine. | 4 |
21. Kam? | 7 | 63. V Obrekarjevi izbi. | 4 |
22. No! | 7 | 64. Vidiš,<< | 4 |
23. >>Halo! | 7 | 65. >>Ana! | 4 |
24. >>Raus e patacis, repa in krompir!<< | 7 | 66. >>A?! | 4 |
25. A?<< | 6 | 67. >>Bom! | 4 |
26. Ju-u-hu-u, ju-u-hu-u ju-hu-hu-hu-huj Q<< | 6 | 68. >>Da. | 4 |
27. Mar ni res? | 6 | 69. >>Ha! | 4 |
28. Uuu! | 6 | 70. >>Kaj pa je?<< | 4 |
29. >>Boga mi! | 6 | 71. >>Kje?<< | 4 |
30. >>Na! | 6 | 72. >>Ne, ne! | 4 |
31. >>Na-a nebu je-e sonce, na zemljici mraz. | 6 | 73. >>Ne. | 4 |
32. >>Saplater! | 6 | 74. >>No! | 4 |
33. >>Stric! | 6 | 75. >>Pha!<< je zaničljivo prhnil Furlan. | 4 |
34. Ali me poslušaš? | 5 | 76. >>Pijte!<< je rekel. | 4 |
35. Molk. | 5 | 77. >>Poslušam Q | 4 |
36. Na! | 5 | 78. >>Saj! | 4 |
37. Na-a-biram ja-az zvonce in vsi so za vas. | 5 | 79. >>Saplater? | 4 |
38. Seveda. | 5 | 80. >>Tako! | 4 |
39. >>A! | 5 | 81. >>Tako. | 4 |
40. >>Kako? | 5 | 82. >>Zakaj pa? | 4 |
41. >>Ooo-hooo Q<< | 5 |
Pri povedih so zanimivi še lipogramski pojavi, to je deli besedila brez
ene ali več črk. Primera sta npr. angleška poved
Youth, throughout all history, had had a champion to stand up
for it; to show a doubting world that a child can think; and, possibly,
do it practically; you would constantly run across folks today who claim
that 'a child don't know anything'. (Wright 1939)
in francoska
... Ton bouton, ou tout va mourir, ton bouton, bastion
final ou j'irai m'annulant, ou j'irai m'absorbant, m'abolissant dans un
amour toujours a accomplir, dans l'absolu sursaut ou nous vivrons un
jour, confondus a jamais, dans la passion ou dans l'oubli, dans la nuit
ou tout disparaît, dans l'infini instant ou nous n'aurons qu'un
corps! (Perec 1969).
Oba primera sta vzeta iz del, ki sta bili
napisani brez uporabe črke e. Niti v prvem niti v drugem vzorcu
ni kakega takega dela, je pa precej povedi, ki so zanimive s tega
vidika. V tabelah 59 in 60 je navedenih po pet najdaljših povedi iz
prvega in iz drugega vzorca, ki ne vsebujejo črke e. Vsega skupaj
je v prvem vzorcu 9.102 takih povedi ali 4.52%, v drugem pa 2.958 ali
7.90%.
V tabeli 59 sta 1. in 4. poved iz prevoda Flaubertovega romana Bouvard in Pécuchet, 3. in 5. iz Nove zaveze, druga pa iz novele Boj na požiralniku Prežihovega Voranca. Zanimive so še povedi, ki vsebujejo največji delež najpogostejše črke. V tabelah 61 in 62 je navedenih po prvih pet takih povedi v prvem in drugem vzorcu, ki imajo vsaj štiri besede (največje deleže imajo medmeti v zelo kratkih povedih).
Tabela 61: Vsaj 4 besede dolge povedi iz prvega vzorca z deležem črke e v odstotkihPopolnoma drug zven kot povedi brez črke e imajo povedi brez črke a. Najdaljše za oba vzorca so navedene v tabelah 63 in 64. 1., 3. in 5. poved v tabeli 63 sta iz Nove zaveze, 2. iz Platonove Države, 4. pa iz Cankarjeve Hiše Marije Pomočnice.
Tabela 63: Najdaljše povedi iz prvega vzorca brez črke a z dolžinami v znakihPo pet povedi, daljših kot tri besede in z največjim deležem črke a za oba vzorca najdemo v tabelah 65 in 66. Zanimivo je, da je v tabeli 65 le ena taka, ki nima črke e, v tabeli 66 so pa take kar 4.
Tabela 65: Vsaj 4 besede dolge povedi iz prvega vzorca z deležem črke a v odstotkih