Idealni vir za tako nalogo bi bila vsa doslej objavljena slovenska leposlovna dela. Tak vir bi bil popoln in na njem izmerjene vrednosti bi imele povsem trdno veljavo. Da bi se popolnosti vsaj na neki način približal, se je pisec teh vrstic odločil za dve besedilni zbirki: prvi vzorec, v katerem bi bilo kar največ del, in drugi vzorec, v katerem bi bila vsa objavljena dela priznanega avtorja. Pogoj, potreben za izpolnitev zahteve po popolnosti drugega vzorca, je tudi ta, da izbrani avtor ne bo ničesar več napisal, kar pomeni, da ga ni več med nami. Po daljšem premišljevanju in posvetovanjih je izbira padla na Cirila Kosmača (1910-1981). Sodobnejšega avtorja, ki bi ustrezal zastavljenim pogojem, žal ni bilo mogoče najti.
Vsa leposlovna besedila, ki v današnjih časih pridejo na police v knjigarnah, so že dobro desetletje pripravljena z računalnikom in tako, vsaj do tiska, obstajajo tudi v elektronski obliki. Pot do večje zbirke teoretično torej ne bi smela biti težka, omejena pa je predvsem z bojaznijo avtorjev do zlorabe avtorskih pravic. Tudi zakon o knjižničarstvu, ki bi od tiskarjev zahteval, da oddajo obvezni izvod tudi v elektronski obliki, če ga imajo, še ni bil sprejet in je zato Narodna in univerzitetna knjižnica po tej plati povsem brez virov. Tako je bila izredno dragocena Zbirka slovenskih leposlovnih besedil, ki jo od junija 1995 naprej na internetu na naslovu http://www.ijs.si/lit/leposl.html gradi Miran Hladnik (npr. Hladnik 1995). Iz nje, tudi iz besedil, ki še niso bila pripravljena za objavo na internetu, izvira več kot polovica prvega vzorca. Večina drugih del je iz sodelovanja med avtorjem in založbo Mihelač, nekaj jih je iz arhiva Inštituta za slovenski jezik Frana Ramovša ZRC SAZU, Varja Cvetko Orešnik je odstopila spomine svojega očeta, dve svoji deli Gitica Jakopin (tretje je prenesel v elektronsko obliko pisec teh vrstic), nekaj jih je avtorju posredoval Klaus Detlef Olof s celovške univerze, Orwellov 1984 pa je preskrbel Tomaž Erjavec. Natančnejši popis del z bibliografskimi podatki je naveden v prilogi A (stran 105 do 107), kratek pregled pa v spodnji tabeli.
Tabela 2: Dela prvega vzorca z letom prvega izida in številom besed
1. | Ivan Cankar | Hiša Marije Pomočnice | 1904 | 29.702 | |
2. | Ivan Cankar | Potepuh Marko in Kralj Matjaž | 1905 | 26.547 | |
3. | Ivan Cankar | Hlapec Jernej in njegova pravica | 1907 | 18.423 | |
4. | Ivan Cankar | Mimo življenja | 1920 | 52.316 | |
5. | Janez Cigler | Sreča v nesreči | 1836 | 33.778 | |
6. | Dragotin Cvetko | V prostoru in času | 1995 | 97.335 | |
7. | Fran S. Finžgar | Sama | 1912 | 49.194 | |
8. | Fran S. Finžgar | Strici | 1927 | 15.673 | |
9. | Nataša Gale | Fran Gestrin | 1927 | 25.603 | |
10. | Miran Hladnik | Kmečka povest (Iz polpret. časa) | 1992 | 17.254 | |
11. | Gitica Jakopin | Žarometi | 1962 | 36.808 | |
12. | Gitica Jakopin | Devet fantov in eno dekle | 1963 | 29.136 | |
13. | Gitica Jakopin | Slovo od deklištva | 1995 | 57.116 | |
14. | Josip Jurčič | Nemški valpet | 1867 | 7.969 | |
15. | Josip Jurčič | Sosedov sin | 1868 | 18.680 | |
16. | Janko Kersnik | Ponkrčev oča | 1882 | 2.184 | |
17. | Janko Kersnik | Mačkova očeta | 1886 | 1.601 | |
18. | Janko Kersnik | Jara gospoda | 1893 | 19.015 | |
19. | Alojz Kraigher | Peter Drozeg | 1916 | 19.994 | |
20. | Tomo Križnar | O iskanju ljubezni | 1989 | 132.098 | |
21. | Tomo Križnar | Samotne sledi | 1993 | 81.744 | |
22. | Fran Levstik | Martin Krpan z Vrha | 1858 | 5.682 | |
23. | Fran Levstik | Popotovanje iz Litije do Čateža | 1858 | 8.214 | |
24. | Fran Levstik | Sveti doktor Bežanec v Tožbanji vasi | 1870 | 11.293 | |
25. | Milan Lipovec | Čubejska prigoda | 1972 | 7.153 | |
26. | Florjan Lipuš | Zmote dijaka Tjaža | 1972 | 51.203 | |
27. | Florjan Lipuš | Srčne pege | 1991 | 52.864 | |
28. | Miroslav Malovrh | Opatov praporščak | 1903 | 51.420 | |
29. | Fran Maselj Podlimbarski | Gorski potoki | 1895 | 33.272 | |
30. | Ivan Pregelj | Mlada Breda | 1913 | 84.350 | |
31. | Ivan Pregelj | Thabiti Kumi | 1933 | 9.362 | |
32. | Prežihov Voranc | Boj na požiralniku | 1935 | 10.435 | |
33. | Prežihov Voranc | Samorastniki | 1937 | 12.949 | |
34. | Marijan Pusavec | Zbiralec nasmehov | 1991 | 30.518 | |
35. | Ivan Sivec | Kruh ponoči spi | 1994 | 49.047 | |
36. | Ivan Sivec | Triglavski kralj | 1994 | 59.604 | |
37. | Jakob Sket | Miklova Zala | 1884 | 35.471 | |
38. | Josip Stritar | Rosana | 1877 | 18.344 | |
39. | Rudi Šeligo | Triptih Agate Schwarzkobler | 1968 | 25.739 | |
40. | Gustav Šilih | Beli dvor | 1938 | 131.661 | |
41. | Damijan Šinigoj | Neizstreljeni naboj | 1994 | 94.375 | |
42. | Ivan Tavčar | Janez Sonce | 1885 | 51.772 | |
43. | Ivan Tavčar | Otok in struga | 1897 | 16.118 | |
44. | Ivan Tavčar | Cvetje v jeseni | 1917 | 26.349 | |
45. | Janez Trdina | Bajke in povesti o Gorjancih | 1888 | 59.241 | |
46. | Ivan Zorec | Izgnani menihi | 1937 | 49.676 | |
47. | Christian Andersen | Andersenove pravljice | 1992 | 53.216 | Janko Moder |
48. | Lewis Carroll | Alica v ogledalu | 1978 | 27.410 | Gitica Jakopin |
49. | Lewis Carroll | Aličine prigode v čudežni deželi | 1983 | 23.443 | Gitica Jakopin |
50. | Robert Cringely | Naključni imperiji | 1995 | 100.475 | Primož Jakopin |
51. | Alexandre Dumas | Trije mušketirji | 1995 | 55.734 | Tomo Virk |
52. | Gustave Flaubert | Bouvard in Pécuchet | 1995 | 85.702 | Stane Ivanc |
53. | Peter Handke | Ponovitev | 1988 | 65.259 | Silvija Borovnik |
54. | Jordan Horowitz | Kako vzgojiti očeta | 1994 | 25.188 | Mira Hladnik |
55. | George Mikes | Priročnik za snobe | 1994 | 29.125 | Mitja Meršol |
56. | Libuše Moníková | Fasada | 1994 | 113.764 | Štefan Vevar |
57. | George Orwell | 1984 | 1983 | 91.022 | Alenka Puhar |
58. | Platon | Država | 1976 | 92.844 | Jože Košar |
59. | Sveto pismo Nove zaveze | 1984 | 149.338 | več prevajalcev | |
60. | Jules Verne | V osemdesetih dneh okoli sveta | 1996 | 54.003 | F.Stopar, M.Medvedšek |
Skupaj | 2.721.416 | besed |
Knjige obsegajo časovni razpon od 1858 do 1996, se pravi zadnjih 138 let, s tem da je četrtina (15) iz 19. stoletja, približno polovica (29) pa je novejša, iz časa po letu 1962. Dela so razvrščena po abecedi avtorjev, znotraj istega avtorja pa kronološko. Pri izvirnih delih je navedeno leto prve objave posameznega dela, tudi če je bil kot podlaga za prenos v elektronsko obliko uporabljen kasnejši ponatis.
Knjige so bile v različnih formatih, od formata HTML pri večini del iz Hladnikove zbirke, do formata programa WordStar, s katerim si očitno pomaga še veliko piscev, Microsoftovega izmenjalnega formata RTF, internega formata programov Word in WordPerfect, nekaj datotek je bilo pa celo v formatih avtorjevih programov STEVE in EVA. Konverzija je bila v vseh primerih opravljena s programom EVA.
Vsa dela seveda niso leposlovna v najstrožjem pomenu. Dilema nastane predvsem pri spominski literaturi in pri potopisih, kjer je črto dostikrat težko potegniti. Vključenih je tudi 14 prevodov, tako zaradi količine kot zaradi večje zaokroženosti vzorca. Nekaj del, ki jih je avtor še imel, pa so bila že zelo esejistična, v vzorec ni vključenih. Žal tudi ni prišla v poštev precej obsežna zbirka sicer neleposlovnih besedil, ki jo je zbrala M. Zorman za izdelavo svoje disertacije (Zorman 1997).
Ta vzorec vsebuje vsa objavljena dela Cirila Kosmača; od leta 1931 do 1988. Kot pri prvem vzorcu je popoln popis z vsemi bibliografskimi podatki naveden v prilogi (priloga B, stran 109 in 110), kratek pregled pa v tabeli 3 na naslednji strani. Pri zbiranju Kosmačeve bibliografije sta bila uporabljena dva vira - popisa Helge Glušičeve (Glušič 1975: 22) in Ivana Cesarja (Cesar 1981). Dela so razvrščena približno kronološko po nastanku oz. objavi zadnje različice, kadar je bilo različic (npr. pri Baladi) več.
Tabela 3: Dela drugega vzorca z letom prvega izida in številom besed
1. | Božična noč v ječi | 1931 | 648 | |
2. | Študenta Petra povest o materi | 1932/33 | 2.347 | |
3. | Potepuh Najdu | 1932/33 | 3.170 | |
4. | V znamenju rojstva in prerojenja | 1932 | 1.212 | |
5. | Božično pismo iz celice 589 | 1932 | 1.837 | |
6. | Gornje mesto | 1933 | 1.581 | |
7. | Velika nedelja | 1933 | 3.643 | |
8. | Hodil po zemlji sem naši ... | 1933 | 5.567 | |
9. | Kraška simfonija | 1933 | 2.914 | |
10. | Cerkovnik Martin | 1933 | 3.951 | |
11. | Na sveti večer | 1934 | 2.507 | |
12. | Reka | 1934 | 1.179 | |
13. | Hiša št. 14 | 1934 | 12.925 | |
14. | Ogorek | 1935 | 3.168 | |
15. | Obisk | 1935 | 2.860 | |
16. | Zločin Bernarda Tula | 1935 | 3.027 | |
17. | Prazna ptičnica | 1935(1988) | 26.476 | |
18. | Človek na zemlji | 1935 | 16.058 | |
19. | Sreča | 1936 | 5.348 | |
20. | Gosenica | 1936 | 4.738 | |
21. | Kruh | 1936 | 2.630 | |
22. | Življenje in delo Venca Poviškaja | 1937 | 19.539 | |
23. | 15. marec 1937 | 1937 | 2.283 | |
24. | Tistega lepega dne | 1938 | 7.669 | |
25. | Zlato | 1941 | 2.910 | |
26. | Dragičeva smrt | 1946 | 2.484 | |
27. | Poletje | 1947 | 1.759 | |
28. | Očka Orel | 1947 | 12.450 | |
29. | Težka nedelja | 1948 | 15.268 | |
30. | Na svoji zemlji | 1949 | 30.885 | |
31. | Beli konj | 1956 | 1.407 | |
32. | V žagi | 1950 | 4.983 | |
33. | Hudo je, človek moj | 1950 | 7.959 | |
34. | Smrt nedolžnega velikana | 1952 | 15.722 | |
35. | Pot v Tolmin | 1953 | 12.579 | |
36. | Pomladni dan | 1953 | 61.567 | |
37. | Mož, ki ni poznal obupa | 1953 | 1.064 | |
38. | Žuželjč in njegova krava | 1953 | 1.670 | |
39. | Prvi prizor | 1953 | 2.109 | |
40. | Pomlad s čapljo | 1953 | 4.443 | |
41. | Sredi vasi | 1956 | 1.853 | |
42. | Kovač in hudič | 1959 | 6.296 | |
43. | Medvejke | 1959 | 1.651 | |
44. | Ozimina | 1959 | 4.257 | |
45. | Utrinki iz ječe | 1959 | 1.449 | |
46. | Klopotec | 1960 | 2.375 | |
47. | Tantadruj | 1964 | 13.791 | |
48. | Balada o trobenti in oblaku | 1964 | 45.012 | |
49. | V gaju | 1972 | 2.628 | |
50. | Ringaraja | 1972 | 3.997 | |
51. | Kamen in njiva | 1984 | 5.302 | |
52. | Pravljica o maku | 1984 | 3.451 | |
Skupaj | 407.938 | besed |
S prenosom gradiva v elektronsko obliko je avtor začel že v začetku osemdesetih let, ob pomoči Melite Ambrožič in Jureta Dimca (Pomladni dan, Balada, Tantadruj) - s pretipkavanjem na terminalih univerzitetnega računalnika DEC-10, večji del, ki je še ostal, pa je bil prenesen v letu 1997. Vnos je tokrat opravil avtor, v pretežni meri strojno (z bralnikom slike Microtek in z optičnim prepoznavanjem znakov s programom EVA), na Inštitutu za slovenski jezik ZRC SAZU. Le tiste redke predvojne tiske, ki niso smeli iz prostorov Narodne in univerzitetne knjižnice, predvsem iz časopisa Istra, je tam na prenosni računalnik pretipkala Lučka Uršič. Pri tem ji je malo pomagala Marija Jakopin, ki je tudi pretipkala dve črtici iz časopisa Delo. Vneseno besedilo je potem prebrala in popravila Lučka Uršič.
Izvzeto ni nobeno znano Kosmačevo delo - vključeni sta tudi zadnji dve deli v seznamu (51 in 52), ki sta, dopolnjeni, izšli po smrti in tudi Prazna ptičnica, ki je pisec očitno ni nameraval objaviti, pa je bila tako prvič natisnjena šele leta 1988.
Pri vrednotenju rezultatov, ki nastanejo pri obdelavi vzorca in ne celote, se vedno pojavi tudi vprašanje, kolikšen delež celote predstavlja vzorec. Z vprašanjem števila in obsega vseh slovenskih leposlovnih del se, kot vse kaže, še nihče ni resneje ukvarjal.
Tabela 4: Popis leposlovnih izvirnih knjig in prevodov ter vseh knjig in prevodov
1919 | 37 | 16 | 190 | 20 |
1920 | 36 | 19 | 196 | 27 |
1921 | 38 | 24 | 232 | 35 |
1922 | 46 | 28 | 268 | 46 |
1923 | 65 | 40 | 295 | 55 |
1924 | 29 | 29 | 209 | 45 |
1925 | 34 | 39 | 249 | 54 |
1926 | 44 | 35 | 230 | 40 |
1927 | 39 | 27 | 266 | 29 |
1928 | 39 | 25 | 255 | 30 |
1929 | 56 | 31 | 265 | 48 |
1930 | 57 | 48 | 238 | 57 |
1931 | 63 | 69 | 249 | 81 |
1932 | 57 | 45 | 244 | 53 |
1933 | 58 | 50 | 232 | 55 |
1934 | 65 | 54 | 220 | 61 |
1935 | 54 | 36 | 175 | 45 |
1945-47 | 185 | 156 | 1116 | 346 |
1948 | 41 | 43 | 471 | 119 |
1949 | 75 | 40 | 487 | 88 |
1950 | 71 | 64 | 679 | 109 |
1951 | 64 | 77 | 854 | 110 |
1952 | 67 | 83 | 723 | 110 |
1953 | 70 | 62 | 956 | 87 |
1954 | 69 | 101 | 1077 | 116 |
1955 | 97 | 119 | 934 | 138 |
1956 | 109 | 107 | 811 | 139 |
1957 | 92 | 125 | 874 | 144 |
1958 | 96 | 108 | 864 | 152 |
1959 | 98 | 165 | 865 | 203 |
1960 | 97 | 141 | 981 | 189 |
1961 | 120 | 165 | 1036 | 214 |
1962 | 117 | 217 | 1040 | 272 |
1963 | 142 | 220 | 1007 | 263 |
1964 | 131 | 231 | 1201 | 280 |
1965 | 208 | 254 | 1265 | 322 |
1966 | 175 | 263 | 1098 | 356 |
1967 | 156 | 263 | 1102 | 438 |
1968 | 178 | 216 | 1304 | 358 |
1969 | 203 | 231 | 1194 | 425 |
1970 | 186 | 252 | 1446 | 453 |
1971 | 207 | 275 | 1633 | 491 |
1972 | 270 | 223 | 1649 | 352 |
1973 | 276 | 277 | 1802 | 471 |
1974 | 244 | 252 | 1855 | 439 |
1975 | 333 | 296 | 1759 | 493 |
1976 | 446 | 264 | 1838 | 497 |
1977 | 276 | 224 | 1784 | 389 |
1978 | 128 | 243 | 1669 | 421 |
1979 | 288 | 236 | 1859 | 408 |
Skupaj | 6.132 | 6.608 | 43.246 | 10.173 |
Dobro je obdelano obdobje od 1919 do 1935 (Pivec-Stele 1936), tabele za posamezna leta v razdobju 1945-1979 pa je mogoče najti v slovenskih bibliografijah (Slovenska bibliografija 1945 ... 1979), ki jih je izdajal NUK za posamezna koledarska leta. Izvleček je naveden v tabeli 4 na prejšnji strani. Sklepamo lahko, da predstavlja časovni razpon iz tabele 4, 52 let, večji del slovenske leposlovne produkcije, saj tendenca rasti v zadnjih dveh desetletjih ni šla vedno samo navzgor (npr. Kodrič-Dačić 1997: str. 32). Približna ocena, ki jo je za celotno število slovenskih leposlovnih knjižnih del podala Anka Sollner-Perdih iz slavistične knjižnice Filozofske fakultete v Ljubljani, namreč število 12.000 (med 11.500 in 12.500), se po vsem tem ne zdi več optimistično pretirana, ampak blizu resnice. Oba vzorca skupaj potem predstavljata med 0.5 in 1 % celote, po obsegu pa, ker vsebuje celota tudi znaten delež pesniških zbirk, ki so krajše od proznih besedil, verjetno bliže 1 %. Celoto, dosedanji slovenski knjižni leposlovni opus, lahko tako ocenimo na velikostni red 300.000.000 besed. Delež obeh vzorcev skupaj med slovenskimi proznimi deli večje teže, ki jih je približno 500 (Lah 1997), je verjetno še večji.
Naloga je bila izvedena predvsem na navadnem prenosnem računalniku, ki ga ima avtor na uporabo od Inštituta za slovenski jezik ZRC SAZU v Ljubljani (ISJ). Nekaj tabel je bilo izračunanih na namiznem računalniku ISJ, za vnos besedil je bil uporabljen starejši namizni računalnik na ISJ z bralnikom slike, za ročno preverjanje besedil pa isti računalnik. Pri preverjanju oblikoslovnih oznak je bil uporabljen najprej namizni računalnik na ISJ, zadnjih nekaj mesecev pa njegov novejši naslednik na ISJ.
Pri sestavljanju in preizkušanju pregibalnih shem in pri poizvedbah na internetu je bil uporabljen avtorjev računalnik na Filozofski fakulteti v Ljubljani. Za vnos knjige Devet fantov in eno dekle je služil namizni računalnik v knjižnici Oddelka za zgodovino na Filozofski fakulteti z bralnikom slike.
Izračun entropij n-terčkov obeh vzorcev je bil opravljen na strežniku Narodne in univerzitetne knjižnice v Ljubljani (Pentium Pro 2 x 400 MHz, 512 MB pomnilnika, Windows NT). Pri tem se je zelo obnesla tudi hitra povezava med NUK in ZRC SAZU (500 KB/sek). Pretipkavanje besedil v NUK je potekalo na starejšem prenosnem računalniku Marije Jakopin.
Vnos prvih treh knjig Cirila Kosmača je potekal na terminalih, priključenih na računalnik DEC-10 v Računskem centru Univerze v Ljubljani.
Disertacija je bila skoraj v celoti, vključno z besedilom naloge, izdelana z urejevalnikom EVA (http://www.uni-lj.si/~ffjakopin/hp_eng.html#eva, Jakopin 1995c), ki je bil v ta namen dopolnjen z vsemi potrebnimi orodji. Uporabljeni sta bili najprej verzija za DOS, v letu 1998 pa verzija za Windows 95, obe napisani v jeziku C (Zortech C oz. Visual C). Iskalni program za pregledovanje priloge Č na internetu je EVA-CGI. Edina druga programska oprema je bil program za prepoznavanje znakov Recognita, s katerim je bil vnešen roman Devet fantov in eno dekle.