Nazaj: Uvod      Naprej: Priprava besedil      Kazalo    Začetek    Konec

Doktorska disertacija P. Jakopina, str. 5 - 11

2. poglavje

Viri

2.1  Besedila
     2.1.1  Prvi vzorec
     2.1.2  Drugi vzorec
     2.1.3  Vzorca kot del celote
2.2  Strojna in sistemska programska oprema
2.3  Programska oprema

2.1 Besedila

Idealni vir za tako nalogo bi bila vsa doslej objavljena slovenska leposlovna dela. Tak vir bi bil popoln in na njem izmerjene vrednosti bi imele povsem trdno veljavo. Da bi se popolnosti vsaj na neki način približal, se je pisec teh vrstic odločil za dve besedilni zbirki: prvi vzorec, v katerem bi bilo kar največ del, in drugi vzorec, v katerem bi bila vsa objavljena dela priznanega avtorja. Pogoj, potreben za izpolnitev zahteve po popolnosti drugega vzorca, je tudi ta, da izbrani avtor ne bo ničesar več napisal, kar pomeni, da ga ni več med nami. Po daljšem premišljevanju in posvetovanjih je izbira padla na Cirila Kosmača (1910-1981). Sodobnejšega avtorja, ki bi ustrezal zastavljenim pogojem, žal ni bilo mogoče najti.    

2.1.1 Prvi vzorec

Vsa leposlovna besedila, ki v današnjih časih pridejo na police v knjigarnah, so že dobro desetletje pripravljena z računalnikom in tako, vsaj do tiska, obstajajo tudi v elektronski obliki. Pot do večje zbirke teoretično torej ne bi smela biti težka, omejena pa je predvsem z bojaznijo avtorjev do zlorabe avtorskih pravic. Tudi zakon o knjižničarstvu, ki bi od tiskarjev zahteval, da oddajo obvezni izvod tudi v elektronski obliki, če ga imajo, še ni bil sprejet in je zato Narodna in univerzitetna knjižnica po tej plati povsem brez virov. Tako je bila izredno dragocena Zbirka slovenskih leposlovnih besedil, ki jo od junija 1995 naprej na internetu na naslovu http://www.ijs.si/lit/leposl.html gradi Miran Hladnik (npr. Hladnik 1995). Iz nje, tudi iz besedil, ki še niso bila pripravljena za objavo na internetu, izvira več kot polovica prvega vzorca. Večina drugih del je iz sodelovanja med avtorjem in založbo Mihelač, nekaj jih je iz arhiva Inštituta za slovenski jezik Frana Ramovša ZRC SAZU, Varja Cvetko Orešnik je odstopila spomine svojega očeta, dve svoji deli Gitica Jakopin (tretje je prenesel v elektronsko obliko pisec teh vrstic), nekaj jih je avtorju posredoval Klaus Detlef Olof s celovške univerze, Orwellov 1984 pa je preskrbel Tomaž Erjavec. Natančnejši popis del z bibliografskimi podatki je naveden v prilogi A (stran 105 do 107), kratek pregled pa v spodnji tabeli.

Tabela 2: Dela prvega vzorca z letom prvega izida in številom besed

1.   Ivan Cankar   Hiša Marije Pomočnice1904   29.702   
2.   Ivan Cankar   Potepuh Marko in Kralj Matjaž1905   26.547   
3.   Ivan Cankar   Hlapec Jernej in njegova pravica1907   18.423   
4.   Ivan Cankar   Mimo življenja1920   52.316   
5.   Janez Cigler   Sreča v nesreči1836   33.778   
6.   Dragotin Cvetko   V prostoru in času1995   97.335   
7.   Fran S. Finžgar   Sama1912   49.194   
8.   Fran S. Finžgar   Strici1927   15.673   
9.   Nataša Gale   Fran Gestrin1927   25.603   
10.   Miran Hladnik   Kmečka povest (Iz polpret. časa)1992   17.254   
11.   Gitica Jakopin   Žarometi1962   36.808   
12.   Gitica Jakopin   Devet fantov in eno dekle1963   29.136   
13.   Gitica Jakopin   Slovo od deklištva1995   57.116   
14.   Josip Jurčič   Nemški valpet1867   7.969   
15.   Josip Jurčič   Sosedov sin1868   18.680   
16.   Janko Kersnik   Ponkrčev oča1882   2.184   
17.   Janko Kersnik   Mačkova očeta1886   1.601   
18.   Janko Kersnik   Jara gospoda1893   19.015   
19.   Alojz Kraigher   Peter Drozeg1916   19.994   
20.   Tomo Križnar   O iskanju ljubezni1989   132.098   
21.   Tomo Križnar   Samotne sledi1993   81.744   
22.   Fran Levstik   Martin Krpan z Vrha1858   5.682   
23.   Fran Levstik   Popotovanje iz Litije do Čateža1858   8.214   
24.   Fran Levstik   Sveti doktor Bežanec v Tožbanji vasi1870   11.293   
25.   Milan Lipovec   Čubejska prigoda1972   7.153   
26.   Florjan Lipuš   Zmote dijaka Tjaža1972   51.203   
27.   Florjan Lipuš   Srčne pege1991   52.864   
28.   Miroslav Malovrh   Opatov praporščak1903   51.420   
29.   Fran Maselj Podlimbarski   Gorski potoki1895   33.272   
30.   Ivan Pregelj   Mlada Breda1913   84.350   
31.   Ivan Pregelj   Thabiti Kumi1933   9.362   
32.   Prežihov Voranc   Boj na požiralniku1935   10.435   
33.   Prežihov Voranc   Samorastniki1937   12.949   
34.   Marijan Pusavec   Zbiralec nasmehov1991   30.518   
35.   Ivan Sivec   Kruh ponoči spi1994   49.047   
36.   Ivan Sivec   Triglavski kralj1994   59.604   
37.   Jakob Sket   Miklova Zala1884   35.471   
38.   Josip Stritar   Rosana1877   18.344   
39.   Rudi Šeligo   Triptih Agate Schwarzkobler1968   25.739   
40.   Gustav Šilih   Beli dvor1938   131.661   
41.   Damijan Šinigoj   Neizstreljeni naboj1994   94.375   
42.   Ivan Tavčar   Janez Sonce1885   51.772   
43.   Ivan Tavčar   Otok in struga1897   16.118   
44.   Ivan Tavčar   Cvetje v jeseni1917   26.349   
45.   Janez Trdina   Bajke in povesti o Gorjancih1888   59.241   
46.   Ivan Zorec   Izgnani menihi1937   49.676   
47.   Christian Andersen   Andersenove pravljice1992   53.216   Janko Moder
48.   Lewis Carroll   Alica v ogledalu1978   27.410   Gitica Jakopin
49.   Lewis Carroll   Aličine prigode v čudežni deželi1983   23.443   Gitica Jakopin
50.   Robert Cringely   Naključni imperiji1995   100.475   Primož Jakopin
51.   Alexandre Dumas   Trije mušketirji1995   55.734   Tomo Virk
52.   Gustave Flaubert   Bouvard in Pécuchet1995   85.702   Stane Ivanc
53.   Peter Handke   Ponovitev1988   65.259   Silvija Borovnik
54.   Jordan Horowitz   Kako vzgojiti očeta1994   25.188   Mira Hladnik
55.   George Mikes   Priročnik za snobe1994   29.125   Mitja Meršol
56.   Libuše Moníková   Fasada1994   113.764   Štefan Vevar
57.   George Orwell   19841983   91.022   Alenka Puhar
58.   Platon   Država1976   92.844   Jože Košar
59.          Sveto pismo Nove zaveze1984   149.338   več prevajalcev
60.   Jules Verne   V osemdesetih dneh okoli sveta1996   54.003   F.Stopar, M.Medvedšek
 
      Skupaj      2.721.416   besed

Knjige obsegajo časovni razpon od 1858 do 1996, se pravi zadnjih 138 let, s tem da je četrtina (15) iz 19. stoletja, približno polovica (29) pa je novejša, iz časa po letu 1962. Dela so razvrščena po abecedi avtorjev, znotraj istega avtorja pa kronološko. Pri izvirnih delih je navedeno leto prve objave posameznega dela, tudi če je bil kot podlaga za prenos v elektronsko obliko uporabljen kasnejši ponatis.    

Knjige so bile v različnih formatih, od formata HTML pri večini del iz Hladnikove zbirke, do formata programa WordStar, s katerim si očitno pomaga še veliko piscev, Microsoftovega izmenjalnega formata RTF, internega formata programov Word in WordPerfect, nekaj datotek je bilo pa celo v formatih avtorjevih programov STEVE in EVA. Konverzija je bila v vseh primerih opravljena s programom EVA.

Vsa dela seveda niso leposlovna v najstrožjem pomenu. Dilema nastane predvsem pri spominski literaturi in pri potopisih, kjer je črto dostikrat težko potegniti. Vključenih je tudi 14 prevodov, tako zaradi količine kot zaradi večje zaokroženosti vzorca. Nekaj del, ki jih je avtor še imel, pa so bila že zelo esejistična, v vzorec ni vključenih. Žal tudi ni prišla v poštev precej obsežna zbirka sicer neleposlovnih besedil, ki jo je zbrala M. Zorman za izdelavo svoje disertacije (Zorman 1997).

2.1.2 Drugi vzorec

Ta vzorec vsebuje vsa objavljena dela Cirila Kosmača; od leta 1931 do 1988. Kot pri prvem vzorcu je popoln popis z vsemi bibliografskimi podatki naveden v prilogi (priloga B, stran 109 in 110), kratek pregled pa v tabeli 3 na naslednji strani. Pri zbiranju Kosmačeve bibliografije sta bila uporabljena dva vira - popisa Helge Glušičeve (Glušič 1975: 22) in Ivana Cesarja (Cesar 1981). Dela so razvrščena približno kronološko po nastanku oz. objavi zadnje različice, kadar je bilo različic (npr. pri Baladi) več.

Tabela 3: Dela drugega vzorca z letom prvega izida in številom besed

1.   Božična noč v ječi1931   648
2.   Študenta Petra povest o materi1932/33   2.347
3.   Potepuh Najdu1932/33   3.170
4.   V znamenju rojstva in prerojenja1932   1.212
5.   Božično pismo iz celice 5891932   1.837
6.   Gornje mesto1933   1.581
7.   Velika nedelja1933   3.643
8.   Hodil po zemlji sem naši ...1933   5.567
9.   Kraška simfonija1933   2.914
10.   Cerkovnik Martin1933   3.951
11.   Na sveti večer1934   2.507
12.   Reka1934   1.179
13.   Hiša št. 141934   12.925
14.   Ogorek1935   3.168
15.   Obisk1935   2.860
16.   Zločin Bernarda Tula1935   3.027
17.   Prazna ptičnica1935(1988)   26.476
18.   Človek na zemlji1935   16.058
19.   Sreča1936   5.348
20.   Gosenica1936   4.738
21.   Kruh1936   2.630
22.   Življenje in delo Venca Poviškaja1937   19.539
23.   15. marec 19371937   2.283
24.   Tistega lepega dne1938   7.669
25.   Zlato1941   2.910
26.   Dragičeva smrt1946   2.484
27.   Poletje1947   1.759
28.   Očka Orel1947   12.450
29.   Težka nedelja1948   15.268
30.   Na svoji zemlji1949   30.885
31.   Beli konj1956   1.407
32.   V žagi1950   4.983
33.   Hudo je, človek moj1950   7.959
34.   Smrt nedolžnega velikana1952   15.722
35.   Pot v Tolmin1953   12.579
36.   Pomladni dan1953   61.567
37.   Mož, ki ni poznal obupa1953   1.064
38.   Žuželjč in njegova krava1953   1.670
39.   Prvi prizor1953   2.109
40.   Pomlad s čapljo1953   4.443
41.   Sredi vasi1956   1.853
42.   Kovač in hudič1959   6.296
43.   Medvejke1959   1.651
44.   Ozimina1959   4.257
45.   Utrinki iz ječe1959   1.449
46.   Klopotec1960   2.375
47.   Tantadruj1964   13.791
48.   Balada o trobenti in oblaku1964   45.012
49.   V gaju1972   2.628
50.   Ringaraja1972   3.997
51.   Kamen in njiva1984   5.302
52.   Pravljica o maku1984   3.451
 
    Skupaj   407.938 besed

   

S prenosom gradiva v elektronsko obliko je avtor začel že v začetku osemdesetih let, ob pomoči Melite Ambrožič in Jureta Dimca (Pomladni dan, Balada, Tantadruj) - s pretipkavanjem na terminalih univerzitetnega računalnika DEC-10, večji del, ki je še ostal, pa je bil prenesen v letu 1997. Vnos je tokrat opravil avtor, v pretežni meri strojno (z bralnikom slike Microtek in z optičnim prepoznavanjem znakov s programom EVA), na Inštitutu za slovenski jezik ZRC SAZU. Le tiste redke predvojne tiske, ki niso smeli iz prostorov Narodne in univerzitetne knjižnice, predvsem iz časopisa Istra, je tam na prenosni računalnik pretipkala Lučka Uršič. Pri tem ji je malo pomagala Marija Jakopin, ki je tudi pretipkala dve črtici iz časopisa Delo. Vneseno besedilo je potem prebrala in popravila Lučka Uršič.

Izvzeto ni nobeno znano Kosmačevo delo - vključeni sta tudi zadnji dve deli v seznamu (51 in 52), ki sta, dopolnjeni, izšli po smrti in tudi Prazna ptičnica, ki je pisec očitno ni nameraval objaviti, pa je bila tako prvič natisnjena šele leta 1988.

2.1.3 Vzorca kot del celote

Pri vrednotenju rezultatov, ki nastanejo pri obdelavi vzorca in ne celote, se vedno pojavi tudi vprašanje, kolikšen delež celote predstavlja vzorec. Z vprašanjem števila in obsega vseh slovenskih leposlovnih del se, kot vse kaže, še nihče ni resneje ukvarjal.

Tabela 4: Popis leposlovnih izvirnih knjig in prevodov ter vseh knjig in prevodov

1919    37     16     190    20
1920    36     19     196    27
1921    38     24     232    35
1922    46     28     268    46
1923    65     40     295    55
1924    29     29     209    45
1925    34     39     249    54
1926    44     35     230    40
1927    39     27     266    29
1928    39     25     255    30
1929    56     31     265    48
1930    57     48     238    57
1931    63     69     249    81
1932    57     45     244    53
1933    58     50     232    55
1934    65     54     220    61
1935    54     36     175    45
        
1945-47185     156     1116    346
1948    41     43     471    119
1949    75     40     487    88
1950    71     64     679    109
1951    64     77     854    110
1952    67     83     723    110
1953    70     62     956    87
1954    69     101     1077    116
1955    97     119     934    138
1956   109     107     811    139
1957    92     125     874    144
1958    96     108     864    152
1959    98     165     865    203
1960    97     141     981    189
1961   120     165     1036    214
1962   117     217     1040    272
1963   142     220     1007    263
1964   131     231     1201    280
1965   208     254     1265    322
1966   175     263     1098    356
1967   156     263     1102    438
1968   178     216     1304    358
1969   203     231     1194    425
1970   186     252     1446    453
1971   207     275     1633    491
1972   270     223     1649    352
1973   276     277     1802    471
1974   244     252     1855    439
1975   333     296     1759    493
1976   446     264     1838    497
1977   276     224     1784    389
1978   128     243     1669    421
1979   288     236     1859    408
        
Skupaj6.132    6.608    43.246   10.173

Dobro je obdelano obdobje od 1919 do 1935 (Pivec-Stele 1936), tabele za posamezna leta v razdobju 1945-1979 pa je mogoče najti v slovenskih bibliografijah (Slovenska bibliografija 1945 ... 1979), ki jih je izdajal NUK za posamezna koledarska leta. Izvleček je naveden v tabeli 4 na prejšnji strani. Sklepamo lahko, da predstavlja časovni razpon iz tabele 4, 52 let, večji del slovenske leposlovne produkcije, saj tendenca rasti v zadnjih dveh desetletjih ni šla vedno samo navzgor (npr. Kodrič-Dačić 1997: str. 32). Približna ocena, ki jo je za celotno število slovenskih leposlovnih knjižnih del podala Anka Sollner-Perdih iz slavistične knjižnice Filozofske fakultete v Ljubljani, namreč število 12.000 (med 11.500 in 12.500), se po vsem tem ne zdi več optimistično pretirana, ampak blizu resnice. Oba vzorca skupaj potem predstavljata med 0.5 in 1 % celote, po obsegu pa, ker vsebuje celota tudi znaten delež pesniških zbirk, ki so krajše od proznih besedil, verjetno bliže 1 %. Celoto, dosedanji slovenski knjižni leposlovni opus, lahko tako ocenimo na velikostni red 300.000.000 besed. Delež obeh vzorcev skupaj med slovenskimi proznimi deli večje teže, ki jih je približno 500 (Lah 1997), je verjetno še večji.


2.2 Strojna in sistemska programska oprema

Naloga je bila izvedena predvsem na navadnem prenosnem računalniku, ki ga ima avtor na uporabo od Inštituta za slovenski jezik ZRC SAZU v Ljubljani (ISJ). Nekaj tabel je bilo izračunanih na namiznem računalniku ISJ, za vnos besedil je bil uporabljen starejši namizni računalnik na ISJ z bralnikom slike, za ročno preverjanje besedil pa isti računalnik. Pri preverjanju oblikoslovnih oznak je bil uporabljen najprej namizni računalnik na ISJ, zadnjih nekaj mesecev pa njegov novejši naslednik na ISJ.

Pri sestavljanju in preizkušanju pregibalnih shem in pri poizvedbah na internetu je bil uporabljen avtorjev računalnik na Filozofski fakulteti v Ljubljani. Za vnos knjige Devet fantov in eno dekle je služil namizni računalnik v knjižnici Oddelka za zgodovino na Filozofski fakulteti z bralnikom slike.

Izračun entropij n-terčkov obeh vzorcev je bil opravljen na strežniku Narodne in univerzitetne knjižnice v Ljubljani (Pentium Pro 2 x 400 MHz, 512 MB pomnilnika, Windows NT). Pri tem se je zelo obnesla tudi hitra povezava med NUK in ZRC SAZU (500 KB/sek). Pretipkavanje besedil v NUK je potekalo na starejšem prenosnem računalniku Marije Jakopin.

Vnos prvih treh knjig Cirila Kosmača je potekal na terminalih, priključenih na računalnik DEC-10 v Računskem centru Univerze v Ljubljani.


2.3 Programska oprema

Disertacija je bila skoraj v celoti, vključno z besedilom naloge, izdelana z urejevalnikom EVA (http://www.uni-lj.si/~ffjakopin/hp_eng.html#eva, Jakopin 1995c), ki je bil v ta namen dopolnjen z vsemi potrebnimi orodji. Uporabljeni sta bili najprej verzija za DOS, v letu 1998 pa verzija za Windows 95, obe napisani v jeziku C (Zortech C oz. Visual C). Iskalni program za pregledovanje priloge Č na internetu je EVA-CGI. Edina druga programska oprema je bil program za prepoznavanje znakov Recognita, s katerim je bil vnešen roman Devet fantov in eno dekle.


   Naslov strani: http://www.jakopin.net/primoz/disertacija/viri.php        Datum: 27. junij 1999. Zadnja sprememba: 17. februar 2017.             896

Naprej: Priprava besedil      Nazaj: Uvod      Kazalo    Začetek    Konec