Date:September 12, 2014

Korpus pisnih besedil Gigafida

Obsežna zbirka sodobnih (1990-2011) slovenskih besedil iz časopisov, revij, knjig, s spleta itd., pripravljenih posebej za raziskovanje jezikovne rabe. Korpus obsega skoraj 1,2 milijarde besed.

Povezava na korpus: www.gigafida.net.

Posnetek na desni na kratko predstavlja osnovne značilnosti korpusa Gigafida. Specifični primeri iskanja po korpusu so na voljo v posnetkih spodaj, skupaj z nekaterimi dodatnimi informacijami o projektu in seznamom avtorjev. Priporočamo, da si pred gledanjem posnetkov v nastavitvah predvajalnika vklopite najvišjo razpoložljivo kakovost prikaza (1080p), na voljo pa so tudi slovenski podnapisi.

 

  • Namen korpusa, besedilna zastopanost, seznam besedilodajalcev, standard za redno zbiranje gradiva za referenčni korpus: http://www.gigafida.net/Support/About.
    Navodila za delo s korpusom: http://www.gigafida.net/Support/Manual.

    Korpus Gigafida je nastal v sklopu projekta Sporazumevanje v slovenskem jeziku, ki sta ga med leti 2008 in 2013 financirala Evropski socialni sklad in Ministrstvo za izobraževanje, znanost in šport RS. Korpus je prosto dostopen za uporabo v (različnih) spletnih vmesnikih, baza korpusa v tekstovni obliki (format XML) zaradi varovanja avtorskih pravic besedilodajalcev ni prosto dostopna. Je pa prosto dostopen korpus ccGigafida, 9-odstotni del korpusa Gigafida. Če želite dobiti dostop do celotne baze v tekstovni obliki ali če želite vključiti korpus v svoj spletni vmesnik, pišite na naslov info@slovenscina.eu.

  • Na spletni strani korpusa so našteti naslednji avtorji in sodelavci projekta:

    Korpus Gigafida kot podatkovna zbirka: Nataša Logar Berginc, Simon Krek, Tomaž Erjavec, Miha Grčar, Peter Holozan, Simon Šuster
    Konkordančnik za korpus Gigafida: Rok Rejc, Simon Rigač, Špela Arhar Holdt, Iztok Kosem, Simon Krek, Polona Gantar

    SODELAVCI (po nalogah)
    Vodenje zbiranja besedil: Nataša Logar Berginc
    Zbiranje besedil: Simon Šuster, Matic Korošec, Teja Roglič, Mateja Grča, Urška Sančanin, Tamara Ambrožič, Mitja Knapič, Nataša Gliha Komac
    Pretvorba besedil: Simon Šuster
    Pajkanje spletnih besedil: Miha Grčar
    Jezikoslovno označevanje: označevalnik Obeliks (Miha Grčar, Matjaž Juršič, Simon Krek, Kaja Dobrovoljc)
    Shema XML, validacija s TEI in vzorčenje korpusa Kres: Tomaž Erjavec
    Zasnova konkordančnika: Simon Rigač, Špela Arhar Holdt, Iztok Kosem, Simon Krek, Polona Gantar, Nataša Logar Berginc
    Izdelava konkordančnika:Rok Rejc, Simon Rigač

  • Korpus Gigafida smo na Portalu jezikovnih virov spoznavali tudi v izobraževalno-promocijski aktivnosti Vir meseca, v kateri smo predstavljali različne zanimivosti v zvezi z jezikovnimi viri za slovenščino. Povzetek objav o korpusu Gigafida si lahko ogledate na spletni strani http://eepurl.com/br1n1v.