Date:September 12, 2014

Korpus pisnih besedil Gigafida

Obsežna zbirka sodobnih (1990-2011) slovenskih besedil iz časopisov, revij, knjig, s spleta itd., pripravljenih posebej za raziskovanje jezikovne rabe. Korpus obsega skoraj 1,2 milijarde besed.

Povezava na korpus: www.gigafida.net.

Posnetek na desni na kratko predstavlja osnovne značilnosti korpusa Gigafida. Specifični primeri iskanja po korpusu so na voljo v posnetkih spodaj, skupaj z nekaterimi dodatnimi informacijami o projektu in seznamom avtorjev. Priporočamo, da si pred gledanjem posnetkov v nastavitvah predvajalnika vklopite najvišjo razpoložljivo kakovost prikaza (1080p), na voljo pa so tudi slovenski podnapisi.

Primeri iskanja
Več informacij
Avtorji
Vir meseca

Namen korpusa, besedilna zastopanost, seznam besedilodajalcev, standard za redno zbiranje gradiva za referenčni korpus: http://www.gigafida.net/Support/About.
Navodila za delo s korpusom: http://www.gigafida.net/Support/Manual.

Korpus Gigafida je nastal v sklopu projekta Sporazumevanje v slovenskem jeziku, ki sta ga med leti 2008 in 2013 financirala Evropski socialni sklad in Ministrstvo za izobraževanje, znanost in šport RS. Korpus je prosto dostopen za uporabo v (različnih) spletnih vmesnikih, baza korpusa v tekstovni obliki (format XML) zaradi varovanja avtorskih pravic besedilodajalcev ni prosto dostopna. Je pa prosto dostopen korpus ccGigafida, 9-odstotni del korpusa Gigafida. Če želite dobiti dostop do celotne baze v tekstovni obliki ali če želite vključiti korpus v svoj spletni vmesnik, pišite na naslov info@slovenscina.eu.
Na spletni strani korpusa so našteti naslednji avtorji in sodelavci projekta:

Korpus Gigafida kot podatkovna zbirka: Nataša Logar Berginc, Simon Krek, Tomaž Erjavec, Miha Grčar, Peter Holozan, Simon Šuster
Konkordančnik za korpus Gigafida: Rok Rejc, Simon Rigač, Špela Arhar Holdt, Iztok Kosem, Simon Krek, Polona Gantar

SODELAVCI (po nalogah)
Vodenje zbiranja besedil: Nataša Logar Berginc
Zbiranje besedil: Simon Šuster, Matic Korošec, Teja Roglič, Mateja Grča, Urška Sančanin, Tamara Ambrožič, Mitja Knapič, Nataša Gliha Komac
Pretvorba besedil: Simon Šuster
Pajkanje spletnih besedil: Miha Grčar
Jezikoslovno označevanje: označevalnik Obeliks (Miha Grčar, Matjaž Juršič, Simon Krek, Kaja Dobrovoljc)
Shema XML, validacija s TEI in vzorčenje korpusa Kres: Tomaž Erjavec
Zasnova konkordančnika: Simon Rigač, Špela Arhar Holdt, Iztok Kosem, Simon Krek, Polona Gantar, Nataša Logar Berginc
Izdelava konkordančnika:Rok Rejc, Simon Rigač
Korpus Gigafida smo na Portalu jezikovnih virov spoznavali tudi v izobraževalno-promocijski aktivnosti Vir meseca, v kateri smo predstavljali različne zanimivosti v zvezi z jezikovnimi viri za slovenščino. Povzetek objav o korpusu Gigafida si lahko ogledate na spletni strani http://eepurl.com/br1n1v.