O PROGRAMU

Projekt AIDE

U rujnu 2004. godine Joint Research Centre organizira radionicu pod naslovom Addressing the Language Barrier Problem in the Enlarged EU Automating Eurovoc Descriptor Assignment na koju su pozvane sve nove članice EU i zemlje kandidati za članstvo u njoj.

Svaku su zemlju zastupala dva stručnjaka, jedan za područje službene dokumentacije i publikacija a drugi sa područja računalne lingvistike. Hrvatska se također odazvala pozivu.

Uz prikaz postignutih rezultata rada stručnjaka JRC-a na području automatskog indeksiranja deskriptorima Eurovoca, upućen je poziv zemljama na sudjelovanje u daljnjem rješavanju jezičnih problema višejezične zajednice. To je dalo izravan poticaj već postojećoj ideji da se iste godine pokrene projekt AIDE – Automatsko indeksiranje deskriptorima Eurovoca i zacrta plana rada.

Cilj projekta, koji je trajao do kraja 2007. godine, bila je izrada automatskog indeksatora, inteligentnoga programskog sustava za indeksiranje službenih tekstova na hrvatskome jeziku deskriptorima Pojmovnika Eurovoc. Uz ponuđena iskustva tima iz JRC-a razvoj se temeljio na radu i znanju hrvatskih stručnjaka.

Nositelji projekta

Hrvatska informacijsko-dokumentacijska referalna agencija (HIDRA)

 

Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave Fakulteta za elektrotehniku i računarstvo Sveučilišta u Zagrebu (ZEMRIS)

 

Zavod za lingvistiku Filozofskog fakulteta Sveučilišta u Zagrebu (ZZL)

Suradnici abecednim redom

 

Voditelji: koncepcija i koodinacija

Cvitaš, Maja (HIDRA)

Dalbelo Bašić, Bojana (FER, ZEMRIS)

Šnajder, Jan (FER, ZEMRIS)

Tadić, Marko (FF, ZZL)

 

Studenti FER-a abecedno: istraživanje i programiranje

Cvitaš, Ana

Eklić, Hrvoje

Jančec, Matija

Jovanov, Goran

Kolar, Mladen

Mijić, Jure

Petrović, Saša

Šarić, Frane

Šilić, Artur

Vidović, Ivan

Vukmirović, Igor

 

Djelatnici HIDRA-e abecedno: formalna i sadržajna obrada tekstova

Brčić, Marija

Didak-Preklapaj, Tanja

Horvat, Danica

Horvat, Tamara

Plavac, Jasmina

Ranić, Anka

Softa, Marta

Vukalović, Dubravka

 

Faze rada na projektu

 

  1. Prikupljanje dokumenata
  2. Konverzija u jednoobrazni zajednički format – XML
  3. Analiza strukture postojećih dokumenata propisa RH i izrada predloška (DTD) za jednoobrazno oblikovanje novih dokumenata
  4. Indeksiranje korpusa tekstova s pomoću radne stanice
  5. Odabir metoda za automatsko indeksiranje
  6. Postupna dogradnja stanice za računalom potpomognuto indeksiranje postupcima automatskog indeksiranja – izgradnja WinAIDE indeksatora namijenjenoga trajnom radu na korpusu tekstova
  7. Izrada sučelja i uspostava javnog automatskog indeksatora u vidu web aplikacije - WebAIDE

 

Isporuke projekta AIDE

 

  1. Kriteriji koje službeni tekstovi trebaju zadovoljavati za ulaz u korpus tekstova za strojno učenje automatskog indeksiranja deskriptorima Eurovoca
  2. Sustav označivanja bibliografskih zapisa propisa RH za potrebe administriranja korpusa tekstova
  3. Korpus/01 – skup od 9225 tekstova
  4. BIB-Korpus – podskup bibliografskih zapisa propisa koji odgovaraju tekstovima Korpusa/01
  5. BIB-Kandidati – podskup bibliografskih zapisa propisa koji odgovaraju tekstovima koji čekaju za ulazak u korpus
  6. BIB-NEkandidati - podskup bibliografskih zapisa propisa koji odgovaraju tekstovima koji nisu pogodni za korpus označeni u bibliografskoj bazi podataka
  7. HidrIS – radna stanica za održavanje i razvoj korpusa tekstova temeljem rezultata AIDE projekta (selektivni download tekstova, harmonizacija tekstova s bibliografskom bazom podataka, provođenje strojnog učenja indeksiranja Eurovocom, kontrola jednoznačnosti odrednica Eurovoca)
  8. SAPE – radna stanica za prikupljanje izraza iz tekstova, asocijata, koji upućuju na korištenje Eurovoc deskriptora

  9. eHR.dot – predložak za označivanje interne strukture tekstova na izvoru njihova nastanka u svrhu optimizacije automatskog indeksiranja
  10. HTML2XML - program za konverziju HTML dokumenata u odabrani format XML
  11. WinAIDE – program za automatsko/računalom potpomognuto indeksiranje tekstova koji ulaze u korpus za potrebe strojnog učenja indeksiranja
  12. WebAIDE – javni program za automatsko indeksiranje deskriptorima Eurovoca propisa koji ulaze u zakonodavnu proceduru RH

 

Radovi i nagrade

1.      (2005.)  Frane Šarić, Jan Šnajder, Bojana Dalbelo Bašić, Hrvoje Eklić: Enhanced Thesaurus Terms Extraction for Document Indexing,  Međunarodna konferencija Information Technology Interfaces,  ITI'2005 , Cavtat, lipanj 2005. Rad je dobitnik nagrade BEST student paper.

2.       (2005.)  Mladen Kolar, Igor Vukmirović, Bojana Dalbelo Bašić, Jan Šnajder: Computer Aided Document Indexing System,  Međunarodna konferencija Information Technology Interfaces,  ITI'2005 , Cavtat, lipanj 2005 (Rad je objavljen u Journal of Computing and Information Technology – CIT 13, 2005, 4, 200-305. Rad je na natječaju za nagradu ZNANOST, koju su u suradnji raspisali Nacionalna zaklada za znanost, visoko školstvo i tehnologijski razvoj Republike Hrvatske i Novi list, proglašen najboljim u kategoriji tehničkih i biotehničkih znanosti.

3.       (2005.)  Jure Mijić, Marko Tadić, Matija Jančec, Goran Jovanov: HTML to XML conversion for non-programmers, Međunarodna konferencija Information Technology Interfaces,  ITI'2005 , Cavtat, lipanj 2005.

4.       (2005.)  Maja Cvitaš, Bojana Dalbelo Bašić, Marko Tadić: Automatsko indeksiranje deskriptorima Eurovoca (AIDE) , 9. seminar „ARHIVI, KNJIŽNICE, MUZEJI“, Poreč, 23.-25. studeni 2005.

5.       (2006.)  Bojana Dalbelo Bašić, Marko Tadić: Computer Aided Document Indexin System (CADIS) with Eurovoc, Eurovoc Conference 2006, Bruxelles, 10. 3. 2006.

6.       (2006.)  Mladen Kolar; Frane Šarić i Igor Vukmirović: Strojno potpomognuto indeksiranje dokumenata, . Rad je dobitnik Rektorove nagrade Sveučilišta u Zagrebu, 11. 7. 2006.

7.       (2006.)  Saša Petrović Comparison of Collocation Extraction Measures for Document Indexing, Međunarodna konferencija Information Technology Interfaces,  ITI'2005 , Cavtat, 19.-23. lipnja 2006. Rad je dobitnik nagrade BEST student paper.

8.       (2007.)  Dalbelo Bašić, Bojana; Tadić, Marko; Šarić, Frane: Computer Aided Document Indexing System with Eurovoc v2 (eCADIS), pozvano predavanje, Europski parlament, Bruxelles, 21. 5. 2007.

9.       (2007.)  CADIS - Computer Aided Document Indexing System, sustav za strojno potpomognuto indeksiranje dokumenata ključnim riječima iz višejezičnog Pojmovnika Eurovoc osvojio je Zlatno Teslino jaje, VIDI e-novation nagradu u kategoriji institucija, kao najkvalitetniji i najinventivniji visokotehnološki ICT proizvod konkurentan na svjetskom tržištu. Program je napravljen u okviru projektu AIDE a prijavljen je pod naslovom Inteligentno indeksiranje dokumenata.