Pozrite si prednášku Martina Šechného, v ktorej hovorí o analýze zverejňovania datasetov verejnej správy za rok 2021, ktorú vypracoval.

Prezentácia zaznela v rámci stretnutia Open data Siete, ktoré sa konalo 25.6.2021.

Analýza vyplýva z úlohy Akčného plánu Iniciatívy pre otvorené vládnutie v SR a je vytváraná každoročne. Hodnotí datasety uverejnené na ústrednom štátnom portáli data.gov.sk (napriek tomu, že ministerstvá a ústredné orgány štátnej správy môžu údaje zverejňovať aj na svojich portáloch a iných webových stránkach).

Najviac datasetov zverejňuje Štatistický úrad SR, ktorý je určený na to aby robil zisťovania a zverejňoval dáta. Počet datasetov stúpa v čase, posledné 4 roky sa však ustálili na hodnote medzi 2000 a 2300 datasetov.

Datasety sa dajú vyhľadávať podľa rôznych organizácií, podľa tagov, atď.. Najčastejšie tagy sú štatistika, voľby, číselníky a zdravotníctvo.

Pre otvorené dáta je veľmi dôležité, v akej licencii sú zverejnené. Najčastejšie licencia na portáli data.gov.sk sú licencie Creative Commons – CC-BY-SA, CC0 a CC-BY. Niektoré datasety nemajú uvedenú licenciu, napr. ide o Úrad vlády.

Formáty datasetov by mali byť strojovo spracovateľné – najpopulárnejšie sú formáty CSV (31%), XML (22%), HTML/XHTML (10%), JSON (5%) iné. Asi tretina formátov nie sú otvorené alebo strojovo spracovateľné (PDF, XLS).

Čo sa týka aktualizácie, až 70% datasetov má uvedené iná, zvyšok sú ročné, mesačné, a nepravidelné aktualizácie.

Väčšina používateľov je anonymných, počet registrovaných používateľov je 5 276, čo je o 17% viac ako v roku 2020. Používatelia, ktorí nie sú registrovaní nie sú oficiálne reportovaní.

Verejnosť môže podávať rôzne podnety na portál (napr. návrh na zverejnenie údajov, žiadosť o úpravu údajov zverejnených na portáli, žiadosť o zvýšenie kapacity na uloženie údajov), tieto žiadosť sa však v praxi veľmi nevyužívajú.

Pripravuje sa nový portál data.gov.sk 2.0, ktorý by mal obsahovať pokročilejšie funkcie a riešiť nedostatky súčasného portálu.

Kvalita je dôležitejšia ako kvantita. Podľa kanadskej metodiky Data Quality Score in open data sú dôležité:

  • Použiteľnosť (ako ľahko sa pracuje s dátami) 38%
  • Metadáta (ako sú dáta vysvetlené) 25%
  • Aktuálnosť (aká je pravidelnosť aktualizácie dát) 18%
  • Úplnosť (či sú dáta komkpletné alebo obsahujú prázdne hodnoty) 12%
  • Prístupnosť (či sa dá použiť API) 7%

Všeobecne používaná metodika na určenie kvality datasetov sa riadi systémom hviezdičiek – čím viac hviezdičiek tým kvalitnejšie otvorené dáta. Od 3 hviezdičiek ide o plnohodnotné otvorené dáta. Vysvetlenie tejto metodiky nájdete aj v našom e-learningu.

Na základe tejto metodiky sme hodnotili datasety  na portáli:

  • Pri hodnotení licencií vychádza 99% datasetov ako s vhodnou licenciou, s nevhodnou je len 1%.
  • Pri hodnotení formátov vychádza 58% ako s minimálne 3 hviezdičkami – vhodné, zvyšok, čo je takmer polovica sú nevhodné.
  • Portál poskytuje nástroje – SPARQL editor a MOD_EDEM_PA. Tu existuje priestor na zlepšenie a pridanie viacerých nástrojov.

Čo sa týka aplikácií, tých je iba 5 – je to veľmi malé číslo. Je to spôsobené aj zložitosťou – je nutné prihlásiť sa s občiansky preukazom s čipom.

Portál obsahuje aj API – prístup k datasetom a metadátam.

Pracovnú verziu analýzy (pred pripomienkovaním) nájdete na tomto odkaze.