Kontakt

info@alvaria.sk

Technické štandardy

Vyhláška ÚPVII SR č. 78/2020 definuje v § 38-40 technické štandardy otvorených dát. Vyhláška hovorí o kvalite datasetov, definuje otvorené údaje a tiež definuje štandardy poskytovania otvorených údajov.

Kvalita datasetov

Otvorené dáta sa podobne ako hotely označujú systémom hviezdičiek: https://5stardata.info/cs/, pričom jedna hviezdička znamená najnižšiu kvalitu (napr. dáta v PDF neštruktúrovanom formáte) a päť hviezdičiek najvyššiu. Za naozaj otvorené dáta je možné považovať datasety, ktoré majú aspoň tri hviezdičky (napr. CSV, XML alebo JSON súbory).

Schéma hodnotenia datasetov podľa otvorenosti – “hviezdičky” (zdroj: https://5stardata.info)

Popis stupnice (text spracovaný na základe Úvod k otevřeným datům, príklady: Alvaria):

*

Dataset existuje v elektronickej podobe, ale nie je dostupný v sieti Internet alebo nemá špecifikované podmienky použitia otvorených dát. Príklad: akýkoľvek súbor zverejnený na webovej stránke mesta

**

Dataset je prístupný na Internete a má popísaný spôsob použitia. Príklad: akýkoľvek súbor zverejnený na webovej stránke mesta, ku ktorému je uvedená otvorená licencia alebo podmienky umožňujúce ďalšie použitie

***

Dataset v otvorenom strojovo spracovateľnom formáte, ktorý je prístupný na Internete a má popísaný spôsob použitia. Príklad: CSV, JSON, XML súbor  zverejnený na webovej stránke mesta, ku ktorému je uvedená otvorená licencia alebo podmienky umožňujúce ďalšie použitie

****

Dataset v otvorenom strojovo spracovateľnom formáte, ktorý je prístupný na Internete a má popísaný spôsob použitia. Musia v ňom byť identifikované entity, ktorých sa týkajú údaje obsiahnuté v datasete.
Identifikátory musia mať tvar Internationalized Resource Identifier (IRI).

*****

Dataset v otvorenom strojovo spracovateľnom formáte, ktorý je prístupný na Internete a má popísaný spôsob použitia. Musia v ňom byť identifikované entity, ktorých sa týkajú údaje obsiahnuté v datasete.
Identifikátory musia mať tvar Internationalized Resource Identifier (IRI). Dáta sú pomocou odkazu prepojené na iné súvisiace dáta.

Nie je potrebné aby sa samosprávy snažili hneď o dosiahnutie piatich hviezdičiek. Dataset, ktorý je označený aspoň troma hviezdičkami považujeme za skutočne otvorený. Je však lepšie zverejniť dáta radšej menej dokonalým spôsobom, s menším počtom hviezdičiek, ako vôbec.

Formáty

Vyhláška ÚPVII SR č. 78/2020 zmieňuje pri otvorených dátach v § 40 – Poskytovanie otvorených údajov tieto formáty:

  • CSV  – z anglického “comma separaed values”, teda hodnoty oddelené čiarkou. CSV súbor je text, v ktorom sú stĺpce oddelené čiarkou (alebo bodkočiarkou, či iným odeľovačom). Súbor vie prečítať väčšina tabuľkových procesorov ako je MS Excel, OpenOffice, LibreOffice, Google Spreadsheet, atď.
  • JSON – z anglického “JavaScript Object Notation” je súbor, v ktorom dáta môžu byť organizované v poliach alebo agregované v objektoch.  Tento súbor je vhodný pre programátorov a pre zložitejšie dátové štruktúry.
Vľavo obsah CSV súboru, vpravo súbor prečítaný v MS Excel

Pri poskytovaní geopriestorových súborov sú to tieto formáty:

  • Geography Markup Language (.xml, .gml) podľa Open Geospatial Consortium (OGC) pre vektorové údaje,
  • GeoJSON (.json, .geojson) podľa osobitnej špecifikácie pre vektorové údaje,
  • Shapefile pre vektorové údaje, pozostávajúci z hlavného súboru (.shp), indexového súboru (.shx) a súboru atribútov (.dbf),
  • LAS podľa Open Geospatial Consortium (OGC) pre mračná bodov získaných laserovým skenovaním,
  • Tagged Image File Format (.tif, .tiff) vo verzii 6.0 s pripojeným súborom vo formáte TIFF World File (.tfw) pre rastrové údaje s polohovým priradením,
  • GeoTIFF (.tif, .tiff) pre rastrové údaje s polohovým priradením,
  • GeoPackage (.gpkg) podľa Open Geospatial Consortium (OGC) pre rastrové a vektorové údaje,
  • GeoSPARQL podľa Open Geospatial Consortium (OGC) pre reprezentáciu priestorových údajov vo formáte prepojených údajov.
Praktické rady

Čo sa týka formátov súborov, používa sa ich viacero, najmä v závislosti od typu dát a ich použitia. Na tabuľkové dáta sa preferuje formát CSV (je vhodnejší ako formát XLS, pretože na XLS je proprietárny a nie otvorený formát), pre dopravné dáta sa preferuje formát GTFS a podobne. Niektoré dáta ako napr. poloha vozidiel MHD sa nebudú zverejňovať ako tabuľky na stiahnutie, ale prostredníctvom API, kde môže používateľ prostredníctvom API volania zistiť polohu vybraných vozidiel v danom okamihu.

Netreba zabudnúť na dobrý metadátový popis, aby bolo jasné, čo ktorý stĺpec znamená, ku ktorému času sú údaje platné a na koho sa obrátiť s ďalšími otázkami či s nahlásením prípadných chýb.

Pri výbere riešenia (API vs. súbory na stiahnutie) a konkrétnych formátov je potrebné posúdiť, či informačný systém mesta už obsahuje preddefinované zostavy exportu dát. Ak áno, je potrebné v spolupráci s IT oddelením a dodávateľom zvážiť, či z pohľadu publikovania vyhovujú alebo je ich potrebné prispôsobiť. Rozumným prístupom je využiť maximum toho, čo daný systém už ponúka a minimalizovať náklady.

Zdroje článku: Úvod k otevřeným datům (Implementace strategií v oblasti otevřených dat II) – prezentácia

Ak chcete preskočiť obsah kliknite na odkaz nižšie alebo pokračujte kliknutím na ďalšiu lekciu.

11. Atribúty kvalitných dát