Katalog nejen otevřených dat
Středobod českých otevřených dat je NKOD, národní katalog otevřených dat. Je v něm spousta zajímavých informací, ale pro takový ten letmý přehled o tom, jaká data jsou k dispozici, je celkem obtížně použitelný.
Nechceme tedy NKOD replikovat, jde nám o trochu obecnější přehled, aby si každý mohl dohledat data pro jednotlivé oblasti zájmu.
Katalogy
Národní katalog otevřených dat (NKOD) je katalog všech katalogů, jednotlivé úřady a instituce si ale občas založí vlastní katalog, lokální katalog otevřených dat (LKOD), zde je výpis některých z nich.
- Ministerstva
- Města
- Ostatní
K transakčním datům (dotace, smlouvy, zakázky, …) je třeba doplnit data o smluvních stranách, protože tato data jsou v transakčních datasetech zpravidla nedostačující. Neexistuje jedno centrální úložiště, je několik zdrojů těchto informací, záleží na tom, co člověk požaduje.
- Některé informace o některých fyzických, právnických a veřejných entitách jde získat z exportů datových schránek
- Orgány veřejné moci mají sice DS povinně, ale u privátních subjektů to tak není, takže v datech nejsou zdaleka všechny.
- Dobré pro přehled o orgánech veřejné moci, případně jako zdroj pro mapování z adres datových schránek na IČO či naopak.
- Administrativní registr ekonomických subjektů (ARES)
- Historicky nejpodstatnější dataset pro administrativní data, do dneška má svou relevanci.
- V sekci XML služby najdete popis řady endpointů, ideální pro získání informací o několika málo subjektech. Nejdůležitější je OR (obchodní rejstřík - údaje z Justice), RES (registr ekonomických subjektů - základní údaje od Českého statistického úřadu) a RŽP (živnostenský rejstřík).
- API mají limity v řádek desítek tisíc dotazů denně, tak pozor na to, protože můžete být snadno zablokováni.
- V sekci otevřená data je relativně nově bulkový export obchodního rejstříku. Obsahuje skoro vše, co by člověk potřeboval o právnických osobách - chybí historie názvů subjektů a data narození fyzických osob (jednatelů, společníků atd.).
- MFČR tento registr provozuje, ale data jen poskytuje dál, nejsou v jeho vlastnictví.
- Otevřená data Veřejného rejstříku a Sbírky listin
- Ministerstvo Spravedlnosti poskytuje export dat z webu Justice.cz, zejm. z rejstříku právnických osob. Cokoliv vidíte na webové verzi rejstříku, to si můžete stáhnout v XML v bulkové formě.
- Pro aktuální informace stačí stáhnout data pro současný rok a všechny rejstříkové soudy a právní formy. Bohužel nejde stáhnout vše najednou nějak jednodušeji.
- Informace o zaniklých subjektech je trochu těžší získat, protože firma zaniklá v roce 2009 bude naposledy v datasetu pro rok 2009, takže člověk musí stáhnout data pro všechny roky, aby získal informace o všech zaniklých subjektech. Tato limitace se netýká exportů ARES výše, tam je snadné získat informace o zaniklých subjektech.
- Oproti ARES člověk získá informace o akcionářích, insolvencích a dalších metadatech.
- Tento dataset bude v budoucnu jediný nutný pro identifikaci smluvních stran, v tuto chvíli má stále několik zádrhelů.
Dotace
- DotInfo
- Ze systému DotInfo existuje jeden export z roku 2017
- TODO: vysvětlit, proč bohužel tenhle dataset existuje
- IS ReD
- obsahuje CSV exporty pro dotace, rozhodnutí nebo příjemce
- je možné dohledat informace v číselnících
- doporučuji diagram pro lepší pochopení relačního modelu
- nástupce systému CEDR III
- MS2014+ a Seznam operací/příjemců
- Dva datasety od MMR ohledně evropských dotací, tedy vyšších desítkách miliard ročně.
- MS2014+ jsou otevřená data přímo z informačního systému pro správu dotací, obsahují strukturovaná data o dotacích pro období 2014-2020.
- Druhý dataset, Seznam operací, obsahuje data pro období 2007-13 a 2014-20, jde ale o celkem zvláštně strukturované Excely, které se navíc v čase mění. Takže pro nahlížení dobré, ale pro analytiku je lepší export z MS2014+.
- CzechInvest
- udělené investiční pobídky
- starší data neobsahují IČO informace, tak pozor na to
- Státní zemědělský invervenční fond (SZIF)
- Fond operuje s 30-40 miliardami ročně, na webu jsou jednotliví žadatelé k dohledání.
- Existují XML exporty pro poslední dva roky dat.
Smlouvy
- Registr smluv
- Jde o přelomový informační systém, kam mají tisíce veřejných subjektů povinnost publikovat skoro všechny smlouvy přesahující hodnotu 50 tisíc Kč (jsou výjimky mj. z důvodů bezpečnosti či obchodních tajemství).
- Poskytuje otevřená data na denní bázi ve formátu XML.
- Systém lze používat napřímo, zprácováním dat nebo přes Hlídače státu, nejznámějšího zpracovatele těchto dat, kde jsou krom smluvních dat prolinkovány další datasety pro lepší kontext a analytiku.
- Ad hoc smluvní data
- Před účinností Registru smluv publikovaly některé subjekty smluvní informace z vlastního popudu.
- Výhodou těchto dat je, že smlouvy často predatují vznik Registru smluv - do registru totiž subjekty vkládají jen nové smlouvy (případně staré smlouvy, pokud je nové smlouvy rozšiřují, žádné dávkové vkládání starých smluv se ale nekoná).
- Příklady exportů
Zakázky
- vestnik (jak se liší?)
- profil zadavatele
- vsechny zakazky?
Faktury
Neexistuje centralizace faktur, je na jednotlivých úřadech či jiných entitách, jestli své faktury zveřejní. Tato data jsou často cennější než smlouvy nebo zakázky, protože obsahují reálné útraty a jejich metadata jsou kvalitnější než např. u registru smluv.
- Ministerstva
- Ministerstvo dopravy
- obsahuje i data pro Státní fond dopravní infrastruktury, Drážní inspekci, Ředitelství silnic a dálnic a další entity
- Ministerstvo financí
- Ministerstvo kultury
- Ministerstvo obrany
- Ministerstvo práce a sociálních věcí - nemají?
- Ministerstvo pro místní rozvoj
- Krom MMR jsou tu faktury i agentury CzechTourism, Státního fondu rozvoje bydlení nebo Centra pro regionální rozvoj
- Ministerstvo průmyslu a obchodu
- Odkaz vede na jednorázový export z února 2019, pro aktuálnější data je třeba na rozcestník (vizte seznam LKOD výše).
- Ministerstvo spravedlnosti
- Na stejném webu jsou i faktury soudů, státních zastupitelství, vězeňských služeb, justiční akademie a dalších orgánů české justice
- Ministerstvo vnitra - nemá?
- Ministerstvo zahraničních věcí - nemá?
- Ministerstvo zdravotnictví - na svém portálu MZČR nejsou jen faktury ministerstva, ale i z dalších entit - např. krajských hygienických stanic, Národního ústavu duševního zdraví nebo Koordinačního střediska transplantací.
- Ministerstvo zemědělství - zdá se, že nemá
- Dle zákona o svobodném přístupu k informacím (106/1999 Sb.) ministerstvo některá data poskytlo, ale systematicky nic nevydává
- Ministerstvo životního prostředí
- Ministerstvo školství, mládeže a tělovýchovy - nemá?
- Samosprávy
- Hlavní město Praha
- obsahuje nejen data pro magistrát, ale i pro některé městské části a městské podniky
- Ostatní
Ostatní výdaje
Rozpočty
- Monitor Státní pokladny je aplikace pro rozklikávání rozpočtů a dalších účetních informací o spoustě složek státu - měst, obcí, příspěvkových organizací, škol atd.
- CityVizor - původně projekt z Ministerstva financí se přesunul pod spolek Otevřená města a jde mu o vizualizaci rozpočtů samosprávních jednotek
- Hlavní rozdíl proti Monitoru je ten, že Monitor má rozpočty na úrovni rozpočtových kapitol (např. odvoz odpadu), ale nemáte tam jednotlivé faktury, průběžné plnění, informace o dodavatelích atd. To je přesně mezera, kterou vyplňuje CityVizor.
- Praha má vlastní instanci CityVizoru.
TODO: prolinkovat toto nějak s admin informacemi výše? Aby člověk nemusel scrollovat mezi nima, obojí patří pod stejnou podkategorii
- Orgány veřejné moci
- Často je třeba identifikovat složky státu, ať už pro kategorizaci dat (jdou finance od soukromníka státu nebo mezi soukromníky atd.) nebo třeba pro adresnou komunikaci. Bohužel neexistuje jeden autoritativní zdroj.
- Seznam orgánů veřejné moci (OVM) je možné získat z exportu datových schránek
- Otevřená data Czech POINTu mají též seznam orgánů veřejné moci
- Registr práv a povinností má webový náhled a JSON export těchto dat
- Data Poslanecké sněmovny a Senátu
- Jde o sadu datasetů, kterou na webu nikdy nenajdete, je ale velmi cenná.
- Jde o denně aktualizované soubory, ve formátu podobné CSV, jejich zpracování je celkem snadné, jen pozor, jsou normalizovaná, takže budete občas joinovat přes několik tabulek.
- Obsahuje mj.
- Hlasování ve Sněmovně (od vzniku České republiky)
- Stenozáznamy
- Tisky ze Sněmovny i Senátu
- Plány schůzí
- Interpelace
- Volby
- Český statistický úřad nabízí data z voleb jako otevřená data, má to však několik zádrhelů.
- Starší data jsou zpravidla v jiném formátu než ta současná (např. FoxPro vs. XML vs. CSV), takže pro delší časové řady musí člověk trochu pracovat.
- Otevřená data neobsahují informace o historicky všech volbách v České republice, plné pokrytí je až cca od roku 2004. Pro starší informace musí jít člověk na web volby.cz a dohledat údaje tam.
- Kandidáti ani zvolení zastupitelé nemají žádný unikátní identifikátor, celkem špatně se tedy mapují např. na angažované osoby z ARES nebo Justice, nemáme totiž ani datum narození, jen věk osoby, který není platný k nějakém určitému datu.
- Centrální registr oznámení je informační systém založen pro účely zákona o střetu zájmů.
- Obsahuje data o veřejných činitelích (soudci, zastupitelé, poslanci, …), zejména pak jejich majetkové poměry, účastnictví ve firmách a funkce/členství.
- Systém nemá datový export nebo veřejné API, k nahližení je ale i tak užitečný.
- registr prav a povinnosti
- wikidata?
- sčítání?
Legislativa
- psp.cz o tvorbě
- eklep, veklep
- bude elegislativa, esbírka
- zákony pro lidi + ASPI?
Regionální data
Zdravotnictví
- ÚZIS (viz hackathon 2019, ale bude toho i víc)
- SÚKL
- má něco ministerstvo?
Geodata
- ČUZK
- městská
- katastr
- IPR prazsky model
Ostatní
- Úřad průmyslového vlastnictví (ÚPV) - denní exporty v XML
- wikidata
- portal.gov.cz
- politicke finance
- rozhlas data
- úřední desky
- insolvence
- Něco z ČSÚ? ČNB (ARAD)?
- https://data.gov.cz/wishlist/