Print deze pagina

Geospatial Data on the Web

NCGGeel93

Linda van den Brink

Publications on Geodesy 93
2018, 232 pagina's.

Samenvatting

Geodata is een steeds belangrijker wordende informatiebron bij het nemen van beslissingen, van eenvoudige keuzes zoals waar je je auto het beste kan parkeren, tot nationale en internationale beleidskeuzes over onderwerpen zoals infrastructuur en milieu. Vanwege het locatieaspect is geodata vaak de 'breinaald' die je door verschillende datasets heen kan steken om ze te integreren. Veel geodata wordt bijvoorbeeld geproduceerd in het kader van overheidsprocessen en wordt tegenwoordig gepubliceerd als open data, gewoonlijk via een "Geo-Informatie Infrastructuur" oftewel een "Spatial data infrastructure" (SDI).

Geodata heeft een hoge potentie voor hergebruik in andere domeinen dan het domein en het beoogde gebruik waarvoor het oorspronkelijk gemaakt is. Mijn onderzoeksvraag was: "Hoe kan geodata, die van verschillende, heterogene bronnen afkomstig is, worden hergebruikt via het web over domeinen heen?" Verschillende aspecten van datapublicatie moeten nog worden geadresseerd voordat open data daadwerkelijk goede kans maakt om te worden hergebruikt. Deze aspecten worden wel de "FAIR principles" genoemd: findability (vindbaarheid), accessibility (toegankelijkheid), interoperability (interoperabiliteit), en reusability (herbruikbaarheid).

Binnen het geo-domein is het algemeen bekend dat interoperabiliteit tussen systemen noodzakelijk is om hergebruik van data mogelijk te maken, en dat standaarden het mogelijk maken om deze interoperabiliteit te realiseren. Op basis hiervan heb ik een aantal verschillende probleemgebieden onderzocht, waar er potentieel was om geodata te hergebruiken, maar op de een of andere manier werd verhinderd. Deze problemen worden geïntroduceerd in hoofdstuk 1. Het onderzoek was exploratief van aard; de methodologie was een combinatie van bureaustudie, analyse, literatuurstudie en experimenten.

Hoofdstuk 2 en 3 richten zich op het ontbreken van een standaard voor drie-dimensionale (3D) geodata in Nederland, waardoor het hergebruik van 3D data verhinderd wordt. Als oplossing is een nationale standaard voor twee-dimensionale (2D) geografische, topografische data, het Informatiemodel Geografie (IMGeo), gecombineerd met een internationale 3D standaard, City-GML. Beide standaarden beschrijven topografische objecten die fysieke objecten uit de werkelijkheid representeren en zijn voor een groot deel met elkaar te vergelijken.

Hoofdstuk 2 beschrijft hoe CityGML is geselecteerd als de 3D standaard die als basis voor de nationale 3D standaard kon dienen; hoe de inhoud van IMGeo met CityGML is afgestemd; hoe IMGeo als een formele uitbreiding op CityGML is gedefinieerd op het niveau van klassen, eigenschappen en codelijsten; en hoe andere interoperabiliteitsaspecten zoals geometrie, topologische structuur en referentiesysteem zijn geadresseerd.

Hoofdstuk 3 beschrijft in meer detail hoe IMGeo als een formele uitbreiding van CityGML is gedefinieerd. Dit is een technisch modelleervraagstuk, dat te maken heeft met het gebruik van Unified Modeling Language (UML) en het specifieke extensiemechanisme dat door de CityGML standaard wordt voorgeschreven. Op basis van het specifieke geval, IMGeo, is een modelgedreven raamwerk voor het maken van CityGML uitbreidingen beschreven.

In het geval van IMGeo en CityGML was de semantische harmonisatie, dat wil zeggen het afstemmen van de inhoud van beide standaarden, relatief eenvoudig. Beide standaarden beschrijven dezelfde soorten dingen; daardoor zijn de meeste klassen uit IMGeo op te vatten als hetzelfde of als een meer specifieke variant van een klasse in IMGeo. Dit is echter niet altijd zo eenvoudig. Het is onvermijdelijk dat domein-specifieke informatiemodellen, die onafhankelijk van elkaar ontwikkeld zijn, vergelijkbare inhoud op een verschillende manier modelleren, wat het hergebruik van data conform deze informatiemodellen hindert.

Dit probleem van semantische harmonisatie wordt geadresseerd in hoofdstuk 4. Verschillende Nederlandse standaarden werden onderzocht om die onderdelen te vinden waar overlap zat en waar inhoudelijke afstemming kon helpen bij het oplossen van praktische hergebruikproblemen. In het kader van dit onderzoek werd een methodologie ontwikkeld die menselijke interactie combineert met computer-ondersteunde analyse. Het onderzoek bevestigde dat semantische harmonisatie verbetert als informatiemodellen in samenwerking tussen domeinen ontwikkeld worden. Dit wordt echter in de praktijk doorgaans niet gedaan, en hergebruik van concepten uit andere standaarden gebeurt voornamelijk op een ad hoc manier. Voor een groot deel ligt dit aan de slechte vindbaarheid en toegankelijkheid van bestaande domeinmodellen.

Semantische harmonisatie verbetert de herbruikbaarheid van data, maar is niet de enige barriere die hergebruik van geodata in andere domeinen verhindert. Als geodata uitsluitend via een traditionele SDI wordt verspreid, kan deze data niet gemakkelijk worden gevonden en gebruikt door gebruikers van buiten het geo-domein, die wel bekend zijn met meer algemene datapublicatiemethodes.

Hoofdstuk 5 beschrijft hoe algemene methodes voor datapublicatie op het World Wide Web, in het bijzonder Linked Data standaarden, kunnen worden toegepast op geodata. Conversie van geo-dataformaten zoals Geography Markup Language (GML) naar de linked data standaard Resource Description Format (RDF) is niet gecompliceerd, maar vereist wel een keuze tussen verschillende manieren om geometrie op te nemen in RDF, en een URI strategie om te zorgen voor persistente, schaalbare URI identificaties voor alle dataobjecten. De conversie van in UML uitgedrukte geo-informatiemodellen naar linked data modellen die zijn uitgedrukt in RDF Schema en Web Ontology Language (OWL) is problematisch, omdat deze verschillende onderliggende paradigma's hebben. Een aspect hiervan, het hergebruik van bestaande vocabulaires, is in detail uitgewerkt.

Linked data is, hoewel breed toepasbaar, toch in zekere zin te beschouwen als een niche standaard. Het publiceren van linked geodata maakt hergebruik mogelijk door linked data beoefenaars, maar een grote groep potentiele gebruikers ervaart linked data als een barrière voor eenvoudig hergebruik. Om het hergebruik van geodata verder te bevorderen, is het nodig om algemene architectuurprincipes en standaarden van het World WideWeb toe te passen, zonder een specifiek metamodel zoals dat van linked data te vereisen.

Hoofdstuk 6 beschrijft een verzameling aanbevelingen voor het publiceren van geodata op het web, die gedistilleerd zijn uit de praktijk, en gebaseerd zijn op de algemene architectuurprincipes en standaarden van het web. Als deze richtlijnen gevolgd worden zorgt dit ervoor dat geodata beter te vinden en gemakkelijker te interpreteren en te gebruiken wordt voor datagebruikers in het algemeen, bijvoorbeeld voor web developers - in plaats van alleen voor geo-experts. Ook worden een aantal deelaspecten van geodatapublicatie op het web geïdentificeerd waar nog geen goede richtlijn voor te vinden was.

Hoofdstuk 7 geeft een overzicht van relevante ontwikkelingen sinds ik mijn onderzoek heb uitgevoerd. 3D standaardisatie is nog gaande, niet alleen in Nederland maar ook internationaal. De semantische samenhang tussen standaarden is in Nederland langzaam maar zeker aan het verbeteren. Het aanbod aan geo-linked datasets is significant gegroeid in de laatste paar jaar, hoewel er nog een paar problemen op te lossen zijn. Meerdere datasets die de richtlijnen voor geodata op het web implementeren zijn inmiddels ook beschikbaar. Deze richtlijnen hebben een evolutie van de huidige geostandaarden in gang gezet naar het toepassen van algemene webstandaarden en -principes.

Hoofdstuk 8 sluit dit proefschrift af en wijst de overstap naar (lichtere) webstandaarden en -principes aan als een belangrijke ontwikkeling en onderwerp voor toekomstig werk.