logo NCGeo

Automation in Architectural Photogrammetry

Van den Heuvel, Automation, 54

Line-Photogrammetry for the Reconstruction from Single and Multiple Images

Frank van den Heuvel

Publications on Geodesy 54, Delft, 2003. 206 pagina's.
ISBN-13: 978 90 6132 281 8. ISBN-10: 90 6123 281 2.


Architectural photogrammetry has been practised for more than a century with the documentation of cultural heritage as its main objective. Since the introduction of the computer, and later the digital camera, research in photogrammetry aims at automation. This thesis reports on research on automation in architectural photogrammetry for efficient reconstruction of detailed building models from one or more - possibly widely separated - digital close-range images. This research is on the fringes of photogrammetry and computer vision. It treats topics frequently studied in computer vision in a photogrammetric way and offers new solutions. This approach is characterised by:

  • Robust and direct solutions for approximate value computation
  • Statistical testing of consistency of redundant information
  • Integral least-squares adjustment of all information for optimal parameter estimation
  • Quality control by statistical testing and error propagation
  • Semi-automatic processing, aiming at a reliable solution with a minimum of user interaction
  • Pre-calibration of the camera's used
  • Exploitation of generic knowledge of the object shapeUse of image lines as the basic type of observations

The research is presented in the form of a collection of papers published between 1997 and 2002. Furthermore, the methods described in the papers have also been applied to a reference set of images. The results of these experiments are presented in a separate chapter.

The demand for models of the built environment has increased due to the development of computer applications such as virtual and augmented reality, and computer games. In these applications the required accuracy of the models is not as high as in traditional applications of architectural photogrammetry, such as documentation of cultural heritage. Emphasis in research has shifted towards efficient production of computer models that show a high level of realism.

In this study, full automation of reconstruction from images is not aimed at. The reason is that for many years to come it is expected that user-interaction will be required for the reconstruction of well-structured building models. Therefore, a semi-automatic approach is chosen that exploits knowledge of the characteristics of the application. These characteristics can be summarised as regularities in the shape of the object, such as planar fades, rectangular and repeating structures in the form of windows, and shape symmetries. As a result many object edges will be straight and often their projections in the images show good contrast, which facilitates their automated extraction using image processing techniques. The automatically or manually extracted straight image line features are the main observations in the line-photogrammetric approaches presented in this thesis. Furthermore, the methods developed are characterised by the use of robust direct solutions for approximate value computation, followed by least-squares adjustment in which the knowledge of the shape of the building is processed together with the image line observations. This integral adjustment provides optimal estimates for the object model parameters and facilitates quality assessment.

A significant part of the research is on single image processing for object reconstruction and camera calibration. With the use of shape knowledge it is often possible to partially reconstruct a building from line observations in a single image. A method has been developed in which the conditions on the image line observations that result from knowledge on the related edges in object space are adjusted. The adjusted observations are used for reconstruction. This method is of importance because of the possibility to test the consistency of the acquired information during interactive modelling, even before object reconstruction. However, a disadvantage is the separate step for object reconstruction that complicates error propagation. Therefore, a line-photogrammetric bundle adjustment has been developed that allows the integral adjustment of image line observations of a single or multiple images in combination with object shape constraints. The point and plane parameters of a polyhedral boundary representation are the parameters in the mathematical model, while the object constraints that result from the object topology are simultaneously enforced.

It is common in photogrammetry to work with a calibrated camera. However, this is not possible when just one or a few historic images of a building are available, because information on the interior orientation is usually missing. Fortunately, it is often possible to derive important camera information using the conditions on the image lines that result from the object shape knowledge. A method that exploits parallelism and orthogonality of object edges has been developed for the estimation of parameters of interior orientation including lens distortion from one or more images. The least-squares adjustment applied allows for assessment of the precision of the estimates and their correlations. The precision of interior orientation parameters estimated using a single image is low compared to conventional multi-image calibration methods. The quality of the parameters considerably improves when image lines of multiple images are used, while correspondence between the images is not required for this method as is the case in conventional calibration methods.

Finding approximate image orientation is a major topic in photogrammetry. Two fundamentally different methods have been developed for image orientation. The first one makes use of the partial object reconstruction obtained from manual measurements in a single image as described previously. This reconstruction can be limited to one rectangle in object space. A direct solution for reconstruction from the projection of a rectangle in a single image has been investigated. When correspondence between two partial reconstructions is available, relative orientation between the two related images can be established, again with a direct solution. Similarly, exterior orientation of a single image can be established when sufficient object co-ordinates are known.

The second method for relative orientation is a highly automated one. It derives the rotations of the image relative to the object through edge extraction followed by vanishing point detection. Then a search procedure establishes correspondence and the relative position of two images in one step. This method has shown to be successful for highly convergent imagery of buildings and thus is a solution to the wide-baseline stereo problem. However, repeating structures in the building such as identical windows in combination with considerable differences in image scale for corresponding parts of the building may hinder a reliable correspondence detection. A few manually established correspondences may then be required.

Vanishing point detection uses clustering of image lines based on statistical tests of the intersection of three interpretation planes, i.e. the planes through the image lines and the projection centre. This method exploits both parallelism of object edges as well as orthogonality, and automatically labels image lines according to their orientation in object space. The success rate depends on the characteristics of the building and on factors such as the orientation of the image relative to the object. Vanishing point detection results have been used for estimation of interior and relative orientation parameters. With the detection of at least two orthogonal object orientations an ambiguous rotation of the image relative to the building is found. The automated method for relative orientation resolves this ambiguity. This method exploits coplanarity of object features and detects object planes. In fact, a partial and approximate object reconstruction is retrieved as a by-product. Therefore, it is to be regarded as a first step towards automated reconstruction of a structured object model.

Future research in the direction of automated reconstruction has to aim at refining the object model by the detection of multiple object planes and their topologic relations. In such an approach the edges and points of the object model result from the intersection of object planes, while in the manual reconstruction approach the object edges and points result primarily from the intersection of interpretation planes.

The processing of images of the CIPA reference data set has demonstrated the capabilities and limitations of the developed methods for camera calibration, image orientation, and object reconstruction. Calibration of the camera was performed semi-automatically with five images of the reference data set. The results were compared with the camera information available from the reference data set. The maximum parameter difference was three times its standard deviation.

The two different methods for image orientation have been applied on four images taken at the corners of the building. The first one is based on the reconstruction of rectangles from a single image. Resulting orientations differ less than 4 degrees from the adjusted values derived in a bundle adjustment. With the second more automated method a correct approximate solution was obtained for all image pairs using two or three manually measured corresponding points. Full automation of relative orientation was not possible for all image pairs due to the repeating structures in the façades and for imagery where image scale differences were large.

An object model was reconstructed based on a line-photogrammetric bundle adjustment of manual line measurements in the same four images. Geometric object constraints made the reconstruction of occluded object points possible, improved regularity of the building model and strengthened the geometry of the network.

The research presented in this thesis contributes to the fields of photogrammetry and computer vision. However, emphasis is on photogrammetry where manual or semi-automatic measurement methods prevail and least-squares adjustment is the tool commonly applied for parameter estimation. The developed line-photogrammetric bundle adjustment model that allows the incorporation of object shape knowledge is the main contribution to this field. Computer vision is generally more focussed on automation, single image processing, and the use of uncalibrated cameras. Therefore, the methods developed for vanishing point detection, used for image orientation and camera calibration, and the methods developed for reconstruction from a single image are primarily in the field of computer vision. In conclusion, this thesis contributes to bringing photogrammetry and computer vision closer together, which will be beneficial to both fields.

In this project, large-scale 2D GIS databases were used as additional information source. Combination of image data and map data turned out to improve the reliability of the reconstruction. Generic knowledge about the shape of the buildings is also incorporated in the system. Since most buildings can be described as an aggregation of simple building types, the knowledge about the problem domain can be represented in a building library containing simple building models. Therefore, a building library was defined containing the most common building primitives, such as flat roof, and different types of gable roofs.

The building reconstruction process was formulated as a multi-level hypothesis generation and verification scheme and it was implemented as a search tree. A method that can localize the buildings in images using map information has been developed. Also, a method for generating building hypotheses corresponding to the primitives defined in the building library has been developed. This implies stereo matching of image features (corners, lines) which correspond to map primitives and fitting of the building hypotheses to images.

A further contribution is the definition of a metric for evaluating the generated building hypotheses in order to select the one which best describes the image. The metric is based on the formulation of the mutual information between the building model and the images. Methods for the estimation of the mutual information from training samples were analyzed. This metric has been rigorously derived from information theory and does not require a priori information about the surface properties of the object and is robust with respect to variations of illumination. Also, no assumption about the shape of the objects are made. As result the method is quite general and may be used in a wide variety of applications.

The produced approach is able to meet most of the requirements of an automatic 3D building reconstruction system. The developed system has been used in urban and suburban areas to reconstruct buildings and showed good results. Experiments were carried out on two data sets with different characteristics. The system was able to reconstruct more than 80% of the buildings and the accuracy of the reconstruction is good enough for mapping purposes.


  • Contents
  • Abstract
  • Samenvatting
    • Introduction
    • Papers
    • Experiments using imagery of the CIPA reference data set
    • Conclusions and future work
      • Curriculum vitae


Automatisering in de architectuurfotogrammetrie Lijnfotogrammetrie voor de reconstructie uit enkele en meerdere beelden

Architectuurfotogrammetrie wordt al meer dan een eeuw toegepast met als belangrijkste doel de documentatie van ons cultureel erfgoed. Sinds de introductie van de computer - en later de digitale camera - richt het onderzoek in de fotogrammetrie zich op automatisering. Dit proefschrift rapporteert over onderzoek naar automatisering in de architectuur­fotogrammetrie voor een efficiënte reconstructie van gedetailleerde gebouwmodellen met behulp van een of meer digitale beelden. Dit onderzoek bevindt zich op het grensvlak van fotogrammetrie en computer vision. Onderwerpen die in de computer vision vaak bestudeerd worden, worden hier op een fotogrammetrische manier benaderd. Deze aanpak wordt gekarakteriseerd door:

      • robuuste en directe oplossingen voor de berekening van benaderde waarden;
      • statistische toetsing op consistentie van redundante informatie;
      • integrale kleinste-kwadraten vereffening van alle informatie voor een optimale parameter­schatting;
      • kwaliteitscontrole door statistische toetsing en fouten­voortplanting;
      • semi-automatische verwerking, gericht op het verkrijgen van een betrouwbare oplossing met een minimum aan interventie door de operateur;
      • het kalibreren van de camera voorafgaand aan de reconstructie;
      • gebruik van generieke kennis van de objectvorm;
      • gebruik van lijnen in de beelden als het belangrijkste waarnemingstype. 

Het onderzoek wordt gepresenteerd als een verzameling artikelen die gepubliceerd zijn in de periode van 1997 tot en met 2002. Bovendien zijn de in de artikelen beschreven methodes toegepast op een referentiedataset met opnamen van het stadhuis in Zürich. De resultaten hiervan worden in een apart hoofdstuk besproken.

De vraag naar computermodellen van de bebouwde omgeving is toegenomen als gevolg van computer­toepassingen zoals virtual reality, augmented reality en computer­spelletjes. De benodigde precisie is in deze toepassingen niet zo hoog als in de traditionele toepassingen van de architectuurfotogrammetrie, zoals de documentatie van historische gebouwen. Het zwaartepunt in het hedendaags onderzoek is daarom verschoven naar methoden voor de efficiënte productie van computermodellen die er zo realistisch mogelijke uitzien.

In het onderzoek dat onderwerp is van dit proefschrift wordt niet gestreefd naar volledige automatisering. De reden is dat niet verwacht mag worden dat binnen een aantal jaren de volledig automatische reconstructie van goed gestructureerde gebouwmodellen mogelijk wordt. Daarom richt het onderzoek zich op een semi-automatische aanpak waarbij gebruik gemaakt wordt van kennis over de karakteristieken van de toepassing. Deze karakteristieken zijn bijvoorbeeld de regelmatigheden in de objectvorm zoals het vlak zijn van gevels, rechthoekige en herhalende structuren in ramen en deuren en vormsymmetrieën. Veel gebouwlijnen zullen recht zijn en vaak een goed contrast in de beelden laten zien wat de automatische extractie met behulp van beeldverwerkingstechnieken vergemakkelijkt. De automatisch of handmatig geëxtraheerde rechte beeldlijnen vormen het belangrijkste waarnemingstype in de lijnfotogrammetrische benadering in dit proefschrift. Bovendien worden de methoden gekenmerkt door het gebruik van robuuste, directe oplossingen voor de berekening van benaderde waarden gevolgd door een kleinste-kwadraten vereffening waarin de kennis over de gebouwvorm samen met de lijnwaarnemingen wordt verwerkt. Deze integrale vereffening levert optimale schattingen voor de modelparameters.

Een belangrijk deel van het onderzoek richt zich op het gebruik van een enkele opname voor de objectreconstructie en de camerakalibratie. Door het gebruik van vormkennis is het vaak mogelijk om een gebouw gedeeltelijk te reconstrueren op basis van lijnmetingen in een enkele foto. Hiervoor is een methode ontwikkeld waarin de voorwaarden op de lijnmetingen die volgen uit de kennis over de gerelateerde lijnen van het object worden vereffend. De vereffende waarnemingen worden vervolgens gebruikt voor de reconstructie. Het belang van deze methode ligt vooral in de mogelijkheid om op meetfouten te controleren gedurende het interactief modelleren, nog voordat de objectreconstructie mogelijk is. Een nadeel is echter dat er een aparte stap nodig is voor de reconstructie, zodat de foutenvoortplanting complexer wordt. De later ontwikkelde lijnfotogrammetrische bundelvereffening kent dit nadeel niet. Met deze methode is de integrale vereffening mogelijk van lijnmetingen van een enkele of meerdere opnamen en vormvoorwaarden. De punt- en vlakparameters van een veelvlakbeschrijving (B-rep) zijn de objectparameters van het wiskundige model, terwijl de voorwaarden die het gevolg zijn van de objecttopologie in de vorm van waarnemingen in het model opgenomen zijn.

In de fotogrammetrie is het gebruikelijk om met een gekalibreerde camera te werken. Dit is echter niet mogelijk wanneer er slechts een of enkele historische opnamen van een gebouw beschikbaar zijn, omdat dan informatie over de camera meestal ontbreekt. Echter, vaak kan belangrijke informatie over de camera afgeleid worden uit de voorwaarden op de lijnmetingen die volgen uit de beschikbare of veronderstelde objectkennis. De hiervoor ontwikkelde methode maakt gebruik van parallellisme en orthogonaliteit van objectlijnen voor de schatting van inwendige oriënteringsparameters, inclusief lensvertekening. De toegepaste kleinste-kwadraten vereffening maakt een schatting van de precisie van de parameters mogelijk. Wordt de methode met een enkele opname toegepast dan blijkt de precisie van de parameters laag te zijn in vergelijking met conventionele kalibratiemethoden. De ontwikkelde methode kan ook met meerdere beelden gebruikt worden. De precisie van de geschatte parameters verbetert dan aanzienlijk, terwijl correspondentie tussen de beelden niet nodig is.

Het vinden van de stand en de positie van beelden - het oriënteren - is een belangrijk onderwerp in de fotogrammetrie. Twee nieuwe methoden voor het oriënteren worden in dit proefschrift beschreven. De eerste maakt gebruik van gedeeltelijke objectreconstructie op basis van handmatige metingen in één opname. Deze reconstructie kan zich beperken tot een enkele rechthoek. Wanneer correspondentie tussen uit twee beelden gereconstrueerde rechthoeken bekend is, kan de relatieve oriëntering van beide opnamen worden bepaald. Ook is het mogelijk om de uitwendige oriëntering van een opname te bepalen wanneer de rechthoek in 3D bekend is.

De tweede, geautomatiseerde methode voor oriënteren bepaalt eerst de oriëntatie van een opname ten opzichte van het object met behulp van lijnextractie en verdwijnpuntdetectie. Vervolgens worden de relatieve positie en correspondentie gelijktijdig gevonden met een zoekprocedure. Deze methode is succesvol gebleken voor sterk convergente opnamen van gebouwen en biedt daarmee een oplossing voor het vraagstuk dat in de computer vision bekend staat als wide-baseline stereo. Wel kunnen herhalende structuren in de gevels, zoals identieke ramen in combinatie met grote schaalverschillen tussen de opnamen, een betrouwbare oplossing in de weg staan. Dan zijn enkele handmatig verkregen correspon­denties nodig.

De ontwikkelde methode voor verdwijnpuntdetectie groepeert rechte lijnen in beelden op basis van statistische toetsen van snijdingsvoorwaarden van drie zogenaamde interpretatievlakken. Dit zijn de vlakken die opgespannen worden door de beeldlijnen en het projectiecentrum van de opname. Deze methode gebruikt parallellisme en orthogonaliteit van objectlijnen en groepeert de lijnen naar hun oriëntatie in de objectruimte. Het succes hangt af van de karakteristieken van het gebouw en van andere factoren zoals de oriëntatie van de opname ten opzichte van het gebouw. Verdwijnpuntdetectie is gebruikt in de hiervoor genoemde methoden voor het schatten van inwendige en uitwendige oriënterings­parameters. Met de detectie van tenminste twee loodrechte objectrichtingen wordt een meerduidige rotatie van de opname ten opzichte van het gebouw gevonden. De automatische methode voor relatief oriënteren lost deze meerduidigheid op en gebruikt de coplanariteit van lijnen in een gevel om gevelvlakken te detecteren. In feite wordt een gedeeltelijke, benaderde objectreconstructie verkregen als een bijproduct. Daarom kan deze methode voor relatief oriënteren gezien worden als een eerste stap naar de automatische reconstructie van een gestructureerd objectmodel.

Toekomstig onderzoek naar automatische reconstructie dient zich te richten op het detailleren van het objectmodel door de detectie van meerdere objectvlakken en hun topologische relaties. In een dergelijke aanpak worden de hoeken van het objectmodel gevonden door het snijden van objectvlakken, terwijl in een handmatige reconstructie de hoeken in de eerste plaats worden gevonden door het snijden van interpretatievlakken.

Het verwerken van de beelden van de referentiedataset heeft de mogelijkheden en beperkingen van de ontwikkelde methoden voor camerakalibratie, beeldoriëntatie en objectreconstructie gedemonstreerd. Camerakalibratie werd semi-automatisch uitgevoerd met vijf beelden. De resultaten werden vergeleken met de camerainformatie van de referentiedataset en lieten een goede overeenstemming zien.

De twee methoden voor oriënteren zijn toegepast op vier beelden die op de hoeken van het gebouw genomen waren. De eerste oriënteringsmethode maakt gebruik van met een enkele foto gereconstrueerde rechthoeken. De gevonden oriënteringen verschilden minder dan 4 graden van de waarden gevonden in een lijnfotogrammetrische bundelvereffening. Met de tweede, meer automatische methode werd een goede benaderde oplossing gevonden voor alle beeldparen met gebruikmaking van twee of drie handmatig gemeten corresponderende punten. Volledige automatisering van de relatieve oriëntering bleek niet mogelijk voor alle beeldparen als gevolg van de zich herhalende structuren in de gevels en grote schaalverschillen tussen en in de beelden.

Een gebouwmodel werd gereconstrueerd op basis van een lijnfotogrammetrische bundelvereffening van handmatige lijnmetingen in dezelfde vier beelden. Geometrische object­voorwaarden maakten de reconstructie van verdekte object­punten mogelijk, verbeterden de regelmatigheid van het gebouwmodel en versterkten de geometrie van het netwerk.

Het in dit proefschrift gepresenteerde onderzoek draagt bij aan zowel de fotogrammetrie als de computer vision. De nadruk ligt op de fotogrammetrie waar handmatige of semi-automatische meetmethoden de overhand hebben en de kleinste-kwadraten vereffening de standaardmethode is voor parameterschatting. De ontwikkelde lijnfotogrammetrische bundelvereffening die de verwerking van kennis over de objectvorm mogelijk maakt, is de belangrijkste bijdrage op dit vakgebied. Computer vision is meer gericht op automatisering, enkelbeeldverwerking en het gebruik van ongekalibreerde camera’s. Daarom zijn de methoden ontwikkeld voor verdwijnpuntdetectie, gebruikt voor oriënteren en camera­kalibratie, en de methoden ontwikkeld voor de reconstructie op basis van één beeld, in eerste instantie tot de computer vision te rekenen. Concluderend kan gesteld worden dat dit proefschrift bijdraagt tot het nader tot elkaar brengen van de twee disciplines, wat beide ten goede komt.

Go to top
JSN Boot template designed by JoomlaShine.com