La perspective : ça déforme, oui ou non?
On entend souvent dire que les objectifs à grand angle « déforment » alors que d'autres personnes jurent qu'il n'en est rien puisqu'ils ne font que se conformer strictement aux lois de la perspective - quand ils sont bien faits. Cependant, chacun a noté que les murs d'un bâtiment pris de trop près ont tendance à converger vers le haut et que ce n'est pas toujours très heureux. Effet de perspective ou déformation ? Ce petit article vise à clarifier les choses :
La figure suivante montre schématiquement comment se forme l'image captée par un appareil photographique.
On y voit en bas à droite, agrandie, l'image qui se forme sur le capteur (si on avait utilisé une chambre photographique, c'est ce qu'on verrait sur son dépoli). Tout se passe comme s'il existait un « centre » de l'objectif tel que tout rayon se dirigeant vers ce centre ressortait de l'objectif comme si cet objectif n'existait pas. En d'autres termes, on aurait la même image en remplaçant l'objectif par un trou de sténopé placé en ce centre… à ceci près qu'un sténopé donnerait une image bien moins nette.
Etant donné la complexité d'un objectif moderne, personne ne devrait trouver cela bien évident (par ailleurs, il existe des objectifs spéciaux comme les fish-eye où ça ne se passe pas du tout comme ça). On trouvera ailleurs quelques explications, avec une première introduction aux diverses aberrations qui risquent de dégrader l'image ou de la déformer - et nous supposerons dans la suite que ces aberrations ne jouent aucun rôle, autrement dit que notre objectif est bien corrigé.
Une façon plus commode de voir les choses consiste à faire une symétrie par rapport au centre de l'objectif. On arrive ainsi à la figure suivante : tout se passe comme si on observait la scène photographiée à travers une plaque (parallèle au plan du capteur) depuis le centre de l'objectif ; chacun des rayons allant des différents points de la scène au centre de l'objectif dépose un point de couleur sur la plaque et ainsi se formerait l'image.
En jargon mathématique, l'image est une projection conique de la scène sur la plaque depuis le centre de l'objectif.
Bien entendu, la distance entre cette plaque et le centre de l'objectif est
arbitraire dans ce genre de raisonnement ; si on change cette distance, on
modifie la taille de l'image, mais pas sa forme.
Ces fameuses « lois » sont autant de théorèmes qui décrivent comment différents objets géométriques apparaissent sur les images. Ça peut vite devenir assez ésotérique, à en juger d'après ce qu'on peut trouver sur la toile [1]. Nous allons essayer de rester le plus simple possible.
Avant de nous lancer dans la théorie, nous allons préciser quelques points de vocabulaire pratiques :
Une première proposition évidente est très importante pour le photographe : quand on photographie un objet plan et que le plan image est parallèle à cet objet, l'image est une réduction exacte de l'objet, sans aucune déformation.
Cela s'applique fort bien à une façade de bâtiment : il
faut mettre l'axe de l'image bien horizontal et perpendiculaire à la
façade. Malheureusement, avec un appareil ordinaire, cela revient
à viser le bas du bâtiment ; certes, la façade n'est
pas déformée, mais la moitié de la photo est alors
occupée par un sol qui n'a généralement aucun
intérêt. Certes, on pourra recadrer, mais c'est tout de
même du gaspillage de pixels !
On sera donc tenté de
s'approcher
(ou de zoomer) et de viser vers le milieu du
bâtiment… et on se retrouvera alors avec l'image de droite et
sa convergence assez fâcheuse des verticales.
Il n'y a pas d'alternative lors de la prise de vue avec les appareils ordinaires, pour lesquels l'axe de l'image est confondu avec l'axe de l'objectif. Il faut recourir à des systèmes plus évolués (dispositifs à décentrement) qui permettent de désolidariser ces axes ; cela revient à faire glisser le capteur dans le plan image. On peut alors faire un cadrage plus serré de la façade sans inclure le sol.
Expliquons maintenant pourquoi les verticales ont cette fâcheuse tendance à converger. En fait, ce n'est pas spécifique aux verticales : en règle générale, toutes les droites parallèles entre elles ont comme images des droites qui convergent vers un point de fuite commun.
La figure ci-dessous montre ce qui se passe. A gauche, on voit le plan image (en gris), le point d'observation S et une droite D quelque part dans l'espace. On obtient l'image de cette droite en traçant les rayons (en bleu) qui vont de S aux différents points de cette droite ; quand ces points s'en vont à l'infini vers le haut, ces rayons se confondent avec la parallèle à D passant par S (en pointillé dans la figure), qui coupe le plan image en un point F qu'on appellera point de fuite. Comme tous ces rayons sont dans un même plan, l'image de D est sur l'intersection de ce plan et du plan image, c.à.d. la droite oblique tracée en gris, mais l'image proprement dite s'arrête au point F.
A droite, on voit ce qui se passe quand on passe de D à une autre droite parallèle : le plan des rayons (issu de S et s'appuyant sur D) tourne autour de la droite en pointillé, et, dans le plan image, les droites images tournent autour du point F : l'image d'un ensemble de droites parallèles entre elles est (généralement) un ensemble de demi-droites issues du point de fuite correspondant. L'exception correspond à un point de fuite qui partirait à l'infini, ce qui n'arrive que si le plan image est lui-même parallèle à cet ensemble de droites (dans le cas des droites verticales, lorsque ce plan est lui-même vertical).
Dans les textes classiques sur la perspective, on accorde une importance
particulière au point de fuite principal, c.à.d. le point de
fuite pour des droites perpendiculaires au plan image ; pour tous les
appareils photos ordinaires (sans décentrement), ce serait le centre
du cadre de l'image. En fait, en règle générale, il ne
jouera aucun rôle particulier dans la composition des images
photographiques, sauf à tenir son appareil bien droit en face d'un
édifice ou d'une voie rectiligne comme dans l'image ci-contre. Si la
visée de l'appareil se déplaçait latéralement
ou verticalement, le point de fuite des rails et des toits se
déplacerait dans l'image.
Construction de l'image d'un carrelage vertical en contre-plongée
Cette image n'a pas un grand intérêt photographique, mais elle nous servira à comprendre un peu mieux les effets de la perspective et de tester la précision des logiciels redresseurs de perspective. Cette image est illustrée ci-dessous ; le point important pour la suite, outre la convergence des verticales, est la diminution de la hauteur des carreaux au fur et à mesure qu'on monte dans l'image.
La figure représente l'image qu'on va obtenir, à partir de la visée schématisée dans l'insert, le plan vertical de l'appareil étant confondu avec le plan vertical médian du carrelage. De la sorte, le point de fuite des verticales vient en un point F sur l'axe vertical de l'image et les points de base 1, 2, 3, 4, 5 de la ligne de base apparaissent régulièrement espacés dans l'image. Considérons maintenant les diagonales montantes du carrelage : il s'agit de droites parallèles entre elles, dont les images vont converger vers un autre point de fuite F' dans l'image, situé à la même hauteur que F (parce que les droites SF et SF', toutes deux parallèles au plan du carrelage, définissent un plan parallèle à ce dernier qui va couper l'image selon une droite parallèle à la ligne de base dans la géométrie de visée considérée). Finalement, on construit l'image du carrelage de la manière suivante : à partir du point F, on trace les images des verticales allant vers les points 1, 2, 3… de la ligne de base. L'intersection de la diagonale issue du point 1 et de la verticale « 2 » donne un point 7 de la 2ème horizontale ; on trace celle-ci, puis on recommence à partir du point 8 pour trouver la 3ème horizontale, etc…
Le point délicat dans cette construction est de bien choisir la distance FF' si on veut que les carreaux aient une forme précise - des carrés, par exemple (comme c'est précisément le cas pour l'illustration précédente, qui, en réalité a été obtenue via un calcul numérique).
La figure ci-contre permet de comprendre plus rapidement pourquoi les
niveaux supérieurs du carrelage sont de plus en plus tassés dans
l'image. C'est simplement une projection de la scène
précédente sur son plan de symétrie vertical. Les
carreaux supérieurs sont vus sous un angle de plus en plus petit au
fur et à mesure que l'on monte ; leur image, qui est la portion du
plan image découpée par cet angle, diminue d'autant.
On trouve encore de temps à autres la vieille recette qui consiste à enserrer l'image dans une sélection rectangulaire qu'on déforme ensuite en trapèze, comme indiqué ci-après :
La transformation est plus subtile qu'il n'y paraît. En effet, alors qu'on aurait pu s'attendre à un simple déplacement horizontal des pixels, on a aussi une redistribution des ordonnées de telle sorte que le rétrécissement des carreaux supérieurs est parfaitement compensé ; on retrouve un carrelage uniforme. Malheureusement, on ne retrouve pas la forme précise des carreaux. On devrait retrouver des carrés parfaits dans le cas de l'illustration précédente ; très clairement, l'image transformée est aplatie.
C'est manifestement cette méthode qui est à l'œuvre dans DxO Optics Pro telle qu'on la propose dans [3]. On voit ci-dessous que la base de l'image est conservée et que la hauteur des différents éléments dans l'image est légèrement modifiée comme dans l'illustration précédente. L'image finale est très certainement aplatie.
Dans Photoshop, on peut combattre cet aplatissement en imposant une transformation un peu plus complexe de la sélection (comme suggéré ci-contre). L'ennui est qu'on on aura rarement un carré ou un cercle parfait à reconstituer qui indique obligeamment où sont les réglages optimaux ; on devra opérer au pifomètre.
Photoshop offre également une variante de cette méthode avec l'outil Recadrage ; quand l'option Perspective est cochée, on peut déplacer chacun des sommets du rectangle de recadrage et l'image est alors retracée… avec des résultats assez imprévisibles, comme en témoignent les copies d'écran ci-après (on devrait obtenir des carrés):
Par ailleurs, cette méthode a un autre défaut assez rédhibitoire : à aucun moment on ne peut prévoir ce que va donner l'image finale, à l'opposé de la méthode de transformation d'une sélection.
On aurait donc un besoin d'un outil de redressement plus élaboré qui fournisse automatiquement des images redressées parfaites, sans aucun aplatissement, qui fournisse une simulation parfaite du travail avec un objectif à décentrement. Tout d'abord, on va voir qu'il devrait être possible d'y arriver… mais qu'il y a une difficulté.
La figure ci-contre donne le principe de la correction. C'est un schéma de profil de la prise de vue de notre carrelage vertical (en d'autres termes, une coupe dans le plan de symétrie de la scène). Le plan image est figuré en violet et la construction des images des différents carreaux montre le tassement quand on monte dans l'image. La correction consiste à refaire une projection conique de l'image, à partir du même point d'observation, sur le plan tracé en vert (plan perpendiculaire à la figure et parallèle à la droite SF joignant le point d'observation au point de fuite des varticales). Ce plan étant parallèle au plan photographié, on retrouvera une réduction exacte de ce qui se trouve dans ce plan.
La difficulté est qu'on ne dispose que des informations contenues dans l'image, qui permettent bien de retrouver le point de fuite, mais qui ne donnent aucune indication sur la position dans l'espace du point d'observation.
La figure ci-contre montre ce qui se passe quand on prend un point d'observation sur l'axe de visée, mais trop loin du plan image (en rouge) ou trop près (en bleu). On a tracé en vert la position idéale. A chaque fois on utilise un plan de redressement parallèle à la droite SF correspondante afin que l'image du point F dans le nouveau plan aille à l'infini et que les « verticales » deviennent parallèles entre elles. Les traits épais indiquent la hauteur du carrelage ainsi « redressé » : on voit qu'elle n'est pas toujours la même, ce qui signifie que l'image corrigée sera aplatie ou étirée en hauteur.
En principe, les métadonnées de l'image devraient donner accès aux dimensions du capteur et à la focale utilisée et on pourrait alors en déduire la position du point d'observation par rapport à l'image, mais encore faudrait-il que ces métadonnées existent, qu'elles soient bien exploitées… et que l'image n'ait pas été recadrée.
Après cette mise en garde théorique, nous allons examiner ce que trois logiciels du moment savent faire, à savoir le filtre « correction de l'objectif » de Photoshop, le logiciel PTLens [5] et le freeware ShifN [6] - ce dernier n'existant que sous la forme d'une application autonome pour Windows.
J'ai d'abord essayé de redresser l'image théorique d'un carrelage vertical. Comme on part d'une simulation numérique, l'exercice est évidemment assez artificiel. Dans les trois cas, on dispose que d'un seul paramètre pour ajuster la correction, correspondant peu ou prou à la rotation du plan image ; on ne peut pas agir sur la position du point d'observation.
En principe, l'image corrigée devrait être composée de carrés parfaits avec une diagonale inclinée à 45°. Aucune des trois corrections n'y parvient et la moins satisfaisante est celle de Photoshop (qui fournit des carreaux nettement aplatis).
La figure ne dit pas tout. L'action des curseurs de correction est plus ou moins sensible selon la hauteur de l'image : pour arriver à rattraper les verticales en un seul passage dans PTLens ou Photoshop, il a fallu rajouter un espace blanc au-dessus de l'image. Du côté de ShifN, le réglage doit se faire via un curseur « décentrement » difficile à maîtriser, à tel point que je n'ai pas pu obtenir d'un seul coup un redressement complet des verticales (j'ai dû le parachever dans PTLens). Par ailleurs, ShiftN inclut une information de « focale » qui devrait permettre de localiser le point d'observation, mais cette information n'est pas éditable.
Incidemment, il est important que le point de fuite des
verticales reste au milieu de l'image : la figure ci-contre montre ce qu'on
obtient si on part d'un original décalé vers la droite (on
pourrait obtenir cet effet en recadrant l'image) : on ne peut plus
redresser toutes les verticales dans la figure.
Nous en arrivons maintenant aux vrais essais, sur des photos numériques dont les metadonnées EXIF contiennent en principe tout ce qu'il faut pour que le logiciel puisse placer correctement le point d'observation par rapport à la photo.
ShiftN est une application autonome qui localise le point de fuite à partir d'une détection automatique des verticales convergentes ; ensuite, compte tenu du point d'observation déduit des données EXIF, il propose un redressement complètement automatique des verticales. PTLens fonctionne en plug-in de Photoshop comme le filtre correction de l'objectif : l'utilisateur doit ajuster un curseur jusqu'à ce que les verticales soient redressées, curseur qui doit correspondre à l'inclinaison entre le plan image et la plan de redressement.
La figure suivante permet de comparer des résultats typiques. Passez la souris sur les différents boutons en dessous de la figure pour faire apparaître les différentes versions ; si vous cliquez sur l'un des boutons, l'image correspondante deviendra l'image de référence dans la comparaison.
J'ai d'abord obtenu l'image de référence en mettant l'appareil sur pied et en mettant son axe horizontal — en me fiant aux niveaux à bulles inclus dans le pied, puis j'ai levé l'appareil vers le haut pour obtenir «l'image à redresser». Les trois autres images correspondent aux trois tentatives de redressement de la perspective ; aucune ne permet de retrouver exactement l'image de référence.
Le point important est d'examiner si les images redressées sont étirées ou aplaties par rapport à l'image de référence. Sur le cas particulier de cette image, le filtre correction de l'objectif aplatit l'image de 7%, PTLens l'étire de 8% alors que ShiftN ne déforme quasiment pas.
Cependant, même avec ShiftN, on est loin d'avoir un recouvrement parfait entre l'image de référence et de l'image corrigée. Je soupçonne qu'il faut imputer cet échec relatif au manque de contrôle de l'orientation de l'axe de visée par rapport au plan vertical défini par le mouvement d'inclinaison du pied. Il aurait fallu que l'axe reste bien dans ce plan, mais l'appareil pouvant tourner autour de sa vis de fixation sur le pied, de petites erreurs ont pu s'introduire aussi bien pour l'image de référence que pour l'image à redresser, et cela pourrait fort bien ête responsable du dandinement de la perspective d'une image à l'autre.
Peut-on généraliser les conclusions précédentes, à savoir que ShiftN serait à peu près correct alors qu'on une image aplatie avec Correction de l'objectif ou étirée avec PTLens ? Il semble que oui au vu des exemples suivants, mais il s'agit d'essais à main levée, donc avec des images de référence moins fiables.
Dans l'image précédente, la façade étant légèrement de travers, je n'avais aucune référence pour les horizontales du batiment et je n'ai pas su remettre l'axe de l'appareil dans le même plan vertical pour les deux prises de vue. L'image «frontale originale» correspond à la photo originale avec un axe de visée trop à gauche que j'ai essayé de rectifier pour aboutir à l'image «de référence». Bref (mais avec beaucoup de prudence), il semble à nouveau que ce soit ShiftN qui donne le meilleur résultat ; ensuite, par rapport à ShiftN, le filtre Correction de l'objectif aplatit de 4,5% et PTLens étire de 8%.
J'ai eu moins de problèmes avec l'image suivante. Il y a à nouveau une petite rotation de l'axe de visée entre les deux prises de vue, mais bien plus faible et que je n'ai pas essayé de reprendre. ShiftN semble toujours le meilleur, mais l'écart avec ses deux concurrents se resserre : Correction de l'objectif aplatit de 3,5% et PTLens étire de 4% seulement.
En conclusion, il apparaît que les trois logiciels testés ne tirent pas les mêmes conclusions des données EXIF contenues dans l'image ; ShiftN semble le plus près de l'idéal tandis que l'image est aplatie avec le filtre Correction de l'objectif ou étirée avec PTLens. Plus ennuyeux, les divergences par rapport à ShiftN ont l'air de fluctuer d'une image à l'autre (de 3 et 8%), ce qui fait qu'il paraît difficile de penser à une retouche systématique pour rattraper ces écarts.
Il manque clairement un contrôle dans le filtre Correction de l'objectif ou PTLens – qui pourrait être une correction de la focale utilisée dans les calculs –, afin de modifier la position du point d'observation et de compenser cet aplatissement. Assez ironiquement, bien qu'il en ait moins besoin, ShiftN est doté de ce contrôle (pas d'une manière très ergonomique, mais il l'a).
On peut tempérer cette déception concernant Photoshop et ses plugins en se rappelant que les appareils numériques ne sont pas vraiment destinés à concurrencer les chambres et qu'il est déjà bien beau qu'on puisse rattraper les perspectives de cette façon. Certes, mais si on a commencé à s'attaquer au problème, pourquoi ne pas le faire à fond ? L'existence même de ShiftN montre qu'on peut faire beaucoup mieux.
On ne peut pas vraiment considérer l'effet de fuyantes des verticales comme un défaut. D'abord, dans une certaine mesure, il est bel et bien perçu par l'œil ; ensuite, si on le trouve fâcheux, on peut le «corriger» — ou plutôt le compenser, car peut-on corriger ce qui n'est pas vraiment un défaut ? (d'où les guillemets)
Il faut bien noter qu'on n'obtient pas du tout la vision naturelle qu'on aurait depuis le milieu de la scène photographiée avec un axe de visée bien horizontal, mais simplement la vision d'un objectif à décentrement, une sorte de vision du coin de l'œil. Simplement, comme notre mémoire ne dispose pas de la référence de cette vision naturelle, on n'en souffre pas.
On pourrait tout aussi bien s'amuser à rattraper les fuyantes horizontales, mais ce ne serait pas aussi bien accepté. Par exemple, on aurait pu photographier l'une des façades précédentes d'un point de vue fortement déporté sur la droite, avec un axe de visée tourné vers la gauche pour prendre l'ensemble du bâtiment — on peut imaginer qu'un obstacle quelconque interdisait de se mettre au milieu. Ce faisant, les horizontales de la façade convergent sur la photo vers un point de fuite sur la gauche de l'image.
On peut très bien compenser à la fois la convergence des verticales et celle de ces horizontales. On obtient alors l'image ci-contre. Cela ressemble à ce qu'on aurait obtenu en opérant depuis le milieu de la façade, mais cette première impression ne tient pas bien longtemps. Le bâtiment a l'air de guingois, avec des fenêtres (ou les cheminées) vues de face sur la droite et de travers sur la gauche, sans parler de la colonnade centrale très loin de la symétrie attendue. Bref, même si on n'a jamais vu cet édifice, on sent très vite que cette photo n'est pas crédible. Or, c'est sensiblement ce qu'on aurait eu du premier coup en travaillant avec une chambre et un objectif à décentrement (opérant sur les deux axes) ; autrement dit, cette image est tout à fait conforme aux lois de la perspective... et elle n'est pas crédible, parce ce qu'on la compare tout de suite à l'idée qu'on a en tête de ce qu'on devrait voir et qu'il y a trop de divergences. Du coup, on parle volontiers de « déformation », mais le mot n'est pas tout à fait adapté. On fait évidemment référence à l'image qu'on aurait prise avec une visée frontale depuis le milieu de la façade, mais on ne peut pas «déformer» l'une des deux images pour arriver à l'autre car il y a des pixels de l'une qui ne correspondent à rien du tout dans l'autre ; autrement dit, les bizarreries de l'image redressée ne sont pas rattrapables.
D'une façon analogue, l'effet de la perspective sur des objets tridimensionnels placés en bord de champ est irrattrapable. La figure suivante montre comment se déforme l'image d'une petite sphère ou d'un petit cube quand cet objet s'écarte de l'axe de visée. L'effet est négligeable tant qu'on reste à moins de 30° de l'axe (c.à.d. quand on utilise une focale standard ou un téléobjectif), puis il croît très vite avec l'angle. Cette évolution est facile à comprendre dans le cas d'une petite sphère : en effet, les rayons qui découpent le contour de son image forment un cône de révolution avec un petit angle au sommet, de plus en plus incliné par rapport au plan de l'image et l'intersection avec ce plan (c.à.d. l'image) est une ellipse de plus en plus allongée.
Une vraie photo pour montrer que ces déformations ne sont pas une
vue de l'esprit ! Ce qui arrive aux dés (des cubes) est encore plus
impressionnant que ce qui arrive aux billes.
Dans tous ces cas, on peut bel et bien parler de déformations dues à la perspective parce que l'image enregistrée ne correspond pas à la perception naturelle. L'œil n'est pas fait pour examiner des objets dans des directions très éloignées de son axe ; il se tourne immédiatement vers cet objet et le cerveau enregistre alors une image frontale très différente de l'image photographiée.