In terms of total amount of data, modern astronomy is dominated by survey imaging data produced by wide-field digital cameras. After two decades of development, these cameras, constructed from mosaics of many individual charge-coupled devices, can now cover an area equivalent or larger with respect to their photographic predecessors. Moreover, unlike photographic plates, digital cameras have excellent sensitivity over a wide wavelength range and respond linearly to the incident light. Rather than directly using this vast quantity of pixel data, statistical observational cosmology is mostly carried out using catalogues in which galaxies are described only by positions, brightnesses and colours, and perhaps one or two simple shape parameters such as ellipticity or concentration index; a vast amount of useful information is therefore discarded. The morphology of galaxies can provide a key insight into their formation histories but until now, extracting useful morphological information for a large (109) numbers of galaxies has been extremely challenging due to both computational and algorithmic difficulties; existing tools are all either too slow or provide output insufficiently detailed to fulfill our goal of a complete description of each galaxy using a dozen or so parameters.
The EFIGI (Extraction de Formes Idealisées de Galaxies en Imagerie) project proposes to address both the computational and algorithmic aspects of this problem and to develop a robust and scalable solution to measure galaxy morphologies for large numbers of objects in very large imaging surveys.
Solving this problem requires the skills of signal processing specialists, computer scientists and astronomers. In algorithmic terms, several avenues are being developed, including machine learning techniques trained on local data sets of large, well-resolved galaxies, and complementary approaches which attempt to reduce the dimensionality of galaxy images by describing them in terms of a set of discrete parameters.
EFIGI must also address systematic errors, selection effects and band-shifting effects which have plagued this work in the past by carrying out extensive simulations and using data spanning from the UV (GALEX) to the infrared (WIRCAM).
Following the "open source" philosophy, EFIGI will provide the tools we develop free of charge for use by the entire astronomical community. EFIGI software will be designed to operate in a distributed computing environment so that more processing power can easily be added to deal with even larger surveys.
EFIGI is a 3-year ACI (large data-sets) project funded by the French ministery of Research.
En termes de masses de données, l'astronomie moderne est largement dominée par les images des relevés effectués à partir de caméras électroniques à grand champ. Ces dernières ont, depuis la fin des années 90, avantageusement remplacé les plaques photographiques en usage pendant près d'un siècle. Elles offrent une réponse en flux plus linéaire et plus homogène, un meilleur piqué, et une sensibilité décuplée. Ce développement s'accompagne logiquement d'un effort important au niveau du traitement de données. Ainsi pour un seul instrument le volume typique de pixels à traiter et analyser dépasse actuellement les 50 Toctets. Par ailleurs, d'une génération d'instruments à l'autre le gain en débit de données excède le progrès en puissance de calcul par processeur (loi de Moore), et plus encore celui du débit des entrées-sorties durant la même période de temps, ce qui rend désormais nécessaire une approche distribuée à la fois pour le calcul et le stockage.
Après calibration, l'exploitation scientifique des données se fait essentiellement au travers d'un catalogue des sources (astres) détectées automatiquement dans les images. Des statistiques exhaustives effectuées sur des attributs de ces astres (position dans le ciel, flux, orientation, etc.) sont issues une grande partie de nos connaissances actuelles en cosmologie (géométrie et densité à grande échelle de l'Univers, matière et énergie sombre, évolution des galaxies) et en structure galactique (populations d'étoiles, dynamique de la Galaxie). Du point de vue de l'astronome, le catalogue idéal est une forme de version compressée des images qui préserve et condense tout le contenu scientifique exploitable.
Les sources ponctuelles (indistinguables de la réponse impulsionnelle) comme les étoiles sont relativement simples à cataloguer: position, flux et eventuellement couleur suffisent à caractériser entièrement leur contribution aux images. Cependant les objets résolus, constitués à une écrasante majorité de galaxies, posent bien d'autres problèmes. Les paramètres de formes extraits des sources des relevés actuels se résument le plus souvent à des rapports d'axes et angles de position issus des moments du 2ème ordre. A ceci trois raisons essentielles, qui sont autant de défis:
Le temps de calcul: les volumes de données à analyser (typiquement 109 sources) imposent un temps moyen de calcul par source ne pouvant excéder une dizaine de millisecondes.
Les complications introduites par la convolution des images des galaxies par la réponse impulsionnelle; depuis le sol une grande partie des galaxies détectées ont un rayon d'échelle équivalent à celui de la réponse impulsionnelle. La mesure de paramètres ``déconvolués'' doit donc fréquemment faire face à des problèmes de dégénérescence, qui ne peuvent être résolus que par l'application d'a priori précis sur la morphologie des sources.
La nécessité de maîtriser les erreurs de mesure systématiques: les mesures morphologiques effectuées sur les sources ne sont exploitables scientifiquement que si les biais éventuels qui les affectent peuvent être parfaitement maitrisés. A titre d'exemple, certains objectifs scientifiques comme la mesure du cisaillement gravitationnel aux très grandes échelles à partir de l'élongation des profils, nécessitent des erreurs systématiques inférieures au 1/1000.
En conséquence, les catalogues des grands relevés actuels ne contiennent aucune description morphologique sophistiquée des galaxies. L'objectif d'EFIGI (Extraction de Formes Idealisées de Galaxies en Imagerie) est de combler cette lacune, en proposant un système générique et performant de description et classification morphologiques des galaxies détectées sur les images astronomiques. Les statistiques de formes des galaxies sont en effet au coeur de questions fondamentales de l'astrophysique moderne; citons en particulier
La morphogenèse des galaxies: comment se développent les différents types constituant la séquence de Hubble, leur évolution au sein des amas en fonction du décalage spectral et de la densité locale, la triaxalité des profils tridimensionnels ou sous-structures internes, la fréquence et la distribution en taille des barres et des ``coquilles'' internes de galaxies, les fonctions de luminosité par type.
L'Ă©volution des composantes de populations stellaire des galaxies, Ă travers l'histoire de la formation stellaire, et les interactions gravitationnelles Ă©ventuelles.
Les collisions entre galaxies, et leur dépendance avec le décalage spectral et l'environnement local.
Les distorsions gravitationnelles sur la ligne de visée: recherche automatique d'arcs gravitationnels signalant des concentrations de matière noire, cartographie des grandes structures en avant-plan, corrélation matière noire et lumière ("biais") ou matière noire des halos et type morphologique.
Historiquement, les efforts de description morphologique des galaxies se sont principalement portés sur la modélisation des profils des objets. Dans les programmes du type GIM2D, une galaxie est décomposée en 2 composantes axisymétriques de bulbe ("loi de de Vaucouleurs") et de disque (loi exponentielle tronquée), chacune décrite par 4 à 5 paramètres, pour un total de 10 paramètres par objet. L'ajustement est évidemment non-linéaire et réalisé par minimisation globale. A chaque pas de calcul, une reconvolution du modèle par la réponse impulsionnelle locale est nécessaire. Une majorité de galaxies des relevés profonds est très bruitée et/ou mal résolue, et les solutions sont sujettes à des dégénérescences importantes. D'où l'usage d'algorithmes lents mais sachant éviter les minima locaux, du type Metropolis.
En complément de ces ajustements de profils symétriques, d'autres paramètres empiriques tels que coefficient de Gini, indices d'"asymétrie", de "concentration", sont évalués, mais ils sont difficilement utilisables pour des expériences sol en raison notamment de la difficulté à contrôler les effets de la réponse impulsionnelle. Il en va de même des paramètres de contour ou isophotaux employés dans les tentatives passées de classification morphologique par apprentissage supervisé.
Conscients de ce problème, un certain nombre d'auteurs ont proposé plus récemment une décomposition linéaire des images de galaxies sur des bases de fonctions: composantes principales, polynômes de Gauss-Hermitte, "shapelettes". Ces dernières ont une expression analytique simple et facilitent l'approximation des transformations géométriques élémentaires (décalage, anamorphose, rotation, ...) sous forme de combinaisons d'opérateurs. En ajustant les fonctions de base convoluées par la réponse impulsionnelle locale, il est possible de déconvoluer paramétriquement les images. Toutefois une solution basée uniquement sur une maximisation de la vraisemblance est susceptible de dégénérescences, en particulier dans les directions azimuthales. Une partie des efforts actuels en ce domaine se porte sur l'inclusion d'a priori réalistes permettant de lever les dégénérescences les plus sévères.
Le Projet EFIGI se propose d'aborder à la fois les aspects théoriques et algorithmiques du problème et de développer une solution robuste pour mesurer en nombre la morphologie des galaxies présentes dans les grands relevés d'imagerie.
Le projet mobilise les compétences de specialistes du traitement du signal, de l'informatique, et de l'astronomie. En termes algorithmiques, plusieurs aspects sont pris en compte, parmi lesquels les techniques d'apprentissage automatiques appliquées à des jeux de données de galaxies bien résolues, et la réduction de dimensionnalité des images.
EFIGI doit aussi investiguer les erreurs systématiques, ainsi que les effets de sélection et de décalage spectral au moyen de larges simulations d'images et d'échantillons de référence allant du domaine UV (GALEX) à l'infra-rouge (WIRCAM).
Suivant la philosophie "open source", EFIGI délivrera à terme les outils qu'il développe à la communauté scientifique. Les logiciels EFIGI seront concus pour fonctionner dans un environnement de calcul distribué, afin de pouvoir bénéficier d'une puissance de calcul aisément incrémentable.
EFIGI est un projet ACI "masses de données" de 3 ans, financé par Fond National pour la Science.