Terapix Star Formation Region IC 1396, © 2002 CFHT
Compte-rendu / Minutes
by E.B. - Updated January 5th, 2007

Présents: M.Arroyo, A.Baillard, E.Bertin, A.Bijaoui, M.Campedel, R.Dehak, P.Fouqué, T.Géraud, H.J.McCracken, V.de Lapparent, Y.Mellier, L.Tasca

Cette quatrième grande réunion EFIGI nous permet de confronter les différentes approches pour l'analyse morphologique développées ou en développement au sein de la collaboration, en particulier l'analyse en composantes indépendantes, les arbres de décision en classification non-supervisée, et l'ajustement non-linéaire de modèles morphologiques. Le nettoyage des images et l'inpainting, ainsi que la mise-en-place du webservice sont discutés. Enfin un calendrier provisionnel de rédaction des articles est arrêté.

Présentations (matin)

Emmanuel Bertin fait un bilan des progrès réalisés durant les six mois écoulés: l'étiquetage manuel par les astronomes d'EFIGI de plus de 2500 galaxies bien résolues de l'échantillon PGC, la mise en ligne d'une base de données morphologiques quantitatives à partir des mesures de Lidia Tasca, l'amélioration des procédures de ``nettoyage'' des images par Anthony Baillard, l'écriture de prototypes fonctionnels d'ajustement de profils de galaxies par Marta Arroyo, leur implémentation avec prise en compte de la réponse impulsionnelle par Emmanuel , la parallélisation de SkyMaker, les développements concernant la classification automatique par Anthony Baillard et Reda Dehak, et enfin la mise en service d'Efigix, le premier serveur EFIGI à TERAPIX. Les retards enregistrés par rapport au plan initial concernent le travail de sélection des bases de fonctions, toujours en cours, l'étiquetage manuel du catalogue PGC, et enfin la rédaction des articles.

Anthony Baillard présente les améliorations apportées à ses procédures de ``nettoyage'' des images. Après étiquetage des pixels à traiter au moyen de morphologie mathématique, deux zones sont identifiées pour l'inpainting: sur la galaxie proprement-dite, où le remplissage est fait à partir du minimum local, et sur les alentours, où l'on copie le morceau de fond de ciel symétrique par rapport au barycentre de la galaxie. Les quelques petits problèmes résiduels sur certains objets devraient être largement atténués par une connaissance plus précise du centre et de l'étendue des objets (grâce aux mesures SExtractor par exemple), et un ajustement des dilatations autour des étoiles brillantes. Une exploitation des techniques de morphologie mathématique est prévue pour identifier et corriger d'autres composantes des images astronomiques: trainées de satellites, aigrettes de diffraction,... Ces travaux devrait faire l'objet d'une publication à assez court terme (avant le printemps).

Anthony Baillard poursuit avec un panorama des nouvelles données et catalogues rendus disponibles sur EFIGI ces derniers mois. L'outil ManClass a permis aux astronomes d'étiqueter à ce jour au travers de 19 attributs 2632 galaxies de l'échantillon PGC-1.3 (sur 4462). Anthony a créé une base de données et son interface à partir des nouvelles données fournies par Lidia. Ces données concernent 1875 galaxies observées dans les 5 bandes du relevé SDSS, et ont fait l'objet d'une classification visuelle en 6 types morphologiques par une équipe d'astronomes japonais (Fukugita et al., voir Yamauchi et al. 2005 et Nakamura et al. 2003). Pour chaque galaxie, jusqu'à 12 paramètres d'ajustement de profils (modèles de Vaucouleurs+Sersic, Sersic+exponentiel, Sersic+exponentiel étendu) ont été calculés au CINES avec le logiciel GIM2D. Des interfaces de filtrage des données, de sortie de fichier, et Observatoire Virtuel sont en préparation. Quel est le recouvrement avec l'échantillon PGC (Pascal)? Pas encore exploré, mais a priori modeste; ainsi la proportion de galaxies irrégulières est bien inférieure dans le catalogue de Lidia (limité en magnitude) par rapport au PGC. Le résultat de la décomposition du profil par GIM2D sur l'exemple choisi par Anthony est discuté; Lidia met en garde contre le manque de pertinence du chi2 de GIM2D pour juger de la qualité de l'ajustement; le problème de la pondération des pixels dans le chi2 est discuté avec Albert.

Marta Arroyo expose les résultats de son stage effectué au LTCI avec Henri sur l'ajustement non-linéaire de profils sur les images de galaxies. L'algorithme de Levenberg-Marquardt implanté dans MATLAB est utilisé. Une initialisation convenable des paramètres est obtenue à partir des moments du 1er et du 2ème ordre mesurés sur l'image seuillée de la galaxie. 8 paramètres sont ajustés: position (x2), amplitude, rayons d'échelle (x2), angle de position, indice de Sersic et niveau du fond de ciel local. Le temps de calcul est typiquement de plusieurs dizaines de secondes par galaxie sur un processeur à 1.7GHz. Ici encore, la pondération du chi2 reste à faire. Albert suggère une pondération proportionnelle au profil.

Emmanuel Bertin présente l'implantation en C de l'ajustement non-linéaire de profils de galaxies. Une approche basée sur des profils précalculés à haute résolution sur des grilles de pixels a été préferée à une approche purement analytique, pour des raisons de rapidité et de flexibilité. La réponse impulsionnelle est modélisée automatiquement dans une première passe à travers les données, et ensuite convoluée avec le modèle de galaxie à haute résolution (avec FFTW) avant réechantillonnage à la résolution de l'image et calcul du vecteur de résidu à chaque itération. La librairie open-source lmfit a été choisie pour réaliser la minimisation avec Levenberg-Marquardt. Les temps de calcul pour la présente version, non-encore optimisée, vont de quelques dixièmes à quelques secondes par galaxie. Les améliorations prévus pour le proche futur incluent des modifications sur la paramétrisation pour accélérer la convergence, le choix éventuel d'autres algorithmes de minimisation (Metropolis, MCMC: brève discussion sur ce point). Yannick insiste sur la nécessité pour le logiciel d'offrir une précision de mesure au moins aussi bonne que GIM2D pour qu'il soit utilisé, et de faire des comparaisons avec GasPhot et GalFit. Les données du relevé COSMOS seraient sans doute les plus appropriées pour évaluer la qualité de l'ajustement des profils et les possibilités pour détecter des morphologies particulières comme les arcs gravitationnels.

Anthony Baillard présente des résultats préliminaires obtenus sur la classification supervisée et non-supervisée à partir des paramètres d'ajustement de Lidia. Concernant la classification supervisée, un SVM permet d'obtenir un taux de classification correcte à un type-près (de Fukugita, c'est-a-dire environ 2 types de Hubble révisés pour les spirales) de 92%. Mais ce bon taux n'est atteint qu'en ajoutant le chi2 de l'ajustement au rapport bulbe/total et l'indice de Sersic. Concernant la classification non-supervisée, des arbres de décision quaternaires à 16 à 64 feuilles basés sur les 2 premières composantes principales des images ont été testés sur l'échantillon PGC. L'utilisabilité des résultats n'est pas encore garantie; Albert et Emmanuel relèvent que la moyenne non-nulle et la corrélation apparente observée entre composantes semble révéler un bug dans le code. Parmi les améliorations possibles, un recalage des images à partir des paramètres d'ajustement des profils au lieu des moments devrait fournir une plus grande robustesse vis-à-vis des structures périphériques et autres contaminants. Une intervention de Pascal engage une discussion sur les modifications susceptibles d'améliorer l'identification d'attributs subtils telle que la présence de poussière, en exploitant notamment la dépendence envers l'angle d'inclinaison. Compte-tenu des faibles progrès observés sur le front de la décomposition linéaire des images, Emmanuel demande s'il ne faudrait pas abandonner cette approche au profit d'un ajustement non-linéaire global de primitives convoluées tels que profils, barres, etc. Reda envisage deux approches possibles suivies d'un dispositif à apprentissage: soit une décomposition linéaire, mais par type, soit un ajustement non-linéaire. Yannick et Albert évoquent leur expérience des shapelettes en astronomie; Yannick plaide pour l'approche non-linéaire en raison de sa plus grande proximité avec les paramètres physiques des sources. Albert met en garde contre les difficultés potentielles de convergence et mentionne la possibilité d'utiliser des masques spécifiques selon les paramètres à ajuster.

Reda Dehak décrit ses expérimentations de classification à deux étapes. Contrairement au prototype précédent, le premier étage ne contient "que" 16 classifieurs. Pour la réduction de dimensionalité ICA et PCA donnent des resultats proches (mais l'ICA est très contaminée par les étoiles mal nettoyées de l'ancien échantillon). Pour chaque classe ciblée, l'apprentissage au premier étage est réalisé localement par un SVM à noyau gaussien à partir de composantes sur une base (PCA ou ICA) spécifique, et les classes "adjacentes" sont utilisées comme imposteurs. Le comportement du classifieur primaire s'avère à ce stade très peu fiable (certains noeuds disent "toujours non"). Le deuxième étage récolte les votes et réalise la classification. Marine remarque que le bruit sur les statistiques de classification pourrait être réduit par validation croisée. Les améliorations possibles incluent l'ajout d'une mesure de l'énergie des résidus et l'utilisation d'échantillons élargis aux classes voisines pour les PCA. Albert se pose la question de la pertinence de la trentaine de composantes nécessaires, compte-tenu du petit nombre de galaxies dans certaines classes.

Discussion et Décisions

Emmanuel rappelle les priorités d'EFIGI: la fourniture d'un web-service et la publication des articles liés aux techniques d'analyse des données. Concernant l'ajustement de profils, les tâches restantes, outre l'optimisation et le ``nettoyage'' du code, incluent le test de l'ajustement de nouvelles primitives et l'ajout de nouvelles statistiques sur les résidus. Albert suggère de travailler dans l'espace de Fourier pour ces aspects.

Il reste à décider au plus vite si la décomposition linéaire après transformation des images doit être abandonnée ou non, compte-tenu des faibles progrès réalisés en ce domaine au cours des deux années écoulées. Emmanuel propose d'appliquer à l'échantillon PGC l'ajustement de profils généralisé et de comparer aux classification précédentes les résultats d'un apprentissage comme celui effectué par Anthony sur l'échantillon de Lidia.

Emmanuel évoque les difficultés pour recruter un stagiaire pour la réalisation du kit de web-service. Marine mentionne la possibilité d'embaucher des étudiants ingénieurs du Maghreb, demandeurs de ce genre d'expérience. A signaler une réunion mi-décembre entre Emmanuel, Olivier Ricou, Gerard Lemson et Jeremy Blaizot (MPE, Garching) doit permettre de jeter les bases d'un web-service de simulation d'images astronomiques.

Anthony montrent les derniers résultats de l'analyse en composantes principales, et un spectaculaire outil de sélection de la base des images à partir d'intervalles sur les attributs. Valérie insiste sur l'utilité d'un tel outil pour le travail d'homogénéïsation du catalogue d'attributs. Anthony finalise pour Noël. Pascal, Valérie et Emmanuel se chargent de l'homogénéïsation du catalogue.

Thierry Géraud résume le travail réalisé au LRDE pour s'affranchir de la quantification dans les algorithmes de morphologie mathématique, et les articles en préparation sur le thème de l'identification de certains défaults sur l'image. Lidia décrit sa technique pour identifier les aigrettes de diffraction dans les images. Thierry réclame une dizaine d'images (CCD) contenant traces de satellites, halos et aigrettes à identifier. Emmanuel et Anthony lui fourniront début janvier, avec une liste commentée. Une discussion s'engage sur l'apparence et la nature des halos.

Reda et Marine attendent les résultats des ajustements sur le PGC pour poursuivre leur travail sur le classifieur. Emmanuel doit au préalable extraire les PSF SDSS pour chacune des images. Anthony ajoutera les liens vers les PSFs dans les bases de l'échantillons PGC et celui de Lidia.

Lidia et Henry sont prêts à tester les nouvelles fonctionnalités morphologiques de SExtractor. Lidia fournira sous peu les références concernant la mesure de paramètres de concentration, etc. tels que les a implémentés Bob Abraham et les données morphologiques pour 56000 galaxies ACS. Anthony doit mettre en ligne les données en bande I sous peu.

Les articles à comité de lecture prévus actuellement concernent notamment:
-  A court terme (hiver):

  • Les arbres des composantes appliqués aux images astronomiques (Berger, Géraud, Baillard, ...)
  • La modélisation automatisée de la PSF (Bertin, Delorme,...)

-  A moyen terme (printemps):

  • Un échantillon homogénéïsé de galaxies étiqueté morphologie (Baillard, Fouqué, de Lapparent,...).
  • L'ajustement de profils généralisé (Bertin, Arroyo, Tasca,...)


Site Map  -   -  Contact
© Terapix 2003-2011