Présents: A.Baillard,E.Bertin,M.Campedel,J.-F.Cardoso,R.Dehak,P.Fouqué, M.Lienou,Y.Mellier, O.Ricou
Cette réunion d'avancement fait le point des développements dans EFIGI, 11 mois après le démarrage. La matinée est dédiée à des présentations, et l'après-midi aux discussions pour tenter de définir la liste d'attributs morphologiques que l'on souhaite détecter automatiquement.
Présentations (matin)
Marie Lienou présente son travail comparatif sur la classification morphologique à partir de shapelets, sur un petit et un gros échantillons de galaxies. Plusieurs types de caractéristiques sont extraits et comparés en validation croisée: les coefficients des shapelets polaires, les coefficients des "spiralets", le flux total, l'erreur moyenne de reconstruction, ainsi que les composantes ACP (première génération du prototype). Le problème délicat du choix du paramètre d'échelle est rappelé. La classification est confiée à 3 modèles supervisés: k-plus proches voisins (k=3), discriminant linéaire de Fisher, et SVM (linéaire et gaussien). Pour le gros échantillon, et après sélection des caractéristiques les plus discriminantes (algorithme de Fisher) pour le petit échantillon, le classificateur SVM apparait le plus performant. Les coefficients des shapelets s'avèrent plus discriminants que les coefficients de l'ACP, mais il est probable que cela tienne au fait que ces derniers sont normalisés, et perdent donc l'information fondamentale qu'est la brillance surface (qui n'est pas requise pour la classification EFIGI).
Anthony Baillard fait le point sur le prototype de classifieur de type de Hubble developpé à l'IAP, après une rapide introduction au différents systèmes de classification des galaxies. La décomposition en shapelets a été rapidement abandonnée au profit d'une ACP, dont les 30 premières composantes sont envoyées dans un Perceptron multi-couche. La qualité de la classification automatique obtenue est comparable à celle des re-classifications manuelles de 5 astronomes.
Reda Dehak présente et commente les résultats de classification obtenues au moyen d'un classifieur SVM (Support Vector Machine, ou encore Séparateur à vaste marge), en remplacement du Perceptron multi-couches, sur les mêmes jeux de vecteurs de 30 composantes fournis par Anthony. La séparation linéaire fournie par le modèle SVM de base est étendue aux cas non-linéaires via un mapping par des fonctions noyaux radiales. Les performances de classification s'avèrent à la fois supérieures et plus stables que celles du Perceptron multi-couches. Elles sont d'ailleurs supérieures même à celles des 5 experts humains, malgré la petitesse de l'échantillon d'apprentissage.
Emmanuel Bertin décrit la collecte des échantillons d'images de galaxies. Le catalogue de base est le PGC (Principal Galaxy Catalog), devenu au fil des ans la base de données en ligne HyperLEDA. Comme il s'agit d'un compilation hétérogène de catalogues divers de galaxies brillantes, on ne peut définir une fonction de sélection sous-jacente nette, et les priors sont donc difficiles à caractériser. Les images elles-même sont issues du relevé visible à moyenne profondeur SDSS . Le rapport signal/bruit par pixel est adéquat pour la majorité des galaxies PGC, quoique fréquemment de quelques sigmas seulement pour certains objets. La version 1.1 de l'échantillon mis en ligne contenait environ 800x5 images de galaxies fragmentées par le "deblender" du projet SDSS. La version 2.0 en cours d'élaboration contient plus de 11000x5 images, dont le nettoyage doit être effectué par nos soins. Les types des galaxies de la version 2,0 sont peu fiables et necessiteront donc une reclassification. Pascal Fouqué suggère d'utiliser les types spectraux fournis par le SDSS comme support de la classification.
Anthony Baillard revient sur le codage des "Revised Morphological Types", et son utilisation dans l'interface de (re-)classification.
Pascal Fouqué présente le système de classification morphologique de De Vaucouleurs, et rappelle qu'à l'origine son usage était surtout de prédire d'autres caractéristiques alors plus difficilement mesurables telles que la couleur ou le profil radial (ce qui pose la question de son utilité aujourd'hui). L'axe principal est le "stage" sur la séquence de Hubble. Les galaxies sont séparées en deux "familles" (présence ou absence d'une barre), modulées par une "variété" (présence d'un anneau ou forme en "S"), offrant un système de classification à 3 dimensions (coordonnées cylindriques). Pascal insiste sur la nécessité de pondérer les différentes sources de classification de référence. A noter que le catalogue RC3 d'origine possède une mesure d'erreur associée au type de Hubble; Pascal fera parvenir cette information.
Discussion (Après-midi)
La première partie de la discussion porte sur la représentation des attributs. Pascal suggère d'utiliser à la fois une intensité et un intervalle de confiance pour décrire chaque attribut dans l'interface de classification. Olivier insiste sur la nécessité d'employer des grandeurs continues afin de pouvoir renormaliser facilement a posteriori les comportements individuels. Yannick propose une interface graphique calquée sur le diagramme de De Vaucouleurs; Pascal fera parvenir a Anthony une collection d'images prototypes. Pascal soulève le problème des galaxies vues de profil ("edge-on"), et se demande si l'on ne devrait pas créer une catégorie à -part pour ces objets, comme dans le système de Van Den Bergh. Le problème de la pente < 1.0 trouvée par regression pour toutes les classifications (y-compris humaines) est discuté. Il est suggéré d'examiner les biais créés par les erreurs sur les 2 axes et la non-gaussianité de la dispersion autour d'une classe donnée. Face à la quantité d'attributs à identifier manuellement, Pascal se demande si une interface qui proposerait des suggestions basées sur un apprentissage progressif ne simplifierait pas grandement cette opération. Cette technique s'appelle "apprentissage par renforcement"; quelques références sur le sujet seront fournies par Marine. Pascal explicite la différence entre les types I0, assimilés à des lenticulaires très perturbées, et les irrégulières magellaniques, qui sont la continuation logique des Sdm sur la séquence de Hubble. Après experimentation sur une série de galaxies, les attributs retenus sont pour l'heure:
Barre
Anneau
- interne (bras spiraux à l'exterieur)
- externe (bras spiraux à l'intérieur)
Bras spiraux
- finesse
- floculence
- degré d'enroulement
- régularité
Poussières
- bande/barre
- dispersion
Bulbe
- rapport bulbe/total
- ellipticité
- boxiness
- coquilles
Multiplicité
Perturbation
Contamination par un objet ou un artefact voisin
Type de Hubble
La classe de luminosité n'est pas retenue car elle corrèle trop fortement avec certains paramètres structuraux ci-dessus. Une discussion s'engage sur la démarche conduisant à la détermination du type de Hubble: via les paramètres structuraux, ou directement à partir de l'image comme actuellement. Emmanuel propose d'indiquer un type dans l'interface, et ultérieurement de voir si l'on peut le retrouver à partir des paramètres structuraux.
La deuxième partie de la discussion porte sur la réduction de dimensionalité des images et la recherche d'invariants. Jean-Francois explique quelle pourrait être l'interêt d'une analyse en composantes indépendantes (ICA), à travers sa faculté d'isoler des composantes de statistique non-gaussienne. Sont évoquées les techniques de matching pursuit et de PCA locale (dans l'espace des pixels). Jean-François suggère une approche explicitement multi-résolution de la décomposition, et rappelle que la PCA n'est pas invariante d'échelle.