Suite

Règle de base pour sélectionner les retours sur investissement pour la classification supervisée


J'aimerais effectuer une classification supervisée à l'aide du plugin de classification semi-automatique et d'un algorithme de classification à maximum de vraisemblance. J'ai lu une règle empirique qui dit "si les données d'entraînement sont extraites de n bandes, alors un minimum de > 10n pixels de données d'entraînement sont collectés pour chaque classe" (Jensen). J'utilise une image Landsat avec six bandes, donc je suppose que je dois sélectionner au moins 60 pixels d'entraînement par classe. D'une certaine manière, je suis confus parce que j'ai aussi entendu des gens dire que vous avez besoin de pixels d'entraînement 10 fois plus que vous avez des cours.

Existe-t-il une règle générale pour sélectionner les retours sur investissement ? Comptez-vous les pixels d'entraînement en dessinant les polygones qui les entourent ?


Cela dépend en fait du classificateur que vous utilisez. Différentes hypothèses sur la distribution des données ou différentes stratégies d'optimisation peuvent nécessiter plus ou moins de données d'apprentissage. Il est très vrai que pour augmenter la dimensionnalité de l'espace d'entrée, vous avez besoin de plus d'échantillons d'apprentissage pour remplir l'espace ("la malédiction de la dimensionnalité"). Cela est particulièrement vrai pour les fonctions basées sur la distance, car la distance euclidienne perd son sens dans les espaces de grande dimension sous-échantillonnés. Notez que la distribution gaussienne repose également sur les distances euclidiennes / Mahalanobis, elles ne fonctionneront donc pas bien dans ces situations. Je dirais qu'en règle générale, plus vous en avez, mieux c'est. Quel type de classificateur envisagez-vous d'utiliser ?

Cependant, au lieu de tout concentrer sur le nombre d'exemples, vous devriez également vous concentrer sur la quantité de variabilité que vous couvrez pour votre classe sémantique avec vos données d'entraînement. Par exemple, si vous souhaitez classer une classe de forêt qui présente une grande variabilité spatiale du signal, vous pouvez sélectionner des ROI qui représentent bien ces changements, pour améliorer et garantir une sorte de généralisation. Pour une classe « eau », la variabilité du signal dans l'espace est généralement faible, et un classificateur peut bien généraliser même avec peu d'échantillons d'apprentissage.