Suite

Transformer les valeurs d'aspect afin de les utiliser dans des modèles de régression multiple


Je souhaite utiliser l'aspect comme variable indépendante dans un modèle de régression multiple, mais j'aimerais transformer les valeurs d'aspect de sorte que de degrés 180 à 360, j'obtienne leur équivalent en degrés de 0 à 180. Comment puis-je le faire dans ArcGIS ou R ?


J'ai plusieurs méthodes disponibles dans notre Geomorphometry and Gradient Metrics Toolbox (Evans et al., 2014). D'après votre description, il semble que les outils "Aspect linéaire" ou "Classifier l'aspect" fonctionneraient pour vous. Cependant, j'ai trouvé que, dans les modèles de régression, d'autres transformations sont beaucoup plus efficaces.

La méthode de Roberts & Cooper (1989) déplie et recentre l'aspect de sorte que 0 représente les aspects nord-nord-est, (typiquement l'orientation la plus fraîche et la plus humide) et 1 représente les aspects sud-sud-ouest plus chauds et plus secs. Les transformations Stage (1976) sont une interaction entre la pente et l'aspect et se sont avérées être des indicateurs robustes d'un processus écologique biotique entraîné par la topographie. L'indice de charge thermique de McCune & Keon (2002) représente également une interaction pente/aspect, mais est mis à l'échelle pour représenter l'isolement solaire.

Les méthodologies de dépliage ou aspect « linéarisation », dans l'algèbre raster ArcGIS, sont :

tmp1=Aspect(dem) tmp2=SetNull(tmp1 < 0,(450.0 - tmp1) / 57.296) tmp3=Sin(tmp2) tmp4=Cos(tmp2) tmp5=FocalStatistics(tmp3,NbrRectangle(3,3,"CELL") ,"SUM","DONNÉES") tmp6=FocalStatistics(tmp4,NbrRectangle(3,3,"CELL"),"SUM","DONNÉES") tmp7 = Mod(((450 - (ATan2(tmp5, tmp6) * 57,296)) * 100), 36000) / 100 outRaster = Con((tmp5 == 0) & (tmp6 == 0),- 1, tmp7)

Les références

Evans JS, Oakleaf J, Cushman SA, Theobald D (2014) An ArcGIS Toolbox for Surface Gradient and Geomorphometric Modeling, version 2.0-0. Disponible : http://evansmurphy.wix.com/evansspatial.

McCune, B. & D. Keon., (2002). Équations pour le rayonnement incident direct annuel potentiel et l'indice de charge thermique. Journal de la science de la végétation. 13:603-606.

Stage, A.R., (1976). Une expression des effets de l'aspect, de la pente et du type d'habitat sur la croissance des arbres. Forest Science 22(3):457-460.

Roberts. D.W. et Cooper, S.V. (1989). Concepts et techniques de cartographie de la végétation. Dans Classifications des terres basées sur la végétation : Applications pour la gestion des ressources. USDA Forest Service GTR INT-257, Ogden, UT, pp 90-96


Fonction de régression linéaire multiple dans SQL Server

J'ai développé la fonction de régression linéaire simple dans SQL Server à partir d'ici (https://ask.sqlservercentral.com/questions/96778/can-this-linear-regression-algorithm-for-sql-serve.html) pour calculer Alpha, Beta et quelques valeurs supplémentaires comme Upper 95% et Lower 95%. La régression linéaire simple prend l'argument comme X et y.

Maintenant, j'ai besoin d'effectuer une régression linéaire multiple SQL Server, qui prend les arguments y et X1,X2,X3. Xn

La sortie sera donc la suivante :

N'importe qui peut s'il vous plaît me suggérer un bon moyen d'y parvenir.


Commencer

Choisir la variable que vous souhaitez comprendre, prédire ou modéliser est votre première tâche. Cette variable est appelée variable dépendante. L'obésité infantile, la criminalité et les résultats aux tests seraient les variables dépendantes modélisées dans les exemples décrits ci-dessus.

Ensuite, vous devez décider quels facteurs pourraient aider à expliquer votre variable dépendante. Ces variables sont appelées variables explicatives. Dans l'exemple de l'obésité infantile, les variables explicatives pourraient être des éléments tels que le revenu, l'éducation et l'accessibilité à une alimentation saine. Vous devrez faire vos recherches ici pour identifier toutes les variables explicatives qui pourraient être importantes, consulter la théorie et la littérature existante, parler à des experts et toujours vous fier à votre bon sens. Les recherches préliminaires que vous effectuez au départ augmenteront vos chances de trouver un bon modèle.

Une fois la variable dépendante et les variables explicatives candidates sélectionnées, vous êtes prêt à exécuter votre analyse. Il est suggéré de commencer votre analyse de régression avec la régression linéaire généralisée (GLR) ou la régression exploratoire, car ces outils effectuent des tests de diagnostic importants qui vous indiquent si vous avez trouvé un modèle utile ou si vous avez encore du travail à faire.

L'outil GLR génère plusieurs sorties, notamment une carte des résidus de régression, des graphiques et un rapport de synthèse. La carte des résidus de régression montre les sous-estimations et les surestimations de votre modèle, et l'analyse de cette carte est une étape importante pour trouver un bon modèle. Le rapport de synthèse est en grande partie numérique et comprend tous les diagnostics que vous utiliserez lors des six vérifications ci-dessous.

La sortie de l'outil GLR comprend un rapport récapitulatif, des graphiques et une carte des résidus.


Interprétation des coefficients de régression pour les relations linéaires

Le signe d'un coefficient de régression vous indique s'il existe une corrélation positive ou négative entre chaque variable indépendante et la variable dépendante. Un coefficient positif indique que lorsque la valeur de la variable indépendante augmente, la moyenne de la variable dépendante a également tendance à augmenter. Un coefficient négatif suggère qu'à mesure que la variable indépendante augmente, la variable dépendante a tendance à diminuer.

La valeur du coefficient signifie dans quelle mesure la moyenne de la variable dépendante change compte tenu d'un décalage d'une unité dans la variable indépendante tout en maintenant constantes les autres variables du modèle. Cette propriété de maintenir les autres variables constantes est cruciale car elle vous permet d'évaluer l'effet de chaque variable indépendamment des autres.

Les coefficients de votre sortie statistique sont des estimations des paramètres réels de la population. Pour obtenir des estimations de coefficients non biaisées ayant la variance minimale et pour pouvoir faire confiance aux valeurs p, votre modèle doit satisfaire les sept hypothèses classiques de la régression linéaire OLS.

Les statisticiens considèrent les coefficients de régression comme une taille d'effet non standardisée, car ils indiquent la force de la relation entre les variables à l'aide de valeurs qui conservent les unités naturelles de la variable dépendante. Les tailles d'effet vous aident à comprendre à quel point les résultats sont importants dans un sens pratique. Pour en savoir plus sur les tailles d'effet non standardisées et standardisées, lisez mon article sur les tailles d'effet dans les statistiques.


Un examen de la modélisation de la qualité de l'air

Les modèles de qualité de l'air (AQM) sont utiles pour étudier divers types de pollutions atmosphériques et offrent la possibilité de révéler les contributeurs de polluants atmosphériques. Les MAQ existants ont été utilisés dans de nombreux scénarios ayant une variété d'objectifs, par exemple, en se concentrant sur certaines zones d'étude et des unités spatiales spécifiques. Les revues AQM précédentes couvrent généralement l'un des éléments constitutifs des AQM. Dans cette revue, nous identifions le rôle et la pertinence de chaque composant pour la construction de MAQ, y compris (1) les techniques existantes pour la construction de MAQ, (2) comment la disponibilité des différents types d'ensembles de données affecte la performance, et (3) la validation commune méthodes. Nous présentons des recommandations pour la construction d'un AQM en fonction de l'objectif et des ensembles de données disponibles, en soulignant leurs limites et leurs potentiels. Sur la base de plus de 40 travaux sur la qualité de l'air, nous avons conclu que les principales méthodes utilisées dans l'estimation de la pollution atmosphérique sont la régression de l'utilisation des terres (LUR), l'apprentissage automatique et les méthodes hybrides. De plus, en incorporant des méthodes LUR avec des variables de trafic, cela donne des résultats prometteurs cependant, lors de l'utilisation de techniques de krigeage ou de pondération par distance inverse, les mesures des stations de surveillance des données de pollution atmosphérique suffisent pour avoir de bons résultats. Notre objectif est de fournir un manuel court pour les personnes qui souhaitent créer un AQM étant donné les contraintes actuelles telles que la disponibilité des ensembles de données et des ressources techniques/informatiques.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


Quand aller haut ou bas ?

Malgré tous les attributs potentiels, les niveaux d'agrégation et les combinaisons de ceux-ci, historiquement, le débat s'est condensé à seulement deux options, descendante et ascendante,

L'approche descendante utilise un agrégat des données au niveau le plus élevé pour développer une prévision récapitulative, qui est ensuite attribuée aux éléments individuels sur la base de leur relativité historique par rapport à l'agrégat. Cela peut être n'importe quelle prévision générée en tant que rapport de leur contribution à la somme de l'agrégat ou sur l'historique qui est par essence une prévision naïve.

Les données plus agrégées sont intrinsèquement moins bruyantes que les données de bas niveau car le bruit s'annule dans le processus d'agrégation. Mais alors que la prévision uniquement à des niveaux plus élevés peut être plus facile et fournir moins d'erreurs, elle peut dégrader la qualité des prévisions car les modèles de données de bas niveau peuvent être perdus. Le niveau élevé fonctionne mieux lorsque le comportement des éléments de bas niveau est fortement corrélé et que la relation entre eux est stable. Le niveau bas a tendance à mieux fonctionner lorsque le comportement de la série de données est très différent l'un de l'autre (c'est-à-dire indépendant) et que la méthode que vous utilisez est bonne pour détecter ces modèles.

Le principal défi est que le niveau d'agrégation requis pour obtenir des informations statistiques significatives peut ne pas correspondre à la précision requise par l'entreprise. Vous pouvez également constater que les exigences de l'entreprise peuvent ne pas avoir besoin d'un niveau de granularité (c'est-à-dire Client à des fins de production), mais certains clients peuvent se comporter différemment, ou l'entrée est au niveau article/client ou à un niveau inférieur. Le plus souvent, il s'agit d'une combinaison de ces éléments et vous avez besoin de plusieurs niveaux d'agrégation et de plusieurs niveaux d'entrées ainsi que de divers degrés de bruit et de signaux.


Statistiques de régression et évaluation du modèle de régression multivariée (incluant 48 stations utilisées pour la modélisation). R2 est le coefficient de détermination qui sert de mesure de la qualité de l'ajustement du modèle adj_R 2 est le coefficient de détermination ajusté, qui compense la limitation du coefficient de détermination en tenant compte de la taille de l'échantillon et du nombre de variables de prédiction, et il représente exactement la proportion de variation de la variable dépendante (c'est-à-dire les précipitations moyennes annuelles et saisonnières ) expliquée par le modèle de régression multivariée RMSE est la racine carrée de l'erreur quadratique moyenne, qui décrit l'erreur de prédiction dans la modélisation des précipitations F est la valeur du test de mathématiques DW est la valeur de la statistique de Durbin-Watson, une statistique de test utilisée pour détecter la présence d'autocorrélation dans les résidus, sur la base d'une analyse de régression.

À propos du modèle de régression

Il a été démontré que lorsque l'ensemble d'ajustement représente plus de 80 % de l'ensemble, le coefficient de détermination ajusté (adj_R 2 ) tend à rester stable. Par conséquent, il est raisonnable de sélectionner 85 % (48 stations) de l'ensemble comme l'ensemble adapté (Figure 2).


La prochaine question à laquelle nous aimerions répondre est : quels prédicteurs contribuent de manière substantielle à prédire la satisfaction au travail ? Nos corrélations montrent que tous les prédicteurs sont en corrélation statistiquement significative avec la variable de résultat. Cependant, il existe également des corrélations substantielles entre les prédicteurs eux-mêmes. C'est-à-dire qu'ils se chevauchent. Une certaine variation de la satisfaction au travail expliquée par un prédicteur peut également être expliquée par un autre prédicteur. Si c'est le cas, cet autre prédicteur peut ne pas contribuer uniquement à notre prédiction.
Il existe différentes approches pour trouver la bonne sélection de prédicteurs. L'une d'entre elles consiste à ajouter tous les prédicteurs un par un à l'équation de régression. Puisque nous avons 5 prédicteurs, cela donnera 5 modèles. Voyons donc ce qui se passe. Nous allons naviguer vers UNEanalyser />Révacuation />Linear et remplissez la boîte de dialogue comme indiqué ci-dessous.

Le FLa méthode directe que nous avons choisie signifie que SPSS utilisera tous les prédicteurs (un à la fois) dont les valeurs p Précisément, il s'agit de la valeur p pour l'hypothèse nulle selon laquelle le coefficient b de la population est nul pour ce prédicteur. sont inférieurs à une constante choisie, généralement 0,05.
Choisir 0,98 - ou même plus - entraîne généralement l'ajout de tous les prédicteurs à l'équation de régression.
Par défaut, SPSS utilise uniquement des cas sans valeurs manquantes sur les prédicteurs et la variable de résultat ("par liste effacement"). Si les valeurs manquantes sont dispersées sur les variables, cela peut entraîner une utilisation réelle de peu de données pour l'analyse. Pour les cas avec des valeurs manquantes, par paire la suppression essaie d'utiliser toutes les valeurs non manquantes pour l'analyse. La suppression par paire n'est pas sans controverse et peut parfois entraîner des problèmes de calcul.


5. Réduire les données

Il est tentant d'inclure autant de données que possible, à cause de… eh bien, du big data ! C'est mal avisé. Oui, vous voulez absolument collecter toutes les données possibles. Mais si vous préparez un ensemble de données avec des tâches particulières à l'esprit, il est préférable de réduire les données.

Puisque vous savez quel est l'attribut cible (quelle valeur vous voulez prédire), le bon sens vous guidera plus loin. Vous pouvez supposer quelles valeurs sont critiques et lesquelles vont ajouter plus de dimensions et de complexité à votre ensemble de données sans aucune contribution aux prévisions.

Cette approche est appelée échantillonnage d'attributs.

Par exemple, vous voulez prédire quels clients sont enclins à faire des achats importants dans votre boutique en ligne. L'âge de vos clients, leur emplacement et leur sexe peuvent être de meilleurs prédicteurs que leurs numéros de carte de crédit. Mais cela fonctionne aussi d'une autre manière. Considérez quelles autres valeurs vous devrez peut-être collecter pour découvrir plus de dépendances. Par exemple, l'ajout de taux de rebond peut augmenter la précision de la prédiction de la conversion.

C'est à ce moment-là que l'expertise du domaine joue un grand rôle. Pour en revenir à notre histoire de départ, tous les scientifiques des données ne savent pas que l'asthme peut entraîner des complications de pneumonie. La même chose fonctionne avec la réduction de grands ensembles de données. Si vous n'avez pas employé une licorne qui a un pied dans les bases de la santé et l'autre dans la science des données, il est probable qu'un scientifique des données ait du mal à comprendre quelles valeurs sont vraiment importantes pour un ensemble de données.

Une autre approche s'appelle enregistrement de l'échantillonnage. Cela implique que vous supprimiez simplement les enregistrements (objets) avec des valeurs manquantes, erronées ou moins représentatives pour rendre la prédiction plus précise. La technique peut également être utilisée dans les étapes ultérieures lorsque vous avez besoin d'un prototype de modèle pour comprendre si une méthode d'apprentissage automatique choisie donne les résultats attendus et estimer le retour sur investissement de votre initiative de ML.

Vous pouvez également réduire les données en agréger en enregistrements plus larges en divisant l'ensemble des données d'attributs en plusieurs groupes et en dessinant le nombre pour chaque groupe. Au lieu d'explorer les produits les plus achetés d'un jour donné sur cinq ans d'existence de la boutique en ligne, agrégez-les en scores hebdomadaires ou mensuels. Cela aidera à réduire la taille des données et le temps de calcul sans pertes de prédiction tangibles.


Introduction

L'utilisation de modèles statistiques pour améliorer l'efficacité des entreprises est de plus en plus répandue (Proost et Fawcett 2013). Par conséquent, les organisations enregistrent de plus en plus de données pour une analyse ultérieure (voir Katal et al. (2013) ou Jordan et Mitchel (2015) pour un examen des défis actuels de modélisation dans ce domaine). En conséquence, traditionnel (Manuel) les approches pour la construction de modèles statistiques sont souvent irréalisables pour les volumes de données toujours croissants. L'automatisation de ces approches est donc nécessaire et permettra aux méthodes statistiques fondées sur des principes de continuer à être à la pointe des pratiques commerciales.

Notre travail est motivé par les défis rencontrés par un collaborateur industriel. Dans diverses parties de l'entreprise, les applications de diagnostic reposent sur l'interprétabilité des modèles pour guider les programmes d'investissement ou d'amélioration qui corrigent l'impact des prédicteurs importants. Dans ces applications, par ex. modélisant la consommation d'énergie au niveau du bâtiment, des prévisions précises de la demande permettent une planification efficace de la capacité et une programmation efficace de la maintenance.

Dans cet article, nous nous concentrons sur une telle application représentative d'un défi de modélisation industrielle typique. Les données que nous considérons consistent en des événements quotidiens provenant de plusieurs emplacements au sein d'un réseau de télécommunications. Les événements de télécommunications sont souvent influencés par des prédicteurs externes, par exemple, les variables météorologiques. La relation entre les prédicteurs et les variables de réponse observées est souvent complexe et non linéaire, et le nombre de ces prédicteurs d'événements pris en compte pour un modèle dans ce contexte peut se chiffrer en dizaines ou en centaines. Souvent, il est nécessaire de choisir des candidats au sein de groupes de prédicteurs similaires, par exemple, cela entrave l'interprétabilité d'avoir plusieurs prédicteurs appartenant à une variable météo particulière incluse dans un modèle. Pour renforcer la confiance dans les modèles avec les parties prenantes extérieures à l'équipe de modélisation, il est également important de produire des modèles qui ne contredisent pas les connaissances des experts. En raison des changements technologiques et organisationnels, les modèles doivent souvent être réaménagés, ce qui rend la tâche laborieuse d'ajustement manuel des modèles de plus en plus ingérable.

Le défi statistique dans ce contexte est donc d'adapter des modèles clairsemés et interprétables pour les réponses, tout en tenant compte de la corrélation en série dans les données et en veillant à emprunter des informations sur les variables de réponse pour produire un ensemble unique de prédicteurs pour toutes les réponses. Cette tâche de modélisation doit être accomplie avec un minimum d'intervention humaine.

Le regroupement d'informations entre les variables de réponse n'est en aucun cas nouveau. Il existe de nombreuses méthodes qui peuvent être utilisées pour modéliser des données avec des réponses multiples telles que décrites ci-dessus. Par exemple, les modèles de régression spatio-temporelle (voir, par exemple, Stroud et al. 2001) peuvent expliquer la corrélation dans le temps et l'espace, mais sont trop spécifiques dans la spécification de la structure de corrélation pour l'étendue des applications dans notre environnement industriel. L'apprentissage multitâche peut être appliqué aux réseaux de neurones pour tirer parti des connaissances pour de multiples tâches connexes (Caruana 1997 Duong et al. 2015). Cependant, cette technique est plus appropriée dans les contextes où différents ensembles d'apprentissage et prédicteurs sont disponibles pour chaque réponse en plus, tandis que les réseaux de neurones peuvent être efficaces pour capturer les effets non linéaires, les modèles résultants sont souvent difficiles à interpréter. De même, la régression à rang réduit (Izenman 1975 Reinsel et Velu 2013) exploite la corrélation entre les variables à réponses multiples dans la régression à réponses multiples pour déterminer de bonnes combinaisons linéaires des prédicteurs. Cependant, ce n'est pas idéal car cela perd l'interprétabilité des effets prédicteurs et s'adapte aux modèles à réponses multiples où nous souhaitons ajuster plusieurs modèles simultanément. En revanche, les modèles de régression à moyenne mobile intégrée autorégressive saisonnière (Reg-SARIMA) sont capables d'expliquer les effets des prédicteurs sur une variable de réponse, de capturer la corrélation temporelle et sont facilement expliqués en raison de leur nature linéaire. Les effets non linéaires des prédicteurs peuvent être inclus en transformant les prédicteurs observés. Pourvu que les modèles soient clairsemés, ils sont souvent interprétables. Par conséquent, nous limitons notre attention à la sélection simultanée de prédicteurs dans de tels modèles.

Un corpus de travaux dans la littérature statistique est consacré à la sélection des prédicteurs dans les modèles de régression univariés, voir, par exemple, Hocking (1976), Tibshirani (1996), Zou et Hastie (2005), Bertsimas et al. (2016) et Hastie et Tibshirani (2017) et leurs références. Hastie et al. (2008) fournissent un examen accessible de bon nombre de ces méthodes. Dans le cadre de la réponse multivariée, il a été démontré que l'estimation de modèle simultanée présente des avantages par rapport aux procédures de modélisation individuelles (voir, par exemple, Breiman et Friedman 1997 Srivastava et Solanky 2003). La sélection de prédicteurs pour les modèles de réponse multivariée a été envisagée par Turlach et al. (2005), Similia et Tikka (2007) et Simon et al. (2013).

Rappelons que dans notre environnement industriel, nous souhaitons choisir des candidats parmi des groupes de prédicteurs, et que le nombre de prédicteurs potentiels est important, il est donc naturel d'envisager des approches combinatoires de sélection de prédicteurs. Nous proposons une implémentation de réponse multivariée de ce que l'on appelle problème du meilleur sous-ensemble (Miller 2002) et effectuer une sélection de prédicteurs via une généralisation de l'approche Mixed Integer Quadratic Optimization (MIQO) de Bertsimas et al. (2016) pour ajuster simultanément des modèles de régression clairsemés à toutes les réponses. Bertsimas et King (2016) ont montré qu'en utilisant des variables d'optimisation binaires, il peut être facile d'imposer des contraintes sur les prédicteurs sélectionnés avec une certaine garantie sur la désirabilité des modèles obtenus.

Nous élargissons la portée de la formulation originale de MIQO pour ajuster automatiquement un tel modèle en présence d'une structure de corrélation en série connue pour la série chronologique de réponses en considérant des modèles de moyenne mobile intégrée autorégressive saisonnière de régression plus générale (Reg-SARIMA) et proposons une méthode itérative. procédure qui alterne entre l'apprentissage de la structure de corrélation en série et l'ajustement du modèle. Nous constatons qu'une spécification plus précise du modèle pour les résidus de régression peut conduire à une réduction significative de la variance de la routine de sélection des prédicteurs. En utilisant l'objectif des moindres carrés généralisés (Rao et Toutenburg 1999), nous pouvons améliorer l'ajustement du modèle et la précision de la sélection des prédicteurs.

Pour améliorer la parcimonie du modèle, notre approche peut également réduire les coefficients associés à un prédicteur particulier à une valeur commune si vous le souhaitez. L'ajustement du modèle peut être effectué sous des contraintes qui évitent d'inclure des prédicteurs fortement corrélés, ce qui augmente l'interprétabilité des modèles finaux. Par conséquent, avec notre procédure semi-automatisée proposée, nous réduisons l'apport humain en modélisant les caractéristiques des variables de réponse, au lieu de déterminer des étapes de prétraitement subjectives pour supprimer cette variation. La seule entrée de l'utilisateur nécessaire consiste à choisir un ensemble approprié de prédicteurs initiaux et de transformations non linéaires potentielles de ces variables. Ici, nous estimons la corrélation en série en préspécifiant une liste appropriée de modèles de séries chronologiques, bien que les approches itératives adoptées par Hyndman et Khandakar (2008) puissent être incorporées très facilement. Notre implémentation est réalisable sur le plan informatique pour des centaines de prédicteurs et de variables de réponse multiples. Les problèmes d'optimisation que nous formulons peuvent être résolus avec un certain nombre de solveurs d'optimisation courants, voir Kronqvist et al. (2019) pour une discussion complète de ces solveurs.

Cet article est structuré comme suit. Dans la Sect. 2, nous passons en revue la littérature pertinente pour la sélection des prédicteurs et proposons comment utiliser les formulations de Bertsimas et King (2016) pour développer une procédure de modélisation automatisée. Dans la Sect. 3, nous présentons notre formulation MIQO multi-réponse et nos extensions qui peuvent améliorer les performances des modèles. En particulier, la Sect. 3.2 décrit notre procédure en deux étapes qui peut effectuer une sélection de prédicteur tout en tenant compte de la corrélation en série dans les données. La section 4 met en évidence les avantages de notre approche par rapport aux méthodes standard dans la littérature à travers une étude de simulation. Nous appliquons notre approche à une application de données motivante dans la Sect. 5 avant de conclure l'article de la Sect. 6.