Suite

Pourquoi un facteur z de 1 est-il transformé en 0,999998 dans ma sortie


Je viens de créer un modèle qui utilise 3D Analyst - Surface Volume. J'essaie d'utiliser un facteur z de 1. Chaque fois que j'exécute le modèle, mon tableau de sortie montre qu'un facteur Z de 0,999998 a été utilisé au lieu de 1. Je sais que c'est une très petite différence, mais même ainsi, cela fausse quelque peu mes résultats. Vraiment ce que j'aimerais savoir, y a-t-il une bonne explication de la raison pour laquelle il est passé à 0.999998 ou y a-t-il un moyen de le faire rester à 1?


Encore merci pour votre contribution. Lorsque j'ai essayé de changer le type de raster, l'outil grise le facteur z et le verrouille à 0,999998. Donc… je suppose qu'il n'y a vraiment aucun moyen de contourner cela en utilisant des données entières ou à virgule flottante. J'ai même essayé de convertir en nombre entier et d'utiliser la calculatrice raster pour multiplier les données par 1000 afin de préserver les décimales sous forme d'entier, mais j'étais toujours bloqué avec le facteur z de 0,999998. Pas de dé.


Je suis d'accord avec les commentaires, c'est sur la façon dont vous voulez représenter ce nombre. Si vous souhaitez stocker le nombre 1 en virgule flottante, ArcGIS a stocké ce nombre sous la forme 0,9999… Il semble que cet argument du facteur Z soit stocké de cette façon. Je pense qu'il n'y a aucun moyen de le stocker sous forme d'entier. En fait, 0,9999 est égal à 1.

Je dois ajouter une photo que j'ai vue il y a quelques jours. Cela correspond à cette question.


Pourquoi s'appelle-t-il vecteur latent ?

Je viens d'apprendre l'existence de GAN et je suis un peu confus au sujet du nom de vecteur latent.

Premièrement, à ma connaissance, une définition d'une variable latente est une variable aléatoire qui ne peut pas être mesurée directement (nous avons besoin d'un calcul à partir d'autres variables pour obtenir sa valeur). Par exemple, la connaissance est une variable latente. Est-ce correct?

Et puis, dans GAN, un vecteur latent $z$ est une variable aléatoire qui est une entrée du réseau générateur. J'ai lu dans certains tutoriels, il est généré en utilisant uniquement une simple fonction aléatoire :

alors comment les deux choses sont-elles liées? pourquoi n'utilisons-nous pas le terme "un vecteur avec des valeurs aléatoires entre -1 et 1" en faisant référence à $z$ (entrée du générateur) dans GAN ?


Je vais aborder cela un peu différemment en partant à peu près du même endroit. Ici, je vais utiliser comme modèle un dipôle résonnant $lambda$/2 de 20 m alimenté par 100 W.

Calculons le actuel au point d'alimentation d'un dipôle à résonance, cela se trouve avec la puissance d'entrée (100 watts) et l'impédance du point d'alimentation qui pour notre dipôle est supposée être la 73 $Omega$ théorique :

Par conséquent, la tension d'entraînement peut être calculée avec la loi d'Ohm :

$ V_ exte = I cdot R = 1.17 mathrm A_ ext cdot 73 Omega = 85.44 :mathrm V_ ext $ (signal non modulé)

La tension à l'extrémité du dipôle nous obligerait à calculer le Q et à résoudre les problèmes suivants :

En essayant de minimiser le mouvement de la main, nous pouvons utiliser quelques approximations de la théorie des lignes de transmission pour nous donner le Q. (Voir l'ingénierie d'antenne radio d'Edmund Laport pour une explication complète (et lourde en mathématiques)) Pour ce faire, nous avons besoin de l'impédance caractéristique du dipôle (considéré comme une ligne de transmission). Cela est donné par :

$ Z_ <0>= 276 cdot log_<10>frac

= 972.31 Oméga $

Où $l$ est la longueur totale du dipôle et $p$ est le rayon du conducteur (tous dans les mêmes unités). Je vais ignorer le calcul de la longueur exacte ici, nous savons qu'elle est environ 5% plus courte que la longueur d'onde réelle pour compenser le facteur de vitesse et les effets finaux. Ce prochain bit s'appuie sur la théorie des lignes de transmission et peut se transformer en un sac de serpents, si vous voulez en savoir plus sur l'origine de ces équations, consultez la référence citée ci-dessus. $Q$ voici le rapport de la tension de l'onde directe et de l'onde réfléchie :

et $m$ est calculé à partir de l'impédance du point d'alimentation $R$ et de l'impédance caractéristique $Z_0$ :

Quand je calcule $ Z_0 $, je vais supposer que notre dipôle est fait avec un fil de 3 mm. Maintenant, pour parcourir les chiffres :

Maintenant, nous pouvons résoudre pour $ V_ ext $:

Encore une fois, c'est la tension RMS que nous devrions convertir en tension de crête :

$ 568 :mathrm V_ exte cdot sqrt <2>= pm 804 :mathrm V_ ext $

C'est tout pour 100W, si nous branchons à la place 1500W dans les calculs ci-dessus, nous arrivons à

$ 4397 :mathrm V_ exte : exte : pm 6200 :mathrm V_ exte $

C'est une secousse assez lourde. Donc, pour en revenir aux autres questions de l'OP, la puissance d'entrée a un effet substantiel sur la tension. Les autres facteurs sont tous les mêmes que pour maximiser l'efficacité de l'antenne (résonance, taille du conducteur, etc.)

ÉDITER: La plupart des équations ci-dessus proviennent de la section sur la conception de circuits dans la référence répertoriée ci-dessus. Le livre est plus lourd en mathématiques que les références de radio amateur typiques, mais pas aussi mauvais que certains des textes d'ingénierie les plus modernes. C'est lent, mais une lecture qui en vaut la peine.


Bonnes fonctions de hachage de mot de passe

PBKDF2 vient de PKCS#5. Il est paramétré avec un nombre d'itérations (un entier, au moins 1, pas de limite supérieure), un salt (une séquence arbitraire d'octets, pas de contrainte sur la longueur), une longueur de sortie requise (PBKDF2 peut générer une sortie de longueur configurable), et un "PRF sous-jacent". En pratique, PBKDF2 est toujours utilisé avec HMAC, qui est lui-même une construction construite sur une fonction de hachage sous-jacente. Ainsi, lorsque nous disons "PBKDF2 avec SHA-1", nous entendons en fait "PBKDF2 avec HMAC avec SHA-1".

  • Précis depuis longtemps, semble indemne pour l'instant.
  • Est déjà implémenté dans divers framework (par exemple, il est fourni avec .NET).
  • Hautement configurable (bien que certaines implémentations ne vous permettent pas de choisir la fonction de hachage, par exemple celle de .NET est pour SHA-1 uniquement).
  • Bénédictions NIST reçues (modulo la différence entre le hachage et la dérivation de clé, voir plus loin).
  • Longueur de sortie configurable (encore une fois, voir plus loin).
  • Intensif en CPU uniquement, donc se prêtant à une optimisation élevée avec GPU (le défenseur est un serveur de base qui fait des choses génériques, c'est-à-dire un PC, mais l'attaquant peut dépenser son budget sur du matériel plus spécialisé, ce qui lui donnera un avantage).
  • Vous devez toujours gérer vous-même les paramètres (génération et stockage du sel, encodage du nombre d'itérations. ). Il existe un codage standard pour les paramètres PBKDF2, mais il utilise l'ASN.1 donc la plupart des gens l'éviteront s'ils le peuvent (ASN.1 peut être difficile à gérer pour le non-expert).

L'unité signifie simplement 1, donc ils ont probablement normalisé leurs valeurs de sorte qu'elles totalisent toutes à 1 au lieu de quel que soit leur total "naturel". Je pourrais imaginer quelques schémas de normalisation spécialisés, mais cela se fait généralement en divisant, et c'est ce que je supposerais en l'absence d'une description plus détaillée. S'ils avaient normalisé de manière à ce que les valeurs totalisent 100 à la place, ils l'auraient exprimé en pourcentage.

Supposons qu'il existe une substance composée de trois produits chimiques : 5 L de Produit chimique A, 2 L de Produit chimique B et 3 L de Produit chimique C. Vous pourriez faire une normalisation similaire et dire que chaque litre de substance contient 0,5 L de A, 0,2 L de B, et 0,3 L de C (chaque valeur a été divisée par 10, le total, donc toutes les valeurs totalisent un). Si vous avez normalisé à 100 au lieu de l'unité, vous pouvez également dire que la substance est à 50 % A, 20 % B et 30 % C.


Ils diffèrent principalement par la fonction de lien.

En Probit : $Pr(Y=1 mid X) = Phi(X'eta)$ (pdf normal cumulé)

D'une autre manière, la logistique a des queues légèrement plus plates. c'est-à-dire que la courbe probit approche les axes plus rapidement que la courbe logit.

Logit a une interprétation plus facile que probit. La régression logistique peut être interprétée comme une modélisation des probabilités logarithmiques (c'est-à-dire que ceux qui fument plus de 25 cigarettes par jour sont 6 fois plus susceptibles de mourir avant 65 ans). Habituellement, les gens commencent la modélisation avec logit. Vous pouvez utiliser la valeur de probabilité de chaque modèle pour décider du logit par rapport au probit.

Un modèle linéaire standard (par exemple, un modèle de régression simple) peut être considéré comme comportant deux « parties ». Ceux-ci sont appelés les composant structurel et le composante aléatoire. Par example:
$ Y=eta_0+eta_1X+varepsilon ext varepsilonsimmathcal(0,sigma^2) $ Les deux premiers termes (c'est-à-dire $eta_0+eta_1X$) constituent le composant structurel, et le $varepsilon$ (qui indique un terme d'erreur normalement distribué) est le composant aléatoire. Lorsque la variable de réponse n'est pas normalement distribuée (par exemple, si votre variable de réponse est binaire), cette approche peut ne plus être valide. Le modèle linéaire généralisé (GLiM) a été développé pour traiter de tels cas, et les modèles logit et probit sont des cas particuliers de GLiM qui conviennent aux variables binaires (ou variables de réponse multicatégorielles avec quelques adaptations au processus). Un GLiM comporte trois parties, un composant structurel, une fonction de lien, et un répartition des réponses. Par example:
$ g(mu)=eta_0+eta_1X $ Ici $eta_0+eta_1X$ est à nouveau le composant structurel, $g()$ est la fonction de lien et $mu$ est une moyenne d'une distribution de réponse conditionnelle à un point donné dans l'espace des covariables. La façon dont nous pensons au composant structurel ici ne diffère pas vraiment de la façon dont nous le pensons avec les modèles linéaires standard en fait, c'est l'un des grands avantages des GLiM. Parce que pour de nombreuses distributions la variance est fonction de la moyenne, ayant ajusté une moyenne conditionnelle (et étant donné que vous avez stipulé une distribution de réponse), vous avez automatiquement pris en compte l'analogue de la composante aléatoire dans un modèle linéaire (NB : cela peut être plus compliqué en pratique).

La fonction de lien est la clé des GLiM : puisque la distribution de la variable de réponse n'est pas normale, c'est ce qui nous permet de connecter le composant structurel à la réponse - elle les « relie » (d'où le nom). C'est aussi la clé de votre question, puisque le logit et le probit sont des liens (comme @vinux l'a expliqué), et comprendre les fonctions de lien nous permettra de choisir intelligemment quand utiliser lequel. Bien qu'il puisse y avoir de nombreuses fonctions de liaison acceptables, il y en a souvent une qui est spéciale. Sans vouloir aller trop loin dans les mauvaises herbes (cela peut devenir très technique), la moyenne prédite, $mu$, ne sera pas nécessairement mathématiquement la même que la distribution de réponse paramètre d'emplacement canonique la fonction de lien qui les assimile est la fonction de lien canonique. L'avantage de ceci "est qu'il existe une statistique minimale suffisante pour $eta$" (German Rodriguez). Le lien canonique pour les données de réponse binaires (plus précisément, la distribution binomiale) est le logit. Cependant, il existe de nombreuses fonctions qui peuvent mapper le composant structurel sur l'intervalle $(0,1)$, et donc être acceptables, le probit est également populaire, mais il existe encore d'autres options qui sont parfois utilisées (comme le journal complémentaire log, $ln(-ln(1-mu))$, souvent appelé 'cloglog'). Ainsi, il existe de nombreuses fonctions de lien possibles et le choix de la fonction de lien peut être très important. Le choix doit être fait sur la base d'une combinaison de :

  1. Connaissance de la distribution des réponses,
  2. Considérations théoriques et
  3. Ajustement empirique aux données.

Ayant couvert un peu de contexte conceptuel nécessaire pour comprendre ces idées plus clairement (pardonnez-moi), je vais vous expliquer comment ces considérations peuvent être utilisées pour guider votre choix de lien. (Permettez-moi de noter que je pense que le commentaire de @David capture avec précision pourquoi différents liens sont choisis en pratique.) Pour commencer, si votre variable de réponse est le résultat d'un essai de Bernoulli (c'est-à-dire $ ou $1$), votre distribution de réponse sera binomiale, et ce que vous modélisez en fait est la probabilité qu'une observation soit un $1$ (c'est-à-dire $pi(Y=1)$). En conséquence, toute fonction qui mappe la droite numérique réelle, $(-infty,+infty)$, à l'intervalle $(0,1)$ fonctionnera.

Du point de vue de votre théorie substantielle, si vous pensez à vos covariables comme directement lié à la probabilité de succès, vous choisiriez généralement la régression logistique car il s'agit du lien canonique. Cependant, considérons l'exemple suivant : Vous êtes invité à modéliser high_Blood_Pressure en fonction de certaines covariables. La pression artérielle elle-même est normalement distribuée dans la population (je ne le sais pas vraiment, mais cela semble raisonnable à première vue), néanmoins, les cliniciens l'ont dichotomisée au cours de l'étude (c'est-à-dire qu'ils n'ont enregistré qu'une pression artérielle « haute » ou « normale » ). Dans ce cas, le probit serait préférable a priori pour des raisons théoriques. C'est ce que @Elvis voulait dire par "votre résultat binaire dépend d'une variable gaussienne cachée". Une autre considération est que logit et probit sont tous deux symétrique, si vous pensez que la probabilité de succès augmente lentement à partir de zéro, mais diminue ensuite plus rapidement à mesure qu'elle se rapproche de un, le sabotage est nécessaire, etc.

Enfin, notez que l'ajustement empirique du modèle aux données est peu susceptible d'aider à sélectionner un lien, à moins que les formes des fonctions de lien en question diffèrent sensiblement (dont le logit et le probit ne le font pas). Par exemple, considérons la simulation suivante :

Même lorsque nous savons que les données ont été générées par un modèle probit et que nous avons 1000 points de données, le modèle probit ne donne un meilleur ajustement que 70 % du temps, et même alors, souvent d'une quantité insignifiante. Considérez la dernière itération :

La raison en est simplement que les fonctions de liaison logit et probit produisent des sorties très similaires lorsqu'on leur donne les mêmes entrées.

Les fonctions logit et probit sont pratiquement identiques, sauf que le logit est légèrement plus éloigné des limites lorsqu'elles "tournent le coin", comme l'a déclaré @vinux. (Notez que pour que le logit et le probit s'alignent de manière optimale, le $eta_1$ du logit doit être $environ 1,7$ fois la valeur de pente correspondante pour le probit. De plus, j'aurais pu déplacer légèrement le sabot pour qu'il se superposeraient davantage, mais je l'ai laissé de côté pour que la figure soit plus lisible.) Notez que le sabot est asymétrique alors que les autres ne le sont pas, il commence à s'éloigner de 0 plus tôt, mais plus lentement, et se rapproche de la fermeture à 1, puis tourne brusquement.

Quelques autres choses peuvent être dites sur les fonctions de liaison. Tout d'abord, compte tenu de la fonction d'identité ($g(eta)=eta$) en tant que fonction de lien nous permet de comprendre le modèle linéaire standard comme un cas particulier du modèle linéaire généralisé (c'est-à-dire que la distribution de réponse est normale et que le lien est la fonction identité ). Il est également important de reconnaître que quelle que soit la transformation instanciée par le lien, elle est correctement appliquée au paramètre régissant la distribution de la réponse (c'est-à-dire $mu$), pas la réponse réelle Les données. Enfin, parce qu'en pratique nous n'avons jamais le paramètre sous-jacent à transformer, dans les discussions sur ces modèles, souvent ce qui est considéré comme le lien réel est laissé implicite et le modèle est représenté par le inverse de la fonction de liaison appliquée au composant structurel à la place. C'est-à-dire:
$ mu=g^<-1>(eta_0+eta_1X) $ Par exemple, la régression logistique est généralement représentée : $ pi(Y)=frac <1+exp (eta_0+eta_1X)>$ au lieu de : $ lnleft(frac<1-pi(Y)> ight)=eta_0+eta_1X $

Pour un aperçu rapide et clair, mais solide, du modèle linéaire généralisé, voir le chapitre 10 de Fitzmaurice, Laird, & Ware (2004), (sur lequel je me suis appuyé pour certaines parties de cette réponse, bien qu'étant donné qu'il s'agit de ma propre adaptation de cette --et autre--matériel, toute erreur serait la mienne). Pour savoir comment intégrer ces modèles dans R, consultez la documentation de la fonction ?glm dans le package de base.

(Une dernière note ajoutée plus tard :) J'entends parfois des gens dire qu'il ne faut pas utiliser le probit, car il ne peut pas être interprété. Ce n'est pas vrai, bien que l'interprétation des bêtas soit moins intuitive. Avec la régression logistique, un changement d'une unité de $X_1$ est associé à un changement de $eta_1$ dans le log des chances de « succès » (ou un changement de $exp(eta_1)$ dans les chances), tous autrement étant égal. Avec un probit, ce serait un changement de $eta_1 ext< >z

VConclusion

…une ville n'est pas optimisable à son niveau fondamental. Le dynamisme d'une ville découle de ses inefficacités, de la collision imprévisible des gens et des idées. (Blaireau, 2018)

L'extrait ci-dessus est tiré d'un New York Times article décrivant la tentative du monde de la technologie d'améliorer les villes en optimisant leurs fonctions, il paraphrase une citation du professeur de l'UC-Berkeley Nicholas de Monchaux qui nous rappelle que l'efficacité est surfaite. La poursuite de l'efficacité en temps réel signifie que nous essayons d'optimiser les composants de systèmes complexes que nous ne comprenons pas entièrement - et peut-être encore moins en raison de nos tentatives. Une ville n'est pas une machine à construire pour le haut débit : une ville est un écosystème complexe de réseaux et de flux (Batty, 2012, 2013b). Les données géographiques rapides sont un puissant accélérateur qui ne devrait être appliqué à cet écosystème que de manière judicieuse et discriminante.

Le véritable défi auquel l'humanité est confrontée n'est pas d'accélérer mais plutôt de ralentir le flux de personnes, de matériaux et d'énergie à travers les villes (Townsend, 2013). Une première étape consiste à cesser de considérer la friction comme un ennemi à vaincre : la friction peut être une amie (Miller, 2017b). Dans Terra Nova : le nouveau monde après le pétrole, les voitures et les banlieues, Eric Sanderson (2013) décrit une vision de l'organisation de la ville basée sur des principes écologiques qui embrassent les bonnes frictions et réduisent les mauvaises frictions. Les bonnes frictions sont celles aux interfaces entre les systèmes naturels et les systèmes humains où les ressources (y compris la terre) quittent le monde naturel et les déchets y réintègrent. Les mauvaises frictions sont celles qui ralentissent les échanges et l'innovation au sein des systèmes humains. Les frictions physiques sont également mauvaises, à éviter en remplaçant les routes par des voies ferrées. Que vous acceptiez ou non les détails de sa vision, Sanderson montre qu'il existe des moyens d'organiser les systèmes humains autres que la poursuite incontestée d'un monde rapide et sans friction.


Quelle est la précision du GPS pour la mesure de la vitesse ?

Comme pour le positionnement, la précision de la vitesse du GPS dépend de nombreux facteurs.

Le gouvernement fournit le signal GPS dans l'espace avec une erreur de taux d'utilisation moyenne globale (URRE) de &le0,006 m/sec sur n'importe quel intervalle de 3 secondes, avec une probabilité de 95%.

Cette mesure doit être combinée à d'autres facteurs indépendants de la volonté du gouvernement, notamment la géométrie des satellites, le blocage du signal, les conditions atmosphériques et les caractéristiques/qualités de conception du récepteur, pour calculer la précision de vitesse d'un récepteur particulier.


3 réponses 3

Un facteur important est la fertilité du sol :

Les sols de Java sont très fertiles en raison de l'enrichissement périodique par les cendres volcaniques.

En revanche, avec les deux grandes îles indonésiennes voisines de Bornéo (partagées avec Brunei et la Malaisie) et Sumatra :

Bornéo, la troisième plus grande île du monde, possède des sols de forêt tropicale exemplaires : peu profonds et pauvres en nutriments. L'abondance des pluies dans ces anciens écosystèmes a lessivé le sol pendant des millions d'années.

Contrairement à Java surpeuplée, l'île voisine de Sumatra offre encore d'énormes réserves de terres inutilisées. Cependant, de loin, toutes ces réserves ne peuvent être considérées comme de réels potentiels agricoles, par ex. pour les projets de réinstallation. Surtout les sols pauvres s'avèrent souvent un handicap agricole. Outre la fertilité du sol, la végétation existante doit être prise en compte. Ainsi, par exemple, les "savanes d'herbes dites "quotalang alang" présentent en général de meilleures potentialités que les zones forestières, tandis que la plupart des marécages s'avèrent plutôt impropres au développement agricole.

(Je ne pense pas qu'il soit logique de comparer Java avec des îles comme Honshu ou Madagascar qui se trouvent dans d'autres pays avec des histoires totalement différentes.)

La raison la plus fondamentale en ce qui concerne les autres parties de l'Asie tropicale est la adoption plus précoce de la riziculture humide à Java. Grigg souligne que les seuls endroits en Asie qui avaient une plus grande densité de population à la fin du XIXe siècle étaient la Chine et le Japon. Le riz humide n'est qu'une forme d'agriculture incroyablement productive, en particulier selon les normes traditionnelles, avant l'ère des engrais synthétiques.

Le Japon est un cas différent. Ce n'est que récemment que la population de Java a dépassé celle du Japon, et cela est dû au fait que le Japon compte parmi les plus bas taux de fécondité dans le monde. Java est encore à un stade précoce de sa transition démographique, mais au fil du temps, sa croissance démographique ralentit progressivement.

Dans le volume classique de Clifford Geertz Involution agricole : les processus de changement écologique en Indonésie (1963), l'auteur soutient que la forme javanaise de la culture du riz humide a un potentiel très élevé pour "absorber la main-d'œuvre". Bien que le point de vue de Geertz ait été critiqué – pour une discussion éclairante, voir Wood (2020), chapitre 6 (aperçu disponible sur Google Books) – c'est un bon point de départ pour répondre à votre question. Bois écrit :

Il est fondamental pour Geertz que les différents systèmes agricoles ont des capacités différentes d'absorption et d'involution de la main-d'œuvre. Selon Geertz, la riziculture humide telle qu'elle est pratiquée en Asie de l'Est et du Sud-Est a probablement la plus grande capacité d'absorption de main-d'œuvre de toute forme d'agriculture traditionnelle.

Ainsi, les attributs particuliers des systèmes de riziculture humide dans les régions tropicales et subtropicales permettent à ces systèmes de soutenir, et en effet, de l'avis de certains auteurs demande, fortes densités de population. On trouve des systèmes rizicoles humides à haute densité et haute intensité dans toute l'Asie du Sud et du Sud-Est.

Cependant, comme l'ont fait remarquer d'autres répondants à cette question, les propriétés de l'environnement physique sont également des facteurs critiques dans le potentiel d'un système de riziculture humide à haute densité. La température et les précipitations de la saison de croissance influenceront la productivité potentielle, mais en Asie tropicale et tempérée de mousson, la fertilité du sol est probablement plus importante. Ainsi, les meilleurs exemples de systèmes rizicoles à haute densité se trouvent non seulement dans les sols volcaniques jeunes et fertiles de Java, mais aussi le long des principales vallées fluviales et deltas de la région, par exemple, Mékong, Rouge, Chao Phraya, Irrawaddy, Pearl, Yangtze , Ganges, et dans les vallées volcaniques fertiles mais étroites du Japon. Comme indiqué ci-dessus, les autres îles que vous mentionnez :

Madagascar, Bornéo, Sulawesi, Honshu (Japon) et Sri Lanka

sont caractérisés par une géologie plus ancienne et plus complexe avec des sols nettement moins fertiles, et dans le cas du Japon, des zones importantes avec un climat tempéré frais à froid où la riziculture aurait été limitée à une seule culture par an, voire pas du tout.


Notes de bas de page

Les fichiers texte peuvent évidemment être traduits en nombres, c'est ainsi qu'ils sont stockés et transmis. Les fichiers texte ne peuvent-ils pas être traités électroniquement ? Encore une fois, la réponse doit être oui, conditionnellement à ce que l'on entend par traité. La capacité des algorithmes informatiques à traiter et à générer de la parole (texte) s'est considérablement améliorée depuis que nous avons discuté pour la première fois des informations matérielles et matérielles. Que cela puisse être interprété et codé dans un score numérique (ou des scores) est une question plus difficile. Un score numérique peut toujours être créé. La question est de savoir combien d'informations précieuses sont perdues au cours du processus. Nous appelons ce processus le durcissement de l'information, et nous en discuterons ci-dessous.

Le chiffre d'affaires d'une entreprise ou son retour sur stock est un exemple d'information concrète. Il existe un large accord sur ce que cela signifie pour une entreprise d'avoir réalisé un chiffre d'affaires de 10 millions de dollars l'année dernière ou le cours de l'action de l'entreprise d'avoir augmenté de 10 %. Cependant, si nous disons que le propriétaire de l'entreprise est digne de confiance, il y a moins d'accord sur ce que cela signifie et pourquoi c'est important. Les définitions de la fiabilité peuvent différer d'un agent à l'autre et le contexte dans lequel on évalue la fiabilité peut être pertinent.

Cette distinction rappelle la différence entre l'approche que nous adoptons lorsque nous enseignons l'économétrie de première année aux cycles supérieurs et la façon dont la recherche empirique est menée dans la pratique. Dans Econometrics 101, nous supposons que nous connaissons la variable dépendante, les variables indépendantes et la forme fonctionnelle. La seule inconnue est la valeur précise des coefficients. Dans un projet de recherche réel, nous avons des a priori sur les relations entre des concepts économiques importants, mais nous ne savons pas comment mesurer précisément les concepts derrière les variables dépendantes et indépendantes ni la forme fonctionnelle. Ce n'est qu'après avoir collecté les données et examiné les résultats préliminaires que nous comprenons comment les variables sont liées. Cela nous amène à modifier notre hypothèse et nécessite souvent la collecte de données supplémentaires ou un changement dans notre interprétation des données. Le processus de recherche nous aide à voir et à comprendre le contexte manquant.

Un exemple typique est l'agent de crédit basé sur les relations. L'agent de crédit a des antécédents avec l'emprunteur et, sur la base d'une multitude de contacts personnels, s'est forgé une impression de l'honnêteté, de la solvabilité et de la probabilité de défaillance de l'emprunteur. Sur la base de cette vision de l'emprunteur et de l'expérience de l'agent de crédit, le prêt est approuvé ou refusé. Uzzi et Lancaster (2003) fournissent des descriptions détaillées des interactions entre les emprunteurs et les agents de crédit.

Dans l'étude de Bikhchandani, Hirshleifer et Welch (1992) sur les cascades informationnelles, ils modélisent des décisions séquentielles dans lesquelles les agents voient les décisions (binaires) des agents antérieurs, mais pas les informations sur lesquelles la décision est prise. Cette réduction (durcissement) des informations conduit les agents à ignorer leurs propres informations (douces) et à suivre la foule.

La description par les auteurs des marchés du crédit commercial au cours de cette période est étonnamment similaire à la description de Nocera (2013) du marché américain des prêts à la consommation des années 1950.

Le précurseur de Dun and Bradstreet, la Mercantile Agency, a été fondée en 1841 ( Carruthers et Cohen 2010b). Le précurseur de Standard and Poor's, l'histoire des chemins de fer et des canaux aux États-Unis par Henry Poor, a été fondé en 1860.

Carruthers et Cohen (2010b, pp. 5-6) paraphrasent Cohen (1998) en disant : « … ce qui est entré dans les évaluations de crédit était une collection variable et non systématique de faits, de jugements et de rumeurs sur une entreprise, la personnalité de son propriétaire, les relations d'affaires, la famille et l'histoire… . il en est ressorti une notation formalisée, systématique et comparable de la solvabilité… ».

Le CRSP a commencé par une question de Louis Engel, vice-président de Merrill Lynch, Pierce, Fenner et Smith. Il voulait connaître le rendement à long terme des actions. Il s'est tourné vers le professeur James Lorie de l'Université de Chicago, qui ne le savait pas non plus mais était prêt à le découvrir pour eux (pour une bourse de 50 000 $). Le processus de recherche a conduit à la création de la base de données des retours d'actions CRSP. Le fait que ni les professionnels de l'investissement ni la finance universitaire ne connaissaient la réponse à cette question illustre à quel point nous avons progressé en fonction d'informations fiables, telles que les rendements boursiers. Le professeur Lorie a décrit l'état de la recherche avant le CRSP dans son discours de 1965 à Philadelphie : « Jusqu'à récemment, presque tout ce travail était réalisé par des personnes qui en savaient beaucoup sur le marché boursier et très peu sur les statistiques. Bien que cette combinaison de connaissances et d'ignorance ne soit pas aussi stérile que l'inverse, c'est-à-dire la sophistication statistique associée à l'ignorance du domaine d'application, elle n'a néanmoins pas produit beaucoup de valeur. En plus du CRSP, il parle d'un autre nouvel ensemble de données : Compustat (vendu par la Standard Statistics Corporation), qui comportait 60 variables du compte de résultat et du bilan de l'entreprise.

Pour les prêts aux petites entreprises, le montant des frais est indépendant du montant du prêt. Ainsi, le pourcentage des frais diminue avec la taille du prêt ( Petersen et Rajan 1994). La réduction des coûts de transaction, en particulier grâce à la livraison numérique et à l'automatisation, peut être particulièrement importante dans les prêts de microfinance, où les montants des prêts sont très faibles ( Karlan et al. 2016).

La causalité peut aussi aller dans la direction opposée. Une concurrence accrue, qui peut résulter de la déréglementation, par exemple, accroît la pression pour réduire les coûts et ainsi transformer le processus de production pour qu'il dépende davantage d'informations concrètes.

Les prêts hypothécaires à risque sont moins standardisés et plus sensibles aux informations que les prêts hypothécaires normaux, car, parfois, les emprunteurs ne sont pas en mesure de fournir une divulgation complète de leurs revenus ( Mayer, Pence et Sherlund 2009).

Karolyi (2017) constate que la relation réside avec les individus, pas les entreprises. Après des changements exogènes de leadership (décès ou départ à la retraite d'un PDG), les entreprises sont nettement plus susceptibles de se tourner vers des prêteurs avec lesquels le nouveau PDG a une relation (voir aussi Degryse et al. 2013). C'est l'une des raisons pour lesquelles les entreprises qui s'appuient sur des informations indirectes pour sécuriser leur capital d'emprunt se soucient de la fragilité des banques auprès desquelles elles empruntent (Schwert 2017).

À l'aide d'un essai contrôlé randomisé, Paravisini et Schoar (2015) évaluent l'adoption de cotes de crédit dans le cadre de prêts aux petites entreprises. Ils constatent que l'utilisation des cotes de crédit améliore la productivité des comités de crédit (par exemple, moins de temps est consacré à chaque dossier).

Friedman (1990) soutient qu'il s'agit d'un avantage d'un marché par rapport à une économie planifiée. Il soutient que toutes les informations pertinentes pour un consommateur ou un producteur concernant l'offre relative d'un bien sont contenues dans le prix. Ainsi, il n'est pas nécessaire pour un fournisseur de savoir si le prix a augmenté parce que la demande a augmenté ou que l'offre a diminué. Le fournisseur a seulement besoin de savoir que le prix a augmenté, et cela dictera sa décision de combien augmenter la production. La description de Friedman d'une économie de marché dépeint un environnement d'information dur classique.

Lors de la crise financière de 2008, un grand nombre de titres de première qualité ont fait défaut. L'ampleur des défauts suggérait un problème avec le processus de notation (voir Benmelech et Dlugosz 2009a, 2009b). Des observateurs de l'industrie, des universitaires et du gouvernement ont suggéré des sources possibles du problème et des solutions potentielles. Curieusement, l'expérience des défauts était très différente sur le marché des obligations d'entreprise (dette des sociétés opérationnelles) par rapport au marché des financements structurés (par exemple, les RMBS). Les défauts sur le marché des obligations d'entreprise ont atteint un pic en 2009, mais le pic n'est pas radicalement différent du pic des récessions précédentes (voir Vazza et Kraemer 2016, graphique 1). Le pic des défauts sur le marché des financements structurés en 2009 a été considérablement plus important (voir South et Gurwitz 2015, graphique 1). Le fait que l'effondrement du marché du logement ait frappé les titres de financement structuré de manière plus agressive suggère qu'une partie du problème avec le processus de notation réside uniquement dans le segment de financement structuré du marché. Pour une entreprise en exploitation, un faible coût du capital est un avantage, mais pas sa seule ou principale source d'avantage concurrentiel. Pour une structure de titrisation, la baisse du coût du capital est l'une des rares sources d'un « avantage concurrentiel ». Ainsi, une banque pourrait changer les hypothèques placées dans une titrisation si ce changement augmentait la fraction de la titrisation notée AAA et réduisait ainsi le coût du capital. Il est peu probable qu'une entreprise de fabrication d'automobiles ferme des usines ou une division dans le seul but d'obtenir une cote de crédit plus élevée. Les coûts de modification de l'entreprise pour améliorer un pointage de crédit sont plus élevés et les avantages sont (relativement) inférieurs pour une entreprise en exploitation. C'est peut-être la raison pour laquelle nous avons constaté relativement moins de défauts dans le secteur des obligations d'entreprises par rapport au secteur titrisé. Ce problème a incité les agences de notation à envisager différentes échelles de notation pour les financements structurés par rapport à la dette des entreprises ( Kimball et Cantor 2008).

Hu, Huang et Simonov (2017) observent le même comportement sur le marché des prêts individuels. The theoretical importance of nonlinearities in the mapping of inputs (hard information) to outputs (decisions) is discussed in Jensen (2003). In his examples, incentives to misstate one’s information are smaller if the payoff function is linear. Small changes in the reported information have only small changes in the manager’s payoff.

There may also be strategic reasons to avoid a transparent mapping between the numbers and the credit rating. The business model of credit rating agencies relies on market participants being unable to replicate the ratings at a lower cost than the agency. If the mapping were a direct function of easily accessible inputs (e.g., the income statement and balance sheet) and nothing else, some clever assistant finance or accounting professor would figure out the function. This is one reason that the early credit reporting agencies publicly released only a fraction of their information in the form of a credit score. For additional fees, users could review a more complete report ( Carruthers and Cohen 2010a, 2014).

Guiso, Sapienza, and Zingales (2013) find that borrowers feel less obligated to repay an underwater mortgage if the mortgage has been sold in the marketplace.

Brown et al. (2012) find that loan officers use discretion to smooth credit, but there is limited information in discretionary changes. Degryse et al. (2013) provide evidence that soft information helps predict defaults over public information (e.g., financial statements), but discretionary actions do not predict default. Gropp, Gruendl, and Guettler (2012) show that the use of discretion by loan officers does not affect the performance of the bank portfolio. Puri, Rocholl, and Steffen (2011) document the widespread use of discretion inside a German savings bank but find no evidence that loans approved based on discretion perform differently than those approved not based on discretion. Cerqueiro, Degryse, and Ongena (2011) find that discretion seems to be important in the pricing of loans but that it only plays a minor role in the decision to lend.

This is an imperfect solution when the loan officer has an incentive and the ability to manipulate the inputs, just as the borrower might. The loan officers in Berg, Puri, and Rocholl (2016) work for a bank that uses an internal credit score to evaluate loans. They show that loan officers repeatedly enter new values of the variables into the system until a loan is approved. Not only are they able to get loans approved that were originally rejected, but they also learn the model’s cutoffs and thus what is required for loan approval. These results suggest that even hard information decision-making algorithms, which are transparent and depend on data subject to the control of either participant (local decision maker or the target of the decision), are subject to the Lucas critique (see Section 2.4).

A variety of possible costs are embedded in the transmission of information in an organization. Theories of costly communication, where soft information may be more costly to communicate across hierarchies ( Becker and Murphy 1992 Radner 1993 Bolton and Dewatripont 1994) theories of loss of incentives to collect, process, and use soft information like in Aghion and Tirole (1997), because of the anticipation of being overruled by one’s superior and strategic manipulation of information like in Crawford and Sobel (1982) and Dessein (2002), offer three different, but related, explanations. In all these theories, those who send the information make it noisier and less verifiable if their preferences are not aligned with those who are receiving it and, ultimately, have the final authority to make the decision.

Rajan and Zingales (1998) argue that ownership is not the only way to allocate power in an organization. Another, and, in some cases, a better way, is through access. Access is the ability to work with or use a critical resource, though not necessarily a physical resource that can be owned. In financial institutions (and increasingly in other firms), this resource is often information.

Although these papers all examine geographical distance, they are different in nature. Petersen and Rajan (2002) document that distance between lenders and borrowers increased because of improvements in information technology. Degryse and Ongena (2005) study the relationship between the competitiveness of the lending market and the distance between the borrower, their lender, and other potential competitors (banks). Mian (2006) suggests that greater distance not only decreases the incentives of a loan officer to collect soft information but also makes it more costly to produce and communicate soft information. DeYoung, Glennon, and Nigro (2008) document the relationship between the use of hard information using credit scoring technologies and an increase in borrower-lender distances. Finally, Agarwal and Hauswald (2010) study the effects of distance on the acquisition and use of private information in informationally opaque credit markets. They show that borrower proximity facilitates the collection of soft information, which is reflected in the bank’s internal credit assessment.

Starting in the early eighties, the number of banks in the United States began declining by over 50%, with most of the fall occurring in the first decade ( Petersen and Rajan 2002, figure 4 Berger and Bouwman 2016, figure 8.1). The decline in the total number of banks is completely driven by the decline of small banks defined by those with gross total assets less than $1 billion. The number of large banks has grown. The decline in small banks is driven, in part, by the technology and the shift to hard information and also by deregulation (Strahan and Kroszner 1999). The growing reliance on hard information and automated decision-making and the associated cost savings created pressure to reduce regulations on bank expansion. In turn, diminishing regulatory restrictions raised the value of capturing cost savings by shifting to production processes that rely on hard information and enabled greater economies of scale.

Even in markets that we think are dominated by hard information and thus where we would expect distance not to be relevant, research has sometimes found a preference for local investments. Mutual fund managers tend to hold a higher concentration in shares of local firms, because access to soft information of local firms is cheaper ( Coval and Moskowitz 1999, 2001). The effect is strongest in small and highly levered firms.

If the local underwriters have soft information that nonlocal underwriters do not have, and they can thus sell the bonds at higher prices, they should be able to extract larger fees. Oddly, they do not. Local underwriters charge lower fees relative to nonlocal underwriting, suggesting that local competition limits their pricing power.

They use the measure of distance between banks and borrowers from Petersen and Rajan (2002) to classify whether industries are hard- or soft-information intensive. Industries where the distance between borrowers and lenders is larger are classified as hard information environments.

A plant may be located far away in terms of geographical distance, but monitoring may be easier when direct flights are available between the cities in which headquarters and plants are located.

Analogously, firms attempted to alter the financial information they reported in response to the introduction of credit ratings in an effort to increase their access to credit in the late nineteenth century ( Carruthers and Cohen 2010b, footnote 36).

The literature began by simply counting positive and negative words, which proved to be more complicated than one would have initially guessed. The language of finance is not as simple as we think ( Longhran and McDonald 2011). For example, the sentence “The Dell Company has 100 million shares outstanding” would have been classified as an extremely positive sentence by the early dictionaries, since “company,” “share,” and “outstanding” are coded as positive words (Engelberg 2008). The Hoberg and Phillips (2010) method is similar, but they are interested in a very different question. They use text-based analysis of firms’ 10-Ks to measure the similarities of firms involved in mergers and thus predict the success of the mergers. Mayew and Venkatachalam (2012) took this idea one step further and examined the information embedded in the tone of managers’ voices during earning calls.

Loss of information is not only due to the effect of hardening the information. A change in the compensation structure of agents may also affect the use of information. In a controlled experiment, Agarwal and Ben-David (2018) study the impact that changing the incentive structure of loan officers to prospect new applications has on the volume of approved loans and default rates. They find that after the change, loan officers start relying more on favorable hard information and ignoring unfavorable soft information. The results highlight how incentives dictate not just what information is collected but also what role it plays in the decision. Another form of loss of information is due to the portability of soft information. For example, Drexler and Schoar (2014) show that when loan officers leave, they generate a cost to the bank, because leaving affects the borrower-lender relationship. As the departing loan officers have no incentives to voluntarily transfer the soft information, borrowers are less likely to receive new loans from the bank in their absence.

Appearance also played a role in the early credit reports collected by the Mercantile Agency. The agency’s instructions to their agents stated “… give us your impressions about them, judging from appearances as to their probable success, amount of stock, habits, application to business, whether they are young and energetic or the reverse …” ( Carruthers and Cohen 2010b, p. 12).

Mollick (2014, p. 2) defines crowdfunding as “… the efforts by entrepreneurial individuals and groups … to fund their ventures by drawing on relatively small contributions from a relatively large number of individuals using the internet, without standard financial intermediaries.”

Participants contribute capital in exchange for a product or so they may participate in supporting an event or creative endeavor. The first is a form of trade credit (prepaying for a product) and in most examples is more akin to market research than equity funding, since the existence and the quality of the product are often uncertain.

Newman (2011) has raised the concern that “… crowdfunding could become an efficient, online means for defrauding the investing public … .”

Investors “… rely on highly visible (but imperfect) proxies for quality such as accumulated capital, formal education, affiliation with top accelerator programs, advisors, etc.” ( Catalini and Hui 2018, p. 1).

The Mercantile Agency, the precursor to Dun and Bradstreet’s, also worried about the tendency of some subscribers, who had purchased access to their reports, relying too heavily on the ratings, as opposed to visiting their offices and inspecting the underlying data ( Carruthers and Cohen 2010b).

The evidence that human brokers factor their client’s characteristics into the investment decision is not reassuring. A retail investor’s asset allocation significantly depends more on who their broker is (e.g., broker fixed effects) than the investors own characteristics (e.g., risk tolerance, age, financial knowledge, investment horizon, and wealth see Foerster et al. 2017).

Algorithms are written by humans, so they may embody the same behavioral biases that human advisors have ( O’Neil 2016, D’Acunto, Prabhala, and Rossi 2017) as well as the biases of those who design the algorithms or which may be inherent in the data ( O’Neil 2016).


Voir la vidéo: Trainspotting in Helsinki. Helsingin junat Finland (Octobre 2021).