Suite

Comment charger des données géographiques dans Hadoop (Hive) et ensuite pouvoir appeler des fonctions spatiales dessus ?


J'ai besoin de charger des données géographiques dans Hadoop (Hive), puis de pouvoir appeler des fonctions spatiales dessus à l'aide de Hive.

Mon format de données d'entrée est les fichiers de formes ESRI (mais cela pourrait être un autre format, je pourrais transformer si nécessaire).

Je sais qu'ESRI a publié un cadre très basique pour travailler avec des données spatiales dans Hadoop via Hive, GIS Tools for Hadoop by ESRI, mais il semble que j'ai besoin d'avoir mes données dans ESRI JSON et je n'ai pas d'outils ESRI pour convertir mes données dans ce format.

Existe-t-il un autre moyen de charger des géodonnées dans Hadoop ou existe-t-il un moyen de convertir mes fichiers de formes ESRI en ESRI JSON ?


ST_Geometry for Hive dans les outils SIG pour Hadoop, peut charger des données à partir de plusieurs formats différents : Well-Known Text (WKT), Well-Known Binary (WKB), GeoJSON, Esri JSON et les coordonnées sous forme de liste de nombres. Veuillez consulter la documentation pour les fonctions du constructeur.

Quant au shapefile, la bibliothèque java pour lire les shapefiles de Mansour Raad peut être utile.


Les fonctions GDAL ogr2ogr (http://www.gdal.org/) vous permettront de convertir des fichiers de formes en n'importe quel nombre de formats, y compris JSON et WKT. Je ne l'ai utilisé que pour accéder directement à SQL Server Spatial, donc je ne connais pas les commandes exactes. Vous pouvez aller directement à GDAL : ou vous pouvez essayer QGIS (http://www.qgis.org/en/site/) pour obtenir une interface utilisateur semblable à ArcMap à partir de laquelle vous pourrez peut-être travailler directement, mais j'ai trouvé que j'obtiens les meilleurs résultats de conversion en utilisant le shell d'OSGeo4W (https://trac.osgeo.org/osgeo4w/) pour écrire des commandes.

Le type de formes que vous utilisez peut avoir une importance. J'ai importé avec succès des polygones directement dans SQL avec ogr2ogr, mais l'utilisation de QGIS pour convertir en WKT ou JSON peut souvent tronquer des polygones complexes.


HDFS est le principal stockage distribué utilisé par les applications Hadoop. Un cluster HDFS se compose principalement d'un NameNode qui gère les métadonnées du système de fichiers et de DataNodes qui stockent les données réelles. Le guide d'architecture HDFS décrit HDFS en détail. Ce guide de l'utilisateur traite principalement de l'interaction des utilisateurs et des administrateurs avec les clusters HDFS. Le diagramme d'architecture HDFS décrit les interactions de base entre NameNode, les DataNodes et les clients. Les clients contactent NameNode pour les métadonnées de fichier ou les modifications de fichier et effectuent des E/S de fichier réelles directement avec les DataNodes.

Voici quelques-unes des principales caractéristiques qui pourraient intéresser de nombreux utilisateurs.

Hadoop, y compris HDFS, est bien adapté au stockage distribué et au traitement distribué utilisant du matériel de base. Il est tolérant aux pannes, évolutif et extrêmement simple à développer. MapReduce, bien connu pour sa simplicité et son applicabilité à un grand nombre d'applications distribuées, fait partie intégrante d'Hadoop.

HDFS est hautement configurable avec une configuration par défaut bien adaptée à de nombreuses installations. La plupart du temps, la configuration doit être ajustée uniquement pour les très gros clusters.

Hadoop est écrit en Java et est pris en charge sur toutes les principales plates-formes.

Hadoop prend en charge les commandes de type shell pour interagir directement avec HDFS.

Le NameNode et les Datanodes ont des serveurs Web intégrés qui facilitent la vérification de l'état actuel du cluster.

De nouvelles fonctionnalités et améliorations sont régulièrement implémentées dans HDFS. Voici un sous-ensemble de fonctionnalités utiles dans HDFS :

Autorisations de fichiers et authentification.

Prise en compte du rack : pour prendre en compte l'emplacement physique d'un nœud lors de la planification des tâches et de l'allocation du stockage.

Safemode : un mode administratif pour la maintenance.

fsck: un utilitaire pour diagnostiquer la santé du système de fichiers, pour trouver les fichiers ou blocs manquants.

aller chercher: un utilitaire pour récupérer le jeton de délégation et le stocker dans un fichier sur le système local.

Balancer : outil pour équilibrer le cluster lorsque les données sont inégalement réparties entre les DataNodes.

Mise à niveau et restauration : après une mise à niveau logicielle, il est possible de revenir à l'état HDFS’ avant la mise à niveau en cas de problèmes inattendus.

NameNode secondaire : effectue des points de contrôle périodiques de l'espace de noms et aide à maintenir la taille du fichier contenant le journal des modifications HDFS dans certaines limites au niveau du NameNode.

Nœud de point de contrôle : effectue des points de contrôle périodiques de l'espace de noms et aide à minimiser la taille du journal stocké dans le NameNode contenant les modifications apportées au HDFS. Remplace le rôle précédemment rempli par le NameNode secondaire, bien qu'il ne soit pas encore endurci au combat. Le NameNode permet plusieurs nœuds de point de contrôle simultanément, tant qu'il n'y a pas de nœuds de sauvegarde enregistrés avec le système.

Nœud de sauvegarde : une extension du nœud de point de contrôle. En plus du point de contrôle, il reçoit également un flux de modifications du NameNode et conserve sa propre copie en mémoire de l'espace de noms, qui est toujours synchronisée avec l'état actif de l'espace de noms NameNode. Un seul nœud de sauvegarde peut être enregistré avec le NameNode à la fois.


Méthodes et techniques SIG

1.11.2.2 Étincelle

Apache Spark ( 3 ) est un framework informatique en mémoire pour le traitement de données à grande échelle.

3 . Écosystème Apache Spark.

Spark exploite une grande quantité de mémoire en créant une structure appelée Resilient Distributed Dataset (RDD). RDD permet un stockage transparent des données en mémoire et peut conserver les données stockées sur le disque si nécessaire. Par rapport à Hadoop, Spark a permis d'améliorer considérablement les performances de calcul en éliminant les lectures et écritures fréquentes sur le disque. Un autre avantage de Spark est que le statut des ressources informatiques affectées à une tâche informatique est conservé jusqu'à l'achèvement de la tâche, ce qui est différent de Hadoop où les ressources sont fréquemment provisionnées et libérées même pour la même tâche. Dans l'analyse de données spatiales où une chaîne d'analyses multiples est requise, Spark a un avantage évident sur Hadoop en raison des différentes ressources informatiques et mécanismes de processus. Également pour les analyses spatiales qui ont des itérations, Spark peut clairement surpasser Hadoop. Une autre force de Spark est qu'il a inclus dans le cadre des supports pour le processus de streaming, l'apprentissage automatique et le traitement graphique. Par conséquent, pour l'analyse spatiale en temps réel, Spark est une plate-forme idéale. De plus, le framework dispose d'interfaces pour plusieurs langages de programmation tels que Python et R.


2.3 Cadre de traitement d'images Oracle Big Data Spatial Hadoop pour le traitement de données raster

Oracle Spatial Hadoop Image Processing Framework permet la création de nouvelles images combinées résultant d'une série de phases de traitement en parallèle avec les fonctionnalités suivantes :

Stockage d'images HDFS, où chaque division de taille de bloc est stockée en tant qu'image distincte

Opérations de sous-ensemble et définies par l'utilisateur traitées en parallèle à l'aide du framework MapReduce

Possibilité d'ajouter des classes de traitement personnalisées à exécuter en parallèle de manière transparente

Traitement rapide des images géoréférencées

Prise en charge des formats GDAL, des images à plusieurs bandes, des DEM (modèles d'élévation numériques), des profondeurs de pixels multiples et des SRID

Oracle Spatial Hadoop Image Processing Framework se compose de deux modules, un chargeur et un processeur, chacun représenté par une tâche Hadoop s'exécutant sur différentes étapes d'un cluster, comme représenté dans le diagramme suivant. Vous pouvez également charger et traiter les images à l'aide de l'application Web Image Server.

Pour plus d'informations sur l'installation et la configuration, consultez :

2.3.1 Chargeur d'images

Le chargeur d'images est un travail Hadoop qui charge une image spécifique ou un groupe d'images dans HDFS.

Lors de l'importation, l'image est mise en mosaïque et stockée sous forme de bloc HDFS.

GDAL est utilisé pour mosaïquer l'image.

Chaque tuile est chargée par un mappeur différent, la lecture est donc parallèle et plus rapide.

Chaque tuile comprend un certain nombre d'octets qui se chevauchent (saisie utilisateur), de sorte que la zone de couverture de la tuile forme les tuiles adjacentes.

Un travail MapReduce utilise un mappeur pour charger les informations pour chaque tuile. Il y a 'n' nombre de mappeurs, en fonction du nombre de tuiles, de la résolution de l'image et de la taille du bloc.

Une seule phase de réduction par image rassemble toutes les informations chargées par les mappeurs et stocke les images dans un format spécial .ohif, qui contient la résolution, les bandes, les décalages et les données d'image. De cette façon, le décalage du fichier contenant chaque tuile et l'emplacement du nœud sont connus.

Chaque tuile contient des informations pour chaque bande. Ceci est utile lorsqu'il est nécessaire de ne traiter que quelques tuiles, puis seuls les blocs correspondants sont chargés.

Le schéma suivant représente un processus Image Loader :


Description de l'illustration image_loader_job.png

2.3.2 Processeur d'images

Le processeur d'images est une tâche Hadoop qui filtre les tuiles à traiter en fonction de l'entrée de l'utilisateur et effectue le traitement en parallèle pour créer une nouvelle image.

Traite des tuiles spécifiques de l'image identifiée par l'utilisateur. Vous pouvez identifier une, zéro ou plusieurs classes de traitement. Après l'exécution des classes de traitement, une opération de mosaïque est effectuée pour adapter les pixels au format de sortie final demandé par l'utilisateur.

Un mappeur charge les données correspondant à une tuile, en conservant la localité des données.

Une fois les données chargées, le mappeur filtre les bandes demandées par l'utilisateur.

Les informations filtrées sont traitées et envoyées à chaque mappeur dans la phase de réduction, où les octets sont rassemblés et une image finale traitée est stockée dans HDFS ou dans un système de fichiers standard en fonction de la demande de l'utilisateur.

Le schéma suivant représente une tâche de traitement d'images :


Description de l'illustration image_processor_job.png

2.3.3 Serveur d'images

Le serveur d'images est une application Web qui vous permet de charger et de traiter des images à partir de sources différentes et variées, en particulier à partir du système de fichiers Hadoop (HDFS). Ce serveur d'images Oracle a deux applications principales :

Traitement des images raster pour créer des catalogues à partir des images sources et les traiter en une seule unité. Vous pouvez également afficher les vignettes des images.

Configuration de la console Hadoop, à la fois serveur et console. Il se connecte au cluster Hadoop pour charger des images sur HDFS pour un traitement ultérieur.


Chargement des données Avro dans une nouvelle table

Vous pouvez charger des données Avro dans une nouvelle table des manières suivantes :

  • Utilisation de Cloud Console.
  • Utilisation de la commande bq load dans l'outil de ligne de commande bq.
  • Appel de la méthode API jobs.insert et configuration d'une tâche de chargement.
  • Utilisation des bibliothèques clientes.

Pour charger des données Avro depuis Cloud Storage dans une nouvelle table BigQuery :

Console

Dans Cloud Console, ouvrez la page BigQuery.

Dans le Explorateur panneau, développez votre projet et sélectionnez un jeu de données.

Développez le more_vert Actions option et cliquez sur Ouvert.

Dans le panneau des détails, cliquez sur Créer un tableau add_box .

Sur le Créer un tableau page, dans le La source section:

Pour Créer un tableau à partir de, sélectionnez Stockage Google Cloud.

Dans le champ source, recherchez ou saisissez l'URI Cloud Storage. Notez que vous ne pouvez pas inclure plusieurs URI dans Cloud Console, mais les caractères génériques sont acceptés. Le bucket Cloud Storage doit se trouver au même emplacement que l'ensemble de données contenant la table que vous êtes en train de créer.

Pour Format de fichier, sélectionnez Avro.

Sur le Créer un tableau page, dans le Destination section:

Pour Nom de l'ensemble de données, choisissez l'ensemble de données approprié.

Vérifier que Type de tableau est réglé sur Table native.

Dans le Nom de la table , saisissez le nom de la table que vous créez dans BigQuery.

Dans le Schéma section, aucune action n'est nécessaire. Le schéma est auto-décrit dans les fichiers Avro.

(Facultatif) Pour partitionner la table, choisissez vos options dans le Paramètres de partition et de cluster. Pour plus d'informations, consultez Création de tables partitionnées.

(Facultatif) Pour Filtre de partitionnement, clique le Exiger un filtre de partition case pour obliger les utilisateurs à inclure une clause WHERE qui spécifie les partitions à interroger. Exiger un filtre de partition peut réduire les coûts et améliorer les performances. Pour plus d'informations, consultez Interrogation des tables partitionnées. Cette option n'est pas disponible si Pas de partitionnement est sélectionné.

(Facultatif) Pour regrouper la table, dans le Ordre de regroupement , entrez entre un et quatre noms de champ.

(Facultatif) Cliquez sur Options avancées.

  • Pour Préférence d'écriture, laisser Ecrire si vide choisi. Cette option crée une nouvelle table et y charge vos données.
  • Pour Valeurs inconnues, laisser Ignorer les valeurs inconnues effacé. Cette option s'applique uniquement aux fichiers CSV et JSON.
  • Pour Chiffrement, Cliquez sur Clé gérée par le client pour utiliser une clé Cloud Key Management Service. Si vous quittez le Clé gérée par Google paramètre, BigQuery chiffre les données au repos.

Cliquez sur Créer un tableau.

Une fois la table créée, vous pouvez mettre à jour l'expiration, la description et les libellés de la table, mais vous ne pouvez pas ajouter d'expiration de partition après la création d'une table à l'aide de Cloud Console. Pour plus d'informations, voir Gestion des tables.

Utilisez la commande bq load, spécifiez AVRO à l'aide de l'indicateur --source_format et incluez un URI Cloud Storage. Vous pouvez inclure un seul URI, une liste d'URI séparés par des virgules ou un URI contenant un caractère générique.

(Facultatif) Fournissez l'indicateur --location et définissez la valeur sur votre emplacement.

Les autres drapeaux facultatifs incluent :

  • --time_partitioning_type : Active le partitionnement temporel sur une table et définit le type de partition. Les valeurs possibles sont HEURE , JOUR , MOIS et ANNÉE . Cet indicateur est facultatif lorsque vous créez une table partitionnée sur une colonne DATE , DATETIME ou TIMESTAMP . Le type de partition par défaut pour le partitionnement temporel est DAY .
  • --time_partitioning_expiration : un entier qui spécifie (en secondes) quand une partition basée sur le temps doit être supprimée. Le délai d'expiration correspond à la date UTC de la partition plus la valeur entière.
  • --time_partitioning_field : La colonne DATE ou TIMESTAMP utilisée pour créer une table partitionnée. Si le partitionnement basé sur le temps est activé sans cette valeur, une table partitionnée par temps d'ingestion est créée.
  • --require_partition_filter : lorsqu'elle est activée, cette option nécessite que les utilisateurs incluent une clause WHERE qui spécifie les partitions à interroger. Exiger un filtre de partition peut réduire les coûts et améliorer les performances. Pour plus d'informations, consultez Interrogation des tables partitionnées.
  • --clustering_fields : une liste séparée par des virgules de jusqu'à quatre noms de colonnes utilisée pour créer une table en cluster.

--destination_kms_key : clé Cloud KMS pour le chiffrement des données de la table.

Pour plus d'informations sur les tables partitionnées, consultez :

Pour plus d'informations sur les tables en cluster, consultez :

Pour plus d'informations sur le chiffrement des tables, consultez :

Pour charger des données Avro dans BigQuery, saisissez la commande suivante :

  • l'emplacement est votre emplacement. L'indicateur --location est facultatif. Par exemple, si vous utilisez BigQuery dans la région de Tokyo, vous pouvez définir la valeur de flag's sur asia-northeast1 . Vous pouvez définir une valeur par défaut pour l'emplacement à l'aide du fichier .bigqueryrc.
  • le format est AVRO.
  • jeu de données est un jeu de données existant.
  • table est le nom de la table dans laquelle vous chargez des données.
  • path_to_source est un URI Cloud Storage complet ou une liste d'URI séparés par des virgules. Les caractères génériques sont également pris en charge.

La commande suivante charge les données de gs://mybucket/mydata.avro dans une table nommée mytable dans mydataset .

La commande suivante charge les données de gs://mybucket/mydata.avro dans une table partitionnée par date d'ingestion nommée mytable in mydataset .

La commande suivante charge les données de gs://mybucket/mydata.avro dans une table partitionnée nommée mytable dans mydataset . La table est partitionnée sur la colonne mytimestamp.

La commande suivante charge les données de plusieurs fichiers dans gs://mybucket/ dans une table nommée mytable dans mydataset . L'URI Cloud Storage utilise un caractère générique.

La commande suivante charge les données de plusieurs fichiers dans gs://mybucket/ dans une table nommée mytable dans mydataset . La commande inclut une liste séparée par des virgules d'URI Cloud Storage avec des caractères génériques.

Créez une tâche de chargement qui pointe vers les données sources dans Cloud Storage.

(Facultatif) Spécifiez votre emplacement dans la propriété location de la section jobReference de la ressource de travail.

La propriété URI source doit être entièrement qualifiée, au format gs:// bucket / object . Chaque URI peut contenir un caractère générique '*'.

Spécifiez le format de données Avro en définissant la propriété sourceFormat sur AVRO .

Pour vérifier l'état du travail, appelez jobs.get( job_id *) , où job_id est l'ID du travail renvoyé par la requête initiale.

  • Si status.state = DONE , le travail s'est terminé avec succès.
  • Si la propriété status.errorResult est présente, la demande a échoué et cet objet inclura des informations décrivant ce qui s'est mal passé. Lorsqu'une requête échoue, aucune table n'est créée et aucune donnée n'est chargée.
  • Si status.errorResult est absent, le travail s'est terminé avec succès, bien qu'il puisse y avoir eu des erreurs non fatales, telles que des problèmes d'importation de quelques lignes. Les erreurs non fatales sont répertoriées dans la propriété status.errors de l'objet de travail renvoyé.

Les tâches de chargement sont atomiques et cohérentes si une tâche de chargement échoue, aucune donnée n'est disponible et si une tâche de chargement réussit, toutes les données sont disponibles.

En tant que meilleure pratique, générez un ID unique et transmettez-le en tant que jobReference.jobId lors de l'appel de jobs.insert pour créer une tâche de chargement. Cette approche est plus robuste en cas de défaillance du réseau car le client peut interroger ou réessayer sur l'ID de travail connu.

L'appel de jobs.insert sur un ID de tâche donné est idempotent. Vous pouvez réessayer autant de fois que vous le souhaitez sur le même ID de tâche, et au plus une de ces opérations réussira.

Node.js

Avant d'essayer cet exemple, suivez les instructions de configuration de Node.js dans le guide de démarrage rapide de BigQuery à l'aide des bibliothèques clientes. Pour plus d'informations, consultez la documentation de référence de l'API BigQuery Node.js.

Python

Avant d'essayer cet exemple, suivez les instructions de configuration Python dans le guide de démarrage rapide BigQuery à l'aide des bibliothèques clientes. Pour plus d'informations, consultez la documentation de référence de l'API BigQuery Python.


Chargement de données JSON imbriquées et répétées

BigQuery prend en charge le chargement de données imbriquées et répétées à partir de formats source compatibles avec les schémas basés sur des objets, tels que JSON, Avro, ORC, Parquet, Firestore et Datastore.

Un objet JSON, y compris les champs imbriqués/répétés, doit apparaître sur chaque ligne.

L'exemple suivant montre des exemples de données imbriquées/répétées. Ce tableau contient des informations sur les personnes. Il se compose des champs suivants :

  • identifiant
  • prénom
  • nom de famille
  • dd (date de naissance)
  • adresses (un champ imbriqué et répété)
    • adresses.état (actuel ou précédent)
    • adresses.adresse
    • adresses.ville
    • adresses.état
    • adresses.zip
    • address.numberOfYears (années à l'adresse)

    Le fichier de données JSON ressemblerait à ce qui suit. Notez que le champ d'adresse contient un tableau de valeurs (indiqué par [ ] ).

    Le schéma de cette table ressemblerait à ce qui suit :

    Pour plus d'informations sur la spécification d'un schéma imbriqué et répété, voir Spécification de champs imbriqués et répétés.


    2.4 Charger une image dans Hadoop à l'aide du chargeur d'images

    La première étape pour traiter les images à l'aide d'Oracle Spatial et de Graph Hadoop Image Processing Framework consiste à avoir les images dans HDFS, puis à séparer les images en tuiles intelligentes. Cela permet au travail de traitement de travailler séparément sur chaque tuile indépendamment. Le chargeur d'images vous permet d'importer une seule image ou une collection d'images dans HDFS en parallèle, ce qui réduit le temps de chargement.

    Le chargeur d'images importe des images d'un système de fichiers dans HDFS, où chaque bloc contient des données pour toutes les bandes de l'image, de sorte que si un traitement supplémentaire est requis sur des positions spécifiques, les informations peuvent être traitées sur un seul nœud.

    2.4.1 Tâche de chargement d'image

    Le travail de chargement d'image a son format d'entrée personnalisé qui divise l'image en divisions d'images associées. Les divisions sont calculées sur la base d'un algorithme qui lit des blocs carrés de l'image couvrant une zone définie, qui est déterminée par

    area = ((blockSize - octets de métadonnées) / nombre de bandes) / octets par pixel.

    Pour les morceaux qui n'utilisent pas la taille de bloc complète, les octets restants sont remplis de zéros.

    Les divisions sont attribuées à différents mappeurs où chaque tuile attribuée est lue à l'aide de GDAL en fonction des informations ImageSplit. En conséquence, une instance ImageDataWritable est créée et enregistrée dans le contexte.

    Les métadonnées définies dans l'instance ImageDataWritable sont utilisées par les classes de traitement pour configurer l'image en mosaïque afin de la manipuler et de la traiter. Étant donné que les images source sont lues à partir de plusieurs mappeurs, le chargement est effectué en parallèle et plus rapidement.

    Une fois que les mappeurs ont fini de lire, le réducteur récupère les tuiles du contexte et les assemble pour enregistrer le fichier dans HDFS. Un processus de lecture spécial est nécessaire pour relire l'image.

    2.4.2 Paramètres d'entrée

    Les paramètres d'entrée suivants sont fournis à la commande Hadoop :

    • SOURCE_IMGS_PATH est un chemin d'accès à l'(les) image(s) ou dossier(s) source(s). Pour plusieurs entrées, utilisez un séparateur de virgule. Ce chemin doit être accessible via NFS à tous les nœuds du cluster.
    • HDFS_OUTPUT_FOLDER est le dossier de sortie HDFS où sont stockées les images chargées.
    • OVERLAPPING_PIXELS est un nombre facultatif de pixels superposés sur les bords de chaque tuile, si ce paramètre n'est pas spécifié, une valeur par défaut de deux pixels superposés est prise en compte.
    • GDAL_LIB_PATH est le chemin où se trouvent les bibliothèques GDAL.
    • GDAL_DATA_PATH est le chemin où se trouve le dossier de données GDAL. Ce chemin doit être accessible via NFS à tous les nœuds du cluster.
    • THUMBNAIL_PATH est un chemin facultatif pour stocker une vignette des images chargées. Ce chemin doit être accessible via NFS à tous les nœuds du cluster et doit disposer d'une autorisation d'accès en écriture pour les utilisateurs de fil.
    • -expand contrôle si le chemin HDFS du raster chargé étend le chemin source, y compris tous les répertoires. Si vous définissez cette valeur sur false , le fichier .ohif est stocké directement dans le répertoire de sortie (spécifié à l'aide de l'option -o ) sans inclure ce chemin de répertoire dans le raster.
    • -extractLogs contrôle si les journaux de l'application exécutée doivent être extraits dans le répertoire temporaire du système. Par défaut, il n'est pas activé. L'extraction n'inclut pas les journaux qui ne font pas partie des classes Oracle Framework.
    • -logFilter <LINES_TO_INCLUDE_IN_LOG> est une chaîne séparée par des virgules qui répertorie tous les modèles à inclure dans les journaux extraits, par exemple, pour inclure des packages de classes de traitement personnalisées.

    Par exemple, la commande suivante charge toutes les images géoréférencées sous le dossier images et ajoute un chevauchement de 10 pixels sur chaque bordure possible. Le dossier de sortie HDFS est ohiftest et les vignettes de l'image chargée sont stockées dans le dossier processtest.

    Par défaut, les mappeurs et les réducteurs sont configurés pour obtenir 2 Go de JVM, mais les utilisateurs peuvent remplacer ces paramètres ou toute autre propriété de configuration de tâche en ajoutant un fichier de propriétés imagejob.prop dans le même emplacement de dossier à partir duquel la commande est exécutée. Ce fichier de propriétés peut répertorier toutes les propriétés de configuration que vous souhaitez remplacer. Par exemple,

    La mémoire de tas Java (propriétés java.opts) doit être égale ou inférieure à la mémoire totale affectée aux mappeurs et aux réducteurs ( mapreduce.map.memory et mapreduce.reduce.memory ). Ainsi, si vous augmentez la mémoire de tas Java, vous devrez peut-être également augmenter la mémoire pour les mappeurs et les réducteurs.

    2.4.3 Paramètres de sortie

    Le réducteur génère deux fichiers de sortie par image d'entrée. Le premier est le fichier .ohif qui concentre toutes les tuiles de l'image source, chaque tuile peut être traitée comme une instance séparée par un mappeur de traitement. En interne, chaque tuile est stockée sous forme de bloc HDFS, les blocs sont situés dans plusieurs nœuds, un nœud peut contenir un ou plusieurs blocs d'un fichier .ohif spécifique. Le fichier .ohif est stocké dans le dossier spécifié par l'utilisateur avec l'indicateur -out, sous /user/<USER_EXECUTING_JOB>/OUT_FOLDER/<PARENT_DIRECTORIES_OF_SOURCE_RASTER> si l'indicateur &ndashexpand n'a pas été utilisé. Sinon, le fichier .ohif sera situé dans /user/<USER_EXECUTING_JOB>/OUT_FOLDER/ , et le fichier peut être identifié comme original_filename.ohif .

    La deuxième sortie est un fichier de métadonnées associé qui répertorie tous les éléments de l'image et les coordonnées que chacun couvre. Le fichier est situé dans HDFS sous l'emplacement des métadonnées et son nom est un hachage généré à l'aide du nom du fichier ohif. Ce fichier est destiné à un usage interne Oracle uniquement et répertorie les métadonnées importantes du raster source. Quelques exemples de lignes d'un fichier de métadonnées :

    Si l'indicateur -thumbnail a été spécifié, une miniature de l'image source est stockée dans le dossier associé. C'est un moyen de visualiser une traduction du fichier .ohif. Les journaux d'exécution des travaux sont accessibles à l'aide de la commande wire logs -applicationId <applicationId> .


    101 termes du Big Data : le glossaire du Big Data

    Chaque domaine a sa propre terminologie et, par conséquent, il existe un certain nombre de termes Big Data à connaître pour débuter une carrière dans le Big Data. Une fois que vous vous serez familiarisé avec ces termes et définitions du Big Data, vous serez prêt à les apprendre en détail. Dans cet article, nous allons définir 101 termes Big Data que vous devez connaître pour débuter une carrière dans le Big Data.

    UNE

    1. Algorithme

    En informatique et en mathématiques, un algorithme est une spécification catégorique efficace de la façon de résoudre un problème complexe et d'effectuer une analyse de données. Il se compose de plusieurs étapes pour appliquer des opérations sur les données afin de résoudre un problème particulier.

    2. Intelligence artificielle (IA)

    Le terme populaire du Big Data, l'intelligence artificielle est l'intelligence démontrée par les machines. L'IA est le développement de systèmes informatiques pour effectuer des tâches ayant normalement une intelligence humaine telles que la reconnaissance vocale, la perception visuelle, la prise de décision et les traducteurs de langue, etc.

    3. Identification automatique et capture de données (AIDC)

    L'identification automatique et la capture de données (AIDC) est le terme big data qui fait référence à une méthode d'identification et de collecte automatique d'objets de données via un algorithme informatique, puis de leur stockage dans l'ordinateur. Par exemple, l'identification par radiofréquence, les codes à barres, la biométrie, la reconnaissance optique de caractères, les bandes magnétiques incluent tous des algorithmes d'identification des objets de données capturés.

    4. Avro

    Avro est un framework de sérialisation de données et un appel de procédure à distance développé pour le projet Hadoop. Il utilise JSON pour définir les protocoles et les types de données, puis sérialise les données sous forme binaire. Avro fournit à la fois

    • Format de sérialisation pour les données persistantes
    • Format filaire pour la communication entre les nœuds Hadoop et entre les programmes clients et les services Hadoop.

    B

    5. Analyse comportementale

    L'analyse comportementale est une avancée récente dans l'analyse commerciale qui présente de nouvelles informations sur le comportement des clients sur les plateformes de commerce électronique, les applications Web/mobiles, les jeux en ligne, etc. Elle permet aux spécialistes du marketing de faire les bonnes offres aux bons clients au bon moment.

    6. Intelligence d'affaires

    La Business Intelligence est un ensemble d'outils et de méthodologies qui peuvent analyser, gérer et fournir des informations pertinentes pour l'entreprise. Il comprend des outils de rapport/requête et un tableau de bord identiques à ceux trouvés dans les analyses. Les technologies de BI fournissent des vues précédentes, actuelles et futures des opérations commerciales.

    7. Scientifique Big Data

    Big Data Scientist est une personne qui peut prendre des points de données structurés et non structurés et utiliser ses formidables compétences en statistiques, mathématiques et programmation pour les organiser. Il applique toute sa puissance analytique (compréhension contextuelle, connaissance de l'industrie et compréhension des hypothèses existantes) pour découvrir les solutions cachées pour le développement de l'entreprise.

    8. Biométrie

    La biométrie est la technologie de James Bondish liée à l'analyse pour identifier les personnes par un ou plusieurs traits physiques. Par exemple, la technologie biométrique est utilisée dans la reconnaissance faciale, la reconnaissance d'empreintes digitales, la reconnaissance d'iris, etc.

    C

    9. En cascade

    La cascade est la couche d'abstraction du logiciel qui fournit le niveau d'abstraction le plus élevé pour Apache Hadoop et Apache Flink. Il s'agit d'un framework open source disponible sous licence Apache. Il est utilisé pour permettre aux développeurs d'effectuer facilement et rapidement le traitement de données complexes dans des langages basés sur JVM tels que Java, Clojure, Scala, Rubi, etc.

    10. Analyse des enregistrements détaillés des appels (CDR)

    Le CDR contient des métadonnées, c'est-à-dire des données sur les données qu'une entreprise de télécommunications collecte sur les appels téléphoniques, telles que la durée et l'heure de l'appel. L'analyse CDR fournit aux entreprises les détails exacts sur quand, où et comment les appels sont passés à des fins de facturation et de reporting. Les métadonnées du CDR donnent des informations sur

    • Quand les appels sont passés (date et heure)
    • Combien de temps a duré l'appel (en minutes)
    • Qui a appelé qui (Numéro de contact de la source et de la destination)
    • Type d'appel (entrant, sortant ou sans frais)
    • Combien coûte l'appel (sur la base du tarif à la minute)

    11. Cassandre

    Cassandra est un système de gestion de base de données NoSQL distribué et open source. Il est conçu pour gérer une grande quantité de données distribuées sur des serveurs de produits car il offre une haute disponibilité des services sans point de défaillance. Il a été initialement développé par Facebook, puis structuré sous forme de clé-valeur sous la fondation Apache.

    12. Données de téléphone portable

    Les données des téléphones portables sont devenues l'une des sources de données volumineuses, car elles génèrent une énorme quantité de données et une grande partie est disponible pour une utilisation avec des applications analytiques.

    13. Informatique en nuage

    Le cloud computing est l'un des termes incontournables du big data. Il s'agit d'un nouveau système informatique paradigme qui offre une visualisation des ressources informatiques à exécuter sur le serveur distant standard pour le stockage des données et fournit IaaS, PaaS et SaaS. Le cloud computing fournit des ressources informatiques telles que l'infrastructure, les logiciels, la plate-forme, la base de données, le stockage, etc. en tant que services. Une mise à l'échelle flexible, une élasticité rapide, une mise en commun des ressources, un libre-service à la demande sont quelques-uns de ses services.

    14. Analyse de cluster

    L'analyse de cluster est le terme big data lié au processus de regroupement d'objets similaires les uns aux autres dans le groupe commun (cluster). Il est fait pour comprendre les similitudes et les différences entre eux. C'est la tâche importante de l'exploration de données exploratoire et des stratégies communes pour analyser les données statistiques dans divers domaines tels que l'analyse d'images, la reconnaissance de formes, l'apprentissage automatique, l'infographie, la compression de données, etc.

    15. Chukwa

    Apache Chukwa est un système de collecte de journaux à grande échelle open source pour la surveillance de grands systèmes distribués. C'est l'un des termes courants de Big Data liés à Hadoop. Il repose sur le système de fichiers distribué Hadoop (HDFS) et le framework Map/Reduce. Il hérite de la robustesse et de l'évolutivité d'Hadoop. Chukwa contient une base de données de boîte à outils puissante et flexible pour surveiller, afficher et analyser les résultats afin que les données collectées puissent être utilisées de la meilleure manière possible.

    16. Base de données en colonnes / Base de données en colonnes

    Une base de données qui stocke les données colonne par colonne au lieu de la ligne est connue sous le nom de base de données orientée colonne.

    17. Base de données analytique comparative

    L'analyse comparative est un type spécial de technologie d'exploration de données qui compare de grands ensembles de données, plusieurs processus ou d'autres objets à l'aide de stratégies statistiques telles que le filtrage, l'analyse d'arbre de décision, l'analyse de modèles, etc.

    18. Traitement des événements complexes (CEP)

    Le traitement des événements complexes (CEP) est le processus d'analyse et d'identification des données, puis de leur combinaison pour déduire des événements capables de suggérer des solutions aux circonstances complexes. La tâche principale du CEP est d'identifier/suivre les événements significatifs et d'y réagir dès que possible.

    19. Analyste de données

    L'analyste de données est responsable de la collecte, du traitement et de l'exécution de l'analyse statistique des données. Un analyste de données découvre comment ces données peuvent être utilisées pour aider l'organisation à prendre de meilleures décisions commerciales. C'est l'un des termes Big Data qui définissent une carrière Big Data. Data analyst works with end business users to define the types of the analytical report required in business.

    20. Data Aggregation

    Data aggregation refers to the collection of data from multiple sources to bring all the data together into a common athenaeum for the purpose of reporting and/or analysis.

    The knowledge of one of the high-level programming languages is required to build a career in Big Data. Let’s check out which are the Top 3 Big Data Programming Languages for You!

    21. Dashboard

    It is a graphical representation of analysis performed by the algorithms. This graphical report shows different color alerts to show the activity status. A green light is for the normal operations, a yellow light shows that there is some impact due to operation and a red light signifies that the operation has been stopped. This alertness with different lights helps to track the status of operations and find out the details whenever required.

    22. Data Scientist

    Data Scientist is also a big data term that defines a big data career. A data scientist is a practitioner of data science. He is proficient in mathematics, statistics, computer science, and/or data visualization who establish data models and algorithms for complex problems to solve them.

    23. Data Architecture and Design

    In IT industry, Data architecture consists of models, policies standards or rules that control which data is aggregated, and how it is arranged, stored, integrated and brought to use in data systems. It has three phases

    • Conceptual representation of business entities
    • The logical representation of the relationships between business entities
    • The physical construction of the system for functional support

    24. Database administrator (DBA)

    DBA is the big data term related to a role which includes capacity planning, configuration, database design, performance monitoring, migration, troubleshooting, security, backups and data recovery. DBA is responsible for maintaining and supporting the rectitude of content and structure of a database.

    25. Database Management System (DBMS)

    Database Management System is software that collects data and provides access to it in an organized layout. It creates and manages the database. DBMS provides programmers and users a well-organized process to create, update, retrieve, and manage data.

    26. Data Model and Data Modelling

    Data Model is a starting phase of a database designing and usually consists of attributes, entity types, integrity rules, relationships and definitions of objects.

    Data modeling is the process of creating a data model for an information system by using certain formal techniques. Data modeling is used to define and analyze the requirement of data for supporting business processes.

    Looking for big data tools to start a big data career? Here are the Top 10 Open Source Big Data Tools in 2018.

    27. Data Cleansing

    Data Cleansing/Scrubbing/Cleaning is a process of revising data to remove incorrect spellings, duplicate entries, adding missing data, and providing consistency. It is required as incorrect data can lead to bad analysis and wrong conclusions.

    28. Document Management

    Document management, often, referred to as Document management system is a software which is used to track, store, and manage electronic documents and an electronic image of paper through a scanner. It is one of the basic big data terms you should know to start a big data career.

    29. Data Visualization

    Data visualization is the presentation of data in a graphical or pictorial format designed for the purpose of communicating information or deriving meaning. It validates the users/decision makers to see analytics visually so that they would be able to understand the new concepts. This data helps –

    • to derive insight and meaning from the data
    • in the communication of data and information in a more effective manner

    30. Data Warehouse

    The data warehouse is a system of storing data for the purpose of analysis and reporting. It is believed to be the main component of business intelligence. Data stored in the warehouse is uploaded from the operational system like sales or marketing.

    31. Drill

    The drill is an open source, distributed, low latency SQL query engine for Hadoop. It is built for semi-structured or nested data and can handle fixed schemas. The drill is similar in some aspects to Google’s Dremel and is handled by Apache.

    E

    32. Extract, Transform, and Load (ETL)

    ETL is the short form of three database functions extract, transform and load. These three functions are combined together into one tool to place them from one to another database.

    It is the process of reading data from a database.

    It is the process of conversion of extracted data in the desired form so that it can be put into another database.

    It is the process of writing data into the target database

    F

    33. Fuzzy Logic

    Fuzzy logic is an approach to computing based on degrees of truth instead of usual true/false (1 or 0) Boolean algebra.

    34. Flume

    Flume is defined as a reliable, distributed, and available service for aggregating, collecting, and transferring huge amount of data in HDFS. It is robust in nature. Flume architecture is flexible in nature, based on data streaming.

    G

    35. Graph Database

    A graph database is a group/collection of edges and nodes. A node typifies an entity i.e. business or individual whereas an edge typifies a relation or connection between nodes.

    You must remember the statement given by graph database experts –

    “If you can whiteboard it, you can graph it.”

    36. Grid Computing

    Grid computing is a collection of computer resources for performing computing functions using resources from various domains or multiple distributed systems to reach a specific goal. A grid is designed to solve big problems to maintain the process flexibility. Grid computing is often used in scientific/marketing research, structural analysis, web services such as back-office infrastructures or ATM banking etc.

    37. Gamification

    Gamification refers to the principles used in designing the game to improve customer engagement in non-game businesses. Different companies use different gaming principles to enhance interest in a service or product or simply we can say gamification is used to deepen their client’s relationship with the brand.

    H

    38. Hadoop User Experience (HUE)

    Hadoop User Experience (HUE) is an open source interface which makes Apache Hadoop’s use easier. It is a web-based application. It has a job designer for MapReduce, a file browser for HDFS, an Oozie application for making workflows and coordinators, an Impala, a shell, a Hive UI, and a group of Hadoop APIs.

    39. High-Performance Analytical Application (HANA)

    High-performance Analytical Application is a software/hardware scheme for large volume transactions and real-time data analytics in-memory computing platform from the SAP.

    40. HAMA

    Hama is basically a distributed computing framework for big data analytics based on Bulk Synchronous Parallel strategies for advanced and complex computations like graphs, network algorithms, and matrices. It is a Top-level Project of The Apache Software Foundation.

    Big Data Analytics is the field with a number of career opportunities. Let’s check out why is Big Data Analytics so important!

    41. Hadoop Distributed File System (HDFS)

    Hadoop Distributed File System (HDFS) is primary data storage layer used by Hadoop applications. It employs DataNode and NameNode architecture to implement distributed and Java-based file system which supplies high-performance access to data with high scalable Hadoop Clusters. It is designed to be highly fault-tolerant.

    42. HBase

    Apache HBase is the Hadoop database which is an open source, scalable, versioned, distributed and big data store. Some features of HBase are

    • Modular and linear scalability
    • Easy to use Java APIs
    • Configurable and automatic sharing of tables
    • Extensible JIRB shell

    43. Hive

    Hive is an open source Hadoop-based data warehouse software project for providing data summarization, analysis, and query. Users can write queries in the SQL-like language known as HiveQL. Hadoop is a framework which handles large datasets in the distributed computing environment.

    Je

    44. Impala

    Impala is an open source MPP (massively parallel processing) SQL query engine which is used in computer cluster for running Apache Hadoop. Impala provides parallel database strategy to Hadoop so that user will be able to apply low-latency SQL queries on the data that is stored in Apache HBase and HDFS without any data transformation.

    K

    45. Key Value Stores / Key Value Databases

    Key value store or key-value database is a paradigm of data storage which is schemed for storing, managing, and retrieving a data structure. Records are stored in a data type of a programming language with a key attribute which identifies the record uniquely. That’s why there is no requirement of a fixed data model.

    L

    46. Load balancing

    Load balancing is a tool which distributes the amount of workload between two or more computers over a computer network so that work gets completed in small time as all users desire to be served faster. It is the main reason for computer server clustering and it can be applied with software or hardware or with the combination of both.

    47. Linked Data

    Linked data refers to the collection of interconnected datasets that can be shared or published on the web and collaborated with machines and users. It is highly structured, unlike big data. It is used in building Semantic Web in which a large amount of data is available in the standard format on the web.

    48. Location Analytics

    Location analytics is the process of gaining insights from geographic component or location of business data. It is the visual effect of analyzing and interpreting the information which is portrayed by data and allows the user to connect location-related information with the dataset.

    49. Log File

    A log file is the special type of file that allows users keeping the record of events occurred or the operating system or conversation between the users or any running software.

    M

    50. Metadata

    Metadata is data about data. It is administrative, descriptive, and structural data that identifies the assets.

    51. MongoDB

    MongoDB is an open source and NoSQL document-oriented database program. It uses JSON documents to save data structures with an agile scheme known a MongoDB BSON format. It integrates data in applications very quickly and easily.

    52. Multi-Dimensional Database (MDB)

    A multidimensional database (MDB) is a kind of database which is optimized for OLAP (Online Analytical Processing) applications and data warehousing. MDB can be easily created by using the input of relational database. MDB is the ability of processing data in the database so that results can be developed quickly.

    53. Multi-Value Database

    Multi-Value Database is a kind of multi-dimensional and NoSQL database which is able to understand three-dimensional data. These databases are enough for manipulating XML and HTML strings directly.

    Some examples of Commercial Multi-value Databases are OpenQM, Rocket D3 Database Management System, jBASE, Intersystem Cache, OpenInsight, and InfinityDB.

    54. Machine-Generated Data

    Machine generated data is the information generated by machines (computer, application, process or another inhuman mechanism). Machine generated data is known as amorphous data as humans can rarely modify/change this data.

    55. Machine Learning

    Machine learning is a computer science field that makes use of statistical strategies to provide the facility to “learn” with data on the computer. Machine learning is used for exploiting the opportunities hidden in big data.

    56. MapReduce

    MapReduce is a processing technique to process large datasets with the parallel distributed algorithm on the cluster. MapReduce jobs are of two types. “Map” function is used to divide the query into multiple parts and then process the data at the node level. “Reduce’ function collects the result of “Map” function and then find the answer to the query. MapReduce is used to handle big data when coupled with HDFS. This coupling of HDFS and MapReduce is referred to as Hadoop.

    57. Mahout

    Apache Mahout is an open source data mining library. It uses data mining algorithms for regression testing, performing, clustering, statistical modeling, and then implementing them using MapReduce model.

    N

    58. Network Analysis

    Network analysis is the application of graph/chart theory that is used to categorize, understand, and viewing relationships between the nodes in network terms. It is an effective way of analyzing connections and to check their capabilities in any field such as prediction, marketing analysis, and healthcare etc.

    59. NewSQL

    NewSQL is a class of modern relational database management system which provide the scalable performance same as NoSQL systems for OLTP read/write workloads. It is well-defined database system which is easy to learn.

    Want to extend your knowledge of Big Data? Here is the complete list of Big Data Blogs, just read and become a Big Data expert!

    60. NoSQL

    Widely known as ‘Not only SQL’, it is a system for the management of databases. This database management system is independent of the relational database management system. A NoSQL database is not built on tables, and it doesn’t use SQL for the manipulation of data.

    O

    61. Object Databases

    The database that stores data in the form of objects is known as the object database. These objects are used in the same manner as that of the objects used in OOP. An object database is different from the graph and relational databases. These databases provide a query language most of the time that helps to find the object with a declaration.

    62. Object-based Image Analysis

    It is the analysis of object-based images that is performed with data taken by selected related pixels, known as image objects or simply objects. It is different from the digital analysis that is done using data from individual pixels.

    63. Online Analytical Processing (OLAP)

    It is the process by which analysis of multidimensional data is done by using three operators – drill-down, consolidation, and slice and dice.

    • Drill-down is the capability provided to users to view underlying details
    • Consolidation is the aggregate of available
    • Slice and dice is the capability provided to users for selecting subsets and viewing them from various contexts

    64. Online transactional processing (OLTP)

    It is the big data term used for the process that provides users an access to the large set of transactional data. It is done in such a manner that users are able to derive meaning from the accessed data.

    65. Open Data Center Alliance (ODCA)

    OCDA is the combination of IT organizations over the globe. The main goal of this consortium is to increase the movement of cloud computing.

    66. Operational Data Store (ODS)

    It is defined as a location to collect and store data retrieved from various sources. It allows users to perform many additional operations on the data before it is sent for reporting to the data warehouse.

    67. Oozie

    It is the big data term used for a processing system that allows users to define a set of jobs. These jobs are written in different languages such as Pig, MapReduce, and Hive. Oozie allows users to link those jobs to one another.

    P

    68. Parallel Data Analysis

    The process of breaking an analytical problem into small partitions and then running analysis algorithms on each of the partitions simultaneously is known as parallel data analysis. This type of data analysis can be run either on the different systems or on the same system.

    69. Parallel Method Invocation (PMI)

    It is the system that allows program code to call or invoke multiple methods/functions simultaneously at the same time.

    70. Parallel Processing

    It is the capability of a system to perform the execution of multiple tasks simultaneously.

    71. Parallel Query

    A parallel query can be defined as a query that can be executed over multiple system threads in order to improve the performance.

    72. Pattern Recognition

    A process to classify or label the identified pattern in the process of machine learning is known as pattern recognition.

    73. Pentaho

    Pentaho, a software organization, provides open source Business Intelligence products those are known as Pentaho Business Analytics. Pentaho offers OLAP services, data integration, dashboarding, reporting, ETL, and data mining capabilities.

    74. Petabyte

    The data measurement unit equals to 1,024 terabytes or 1 million gigabytes is known as petabyte.

    Q

    75. Query

    A query is a method to get some sort of information in order to derive an answer to the question.

    Big Data world is steadily evolving with the time. Let’s have a look at the upcoming Big Data Trends in 2018.

    76. Query Analysis

    The process to perform the analysis of search query is called query analysis. The query analysis is done to optimize the query to get the best possible results.

    R

    77. R

    It is a programming language and an environment for the graphics and statistical computing. It is very extensible language that provides a number of graphical and statistical techniques such as nonlinear and linear modeling, time-series analysis, classical statistical tests, clustering, classification etc.

    78. Re-identification

    The data re-identification is a process that matches anonymous data with the available auxiliary data or information. This practice is helpful to find out the individual whom this data belongs to.

    79. Real-time Data

    The data that can be created, stored, processed, analyzed, and visualized instantly i.e. in milliseconds, is known as real-time data.

    80. Reference Data

    It is the big data term that defines the data used to describe an object along with its properties. The object described by reference data may be virtual or physical in nature.

    81. Recommendation Engine

    It is an algorithm that performs the analysis of various actions and purchases made by a customer on an e-commerce website. This analyzed data is then used to recommend some complementary products to the customer.

    82. Risk Analysis

    It is a process or procedure to track the risks of an action, project or decision. The risk analysis is done by applying different statistical techniques on the datasets.

    83. Routing Analysis

    It is a process or procedure to find the optimized routing. It is done with the use of various variables for transport to improve efficiency and reduce costs of the fuel.

    S

    84. SaaS

    It is the big data term used for Software-as-a-Service. It allows vendors to host an application and then make this application available over the internet. The SaaS services are provided in the cloud by SaaS providers.

    85. Semi-Structured Data

    The data, not represented in the traditional manner with the application of regular methods is known as semi-structured data. This data is neither totally structured nor unstructured but contains some tags, data tables, and structural elements. Few examples of semi-structured data are XML documents, emails, tables, and graphs.

    86. Server

    The server is a virtual or physical computer that receives requests related to the software application and thus sends these requests over a network. It is the common big data term used almost in all the big data technologies.

    87. Spatial Analysis

    The analysis of spatial data i.e. topological and geographic data is known as spatial analysis. This analysis helps to identify and understand everything about a particular area or position.

    88. Structured Query Language (SQL)

    SQL is a standard programming language that is used to retrieve and manage data in a relational database. This language is very useful to create and query relational databases.

    89. Sqoop

    It is a connectivity tool that is used to move data from non-Hadoop data stores to Hadoop data stores. This tool instructs Sqoop to retrieve data from Teradata, Oracle or any other relational database and to specify target destination in Hadoop to move that retrieved data.

    90. Storm

    Apache Storm is a distributed, open source, and real-time computation system used for data processing. It is one of the must-known big data terms, responsible to process unstructured data reliably in real-time.

    A big data certification validates your Big Data skills and helps you stand out of the crowd. Here is the list of best Big Data Certifications in 2018.

    T

    91. Text Analytics

    The text analytics is basically the process of the application of linguistic, machine learning, and statistical techniques on the text-based sources. The text analytics is used to derive an insight or meaning from the text data by application of these techniques.

    92. Thrift

    It is a software framework that is used for the development of the ascendable cross-language services. It integrates code generation engine with the software stack to develop services that can work seamlessly and efficiently between different programming languages such as Ruby, Java, PHP, C++, Python, C# and others.

    U

    93. Unstructured Data

    The data for which structure can’t be defined is known as unstructured data. It becomes difficult to process and manage unstructured data. The common examples of unstructured data are the text entered in email messages and data sources with texts, images, and videos.

    V

    94. Value

    This big data term basically defines the value of the available data. The collected and stored data may be valuable for the societies, customers, and organizations. It is one of the important big data terms as big data is meant for big businesses and the businesses will get some value i.e. benefits from the big data.

    95. Volume

    This big data term is related to the total available amount of the data. The data may range from megabytes to brontobytes.

    W

    96. WebHDFS Apache Hadoop

    WebHDFS is a protocol to access HDFS to make the use of industry RESTful mechanism. It contains native libraries and thus allows to have an access of the HDFS. It helps users to connect to the HDFS from outside by taking advantage of Hadoop cluster parallelism. It also offers the access of web services strategically to all Hadoop components.

    97. Weather Data

    The data trends and patterns that help to track the atmosphere is known as the weather data. This data basically consists of numbers and factors. Now, real-time data is available that can be used by the organizations in a different manner. Such as a logistics company uses weather data in order to optimize goods transportation.

    X

    98. XML Databases

    The databases that support the storage of data in XML format is known as XML database. These databases are generally connected with the document-specific databases. One can export, serial, and put a query on the data of XML database.

    Y

    99. Yottabyte

    It is the big data term related to the measurement of data. One yottabyte is equal to 1000 zettabytes or the data stored in 250 trillion DVDs.

    Z

    100. ZooKeeper

    It is an Apache software project and Hadoop subproject which provides open code name generation for the distributed systems. It also supports consolidated organization of the large-sized distributed systems.

    101. Zettabyte

    It is the big data term related to the measurement of data. One zettabyte is equal to 1 billion terabytes or 1000 exabytes.

    Bottom Line

    Big data is not only a buzz word but the broad term that has a lot to learn. So, we have enlisted and described these Big Data terms that will be helpful in your big data career. Not to mention, it is important to validate your big data skills and knowledge for the bright career. And big data certifications are meant to demonstrate your big data skills to the employers.

    Whizlabs, the pioneer in Big Data Certifications Training , is aimed to help you learn and get certified in big data technologies. Whether you are a Hadoop or Spark professional, Whizlabs Hadoop Admin (HDPCA), Spark Developer (HDPCD), and CCA Administrator certification online training will prepare you for a bright future!

    Have any questions regarding these Big Data terms? Just write here or put a comment below, we’ll be happy to answer!


    How to load geographic data into Hadoop (Hive) and then to be able to call spatial functions on them? - Systèmes d'information géographique

    Количество зарегистрированных учащихся: 17 тыс.

    Участвовать бесплатно

    Spatial (map) is considered as a core infrastructure of modern IT world, which is substantiated by business transactions of major IT companies such as Apple, Google, Microsoft, Amazon, Intel, and Uber, and even motor companies such as Audi, BMW, and Mercedes. Consequently, they are bound to hire more and more spatial data scientists. Based on such business trend, this course is designed to present a firm understanding of spatial data science to the learners, who would have a basic knowledge of data science and data analysis, and eventually to make their expertise differentiated from other nominal data scientists and data analysts. Additionally, this course could make learners realize the value of spatial big data and the power of open source software's to deal with spatial data science problems. This course will start with defining spatial data science and answering why spatial is special from three different perspectives - business, technology, and data in the first week. In the second week, four disciplines related to spatial data science - GIS, DBMS, Data Analytics, and Big Data Systems, and the related open source software's - QGIS, PostgreSQL, PostGIS, R, and Hadoop tools are introduced together. During the third, fourth, and fifth weeks, you will learn the four disciplines one by one from the principle to applications. In the final week, five real world problems and the corresponding solutions are presented with step-by-step procedures in environment of open source software's.

    Получаемые навыки

    Spatial Analysis, Qgis, Big Data, Geographic Information System (GIS)

    Рецензии

    Great course which starts with basics, gets descriptive with examples, real life scenarios, usage of software. Definitely recommended.

    Love the course! Explained very detail about spatial. Hope I can land my dream job soon that is related to spatial analysis.

    Spatial DBMS and Big Data Systems

    The fourth module is entitled to "Spatial DBMS and Big Data Systems", which covers two disciplines related to spatial data science, and will make learners understand how to use DBMS and Big Data Systems to manage spatial data and spatial big data. This module is composed of six lectures. The first two lectures will cover DBMS and Spatial DBMS, and the rest of the lectures will cover Big Data Systems. The first lecture "Database Management System (DBMS)" will introduce powerful functionalities of DBMS and related features, and limitations of conventional Relational DBMS for spatial data. The second lecture "Spatial DBMS" focuses on the difference of spatial DBMS from conventional DBMS, and new features to manage spatial data. The third lecture will give learners a brief overview of Big Data Systems and the current paradigm - MapReduce. The fourth lecture will cover Hadoop MapReduce, Hadoop Distributed File System (HDFS), Hadoop YARN, as an implementation of MapReduce paradigm, and also will present the first example of spatial big data processing using Hadoop MapReduce. The fifth lecture will introduce Hadoop ecosystem and show how to utilize Hadoop tools such as Hive, Pig, Sqoop, and HBase for spatial big data processing. The last lecture "Spatial Big Data System" will introduce two Hadoop tools for spatial big data - Spatial Hadoop and GIS Tools for Hadoop, and review their pros and cons for spatial big data management and processing.

    Преподаватели

    Joon Heo

    Текст видео

    In the previous lecture, you studied Hadoop that was designed for big data processing, and you also learned that it has some limitations as well as big advantages, so it may need some improvement to overcome the lack of functionalities, particularly regarding user's convenience. Can you use Hadoop in a more convenient manner? We'll discuss the answers to the question in this lecture. Hadoop Ecosystem refers to the various components of Apache Hadoop software library, as well as to the Hadoop related tools to address particular needs to overcome limitations of Hadoop itself. The figure presents the notable tools in Hadoop Ecosystem such as Hive, Pig, Sqoop, and HBase, that you will learn in more detail. Those Hadoop tools in the ecosystem can be categorized based on its design objective. Among them, a column-based NoSQL solution, HBase, a scripting solution for workflow, Pig, a SQL-like solution for workflow, Hive, and a convergent tool between RDBMS and HDFS Sqoop will be introduced with examples of spatial big data processing and management. Hive is originally developed for data warehouse software to facilitate querying and managing large dataset in distributed storage. Main advantage of Hive is to provide SQL-like language, HiveQL, which uses basic SQL such as Select, From, Where, Join, Group By, and so on. It is a Hadoop-based solution, so MapReduce and HDFS is being used behind the scene. Also, Hive allows users to plug in traditional mappers and reducers, when it is inefficient to use HiveQL. Let's process the same example in the previous lecture - Filter and visualize taxi drop-offs near LaGuardia Airport. Remember, it can be done in traditional MapReduce using Java. And I mentioned that it is too much hassle to conduct a SQL-like operation in MapReduce environment. Now, you are looking at an alternative solution using Hive. All you have to do is to import the data sets NewYork Taxi Trajectory, query and get the results and visualize the results. Much simpler than MapReduce. You're looking at the visualization of the results same as the outcome of MapReduce. Pig is platform for analyzing large datasets which is composed of a high-level scripting language and an engine for executing data flows in parallel on Hadoop. It provides language, Pig Latin, that includes most of traditional data operators such as Join, Sort, Filter and the ability for users to develop their own function for reading, processing and writing data. Pig runs on Hadoop, and obviously makes use of Hadoop MapReduce and HDFS. It basically makes it easy to write MapReduce program. Pig can be used in interactive mode – shell scripting, which is a line by line processing as you are looking at. The Pig-based solution for the same spatial big data processing was implemented. In which, data loading, filtering and exporting the results were conducted line by line. Pig solution can be also implemented in a batch mode as you are looking at the example. The line by line script in the previous slide can be saved in a script file, and Pig can call the script and a batch processing can be done. The same results as Hive and MapReduce were retrieved - taxi drop-offs near LaGuardia Airport. MapReduce is powerful but it requires hard coding Java, Python or C++. Even though it is much simpler than MPI, still complex to master. As mentioned it, MapReduce needs some improvement for user's convenience and the outcome for the needs, are the two solutions of Hive and Pig, with which users could manage and analyze big data using Hadoop and HDFS in more convenient manner. Sqoop is a tool, which is designed to transfer data between HDFS and relational databases. You can use Sqoop to import the data from a Relational Database Management System such as PostgreSQL, MySQL or Oracle into the HDFS to transform the data in Hadoop MapReduce and then to export the data back into an RDBMS. Now you're looking at conversion from HDFS of which filename is "green_tripdata_2014-01.csv" to a RDBMS table in MySQL of which name is "testnewyork". In the bottom, another conversion from my MySQL to Hive. Import "testnewyork" table in MySQL to "mysql_test" table in Hive. Certainly, with Sqoop, the opposite conversion from RDBMS table to HDFS and from Hive to RDBMS are also possible. As discussed, HDFS is designed for distributed storage and distributed computation and very good for batch processing. However, no facilities for accessing or updating individual data. HBase is an alternative solution, which is a column-based distributed database and capable of random access read and write. Additionally, it is good for sparse data and flexible to add new columns. HBase is another relational database and it does not provide a structured query language like SQL. In fact, HBase applications are written in Java just like a typical MapReduce application. HBase is originated from Google's Bigtable, and it is suited for handling very large tables for example billions of rows and millions of columns. A smart idea HBase is to apply column based partitioning to such a large table and to enable distributed operation of random access, updating, deleting individual item and eventually it achieves a better data management capability than HDFS. In the data model of HBase, each row is composed of rowkey and column families. The 'rowkey' should be unique and sorted, in order to preserve consistency and efficiency. Columns are grouped into column families. Physically, all column family members are sorted together on file system. So tuning in storage specifications are managed at the column family level, all column family members have the same general access pattern and size characteristics. Now you're looking at an HBase example. The sample dataset Seoul Taxi trajectory, a similar dataset to New York Taxi trajectory. Our design is following Rowkey is a combined string of carID and Time and two column families are made based on access pattern and data size which are 'properties' and ɼoordinates'. Based on the design, we created a database with the two column families using Java code. The next Java code is to load Seoul Taxi trajectory data into each HBase database. HBase provides only basic data model operations, Get, Put, Scan and Delete. Put is used to either to add new rows to a table if rowkey is new or to update existing rows if the rowkey already existed. Here, Put operation was used to load the data into HBase table. HBase also provides shell script. Using shell, a data retrieval is conducted from a HBase table which was just created. Using Get operation, the coordinate column family - Latitude and Longitude, X and Y are retrieved. Certainly, we could see Scan and Delete for other data management which is not feasible with HDFS. In this lecture, you just reviewed four tools in Hadoop Ecosystem. Hive, Pig, Sqoop and HBase which facilitate Hadoop in a more convenient manner. There are many many other tools. Now our question is - Is there any Hadoop tool for spatial big data? We will discuss the issue in the next lecture.


    A Deep Dive into NoSQL Databases: The Use Cases and Applications

    4.3.1 Apache Spark

    Apache Spark is a next-generation batch processing framework with stream processing capabilities. Spark focuses primarily on speeding up batch processing workloads by offering full in-memory computation and processing optimization. Spark can be deployed as a standalone cluster by pairing with a capable storage layer or can hook into Hadoop's HDFS. Spark, in the beginning, loads the data into memory, processes all the data in memory, and at the end, persists the final results in the disk storage. All intermediate results are fully kept and managed in memory.

    We all know that in-memory computing accelerates data processing drastically. That is, when data get stored in system memory rather on disk storages, the processing happens at 3000 times speedier. Spark is relatively fast on disk-related tasks because Spark brings forth a series of optimizations by analyzing the complete set of tasks ahead of time. It achieves this by creating DAGs, which represent all of the operations that must be performed, the data to be operated on, as well as the relationships between them, giving the processor a greater ability to intelligently coordinate work.

    Resilient distributed datasets (RDDs)—To implement an in-memory batch computation, Spark uses this proven RDD model to work with data. These are immutable structures that exist within memory that represent collections of data. Operations on RDDs can produce new RDDs and each RDD can trace its lineage back through its parent RDDs and ultimately to the data on disk. Through the concept of RDDs, Spark is able to maintain the much-needed fault tolerance without needing to write back to disk after each operation. Precisely speaking, Spark started its golden innings by performing batch processing.

    Spark Streaming is a newly introduced API in the Apache Spark family in order to simplify and speed upstream processing. Spark implements an original concept of microbatches to facilitate stream processing. The idea is to treat streams of data as a series of very small batches that can be handled using the native semantics of the batch engine. Spark Streaming works by buffering the stream in subsecond increments and they are sent as small fixed datasets for batch processing. This method can lead to different performance guarantees. Spark through its in-memory computing capability is able to do justice for both batch as well as streaming analytics. Adapting the batch methodology for stream processing can lead to buffering the data as it enters the system. The buffer helps to handle a high volume of incoming data and increasing the overall throughput. The problem here is that the waiting period to flush the buffer leads to high latency and hence for real-time processing, Spark is not a good fit. Ultimately Spark will replace the Hadoop's MapReduce module.

    The Spark deployment and operational model are quite unique and versatile. That is, Spark can be deployed as a standalone cluster or integrated with an existing Hadoop cluster. That is, a single cluster can do both batch and stream processing. Because of its innate strength, Spark is on the right track by adding additional libraries such as machine learning (ML), etc. GraphX is the Apache Spark's API for graphs and graph-parallel computation. GraphX is capable of unifying ETL, exploratory analysis, and iterative graph computation within a single system. We can view the same data as both graphs and collections, transform and join graphs with RDDs efficiently, and write custom iterative graph algorithms using the Pregel API.

    The principal advantages of Spark—There are many benefits being accrued out of the advancements happening in the Spark domain.

    Faster processing—Apache Spark essentially takes MapReduce to the next level with a performance that is significantly faster. Spark has the ability to hold intermediate results in memory itself instead of writing it back to disk and reading it again.

    Speed—Spark can execute batch processing jobs 10–100 times faster than MapReduce. That does not mean it lags behind when data have to be written to and fetched from disk.

    Ease of use—Apache Spark has easy-to-use APIs for easily operating on large datasets.

    Unified engine—Spark can run on top of Hadoop making use of its cluster manager (YARN) and underlying storage (HDFS, HBase, etc.). Also, it can run independently of Hadoop by joining hands with other cluster managers and storage platforms such as Cassandra and Amazon S3.

    Choose from Java, Scala, or Python—Spark supports all the prominent and dominant programming languages.

    In-memory data sharing—Different jobs can share data within the memory and this makes an ideal choice for iterative, interactive, and event stream processing tasks.

    As the relatively expensive memory is being used for computation, Spark is to cost more. However, the increased processing speed means that tasks can be completed faster and resultingly the cost of computation is on the lower side. Precisely speaking, Spark emerges as the one-stop solution for big data analytics.


    This section provides detailed descriptions of new features for the Adapter for Teradata.

    Support for Wide ODBC API

    A new interface for Teradata is introduced that is based on the wide ODBC API. This interface supports Unicode and offers better performance on some platforms (for example, Windows and Linux x64/x86) compared to the Teradata ODBC interface that is not utilizing the wide API. This wide ODBC API interface is supported with TTU v.15.0 or higher.

    READONLY Fields in Extended Bulk Load

    Loading into Teradata using Extended Bulk Load is now supported even when the server metadata contains READONLY fields. Such fields will be skipped and remained unchanged during loading.

    Distinguishing Between Macros and Stored Procedures

    The following Access File attribute has been introduced to identify whether the synonym represents a Teradata Macro or Stored Procedure.

    Support for Version 15.10

    The Teradata CLI and ODBC adapters support Read/Write access to Teradata Version 15.10.


    Voir la vidéo: Hive Tutorial. Hive Architecture. Hive Tutorial For Beginners. Hive In Hadoop. Simplilearn (Octobre 2021).