{ "paragraphs": [ { "text": "%md\n## Jeu de donnees\nThe Global Database of Events, Language, and Tone (*GDELT*), est une initiative pour construire un catalogue de comportements et de croyances sociales à travers le monde, reliant chaque personne, organisation, lieu, dénombrement, thème, source d'information, et événement à travers la planète en un seul réseau massif qui capture ce qui se passe dans le monde, le contexte, les implications ainsi que la perception des gens sur chaque jour.\n\n\nCette base de données a eu beaucoup d'utilisations, par exemple pour mieux comprendre l'évolution et l'impact de la crise financière du 2008 (https://arxiv.org/pdf/1403.2272v1.pdf[Bayesian dynamic financial networks with time-varying predictors]) ou analyser l'évolution des relations entre des pays impliquées dans des conflits (http://www.gao.ece.ufl.edu/GXU/fun_reading/sbp_hurst.pdf[Massive Media Event Data Analysis to Assess World-Wide Political Conflict and Instability] ).\n\nGDELT est compose par trois jeux de fichiers CSV, avec un fichier compressé par tranche de 15 minutes:\n\n* les events (https://bigquery.cloud.google.com/table/gdelt-bq:gdeltv2.events?tab=schema[schema], http://data.gdeltproject.org/documentation/CAMEO.Manual.1.1b3.pdf[CAMEO Ontology], http://data.gdeltproject.org/documentation/GDELT-Event_Codebook-V2.0.pdf[documentation])\n* les mentions (https://bigquery.cloud.google.com/table/gdelt-bq:gdeltv2.eventmentions[schema], http://data.gdeltproject.org/documentation/GDELT-Event_Codebook-V2.0.pdf[documentation])\n* le graph des relations => GKG, Global Knowledge Graph (https://bigquery.cloud.google.com/table/gdelt-bq:gdeltv2.gkg[schema], http://data.gdeltproject.org/documentation/GDELT-Global_Knowledge_Graph_Codebook-V2.1.pdf[documentation])\n\nL'ensemble des donnees _GDELT_ sont disponibles via HTTP. Un fichier CSV _masterfilelist.txt_\n(http://data.gdeltproject.org/gdeltv2/masterfilelist.txt[Master CSV data file list]) nous permmet d'avoir la liste de tous les fichiers du jeu de donnees GDELT ainsi que l'URL pour telecharger chaque fichier.\n\n\nPour plus d'infos sur le format des fichiers vous pouvez consulter la documentation GDELT: https://blog.gdeltproject.org/gdelt-2-0-our-global-world-in-realtime/\n", "user": "anonymous", "dateUpdated": "2022-01-14T04:36:39+0100", "progress": 0, "config": { "tableHide": false, "editorSetting": { "language": "markdown", "editOnDblClick": true, "completionKey": "TAB", "completionSupport": false }, "colWidth": 12, "editorMode": "ace/mode/markdown", "fontSize": 9, "editorHide": true, "results": {}, "enabled": true }, "settings": { "params": {}, "forms": {} }, "results": { "code": "SUCCESS", "msg": [ { "type": "HTML", "data": "
The Global Database of Events, Language, and Tone (*GDELT*), est une initiative pour construire un catalogue de comportements et de croyances sociales à travers le monde, reliant chaque personne, organisation, lieu, dénombrement, thème, source d’information, et événement à travers la planète en un seul réseau massif qui capture ce qui se passe dans le monde, le contexte, les implications ainsi que la perception des gens sur chaque jour.
\nCette base de données a eu beaucoup d’utilisations, par exemple pour mieux comprendre l’évolution et l’impact de la crise financière du 2008 (https://arxiv.org/pdf/1403.2272v1.pdf[Bayesian dynamic financial networks with time-varying predictors]) ou analyser l’évolution des relations entre des pays impliquées dans des conflits (http://www.gao.ece.ufl.edu/GXU/fun_reading/sbp_hurst.pdf[Massive Media Event Data Analysis to Assess World-Wide Political Conflict and Instability] ).
\nGDELT est compose par trois jeux de fichiers CSV, avec un fichier compressé par tranche de 15 minutes:
\nL’ensemble des donnees GDELT sont disponibles via HTTP. Un fichier CSV masterfilelist.txt
(http://data.gdeltproject.org/gdeltv2/masterfilelist.txt[Master CSV data file list]) nous permmet d’avoir la liste de tous les fichiers du jeu de donnees GDELT ainsi que l’URL pour telecharger chaque fichier.
Pour plus d’infos sur le format des fichiers vous pouvez consulter la documentation GDELT: https://blog.gdeltproject.org/gdelt-2-0-our-global-world-in-realtime/
\nDans ce notebook nous allons telecharger les fichiers GDELT pour la journee de 1er decembre 2021.
\nOn commence par definir une function fileDownloder qui telecharge un fichier a partir d’un URL.
On peut tester cette function pour telecharger en local le masterfilelist GDELT. Sur quelle machine ce fichier sera stocque ?
\n\nOn peut verifier que les 2 fichiers ont bien ete telecharges
\n\nPar la suite on va charger uniquement les fichiers qui correspond a la journee du 1er decembre 2021
\n\nNous allons charger ces fichiers un ETL Spark:
\n\nWell done! Vous pouvez maintenaient explorer les donnees via le notebook gdeltExploration.json
\n