Projet Bigdata


  1. GDELT

  2. Projet propose

  3. TP: exploration des donnes GDELT + reflexion sujets de projet

gdelt day


" The Global Database of Events, Language, and Tone monitors the world’s broadcast, print, and web news from nearly every corner of every country in over 100 languages and identifies the people, locations, organizations, themes, sources, emotions, counts, quotes, images and events driving our global society every second of every day, creating a free open platform for computing on the entire world.

GDELT Database


GDELT pipeline (summarised by Olivier Dupuis)


Jeu de données GDELT

Index des fichiers

Disponibilite des donnees

GDELT projects


Beyond GDELT : example of use of GDELT

img5 Social Movements

img6 Relations Between Movements

img7 Data Pipeline


Olivier Dupuis - blog series


Projet Bigdata:

  • PROJET AU CHOIX (note /23)

  • GDELT: Les evenements marquants de l’année (note /20)


L’objectif de ce projet est de mettre en œuvre les technologies presentees dans ce module pour proposer un système de stockage distribué, résilient et performant pour répondre a une problematique specifique qui traite des donnees d’une volumetrie importante.

Vous pouvez utiliser toutes sources de donnees disponibles.


  • taille du jeu de donnes initial > 100GB

  • taille du jeu de donnees stoques > 5GB

  • le systeme devrait repondre a 3-4 requetes de votre choix pour addresser une problematique specifique (a valider avec les encadrants)

  • vous devez utiliser au moins 1 technologie vue en cours en expliquant les raisons de votre choix (SQL/Cassandra/MongoDB/Spark/Neo4j8)

  • lors de la soutenance, les données devront être préalablement chargées dans votre cluster. Vous devez démontrer la résilience de votre système de stocquage en desactivant un noeud de votre clusteur.


Vous allez travailler par groupe de 4 personnes. Nous aurons 3 seances encadres pour: le cadrage du projet(sujet/archi), repondre a vos questions ou bien travail individuel.

La composition du group et le sujet valide avec les intervenants devraient etre envoyes par email au plus tard le 13/01/2023 (dernier delai)


  • vous allez utiliser les VMs du module Hadoop (donc les 8 machines/VMs des 4 personnes du group).


La soutenance se déroulera de la manière suivante:

  1. Présentation: 15 minutes

  2. Démo: 10 minutes

  3. Questions & Réponses : 10 minutes

Projet: Les evenements marquants de l’annee

Objectif: Proposer un système de stockage distribué, resilient et performant pour les données de GDELT.


  1. afficher le nombre d’articles/évènements qu’il y a eu pour chaque triplet (jour, pays de l’évènement, langue de l’article).

  2. pour un pays donné en paramètre, affichez les évènements qui y ont eu place triées par le nombre de mentions (tri décroissant); permettez une agrégation par jour/mois/année

  3. pour une source de donnés passée en paramètre (gkg.SourceCommonName) affichez les thèmes, personnes, lieux dont les articles de cette sources parlent ainsi que le nombre d’articles et le ton moyen des articles (pour chaque thème/personne/lieu); permettez une agrégation par jour/mois/année.

  4. étudiez l’évolution des relations entre deux pays (specifies en paramètre) au cours de l’année. Vous pouvez vous baser sur la langue de l’article, le ton moyen des articles, les themes plus souvent citées, les personalités ou tout element qui vous semble pertinent.

C. Contraintes

  1. au moins 1 technologie vue en cours en expliquant les raisons de votre choix

  2. système distribué et tolérant aux pannes

  3. une annee de données (commencez par tester sur 1 heure, 1 jour, 1 mois!)

D. Les livrables

  • code source (lien sur github…​)

  • presentation: architecture, modélisation, les avantages et inconvénients, des choix de modélisation et d’architecture, volumetrie, limites et contraintes


  • qualité et clarte de presentation (5/20)

  • infra/performances/budget (5/20)

  • implementation des fonctionnalités (modelisation/stoquage/requetage) (10/20)

F. Organisation

  • travail en equipe (4 personnes )

  • soutenance

    • Présentation: 15 minutes

    • Démo: 10 minutes

    • Questions & Réponses : 10 minutes

F. Demo

  • les données devront être préalablement chargées dans votre cluster

  • demo des fonctionnalités

  • démontrer la resilience de votre systeme (chaos monkey)

Questions ?

Exemple: Exploration des donnees GDELT

  • exploration du jeu de donnees, reflexions sur l’architecture a mettre en place


  1. explorer les donnees: types/organisation/volumetrie

  2. explorer les fonctionalitees demandees

  3. identifier les agregats, comment les stocquer

    1. ⇒ decider la techno/modelisation

    2. tests/ajustements/optimisations

Disponibilite des donnees

  1. telechargement depuis

  2. copie en local

Script de telechargement

def fileDownloader(urlOfFileToDownload: String, fileName: String) = {
    val url = new URL(urlOfFileToDownload)
    val connection = url.openConnection().asInstanceOf[HttpURLConnection]

    if (connection.getResponseCode >= 400)
        url #> new File(fileName) !!

 "/home/aar/bigdata/proj2022/data/masterfilelist.txt") // save the list file to the Spark Master

Stockage (parallel)
    option("delimiter"," ").
    repartition(200).foreach( r=> {
        val URL = r.getAs[String](0)
        val fileName = r.getAs[String](0).split("/").last
        val dir = "/home/aar/bigdata/gdelt/"
        val localFileName = dir + fileName
        fileDownloader(URL,  localFileName)
        val localFile = new File(localFileName)

Chargement events

val eventsRDD = sc.binaryFiles(".../data/20221[0-9]*",100).
   flatMap {  // decompresser les fichiers
       case (name: String, content: PortableDataStream) =>
          val zis = new ZipInputStream(
                takeWhile(_ != null).
                flatMap { _ =>
                    val br = new BufferedReader(new InputStreamReader(zis))
                    Stream.continually(br.readLine()).takeWhile(_ != null)
val cachedEvents = eventsRDD.cache // RDD

res5: Array[String] = Array(807502237	20171204	201712	2017	2017.9151											LEG	LAWMAKER						LEG			0	036	036	03	1	4.0	2	1	2	-4.47928331466966	0								3	Salem, Oregon, United States	US	USOR	OR047	44.9429	-123.035	1167861	3	Salem, Oregon, United States	US	USOR	OR047	44.9429	-123.035	1167861	20221204094500

RDD / DataSets / SparkSQL

Use types stored in BigQuery

BigQuery JSON Type ⇒ case class Event

bq show --format=prettyjson | jq '.schema' |jq '.[]|.[]|[.name +": " + .type + ","]|.[]' |sed "s/INTEGER/Int/"| sed "s/FLOAT/Double/" | sed "s/STRING/String/" | sed "s/\"//g"

Event case class

case class Event(
MonthYear: Int,
Year: Int,
FractionDate: Double,
Actor1Code: String,
Actor1Name: String,
Actor1CountryCode: String,
Actor1KnownGroupCode: String,
Actor1EthnicCode: String,
Actor1Religion1Code: String,
Actor1Religion2Code: String,
Actor1Type1Code: String,
Actor1Type2Code: String,
Actor1Type3Code: String,
Actor2Code: String,
Actor2Name: String,
Actor2CountryCode: String,
Actor2KnownGroupCode: String,
Actor2EthnicCode: String,
Actor2Religion1Code: String,
Actor2Religion2Code: String,
Actor2Type1Code: String,
Actor2Type2Code: String,
Actor2Type3Code: String,
IsRootEvent: Int,
EventCode: String,
EventBaseCode: String,
EventRootCode: String,
QuadClass: Int,
GoldsteinScale: Double,
NumMentions: Int,
NumSources: Int,
NumArticles: Int,
AvgTone: Double,
Actor1Geo_Type: Int,
Actor1Geo_FullName: String,
Actor1Geo_CountryCode: String,
Actor1Geo_ADM1Code: String,
Actor1Geo_ADM2Code: String,
Actor1Geo_Lat: Double,
Actor1Geo_Long: Double,
Actor1Geo_FeatureID: String,
Actor2Geo_Type: Int,
Actor2Geo_FullName: String,
Actor2Geo_CountryCode: String,
Actor2Geo_ADM1Code: String,
Actor2Geo_ADM2Code: String,
Actor2Geo_Lat: Double,
Actor2Geo_Long: Double,
Actor2Geo_FeatureID: String,
ActionGeo_Type: Int,
ActionGeo_FullName: String,
ActionGeo_CountryCode: String,
ActionGeo_ADM1Code: String,
ActionGeo_ADM2Code: String,
ActionGeo_Lat: Double,
ActionGeo_Long: Double,
ActionGeo_FeatureID: String,

Data cleanup (wrangling/munging)

  • correction des types de donnees (STRING→DATE,INT→BIGINT…​)

  • correction des valeurs (lignes incompletes, valeurs incorrectes…​)

  • …​

RDD ⇒ DataSet ⇒ SparkSQL

def toDouble(s : String): Double = if (s.isEmpty) 0 else s.toDouble
def toInt(s : String): Int = if (s.isEmpty) 0  else s.toInt
def toBigInt(s : String): BigInt = if (s.isEmpty) BigInt(0) else BigInt(s)"\t")).filter(_.length==61).map(
    e=> Event(


Exploration via Zeppelin/SparkUI

zeppelin exploration sql

Output is truncated

zeppelin exploration sql6


zeppelin exploration sql2

Events by Actor1Country (export)

zeppelin exploration sql3

Events by Actor1Country (export-translation)

zeppelin exploration sql4

Volumetrie (cached table)

zeppelin exploration sql5

Volumetrie (cached table)

zeppelin exploration sql7