Objectif
L’objectif de ce projet est de mettre en œuvre les technologies presentees dans ce module pour proposer un système de stockage distribué, résilient et performant pour répondre a une problematique specifique qui traite des donnees d’une volumetrie importante.
Vous pouvez utiliser toutes sources de donnees disponibles.
Contraintes:
-
taille du jeu de donnes initial > 100GB
-
taille du jeu de donnees stoques > 5GB
-
le systeme devrait repondre a 3-4 requetes de votre choix pour addresser une problematique specifique (a valider avec les encadrants)
-
vous devez utiliser au moins 1 technologie vue en cours en expliquant les raisons de votre choix (SQL/Cassandra/MongoDB/Spark/Neo4j8)
-
lors de la soutenance, les données devront être préalablement chargées dans votre cluster. Vous devez démontrer la résilience de votre système de stocquage en desactivant un noeud de votre clusteur.
Organisation
Vous allez travailler par groupe de 4 personnes. Nous aurons 3 seances encadres pour: le cadrage du projet(sujet/archi), repondre a vos questions ou bien travail individuel.
La composition du group et le sujet valide avec les intervenants devraient etre envoyes par email au plus tard le 13/01/2023 (dernier delai)
Environnement:
-
vous allez utiliser les VMs du module Hadoop (donc les 8 machines/VMs des 4 personnes du group).
Soutenance
La soutenance se déroulera de la manière suivante:
-
Présentation: 15 minutes
-
Démo: 10 minutes
-
Questions & Réponses : 10 minutes
Sujet type: Analyser les evenements marquants de l’année en utilisant les donnees GDELT.
A defaut d’idees vous pouvez travailler sur le sujet propose plus bas.
" The Global Database of Events, Language, and Tone (GDELT) monitors the world’s broadcast, print, and web news from nearly every corner of every country in over 100 languages and identifies the people, locations, organizations, themes, sources, emotions, counts, quotes, images and events driving our global society every second of every day, creating a free open platform for computing on the entire world.
Cette base de données a eu beaucoup d’utilisations, pour mieux comprendre l’évolution et l’impact de la crise financière du 2008 (Bayesian dynamic financial networks with time-varying predictors) ou analyser l’évolution des relations entre des pays impliquées dans des conflits (Massive Media Event Data Analysis to Assess World-Wide Political Conflict and Instability ).
L’objectif du projet est de concevoir un système qui a travers le jeu de donnees GDELT permet d’analyser les evenements marquants de l’année 2022.
Contexte
A. Jeu de données
Nous allons utiliser:
-
les events (CAMEO Ontology, documentation)
-
les mentions (documentation)
-
le graph des conaissances ⇒ GKG, Global Knowledge Graph (documentation)
Les fichiers du jeu de données sont indexé par deux fichiers:
Pour plus d’infos consulter la documentation.
Le jeu de données de GDELT v2.0 est disponible également sur Google BigQuery. Cependant vous ne devez pas l’utiliser directement pour votre projet. Vous pouvez cependant l’utiliser pour explorer la structure des données, la génération des types de données ou utiliser des données connexes (ex codes pays etc…) .
Objectif
L’objectif de ce projet est de proposer un système de stockage distribué, résilient et performant pour repondre aux question suivantes:
-
afficher le nombre d’articles/évènements qu’il y a eu pour chaque triplet (jour, pays de l’évènement, langue de l’article).
-
pour un pays donné en paramètre, affichez les évènements qui y ont eu place triées par le nombre de mentions (tri décroissant); permettez une agrégation par jour/mois/année
-
pour une source de donnés passée en paramètre (gkg.SourceCommonName) affichez les thèmes, personnes, lieux dont les articles de cette sources parlent ainsi que le nombre d’articles et le ton moyen des articles (pour chaque thème/personne/lieu); permettez une agrégation par jour/mois/année.
-
étudiez l’évolution des relations entre deux pays (specifies en paramètre) au cours de l’année. Vous pouvez vous baser sur la langue de l’article, le ton moyen des articles, les themes plus souvent citées, les personalités ou tout element qui vous semble pertinent.
C. Contraintes
-
Vous devez utiliser au moins 1 technologie vue en cours en expliquant les raisons de votre choix (SQL/Cassandra/MongoDB/Spark/Neo4j).
-
Vous devez concevoir un système distribué et tolérant aux pannes (le système doit pouvoir continuer après la perte d’un noeud).
-
Vous devez pre-charger une année de données dans votre cluster
-
Vous devez utiliser le cluster openstack pour déployer votre solution.