Date

Slides

Pré-requis

Lectures

14/01/2022 13h30-16h45 1A201, 1A207

10. Presentation projet / analyse exploratoire des donnees

Slides GDELT

Projet2022

Gdelt ETL Zeppelin notebook

Gdelt Exploration Zeppelin notebook

1. Former des groupes pour le projet (5 personnes) et envoyer par email (tp-bigdata@lesfurets.com) la composition de chaque equippe (1 email / equippe)

2. Si vous avez le temps commencez a vous familiariser avec l’enonce du projet et le jeu de donnees:

* les events (CAMEO Ontology, documentation)

* les mentions (documentation)

* le graph des conaissances ⇒ GKG, Global Knowledge Graph ( documentation)

GDELT + BigQuery: Short video

07/01/2022 Amphi 2 1A222, 1A226

9. Rex Data@LesFurets + DBT

Slides.pdf

TP.pdf

customers_original.sql

10/12/2021

6. Neo4J

Slides.pdf TP.pdf TP-Correction.pdf

02/12/2021

Amphi 3 puis 1A222, 1A226

5. Apache Spark: Dataframes

Slides.html

Slides.pdf

Exercices.html

(!) Pour ce TP et ceux qui suit vous allez re-utiliser la VM téléchargée pour le TP2. Apache Cassandra

26/11/2021

4. Introduction to Apache Spark

Slides.html

Slides.pdf

Exercices.html

(!) Pour ce TP vous allez re-utiliser la VM téléchargée pour le TP2. Apache Cassandra

24/11/2021 13h30: Amphi 5 puis 1A226, 1A252

3. Apache Cassandra data modeling

Slides.html

Slides.pdf

Tp.html

(!) Pour ce TP et ceux qui suit vous allez re-utiliser la VM téléchargée pour le TP2.

A Big Data Modeling Methodology for Apache Cassandra

Modelisation Cassandra de Jérôme Mainaud

Jepsen Test: Consistency framework

SoftwareMill: 7 Cassandra mistakes

17/11/2021 13h30: Amphi 6 puis 1A222, 1A226

Lien ZOOM

2. Intro Apache Cassandra + TP Replication

Slides.html

Slides.pdf

TP.html

(!) Pour les tps Cassandra/Spark/Neo4j vous avez besoin d’un PC avec 4GB de RAM et 4GB d’espace disque disponible. VirtualBox et un client SSH (openSSH, putty) doivent etre préalablement installes.

1. Téléchargez la VM

2. Importez cette VM dans votre VirtualBox

3. Lancez la VM. Si vous avez une adresse IP affichée dans le terminal de la VM l’installation c’est bien passée.

10/11/2021 13h30: Amphi 7 puis 1A222, 1A226

Lien ZOOM

1. RDBMs at scale & NoSQL

html

pdf

TP1-corrections

(!) Pour les tps vous avez besoin d’un PC/MAC moderne avec au moins 8GB de RAM et 8GB d’espace disque disponible.

Pour gagner du temps lors des seances de TP merci d’installer installer l’environnement du TP1 en suivant : ce guide

* Why SQL is beating NoSQL, and what this means for the future of data

* The Rise of the Data Engineer

* The Downfall of the Data Engineer

* Functional data engineering

* Dbt refactoring legacy SQL to Dbt SQL