Date

Slides

Pré-requis

Lectures

18/12/2022

8. Rex Data@LesFurets + DBT

Slides.pdf

TP.pdf

customers_original.sql

13/12/2023 13h30-16h45

7. Presentation projet / Exemple de sujet GDELT + approche

Projet organisation

Presentation projet example: GDELT

Gdelt ETL Zeppelin notebook

Gdelt Exploration Zeppelin notebook

1. Lisez l’enonce du projet et commencer a reflechir a un sujet qui vous tiennent a coeur.

2. Former des groupes pour le projet (4 personnes) et envoyer par email (tp-bigdata@lesfurets.com) la composition de chaque equippe (1 email / equippe).

2. Commencez a vous familiariser avec vos donnees ou le jeu de donnees GDELT:

* les events (CAMEO Ontology, documentation)

* les mentions (documentation)

* le graph des conaissances ⇒ GKG, Global Knowledge Graph ( documentation)

GDELT + BigQuery: Short video

Adventures in Sourcing the Global Database of Events, Language and Tone (GDELT) Data

05/12/2023

6. Neo4J

Neo4j-Cours.pdf Neo4j-TP.pdf Neo4j-TP-Correction.pdf neo4j_movies_database.txt

22/11/2023 13h30: 1A226

3. Apache Cassandra data modeling

Slides.html

TP3_Cassandra_model_exercices.html

Jepsen Test: Consistency framework

SoftwareMill: 7 Cassandra mistakes

17/11/2023 8h30: 1A201

2. Intro Apache Cassandra + TP Replication

Slides.html

TP2_Cassandra_cluster_exercices.html

15/11/2023 13h30: 1A201

1. RDBMs at scale & NoSQL

html

(!) Pour les tps vous avez besoin d’un PC/MAC moderne avec au moins 8GB de RAM et 8GB d’espace disque disponible.

Pour gagner du temps lors des seances de TP merci d’installer les programes suivants:

- Git

- DockerEngine

- DockerCompose

- OpenSSH

* Why SQL is beating NoSQL, and what this means for the future of data

* The Rise of the Data Engineer

* The Downfall of the Data Engineer

* Functional data engineering

* Dbt refactoring legacy SQL to Dbt SQL