Portfolio data analyst GitHub : guide complet 2025 (structure + exemples)

Un portfolio data analyst GitHub efficace contient 3 à 5 projets déployés avec des READMEs qui répondent en 10 secondes à "quel problème tu résous, avec quelles données, avec quel résultat". 95% des profils GitHub ne génèrent aucune opportunité — parce qu'ils montrent du code, pas de la valeur.

Voici comment construire le 5% restant.

Pourquoi GitHub est devenu indispensable

64% des managers techniques consultent le GitHub d'un candidat avant ou pendant le processus de recrutement. Pas pour lire le code ligne par ligne — pour évaluer en 30 secondes si le profil est sérieux.

Ce qu'ils cherchent :

Des projets sur des données réelles (pas des datasets Titanic ou Iris)
Des READMEs qui racontent une histoire
Des commits réguliers qui montrent une pratique continue
Du code propre, documenté, versionné correctement

Ce qui les fait fermer l'onglet immédiatement :

Un seul notebook Jupyter avec des cellules non exécutées
"Exercices cours Python" comme description de projet
Aucun README, ou un README vide
0 commit depuis 8 mois

La règle des 10 secondes

Un recruteur ou manager qui tombe sur votre profil GitHub a 10 secondes d'attention. Votre README doit répondre à 3 questions dans ce délai :

Quel problème vous avez résolu (pas "analyse des ventes", mais "identifier les produits en déclin avant qu'ils impactent le CA")
Avec quelles données (source, volume, période)
Quel résultat concret (dashboard déployé, insight actionnable, automatisation qui fait gagner X heures)

Template README minimal qui fonctionne :

# Analyse du churn client — Telecom

Identification des clients à risque de désabonnement sur 12 mois de données
(70 000 contrats, 4 sources de données fusionnées).

**Résultat** : dashboard Streamlit déployé → équipe CRM réduit son taux de churn
de 2,3% en ciblant les 500 comptes prioritaires chaque semaine.

## Stack

- DuckDB + SQL analytique pour l'extraction et les agrégations
- Polars pour le nettoyage et les transformations
- Streamlit pour le dashboard (déployé sur Railway)

## Lancer le projet

...

Besoin d'un README professionnel pour votre projet data ? Le générateur README GitHub data analyst crée un README complet + 5 questions d'entretien personnalisées à partir de vos données projet.

Les 5 types de projets qui impressionnent les recruteurs

1. Dashboard Streamlit déployé (incontournable)

Un dashboard accessible via une URL publique prouve que vous savez mettre du code en production. C'est le projet le plus différenciant pour un DA.

Ce qu'il doit montrer :

Des données réelles ou réalistes
Des filtres interactifs (date, segment, région)
Des KPIs calculés, pas juste des tableaux
Un déploiement fonctionnel (Railway, Render, Streamlit Cloud)

2. Analyse SQL avancée sur un dataset public

Une requête bien construite avec des window functions vaut plus qu'un notebook de 200 cellules non commentées. Publiez un fichier .sql ou un Jupyter notebook structuré avec :

La question métier explicite en titre
Les requêtes commentées (seulement les parties non-obvies)
Les résultats présentés sous forme de tableau ou graphique

Datasets recommandés : NYC Taxi (volume), Stack Overflow Survey (analyse RH/tech), données open data INSEE (économie française).

3. Pipeline de données automatisé

Un script Python qui lit des données, les nettoie, les transforme et produit un output (fichier CSV, base DuckDB, email automatique) montre vos compétences en engineering léger.

Structure idéale :

pipeline-ventes/
├── data/raw/          # données brutes
├── data/processed/    # données transformées
├── src/
│   ├── extract.py     # lecture sources
│   ├── transform.py   # nettoyage + transformation
│   └── load.py        # écriture output
├── tests/             # tests basiques
└── README.md

4. Analyse exploratoire sur une question originale

Pas "analyse du Titanic" — une question que vous vous êtes posé et à laquelle vous avez répondu avec des données publiques :

"Quels quartiers de Paris ont eu la plus forte hausse de prix Airbnb entre 2022 et 2024 ?"
"Les offres data analyst sur LinkedIn exigent-elles vraiment Python ?"
"Quelle corrélation entre météo et fréquentation des musées à Paris ?"

L'originalité de la question compense largement la complexité technique.

5. Reproduction d'une analyse métier réelle

Prenez un cas concret de votre ancien métier (finance, marketing, RH) et reproduisez-le avec des données publiques similaires. Un DA venant de la finance qui analyse des données boursières avec SQL + Python raconte une histoire cohérente.

Les erreurs qui tuent un portfolio

Erreur #1 : Trop de projets, aucun terminé

15 projets avec des READMEs vides valent moins qu'un seul projet soigné et déployé. Règle : terminer avant de commencer le suivant.

Erreur #2 : Des notebooks non exécutés

Un notebook avec des cellules vides ou des erreurs en sortie envoie le signal "je n'ai pas relu mon propre travail". Toujours exécuter de haut en bas avant de pusher.

Erreur #3 : Cacher les données derrière des "données confidentielles"

Si vous ne pouvez pas publier les données réelles, utilisez des données publiques similaires ou un échantillon anonymisé. Un projet sans données accessibles ne peut pas être évalué.

Erreur #4 : Un commit unique "initial commit"

Des commits réguliers montrent comment vous avez progressé. Des messages comme feat: add SQL query for retention cohort montrent que vous avez des bonnes pratiques de versioning.

Erreur #5 : Aucun projet déployé

Tout ce qui tourne en local uniquement est invisible pour le recruteur. Streamlit Cloud, Railway, Render — il existe des solutions gratuites pour déployer un dashboard en 15 minutes.

Structure recommandée du profil GitHub

README de profil (fichier README.md dans votre repo username/username) :

Titre clair : "Data Analyst — SQL, Python, Streamlit"
2–3 lignes sur votre profil et ce que vous construisez
Lien vers votre projet principal (le dashboard déployé)
Stack : les 4–5 technologies maîtrisées

Organisation des repos :

Épinglez vos 6 meilleurs projets en haut du profil
Archivez ou masquez les projets de cours ou les exercices non terminés
Nommez les repos clairement : analyse-churn-telecom plutôt que projet-final-python

La checklist avant de postuler

3 projets minimum avec READMEs complets
1 projet déployé avec URL publique
README de profil GitHub mis à jour
0 notebook avec cellules non exécutées
Commits réguliers sur les 3 derniers mois
Stack visible en haut de chaque README

Pour une checklist complète et des templates READMEs prêts à l'emploi : formation Portfolio Data Analyst — 9 modules, 72 parties, 15 projets guidés avec structure GitHub et templates.

Combien de projets faut-il ?

Pour un premier poste : 3 projets solides valent mieux que 10 projets incomplets. L'objectif n'est pas la quantité mais la qualité et la diversité (un projet SQL, un projet Python, un projet visualisation).

Pour un poste confirmé : 4 à 6 projets avec au moins 2 déployés en production. La progression doit être visible : du projet simple au projet complexe.

Pas d'idées de projets ? Les 15 blueprints projets data donnent une problématique métier chiffrée, un dataset public gratuit et la stack recommandée pour chaque profil (DA, DS, DE).

FAQ : portfolio data analyst GitHub

Faut-il un GitHub pour être data analyst ?

Pas obligatoire — mais fortement recommandé. Les candidats avec un GitHub actif passent plus souvent le premier filtre RH. En reconversion, c'est souvent le seul moyen de compenser l'absence d'expérience DA directe.

Quels projets mettre dans un portfolio data analyst débutant ?

Un projet d'analyse exploratoire sur des données publiques (open data, Kaggle), un projet SQL avec des window functions commentées, et idéalement un dashboard Streamlit déployé. La simplicité et la finition priment sur la complexité.

Les notebooks Jupyter comptent-ils dans un portfolio ?

Oui, s'ils sont propres : markdown entre les cellules, cellules exécutées dans l'ordre, graphiques affichés. Un notebook désordonné fait pire impression qu'un simple script Python bien commenté.

Doit-on coder en anglais sur GitHub ?

L'anglais est recommandé pour maximiser la lisibilité internationale, mais le français fonctionne parfaitement pour les postes en France. L'essentiel : être cohérent (tout en français ou tout en anglais dans un même projet).

Comment montrer des projets professionnels sans violer la confidentialité ?

Anonymisez les données (noms fictifs, valeurs multipliées par un facteur constant) et réécrivez le contexte avec un secteur fictif similaire. L'analyse et le code restent votre propriété intellectuelle — seules les données client sont confidentielles.

Portfolio data analyst GitHub : guide complet pour décrocher des entretiens