Portfolio data analyst GitHub : guide complet pour décrocher des entretiens
Un portfolio data analyst GitHub efficace contient 3 à 5 projets déployés avec des READMEs qui répondent en 10 secondes à "quel problème tu résous, avec quelles données, avec quel résultat". 95% des profils GitHub ne génèrent aucune opportunité — parce qu'ils montrent du code, pas de la valeur.
Voici comment construire le 5% restant.
Pourquoi GitHub est devenu indispensable
64% des managers techniques consultent le GitHub d'un candidat avant ou pendant le processus de recrutement. Pas pour lire le code ligne par ligne — pour évaluer en 30 secondes si le profil est sérieux.
Ce qu'ils cherchent :
- Des projets sur des données réelles (pas des datasets Titanic ou Iris)
- Des READMEs qui racontent une histoire
- Des commits réguliers qui montrent une pratique continue
- Du code propre, documenté, versionné correctement
Ce qui les fait fermer l'onglet immédiatement :
- Un seul notebook Jupyter avec des cellules non exécutées
- "Exercices cours Python" comme description de projet
- Aucun README, ou un README vide
- 0 commit depuis 8 mois
La règle des 10 secondes
Un recruteur ou manager qui tombe sur votre profil GitHub a 10 secondes d'attention. Votre README doit répondre à 3 questions dans ce délai :
- Quel problème vous avez résolu (pas "analyse des ventes", mais "identifier les produits en déclin avant qu'ils impactent le CA")
- Avec quelles données (source, volume, période)
- Quel résultat concret (dashboard déployé, insight actionnable, automatisation qui fait gagner X heures)
Template README minimal qui fonctionne :
# Analyse du churn client — Telecom
Identification des clients à risque de désabonnement sur 12 mois de données
(70 000 contrats, 4 sources de données fusionnées).
**Résultat** : dashboard Streamlit déployé → équipe CRM réduit son taux de churn
de 2,3% en ciblant les 500 comptes prioritaires chaque semaine.
## Stack
- DuckDB + SQL analytique pour l'extraction et les agrégations
- Polars pour le nettoyage et les transformations
- Streamlit pour le dashboard (déployé sur Railway)
## Lancer le projet
...
Besoin d'un README professionnel pour votre projet data ? Le générateur README GitHub data analyst crée un README complet + 5 questions d'entretien personnalisées à partir de vos données projet.
Les 5 types de projets qui impressionnent les recruteurs
1. Dashboard Streamlit déployé (incontournable)
Un dashboard accessible via une URL publique prouve que vous savez mettre du code en production. C'est le projet le plus différenciant pour un DA.
Ce qu'il doit montrer :
- Des données réelles ou réalistes
- Des filtres interactifs (date, segment, région)
- Des KPIs calculés, pas juste des tableaux
- Un déploiement fonctionnel (Railway, Render, Streamlit Cloud)
2. Analyse SQL avancée sur un dataset public
Une requête bien construite avec des window functions vaut plus qu'un notebook de 200 cellules non commentées. Publiez un fichier .sql ou un Jupyter notebook structuré avec :
- La question métier explicite en titre
- Les requêtes commentées (seulement les parties non-obvies)
- Les résultats présentés sous forme de tableau ou graphique
Datasets recommandés : NYC Taxi (volume), Stack Overflow Survey (analyse RH/tech), données open data INSEE (économie française).
3. Pipeline de données automatisé
Un script Python qui lit des données, les nettoie, les transforme et produit un output (fichier CSV, base DuckDB, email automatique) montre vos compétences en engineering léger.
Structure idéale :
pipeline-ventes/
├── data/raw/ # données brutes
├── data/processed/ # données transformées
├── src/
│ ├── extract.py # lecture sources
│ ├── transform.py # nettoyage + transformation
│ └── load.py # écriture output
├── tests/ # tests basiques
└── README.md
4. Analyse exploratoire sur une question originale
Pas "analyse du Titanic" — une question que vous vous êtes posé et à laquelle vous avez répondu avec des données publiques :
- "Quels quartiers de Paris ont eu la plus forte hausse de prix Airbnb entre 2022 et 2024 ?"
- "Les offres data analyst sur LinkedIn exigent-elles vraiment Python ?"
- "Quelle corrélation entre météo et fréquentation des musées à Paris ?"
L'originalité de la question compense largement la complexité technique.
5. Reproduction d'une analyse métier réelle
Prenez un cas concret de votre ancien métier (finance, marketing, RH) et reproduisez-le avec des données publiques similaires. Un DA venant de la finance qui analyse des données boursières avec SQL + Python raconte une histoire cohérente.
Les erreurs qui tuent un portfolio
Erreur #1 : Trop de projets, aucun terminé
15 projets avec des READMEs vides valent moins qu'un seul projet soigné et déployé. Règle : terminer avant de commencer le suivant.
Erreur #2 : Des notebooks non exécutés
Un notebook avec des cellules vides ou des erreurs en sortie envoie le signal "je n'ai pas relu mon propre travail". Toujours exécuter de haut en bas avant de pusher.
Erreur #3 : Cacher les données derrière des "données confidentielles"
Si vous ne pouvez pas publier les données réelles, utilisez des données publiques similaires ou un échantillon anonymisé. Un projet sans données accessibles ne peut pas être évalué.
Erreur #4 : Un commit unique "initial commit"
Des commits réguliers montrent comment vous avez progressé. Des messages comme feat: add SQL query for retention cohort montrent que vous avez des bonnes pratiques de versioning.
Erreur #5 : Aucun projet déployé
Tout ce qui tourne en local uniquement est invisible pour le recruteur. Streamlit Cloud, Railway, Render — il existe des solutions gratuites pour déployer un dashboard en 15 minutes.
Structure recommandée du profil GitHub
README de profil (fichier README.md dans votre repo username/username) :
- Titre clair : "Data Analyst — SQL, Python, Streamlit"
- 2–3 lignes sur votre profil et ce que vous construisez
- Lien vers votre projet principal (le dashboard déployé)
- Stack : les 4–5 technologies maîtrisées
Organisation des repos :
- Épinglez vos 6 meilleurs projets en haut du profil
- Archivez ou masquez les projets de cours ou les exercices non terminés
- Nommez les repos clairement :
analyse-churn-telecomplutôt queprojet-final-python
La checklist avant de postuler
- 3 projets minimum avec READMEs complets
- 1 projet déployé avec URL publique
- README de profil GitHub mis à jour
- 0 notebook avec cellules non exécutées
- Commits réguliers sur les 3 derniers mois
- Stack visible en haut de chaque README
Pour une checklist complète et des templates READMEs prêts à l'emploi : formation Portfolio Data Analyst — 9 modules, 72 parties, 15 projets guidés avec structure GitHub et templates.
Combien de projets faut-il ?
Pour un premier poste : 3 projets solides valent mieux que 10 projets incomplets. L'objectif n'est pas la quantité mais la qualité et la diversité (un projet SQL, un projet Python, un projet visualisation).
Pour un poste confirmé : 4 à 6 projets avec au moins 2 déployés en production. La progression doit être visible : du projet simple au projet complexe.
Pas d'idées de projets ? Les 15 blueprints projets data donnent une problématique métier chiffrée, un dataset public gratuit et la stack recommandée pour chaque profil (DA, DS, DE).
FAQ : portfolio data analyst GitHub
Faut-il un GitHub pour être data analyst ?
Pas obligatoire — mais fortement recommandé. Les candidats avec un GitHub actif passent plus souvent le premier filtre RH. En reconversion, c'est souvent le seul moyen de compenser l'absence d'expérience DA directe.
Quels projets mettre dans un portfolio data analyst débutant ?
Un projet d'analyse exploratoire sur des données publiques (open data, Kaggle), un projet SQL avec des window functions commentées, et idéalement un dashboard Streamlit déployé. La simplicité et la finition priment sur la complexité.
Les notebooks Jupyter comptent-ils dans un portfolio ?
Oui, s'ils sont propres : markdown entre les cellules, cellules exécutées dans l'ordre, graphiques affichés. Un notebook désordonné fait pire impression qu'un simple script Python bien commenté.
Doit-on coder en anglais sur GitHub ?
L'anglais est recommandé pour maximiser la lisibilité internationale, mais le français fonctionne parfaitement pour les postes en France. L'essentiel : être cohérent (tout en français ou tout en anglais dans un même projet).
Comment montrer des projets professionnels sans violer la confidentialité ?
Anonymisez les données (noms fictifs, valeurs multipliées par un facteur constant) et réécrivez le contexte avec un secteur fictif similaire. L'analyse et le code restent votre propriété intellectuelle — seules les données client sont confidentielles.

Approfondir avec mon livre
"Business Intelligence avec Python" - Le guide complet pour maîtriser l'analyse de données
Voir sur Amazon →