A propos de moi

Scientifique de formation (Doctorat en biologie), avec 10 ans d'expérience en analyse des données dans le domaine de la recherche en écologie, je possède des compétences en statistiques, programmation et machine learning. Curieux et ouvert d'esprit, j'aime travailler sur des problématiques variées et des projets innovants.

Compétences

Analyse de données:
• Traitement des données: Manipulation (sélection, fusion, agrégation), formatage (standardisation, transformation, encodage)
• Statistiques descriptives: Distributions, réduction de dimension (ACP, ACM, NMDS...), indicateurs
• Statistiques inférentielles: GLM, permutations, inférence bayésienne
• Clustering: Classification hiérarchique, partition (k-Means, noise clustering...)
• Machine learning: SVM, Random Forest, Gradient Boosting, réseau de neurones
• Analyse de texte (NLP/TAL): LDA, word embedding

Programmation:
• R (vegan, caret, ade4, ggplot2)
• Python (Scikit-learn, pandas, numpy, keras)
• SQL
• Git

Communication:
• Rédaction scientifique: articles, rapports
• Présentation: enseignement, conférences
• Anglais (professionnel)

Expérience Professionnelle

Etudiant OpenClassrooms

mars 2018 – févr. 2019
Parcours diplômant de Data Scientist nécessitant la réalisation de projet de machine learning:
• Analyse exploratoire de données nutritionnelles: description, visualisation
• Moteur de recommandations de films: Réductions de dimensions, distances, Nearest Neighbors
• prévision du retard des avions: régression linéaire multiple, SVM, validation croisée, pipelines
• Segmentation de clients: clustering (non supervisé) et classification supervisée
• Catégorisation automatique de questions: Natural Language Processing, LDA
• Classification d’images: CNN, deep learning, transfer learning
Environnement technique: Python

Chercheur contractuel | Ecobio, CNRS Rennes

2014-2017 (36 mois); 2009 (8 mois)
• Réalisation d'une cartographie par satellite des prairies du marais Poitevin: Réduction de dimensions (ACP, co-inertie), clustering (segmentation) des prairies par k-means probabiliste (fuzzy c-means), classification supervisée sur données satellitaires, perfomances comparées SVM et RandomForest, Evaluation par matrice de confusion floue.
• Modélisation par équation structurelle (SEM) à variables latentes pour prédire les propriétés des écosystèmes: Hypothèses de distributions conditionnelles des propriétés associées aux individus et des individus associés aux groupes, ajustement du modèle par MCMC, validation par simulations.
• Analyse de similarité de patrons spatiaux: Corrélogrammes, test statistiques par permutation
• Tests d'hypothèses: Conception de protocoles expérimentaux, collecte et analyse des données.
Environnement technique: R

Chercheur contractuel | URH, INRA Clermont-Ferrand

2011-13 (14 mois), 2009-10 (1 an), 2007-08 (14 mois)
• Validation d’indicateurs de biodiversité: collecte et fusion de données, standardisation de métriques, validation par analyse rétrospective
• Prévision de la maturité des fourrages: Définition d'un score numérique de maturité, Analyse de la distribution du score au sein de la population, discrimination (segmentation) de sous-populations, régression linéaire des scores selon la température.
• Modélisation spatiale des zones broutées des prairies: Hypothèse de distribution des hauteurs selon les catégories (mélange de gaussiennes) et les valeurs des voisins (semi-variogrammes), définition d'un modèle hiérarchique booléen, ajustement aux données par approche bayésienne (MCMC), validation statistique par simulation.
• Typologie de prairies: Analyse de la composition en espèces et de leurs propriétés physico-chimiques (ACP), recherche de correspondances (co-inertie), Segmentation en types de prairies (clustering de l'espace de co-inertie)
• Tests statistiques adaptés aux petits jeux de données (comportement animal): permutations.
• Analyse exploratoire, automatisation et visualisation pour rapports et articles
Environnement technique: R

Formation

Formation de Data Scientist | OpenClassrooms / Centrale Supélec.

Mars 2018 – Février 2019
Formation à temps plein. Parcours diplômant de Data Scientist incluant notamment les modules:
- Explorez vos données avec des algorithmes non supervisés
- Evaluez et améliorez les performances d'un modèle de machine learning
- Entrainez un modèle prédictif linéaire
- Utilisez des modèles supervisés non linéaires
- Modélisez vos données avec les méthodes ensemblistes
- Analysez vos données textuelles
- Classez et segmentez des données visuelles

Doctorat en biologie / écologie | Université Rennes 1

2006
Thèse: "Hétérogénéité de la végétation et du pâturage: conséquences fonctionnelles en prairie naturelle"
Je me suis intéressé aux interactions entre herbivores, plantes et sol, en particulier les mécanismes par lesquels des modifications locales de la végétation sous l'effet du pâturage affectent les processus du cycle de l'azote d'une prarie.