Retour à la liste

Modélisation prédictive et apprentissage statistique avec R


Auteurs : TUFFERY Stéphane

TUFFERY Stéphane

Stéphane TUFFÉRY est responsable du département de data science d’un grand groupe bancaire. Il est professeur associé à l’Université de Rennes, où il enseigne la data science, le machine learning et le deep learning. Il a publié dans la même collection Data Mining et statistique décisionnelle et Big Data, machine learning et apprentissage profond, qui ont été traduits en anglais.

 


Commentaire : 

3e édition actualisée et augmentée


ISBN : 9782710811992
broché      17 x 24 cm      496 pages
Date de publication : Juin 2024



Cet ouvrage présente les principales méthodes de modélisation statistique et de machine learning, à travers le fil conducteur d’une étude de cas bancaire. Chaque méthode fait l’objet d’un rappel de cours et est accompagnée de références bibliographiques, puis est mise en œuvre avec des explications détaillées sur les calculs effectués, les interprétations des résultats, et jusqu’aux astuces de programmation permettant d’optimiser les temps de calcul. À ce sujet, une annexe est consacrée au traitement des données massives.

 

L’ouvrage commence par les méthodes de classement les plus classiques et les plus éprouvées, pour ensuite aborder les méthodes les plus récentes et les plus avancées : régression ridge, lasso, elastic net, boosting, forêts aléatoires, Extra-Trees, SVM et réseaux de neurones. Le lien est toujours fait entre la théorie et les résultats obtenus, pour montrer qu’ils illustrent bien les principes sous-jacents à ces méthodes. L’aspect pratique est aussi privilégié, avec l’objectif de permettre au lecteur une mise en œuvre rapide et efficace dans son travail concret. L’exploration et la préparation des données sont d’ailleurs décrites, ainsi que le processus de sélection des variables. Une synthèse finale récapitule les méthodes présentées et leurs points forts.

 

Entre autres nouveautés, cette troisième édition présente le gradient boosting ainsi que des techniques innovantes pour automatiser la recherche des meilleurs modèles (auto-machine learning) et expliquer leurs prédictions individuelles, souci d’explicabilité qui s’est développé avec l’avènement des modèles complexes « boîtes noires ».

 

La mise en œuvre s’appuie sur le logiciel libre R et sur un jeu de données public. Ce dernier peut être téléchargé sur Internet et présente l’intérêt d’être représentatif et de permettre des comparaisons grâce aux nombreuses publications dans lesquelles il est cité. Quant au logiciel R, s’il est devenu la lingua franca de la statistique et un logiciel très répandu dans le monde universitaire, il a aussi conquis le monde de l’entreprise. Outre qu’il est disponible pour tous, dans tous les environnements, il est aussi le plus complet statistiquement et il permet de mettre en œuvre toutes les méthodes présentées dans cet ouvrage. Enfin, son langage de programmation particulièrement élégant et adapté au calcul mathématique permet de se concentrer sur les aspects statistiques dans le codage. R permet d’arriver directement à l’essentiel et de mieux assimiler les méthodes exposées dans l’ouvrage.

 

Le Code R utilisé dans l’ouvrage est disponible sur cette page dans la partie "Bonus/lire".


Table des matières :


Présentation du jeu de données. Préparation des données. Exploration des données. Discrétisation automatique supervisée des variables continues. La régression logistique. La régression logistique ridge. La régression logistique lasso. La régression logistique PLS. L’arbre de décision CART. L’algorithme PRIM. Les forêts aléatoires. Le bagging. Les forêts aléatoires de modèles logistiques. Le boosting. Les Support Vector Machines. Les réseaux de neurones artificiels. Les nouveaux outils du machine learning. Synthèse des méthodes prédictives. Annexes. Bibliographie. Index des notions vues. Index des packages R utilisés.