Je lis, je lis et je lirai encore…

J’ai fini une version préliminaire écrite à 95% du script du documentaire ! Ça avance bien, et je suis assez content du résultat. Le plus fou – ah oui parce que comme ça s’appelle la folie des maths du big data, je vais souvent me mettre à dire que ces maths sont folles ! – c’est tout ce que j’ai appris depuis bientôt un mois. Spoiler alert : Les mathématiques du Big Data, elles sont juste… folles !

J’ai en gros lu le premier bouquin de 400 pages de ma liste de lecture, qui a le bon goût de poser le problème du machine learning dans un cadre très général et très abstrait, et liste les grandes idées pour lutter notamment contre le surapprentissage et le théorème du « No-Free-Lunch ». Toutefois, je trouve le cadre très général pas toujours adapté au « vrai » problème du machine learning, et j’ai tendance à penser que le théorème du « No-Free-Lunch » est une trivialité mise sur un piédestal… En revanche, des idées comme la régularisation, le boosting, ou le kernel trick me paraissent juste trop cools !

J’ai commencé aussi le livre sur le differential privacy. C’est vraiment excellent je trouve. Il s’agit en gros d’une théorie sur ce que l’on peut apprendre d’une population en s’interdisant de trop en apprendre sur les individus de la population. L’exemple iconique est celui donné par l’excellent James Grime à travers le « sondage randomisé » :

J’ai un peu de mal toutefois en ce moment avec ce bouquin, dont les mathématiques sont vachement techniques. Mais si je bloque sur celui-ci, c’est surtout parce que je suis en train de dévorer à pleines dents un bouquin en cours d’écriture sur le deep learning. Je n’ai pas encore lu un quart de ce que je veux avoir lu, mais j’ai déjà appris tellement de trucs qui pourraient devenir cruciaux dans la décennie à venir !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *