• On ne s'improvise pas data scientist.

    Après, si ça vous chante de confier l'analyse et l'exploitation de vos données à des stagiaires, ce n'est pas mon problème.

    Mon but n'est pas de jeter des objets métalliques au visage des gens. Mais si on pouvait arrêter de raconter n'importe quoi sur la #data, le machine learning etc ...

  • Soyons sérieux. Juste 30s.

    #BigData, #IoT, #SmartData ...

    GAFA mis à part:

    #1 : personne ne sait trop où ça va,
    #2 : c'est 90% de communication,

    #3 : ... et 10% de n'importe quoi

    Donc forcément, être l'artisan d'un truc technique du futur digital, auquel personne ne comprend rien, c'est hype et fun. Tous les grands comptes font semblant de s'y mettre. Obligé. Au final, on a juste une bande de gars qui ont peur de se faire uberiser / disrupter / humilier par trois gusses dans leur garage. Fin de l'histoire.

  • « On ne naît pas data scientist, on le devient»

    Après deux use cases pipotés et trois prototypes foireux, un tas de gens se sont dit que, finalement, faire tourner des algorithmes de machine learning sur des données d'entreprise, c'était à la portée du premier venu. Ou pas.


    Je vais vous aider. Dans cette histoire, le mot à retenir, c'est «scientist».

    Alexander Grothendieck, IHES (~1960, ?)

    Des maths

    À défaut de les aimer, il faut au moins les comprendre. Pomper Wikipedia ne suffira pas. Il faudra parfois vraiment modéliser les données, histoire d'en réduire la complexité.

    23rd International Obfuscated C Code Contest (2014) - vik

    Du code

    N'imaginez pas une seule seconde pouvoir échapper au code. Et oubliez à tout jamais l'idée même d'une interface graphique : les outils sérieux n'en proposent pas.

    De la #data

    La vraie data est parfois sale, peu qualifiée, pas structurée, souvent sans contexte. Il faudra l'apprivoiser et ne jamais oublier qu'à la fin, malgré tous vos efforts, c'est elle qui aura raison.

    De l'expérience

    «La connaissance s'acquiert par l'expérience, tout le reste n'est que de l'information» disait mon pote Albert.

     

    Ce n'est pas grave de se planter. Ce qui est grave, c'est de ne pas s'en rendre compte.

    Support-vector networks, Cortes, C. & Vapnik, V. Mach Learn (1995) 20: 273. doi:10.1007/BF00994018

    Des algorithmes

    D'une complexité linéaire, log-linéaire, parfois quadratique. Sinon c'est mort.

     

    Et des heuristiques pour les problèmes NP-hard.

    Des graphes

    C'est quand même plus parlant. Et sinon, on y comprend rien.

     

    Ça a même un nom : la #dataviz.

    Oui, c'est compliqué.
    Et là, je suis resté en surface, serein.

    J'aurais pu faire mon intéressant bien plus longtemps.

  • Ça vous concerne ? Évidemment !

    Décideur

    Votre entreprise bascule dans le monde de la #data, du machine learning et de l'intelligence artificielle. Bien.

    Est-ce réellement pertinent de laisser des débutants improviser sur ces sujets ?

    DSI / CTO

    Acheter de la capacité de calcul dans le cloud ou en IaaS pour faire tourner du Hadoop, du Spark, etc c'est dans l'air du temps.

     

    Et beaucoup trop coûteux dans 78% des cas.

    Recruteur

    Ne vous trompez pas de profil.
    Les juniors, même brillants, n'ont pas été formés et ont besoin d'accompagnement.

    Un utilisateur

    Marketing, business, opérationnel ...

     

    Vous ne voudriez pas perdre votre temps à travailler sur des indicateurs pourris ?

    Data scientist

    Hey, salut !

    Contacte-moi. j'ai un truc à te proposer

    Attention ! Je ne nie pas qu'il y a tout un tas de choses importantes, intéressantes et lucratives à faire avec la #data.

     

    Mais comme toujours, les gens compétents sont rares et chers.

  • Qui est ce prétentieux ?

    Un docteur en physique avec (un peu) de bouteille, 10 ans de recul sur la #data, et qui sait donc à peu près de quoi il parle.

  • On en parle ?

    Je suis tout ouïe.