IA pas que la Data - Reprendre le contrôle sur tout ce qui se dit autour de l’intelligence artificielle | #14 - Quand le déterminisme rencontre l’IA

Dans cet épisode captivant de "IA pas que la Data", plongez dans l'univers de l'IA déterministe avec Rémi Louf, co-fondateur de .txt. 🎙️

Découvrez comment Outlines, la librairie open source développée par .txt, révolutionne l'utilisation des modèles de langage (LLM) en garantissant des sorties structurées et fiables. Rémi partage son parcours atypique et raconte comment son équipe a relevé le défi d'améliorer la précision des LLM face à des solutions comme GPT-3.5.

Vous apprendrez :

Comment Outlines résout les problèmes de fiabilité des LLM dans des environnements critiques.
Pourquoi les grandes entreprises comme OpenAI adoptent désormais des solutions similaires.
Les enjeux de l’open source dans le domaine de l’IA et les dilemmes commerciaux qui en découlent.
Comment le métier de développeur va évoluer à l'ère des assistants IA.

Entre techniques, perspectives business et avenir du développement, cet échange est très riche en insights. Ne manquez pas cette discussion inspirante !

(00:00) - Introduction et présentation
(01:14) - Parcours de Rémi Louf
(03:15) - Naissance de Dot .TXT et de la librairie Outlines
(05:27) - Optimisation des LLM (Modèles de langage)
(08:42) - Explosion des outils IA et approche minimaliste d’Outlines
(12:12) - Du stochastique au déterminisme dans les LLM
(14:34) - Évolution rapide des solutions IA (2023-2024)
(19:02) - Open source et commercialisation des solutions IA
(24:04) - Biais dans l’IA et questions éthiques
(30:12) - Impact des assistants IA sur les développeurs
(38:56) - Le futur de Dot .TXT et de l’IA dans 10 ans
(51:00) - Conclusion et remerciements

Ce podcast est produit par Flint, une ESN Tech, Data et IA. Les flinters, des expert(e)s reconnu(e)s, accompagnent nos clients dans la réalisation de leurs défis technologiques et dans l’adoption de l’IA (niveau équipe et CODIR).
Toutes les informations sur flint.sh

Créateurs et invités

Hôte

Pierre Vannier

Fondateur et PDG Flint, Dev Backend / IA, agitateur Tech ✨

Hôte

Thomas Meimoun

Machine Learning Engineer / Data Scientist

Invité

Rémi Louf

Cofounder and CEO @ .txt

Qu'est-ce que IA pas que la Data - Reprendre le contrôle sur tout ce qui se dit autour de l’intelligence artificielle ?

Reprendre le contrôle sur tout ce qui se dit autour de l’intelligence artificielle, voilà pourquoi nous avons créé ce podcast IA pas que la Data !

Tous les mois, nous aurons le plaisir d’accueillir des experts de l’IA, de la data et de la tech, qui nous partageront leur opinion et regard critique sur cette révolution.

Technophiles, ce podcast vous apportera un éclairage sur ce qui se cache derrière l’IA et vous permettra de prendre de la hauteur sur ce que l’on entend quotidiennement.

#IA #GenAI

Thomas (00:00)
nom l 'ouf le nom de famille tu es co -fondateur de dot .txt et à l 'intérieur de dot .txt

Remi (00:01)
C 'est bien ça.

Ouais, enfin dot .txt, peux appeler ça point texte. Ouais, appelle ça, point texte. Ouais, point texte c pas mal.

Thomas (00:11)
préfères quoi ? Point text. Et à l 'intérieur de point text, 'est une librairie, outlines ou... ok donc librairie.

Remi (00:19)
qui s 'appelle Outlines.

Pierre Vannier (00:26)
vais faire un clap comme ça notre monteur il pourra avoir le truc 5 4 3 2 1 clap

Thomas (00:33)
Bonjour à tous et bienvenue dans ce nouvel épisode de Yappa Cloud Data. C 'est le deuxième épisode de la saison 2. Je me retrouve toujours en compagnie de Pierre Vanier, qui CEO de Flint, et moi Thomas Maïmoune, Data Scientist. Aujourd 'hui, on aura le plaisir d 'avoir avec nous Rémi Louf. Rémi Louf, s 'est rencontré pendant la conférence qu 'on a fait à San Francisco, le AI Engineer World's Fair. C 'est un vrai plaisir parce que Rémi a fait une présentation sur son entreprise, dont il est le confondateur .txt.

et qui possède en plus une hybride qui s 'appelle Outlines dans laquelle on va avoir quelques discussions pendant l 'échange. Bonjour Rémi, salut Pierre.

Remi (01:13)
Thomas, salut Pierre, merci d invité.

Pierre Vannier (01:14)
Salut à tous ! Avec plaisir.

Thomas (01:19)
On va commencer bien sûr tranquillement. Chloé, tu peux peut -être te présenter.

Remi (01:24)
Oui, du coup, 'appelle Rémi, j 'ai un background, je pense, un peu bizarre dans le sens où j 'ai fait de la physique théorique à la base. Ensuite, je suis parti en sociologie et géographie et progression naturelle, je suis allé bosser pour une application mobile. C 'était une startup, 'étais le cinquième employé, c 'était pour faire de l 'analytique à la base. Mais j 'ai fini par faire pas mal de produits, du coup, c 'était assez cool.

Ensuite, me suis dit de voir les grands groupes, voir ce qui se passe. Je 'ai pas nommé la boîte, mais je suis allé bosser dans une grande boîte. J 'ai tenu six mois à peu près. J 'ai fini le projet, j fini le premier projet, je suis parti. Là, j 'ai bossé un tout petit peu chez Le Ging Face. Ensuite, j 'ai bossé, j 'aurais dû rester derrière. Ensuite, j 'ai bossé à mon compte. Je me suis spécialisé dans un truc vraiment pas sexy en statistique, les stades baïsiennes.

Et là j 'ai un peu fait mon trou, j 'ai développé une librairie qui s 'appelle BlackJax, qui s 'occupe que d 'une chose en statistique baysienne, 'est l 'échantillonnage des distributions, c 'est vraiment la partie complexe. Et à partir de là, ça 'a ramené pas mal de boulot, j 'ai bossé en finance quantique, je fais de l 'analyse de risque. après, alors j 'ai fait plein de petits trucs à droite à gauche, et puis il a quatre ans, donc Dan qui est un de mes co -fondateurs, 'a contacté en disant

ou alors je bosse dans un domaine qui n vraiment pas sexy, on fait des stades parisiennes, en plus il a Brandon qui est mon deuxième cofondateur et qui avait un peu une réputation dans le domaine, et j fait OK, je ai rejoints, et voilà, en reste quatre ans de collaboration jusqu 'à aujourd 'hui.

Thomas (03:15)
C 'est un plaisir de t 'avoir avec nous aujourd 'hui. Donc on s 'est rencontrés pendant le meet -up à conférence à San Francisco. Tu as pu avoir un talk où tu as présenté Point .TXT. Est que peut -être tu peux nous en dire un peu plus ?

Remi (03:31)
Bien sûr. L 'idée de la boîte est partie d 'un site project qu 'on avait avec Brandon. On bossait dans une boîte qui devait extraire des informations de millions de documents. 'époque on utilisait GPT 3 .5. en fait, 'est rapidement rendu compte que cette échelle -là, ne marchait pas. On avait 30 % d 'erreur. Les bons champs ne nous renvoyaient pas les bonnes informations, etc.

On s dit en fait que inapplicable. Et on a regardé côté open source à l 'époque, ce qui exitait, c 'était Jason Fulmer et Guidance à 'époque de Microsoft. Et on s 'est aperçu très rapidement que c 'était ultra lent. Et du coup c 'était inutilisable aussi. Et on a bossé sur comment rendre ça très rapide, ce qu 'on a réussi à faire. À partir de là, on a posté ça en open source, le truc a explosé. Et à partir de ce moment -là, on a eu pas mal de boîtes, je serais une vingtaine en un mois.

qui nous ont contacté, qui nous demandé comment on pouvait intégrer ça dans leur backend. Et c 'est de là qu 'est née la boîte. Et ce qu 'on d 'y assez succinctement, c qu 'on rend les LN déterministes, on rajoute du déterminisme dans leur sortie. C 'est que si tu leur demandes, aujourd 'hui c 'est un peu mieux parce qu 'il des gens qui ont intégré notre méthode, mais si tu leur demandes de sortir de la donnée sous un certain format, t 'es pas garanti de l 'avoir.

nous on rajoute du déterminisme là dedans. Ce qui est très très important, principalement pour toutes les grandes boîtes qui aujourd 'hui font des POC avec OpenAI etc. et qui ont besoin d 'intégrer ces modèles dans des systèmes informatiques existants et qui donc ont besoin d 'une interface robuste entre le LLM et le code qui existe. Et du coup c 'est ce problème là qu 'on résout aujourd 'hui. Alors il y en a plein d 'autres mais je ne pas parler pendant un quart d 'heure. Mais voilà, très simplement.

Merci à vous.

Thomas (05:27)
Je voulais juste retourner un peu dans le... C 'était il a combien de temps que vous avez commencé à mettre en place cette solution et que vous aviez tenté d 'utiliser par exemple Guidance ?

Remi (05:35)
C 'était en juin 2023.

Thomas (05:39)
Donc les choses ont beaucoup bougé déjà en un an.

Pierre Vannier (05:42)
d 'où à l 'époque en fait juste l 'année dernière. Juste pour info, 'est en fait à l 'échelle de l 'IA, c 'est un peu ça en fait, 'est à l 'époque, l 'année dernière, il a 12 mois en fait. T 'as l 'impression d 'une autre époque en fait, mais juste non, c 'était l 'année dernière. du coup, si je comprends bien, ça va me permettre de... Moi j 'avais eu l 'impression, et en fait on avait été tous les trois à avoir cette impression, je me souviens, on en a débrissé.

Remi (05:52)
C 'était une épernité, ouais.

Non.

Pierre Vannier (06:12)
à San Francisco en voyant cette profusion d 'outils, de solutions, etc. espèce de...

d 'impression que tout le monde se jetait sur toutes les problématiques en même temps et que toutes les solutions étaient toutes plus alambiquées les unes que les autres, de répondre à 50 problèmes en même temps, etc. j 'ai quand même, donc déjà à savoir si toi aussi tu avais cette impression là et nous la confirmer. Et puis de l 'autre côté, toi finalement, vous avez pris un chemin complètement différent avec Outline, genre un outil qui fait super bien ce qu doit faire, un peu ça.

Remi (06:52)
C 'est vrai qu 'aujourd 'hui on a une explosion de librairies, je ne pas les nommer, mais qui sait vraiment faire tout, de la génération de texte à la Vector Day Base, le RAG, qui implément même des connecteurs API avec certes API, Donc un truc qui explose complètement.

Pierre Vannier (07:09)
genre la trousse à outils mais pas rangés en fait, tout en bazar en fait.

Remi (07:12)
pas arrangé et puis qui réinvente la roue. -à -dire que j 'ai pas besoin d 'un SDK mal implémenté pour serre -papiers, ça existe. Il y a des gens qui le maintiennent, etc. Ouais, c 'est ça, c 'est serre -papiers,

Pierre Vannier (07:22)
Serp, 'est les moteurs de recherche. Search engine, c 'est ça. Quand tu dois appeler un moteur de recherche pour venir augmenter les résultats et puis peut -être les filer en contexte en rags à ton LLM derrière.

Remi (07:41)
Alors je sais pas à quoi c dû. Je pense qu y a une partie qui est de la naïveté d 'une expérience dans monde du software. On en a pas mal parlé aussi parce qu 'on a eu une conf' où un mec finalement nous a réinventé le manifeste agile. C 'est assez incroyable devant tout le monde.

Pierre Vannier (07:57)
C 'était mythique, avec ses boulettes pointe, y avait quatre boulettes pointe, fait c 'était grosso modo itérés, itérations courtes, feedback, loops et en fait c 'était de la gil -co.

Remi (08:08)
Oui c 'est ça, c 'était un peu réinventé. Donc je pense qu 'il a une partie d 'inexpérience dans le monde du software. C vrai que quand tu commences à écrire des livres, moi j 'étais comme ça aussi, dans le tout -faire. Et puis je pense que tu fais cette erreur là et tu te rends compte au bout d 'un moment qu 'en à moins que t un fonds d 'investissement qui mette 20 millions derrière toi, c 'est un maintenable comme truc, c 'est impossible à maintenir. Et nous du coup, on a pris le chemin un peu inverse. 'est -dire qu 'on s 'est vraiment concentrés sur une seule chose.

la génération structurée qui est la seule chose qu 'on fait très bien. On n 'a pas à aller s 'aventurer ailleurs dans des sujets où on n

Pierre Vannier (08:42)
déjà en soi un gros sujet en fait pardonne moi de te couper qui est déjà un très gros sujet en soi quoi

Remi (08:48)
On a 10 personnes à plein temps en interne. C 'est un sujet qui n pas trivial et c 'est un très gros sujet. Mais on a décidé de se concentrer uniquement là -dessus. Et si tu veux l 'utiliser dans l 'Ingen, tu peux juste importer la livre. D 'ailleurs, tu VLM qui le fait, tu TGI de Gingface qui le fait, as pas mal de serveurs d 'inférence qui importent la librairie. qu 'on ne fait quasiment que ça. D 'ailleurs, au passage, on va...

On en reparlera je pense de la conversion de la libre, on a enlevé tout ce qui est purement générations structurées de Dark Lines et on va bientôt publier un nouveau repo qui contient réimplémentation en Rost et qui n 'importe rien en fait, aucune dépendance, donc ce sera beaucoup mieux pour les hybrid downstream. Même nous on s 'est aperçu que finalement on avait construit un monstre un peu trop gros et du coup on en enlève des parties.

Pierre Vannier (09:24)
oui.

Remi (09:47)
on enlève des parties pour que les gens puissent importer juste les parties dont ils ont besoin.

Pierre Vannier (09:56)
Et du coup, Thomas, veux prendre la suite ? Du coup, du stochastique au déterminisme ?

Thomas (10:09)
Oui bien sûr, le point c 'est de... c 'est un super gros sujet, tu en parlais un petit peu juste après l 'introduction. 'est par nature ce qui est en train de se passer actuellement avec les LLM et tout ce qui autour de ça. Il y a beaucoup de stockastil, c à dire que quand tu mets même la température à zéro, donc normalement que du déterminisme, on n 'est jamais sûr de ce que tu vas avoir en termes d 'outputs. Donc je trouve que ta libraire elle est très utile dans ce sens. Est -ce que tu peux...

Je ne pas si tu peux rentrer dans le détail, mais quel est le principe ? Comment vous faites pour vous protéger face au risque de la probabilité ?

Remi (10:51)
le meilleur moyen de gérer l 'incertitude, c de la supprimer. Et nous, on s 'intègre non pas dans le modèle. Donc, si tu veux, il a deux parties, en fait, dans un modèle. Donc, ce que font les mistrals et les compagnies de ce monde, ils entraînent la partie modèle, qui sont les poids du modèle. Et cette partie -là, quand tu lui donnes du texte, donc déjà tu le convertis en entier le texte, donc de nombre entier.

Ensuite, tu passes dans la grosse machine et que tu récupères à la fin, ce n pas un entier, c 'est une distribution de probabilité sur l 'ensemble des tokens du vocabulaire, sur l 'ensemble des éléments du vocabulaire, ce qui pourrait sortir. Et ensuite, tu une deuxième partie qui est maintenant que j cette distribution de probabilité, qu 'est que je choisis comme token ? Et nous, on se branche là -dessus. C 'est qu 'on prend la distribution de probabilité,

On regarde tous les éléments du vocabulaire et on dit que ça va violer la structure, ça va violer la structure, ça c 'est bon, ça va violer la structure, etc. Donc ça c la version simpliste qui est ultra lente. Mais c comme ça qu 'on le fait. Et du coup c comme ça que tu peux avoir une garantie que la sortie va respecter la structure. C 'est vraiment une garantie, c 'est déterministe. On a supprimé l 'aspect probabiliste.

Thomas (12:12)
Ok, c 'est hyper intéressant. Ça veut dire que vous êtes indépendant des tokenizers des entreprises type Mistral, OpenAI, Cloud, c 'est ça ?

Remi (12:24)
On peut faire ça avec n 'importe quel modèle, à partir du moment, si tu veux. C 'est ça pour chaque vocabulaire slash schéma différent. Nous, on compile un nouvel, ce qu 'on appelle un index, mais on peut le faire pour n 'importe quel vocabulaire et n 'importe quel schéma.

Thomas (12:48)
Ok, c 'est hyper intéressant et je pense que c 'est beaucoup plus compliqué que ça en alaire. Je ne pas si je pourrais assumer ça mais vous avez besoin à moment de rappeler les API de ces acteurs ou pas du tout ?

Remi (13:01)
Il faut faire attention à une chose, c qu 'on ne pas travailler avec des modèles qui sont derrière l 'Api. On est obligé d 'avoir accès à cette couche où tu choisis. Si les modèles provider nous envoyaient la distribution de probabilité, on pourrait le faire. Mais avec la latence réseau, ta performance serait horrible.

Pierre Vannier (13:13)
C 'est bien ce que je me disais, bien sûr, la couche intermédiaire en fait.

J 'aimerais rebondir là -dessus Thomas, je me permets, du coup, que moi, on a pas mal travaillé, nous, en interne sur la génération de données structurées, finalement l 'extraction de données structurées, le fait d 'être capable qu 'un LLM te retourne si possible avec un maximum de probabilités, ce que tu souhaites et dans le format que tu souhaites, c à peu près ça. Il a pas mal de librairies qui font ça, pas mal d 'outils.

outils, librairies, y a des choses qui sont simplement des wrappers, d 'autres qui patch juste, d des choses qui sont un petit peu plus avancées. puis maintenant aussi, depuis un certain temps, y a le fait que les providers eux -mêmes, que ce soit Anthropic ou OpenAI, proposent aussi eux -mêmes

Alors différents types de sortie lors LLM, y avait avant ce qu 'on appelait le mode JSON, y avait eu le function calling, maintenant il a le mode strict. Est que tu peux nous expliquer un petit peu avec des mots vulgarisants ces différentes choses pour nos auditeurs ?

Remi (14:34)
Alors on va commencer par le function coring qui est la première chose qui est apparue historiquement. Le function coring en fait c 'est un trick de prompting. 'est à dire que OpenAI a bossé à mort sur les promptes pour récupérer du gison en sortie. Donc tu lui passes le prompt, tu lui passes le schéma que tu en sortie, lui va bricoler un truc pour le mettre dans le prompt et s 'attendre que le modèle sorte du gison avec

bon format. T 'as aucune garantie. C 'est juste du prompting et il a pas mal de gens qui l 'ont vu d 'ailleurs, ça échouait quand même pas mal de fois. Le JSONMODE qui est la deuxième chose qui est apparue, enfin quoique nous on avait déjà notre méthode à l 'époque. En fait je pense que c 'est... en fait il force, il arrive à forcer la syntaxe JISON donc je pense qu 'il a des algos qui réparent le JISON cassé derrière. En revanche t 'as aucune garantie sur le fait que ça va suivre

le schéma que tu lui as donné. Absolument aucune garantie. bon du coup, t une garantie mais t 'as pas le schéma que tu veux, début t 'as une nouvelle schéma que tu veux mais t 'as pas de garantie. Et c 'est pour ça qu 'ils se sont mis à adopter ce qu 'on donc les générations structurées qui est vraiment de guider le modèle, enfin de façon active, en lui permettant pas en fait de sortir de la structure. C 'est pour ça que des...

Pierre Vannier (15:58)
Quand tu dis, ils ont commencé à faire en fait, si je comprends bien, je lis entre les lignes quand même, c que vous avez démarré à l 'époque, de le faire, genre il a un an, un peu plus d 'un an, etc. que vous aviez démarré, vous étiez sur cette piste -là et sur cette décision d 'architecture et de faire de cette manière -là et que les gros aujourd 'hui s 'y mettent, c 'est ça que tu veux dire aussi ?

Remi (16:07)
Ouais.

T 'en veux ?

Il y en a principalement trois, il y a OpenAI, Coheer et Eniscal. Ce qui est très drôle, c 'est que...

Pierre Vannier (16:37)
AnyScale, font quoi comme modèle du coup ?

Remi (16:43)
Ils font du tout, ils font de l 'open source. Ils utilisent une autre librairie open source qui s 'appelle LM Format Enforcer qui est beaucoup plus longue qu 'Huntlines. Coir, 'est marrant parce que dans leur blog post, ils n pas du tout parlé. Il fallait dire grosso modo qu 'ils avaient tout inventé. Sauf que nous, indirectement, la méthode est... y a un watermark dessus.

Pierre Vannier (16:45)
oui d 'accord. C 'est une plateforme ? 'est plus une plateforme ? D 'accord.

Remi (17:12)
On a un set de requêtes qu 'on peut faire, de requêtes qui sont sensées passer, de requêtes qui sont pas sensées passer, et on essaye ça sur Koei et tout de suite tout passe correctement. Et c là où j 'ai...

Pierre Vannier (17:21)
oui.

Genre si tu passes un certain ensemble de requêtes dans l 'ordre, tu te retrouves avec « This library is proposed by Outlines ». C 'est ça, truc comme ça quoi.

Remi (17:29)
Au revoir.

Non, c 'est des limites à qui ne pas trop en parler parce que je n 'ai pas envie que les mecs s 'amusent à tout enlever. ouais, du coup, moi, j 'ai tweeté un truc qui a été partagé pas mal de fois. Ils ont fini par un cure qui s 'est inspiré de nous dans leur blog post. Open Air, en revanche, est tombé dans le, tu sais, le non eventing here.

Pierre Vannier (17:42)
Ok.

Je vois.

Remi (18:00)
de trucs que font les grosses boîtes où ils ont du mal à s 'approprier ce que les autres ont fait parce que ce pas eux qui l 'ont fait. Ils ont fait un truc complètement différent et du coup c 'est lent. Tu vois, tu es entre 10 secondes et une minute de latence sur des trucs. Ils ont réinventé la roue pour faire un truc moins bien à la fin. Nous on est assez confiant parce que dans l 'ensemble les gens supportent. Nous, tout n 'est pas open -sourcé. Un client, n pas tout ce qu 'on a. Dans l 'ensemble...

Pour 'instant tous les providers sont beaucoup plus lents et ont moins de features. en fait ce dont ils ne rendent pas compte, pense, c qu 'ils ont lâché ce truc assez rapidement. Ils se rendent pas compte que c 'est un truc assez complexe en fait. Si tu veux bien le faire, tu as vraiment besoin d 'avoir une équipe qui est dédiée à ça. Et donc je pense qu 'ils vont se taper ce mur à un moment.

Pierre Vannier (18:50)
Oui parce que vous avez pas que des ingénieurs, avez des personnes qui sont aussi... Est -ce que vous avez un morceau de recherche, que vous avez que de l 'ingénierie ?

Remi (19:02)
On a un bon morceau de recherche. La boîte est entière, entière, entière. a entière open source, entière recherche et entière...

Pierre Vannier (19:12)
ça me permet de brancher direct sur une question importante parce que tu mentionnes l 'open source et du coup c 'est quoi la position ? Je posais deux questions finalement, la position de pointé XT, la position d 'outlines et ta position et ton avis toi et ton regard par rapport au mouvement open source. Parce qu 'il faut bien définir aussi

ce qu 'on dit être open source dans ce qu 'on appelle l 'intelligence artificielle générative aujourd 'hui puisque tu as les modèles, tu les points, tu as les algos, tu as les data d 'entraînement, il a plein plein de choses et tout le monde s 'y perd un petit peu. Toi qui es spécialiste est -ce que tu peux nous faire la lumière là -dessus ?

Remi (19:51)
Bye !

On va revenir sur les poids après, pense qu y eu du vieux. Moi je parler du software. Nous, notre position à Dotex alors on a, je crois que cumulé, on doit avoir 40 ans d 'expérience en open source. on en a vu passer des choses. Et notre position, c 'est que tout ce qu 'on open source, et on le fait avec, c vraiment réfléchi, restera Apache tool. On va pas nous faire faire un demi -tour comme des HH Core.

ont pu faire et tout passer en licence commerciale. on fait très attention à ce qu 'on montre en open source et le reste c 'est du closed source. On a pris cette décision là parce que, enfin il y a une question de... Alors déjà nous on veut... a un business derrière, il a une boîte, donc on peut pas tout lâcher dans la nature, tout cas, enfin peut -être qu 'on fera, j 'en sais rien.

Pierre Vannier (20:45)
C 'est pas une fondation, vous n 'êtes pas une association loi 1901.

Remi (20:49)
Non, Exactement, un business derrière. Du coup, pour l 'instant, tout n 'est pas open source. En revanche, moi je peux le dire aujourd 'hui, et c 'est enregistré, c 'est que tout ce qui est open source aujourd 'hui restera un sou à pas -ti -tout.

Du coup, voilà.

Pierre Vannier (21:09)
il y avait la différence entre les modèles, les datas, les points, les algos... A la différence du software, on va retourner à 'époque, mais à l 'époque un peu plus loin, la différence du software, c 'était quelque part un petit peu plus simple parce que les deux choses qu 'on avait étaient le code source,

et finalement après le logiciel en lui -même. puis ensuite sont venus les SAS, finalement l 'usufruit du logiciel et l 'utilisation du logiciel. a été finalement ces deux étapes. Et en fait avec LiA on n pas que ça. 'est à qu 'en fait on a des modèles, des data sur lesquels on s 'entraîne ou on s 'entraîne pas, des poids qui sont finalement les paramètres.

Remi (21:48)
Bonne

Pierre Vannier (22:00)
et qui donne l 'intelligence entre guillemets et parenthèses du modèle, nous définir ces différentes choses dans ce qu l 'open source.

Remi (22:08)
Pour moi, idéalement, quelque chose qui est complètement open source dans ce monde -là, c 'est de relâcher les données et le code d 'entraînement. Qui est model. Je ne pourrais pas donner d 'exemple, mais j 'ai vu quelqu 'un qui avait tout open sourcé. Il a une boîte qui a tout open sourcé. Alors, ça veut pas dire que tu vas pouvoir le tourner sur ton architecture, mais le code est là et si tu veux le faire, tu peux le faire. Du coup, pour moi, ça, c vraiment open source.

Pierre Vannier (22:19)
Il y a des gens qui font ça aujourd 'hui, a des boîtes qui font ça, qui font tout tout tout open source.

Ok.

Remi (22:36)
Je pense que Mozilla est en train de bosser là -dessus, une définition un plus laxe, pour les poids qui sont distribués sous licence MIT, etc. Tu vas pouvoir mettre un mot dessus et mettre une définition. Parce que c 'est vrai qu 'il a un côté qui est vraiment open source. Ouais, c 'est un peu flou. Quelque part tu peux l 'utiliser, il n a aucune restriction. C 'est MIT.

Pierre Vannier (22:57)
une sorte de flou quelque part là.

Remi (23:05)
Mais d 'un autre côté, sais pas... Enfin 'as pas le code derrière non plus. Donc c 'est vraiment... Je pense qu faut... Mauditia fait un travail là qui est assez important. Parce que c vrai que c assez confus, quoi. Aujourd 'hui, tout le monde parle d 'open source. Tout le monde oublie... Enfin, peu de gens ont une connaissance historique. que moi, j 'ai lu sur Twitter plusieurs fois que la GPL, c 'était pas une licence open source. 'est tout. C 'est LA licence open source à l 'origine, alors qu 'elle avait été conçue...

Pierre Vannier (23:30)
OK.

Ouais, ouais, c 'est la pierre de voûte de l 'open source.

Remi (23:38)
Exactement, mais aujourd 'hui, il faut que tu puisses profiter commercialement du software que tu trouves sur le git, sinon ce pas open source. Moi j 'ai vu des trucs hallucinants sur Pluton.

Pierre Vannier (23:48)
pour ça soit considéré comme open source. 'est ça. En fait, il pouvoir faire de la thune avec, sinon c 'est pas open source. 'est un peu que... C 'est le raccourci que font les gens, en fait.

Remi (23:56)
Sinon, pas open source. Alors que la GPL te permet de faire de la thune, c juste que tu es obligé de publier les modifs.

Pierre Vannier (24:04)
Oui bien sûr. Donc il y a beaucoup d 'approximation et de méconnaissance. Tout le monde en fait en prend un peu ça, on fait un espèce de glooby -boolga de tout ça. j 'ai envie de dire, dessus on peut aussi rajouter parce que par inférence peut -être, ou concomitamment, ou par corrélation, je n 'en sais rien, tu choisiras le terme, mais ça pose des questions derrière quand tu utilises.

ce modèle est saisi à finalement. Parce que nous derrière on a des développeurs qui nous disent, ouais mais je sais pas le code source que 'a pondu Copilot ou que pondu Sonnais ou qu 'a 'a pondu Intel ou Intel en parlant des modèles. Je sais pas finalement quelle en est la propriété intellectuelle. Parce qu 'aujourd 'hui il en a de plus en plus, on fera un parallèle tout à l mais de en plus de développeurs qui pondent une ligne et c 'est plutôt le LLM qui te pond trois lignes derrière. On est d 'accord ? Donc en fait tu vois ça pose des questions.

Remi (24:56)
notamment si tu du code JPL qui était dans

quelle est la licence que tu dois appliquer au code qui est sorti par Copilot ? y a des vraies questions.

Pierre Vannier (25:07)
potentiellement il faut le laisser ouvert en fait le code qui est produit si jamais il s 'est entraîné sur... c 'est des grosses questions ça on sait pas trop

Remi (25:13)
C 'est des grosses questions, mais tu eu des gens qui ont réussi à reproduire leurs propres codes, qui étaient dans des librairies, étaient sous licence GPL. c 'est des questions vraiment compliquées, qui ont des implications sociétales, et qui sont assez importantes. business encore plus importante, oui. De toute façon, l 'open source, c des enjeux business, principalement aujourd 'hui.

Pierre Vannier (25:27)
C 'est questionnant.

et business.

Remi (25:43)
que l 'idéal, Free Software Foundation, etc., 'a plus trop de place en open source. Ouais, c 'est ça. doit pas... Il est encore vivant, il est encore en vie. J 'hésite. J 'hésitais, ça fait ch'ti, mais il encore vivant.

Pierre Vannier (25:53)
Richard Stallman, c 'est ça ? Non, il se retourne pas dans sa tombe, Billy est pas mort encore. S 'il te plaît, s 'il te plaît ! Richard, si tu nous regardes... Mais il doit avoir 1000 ans, je te l 'accorde quand même. Thomas, veux rebondir un petit peu sur tout ça, vu de ton prisme et de ton regard de data scientist ?

Remi (26:13)
La roulette s 'habille.

Thomas (26:21)
Alors là sur la partie de licences je suis complètement perdu. 'est vraiment un sujet que j 'utilise très peu et dont on parle très peu en data science et dans l 'univers data en tant que tel. Moi j 'ai un avis très fort mais surtout sur ces softwares associés à l 'intelligence artificielle. J 'ai 'impression que même avec Outlines, en fait, vous n 'avez pas besoin de vous embêter toute la partie data puisque vous faites des maths pures derrière, des probabilités. Vous prenez les données de personnes, vous faites juste des transformations mathématiques en tant que tel. Donc déjà ça vous évite bien des problèmes mais oui j 'avais écrit

un petit poste à un moment qui n 'avait pas fait beaucoup de bruit mais où Meta et donc Mark Zuckerberg avaient mentionné à un moment le fait que le modèle Yammer était complètement ouvert sauf que non en fait le modèle n pas ouvert on ne pas les données qui sont utilisées on sait pas les transformations qui ont été faites sur nos données et il a des biais à l 'intérieur de ça puisqu 'on sait pas... Meta a beaucoup d 'entreprises avec beaucoup de données qui nous appartiennent plus pour le moment mais dans quelle mesure elles sont utilisées à quelle fin

Et c 'est quand même compliqué, parce qu 'aujourd 'hui on a par exemple la RGPD en France et on a presque les équivalents partout dans le monde, enfin en Occident. Le fait de ne pas montrer, c 'est quand même, j 'allais dire un bradonnais en anglais, complètement fou comme phrase, mais pour moi ça bafoue un peu les demandes des États souverains sur ce genre de sujet. Mais j 'ai pas plus... pour moi les points ne sont pas suffisants aujourd 'hui.

Remi (27:25)
Ouais.

Pierre Vannier (27:45)
Par rapport à ça, y eu une évolution de Mistral. Tout à l tu appuyais sur le fait on record, tu disais ce qui open source, restera open source, etc. que finalement, en filigrane, tu faisais aussi référence à certaines entreprises qui démarrent open source et qui, par le plus grand mystérieux des hasards...

à un moment donné se referment petit à petit et se retrouvent en société presque clos source. Clos source, c 'est ça.

Remi (28:17)
Oui, parce qu y a un moment où je pense que ça part de beaucoup de bonnes intentions. Je pense que les Elastix, H .C. Cortes, etc. ça partaient de bonnes intentions parce qu 'à 'époque, il y avait moins de cynisme dans le monde de l 'open source et je pense que ça partait d 'un truc vraiment idéaliste. Ils se sont rendu compte que Amazon, par exemple, n pas du tout idéaliste et s 'ils peuvent bouffer ta liée, mais la servir pour beaucoup moins cher que toi, ils vont le faire. Et il a un moment où ils se sont dit, en fait, on en a marre de bosser pour d 'autres boîtes.

ce que je comprends tout à fait, ils se sont refermés.

Thomas (28:51)
Mais est que tu trouves ça étonnant puisque dans toute entreprise, ce qui compte c 'est de bâtir une communauté, rendre la chose gratuite et après la gratuité se transforme en communauté qui paye ? J 'ai 'impression qu 'on est étonné de ce genre de comportement mais en réalité c 'est partout pareil dans tous les sujets.

Remi (29:10)
C 'est une casse qui... On rentre dans le business là.

Pierre Vannier (29:10)
Alors là on rentre, on met le doigt, alors là on rentre dans un, on met un truc, on ouvre la boîte de Pandora.

Remi (29:16)
J 'ai réponse rapide, que la raison pour laquelle tu construis une communauté, ou tu veux construire une communauté autour de Talibe Open Source, 'est grosso modo de construire un canal de distribution pour ton software un peu plus tard. Le problème, c 'est que quand ton compétiteur c 'est Amazon, il y a les plus gros canaux de distribution du monde avec Microsoft et Google, tu te fais ratatiner.

ta communauté c 'est sympa mais elle suffit pas à payer les employés à la fin du mois. Donc je pense que c pour ça qu 'il a une protection de l 'IP qui est de plus en plus prévalente, surtout dans le monde des bases de données. Tu vois même les cockroaches qui ont fait marche arrière etc. Parce que c trop facile pour un Amazon de mettre ça en prod. voilà, demain tout le monde peut l 'utiliser. Je ne pas combien de développeurs sur AWS mais c 'est une grande distribution qui est...

énorme et du coup tu te fais rouler dessus

Thomas (30:12)
Mais j aussi... Je t 'en prie. Non, puisque en fait, le point c 'est que... Je voulais faire un parallèle par rapport à ce que tu disais. Dans ton introduction, tu parlais de deux sujets, tu disais c 'est pas sexy. Quand tu disais vous avez commencé pointé xt, enfin t 'as proposé un projet sur le papier, c 'était pas très sexy, vous êtes mis dedans. Aujourd 'hui, ça fonctionne et tu te rends compte que OpenAI... OpenAI, franchement, c 'est plutôt bien, font le même sujet que vous.

Remi (30:16)
Non non, je t 'en prie continuez.

Thomas (30:42)
avec une communauté qui est énorme et qui dit justement que les capacités de structure output ne sont pas faramineuses, elles sont un peu lentes. Mais aujourd ils une communauté qui tellement haute qu 'il a des gens qui vont s 'en servir naturellement. Et vous, êtes 10 experts à travailler sur de l 'open source pour proposer une solution gratuite, viable et...

non fermé, te dis aussi ce côté là, on en parle très peu mais l 'open source c 'est l 'ouverture quand des géants vont essayer de loker, de faire du lock -in sur leurs solutions comment tu vois ça ? Est -ce que toi tu vois ça d 'un sentiment hyper positif ? Ok c 'est un sujet en fait d 'avenir où tu te dis on aurait préféré être tranquille

Remi (31:30)
parce qu 'on avait fait un pari sur quand OpenAI est sorti. On avait parié sur Jouer, au début de la boîte, donc ça a mis un peu plus de temps. Et... non, moi j 'étais content quand j eu l 'annonce. Je me suis dit putain, enfin ça va devenir mainstream. C 'est un truc où on se bat depuis un an pour que déjà, les premiers mois, les gens arrêtent de nous prendre pour des fous. Et ensuite, pour faire adopter le truc petit à petit, et d 'un coup...

T OpenAI qui arrive avec l 'artillerie lourde et qui ouvre un marché énorme. Alors, les gens qui utilisent OpenAI, je pense surtout aux hobbyistes sur la pays. Je dis aussi que Hugging Face a commencé à faire énormément d 'argent quand Chage .jpg est sorti. si tu veux Hugging Face, il que de l 'open source. tu veux, peux déployer exactement la même solution qu 'eux.

Et, côté Enterprise, ce qu 'on voit, c 'est que t beaucoup de gens qui basculent sur de l 'open source pour des raisons de contrôle. Contrôle au niveau des données, mais ils aiment aussi bien avoir du contrôle au niveau du déploiement, etc. Et ça, ce qu 'OpenAI a fait, c 'est un cadeau. C 'est un cadeau parce que du coup, on a des devs dans ces boîtes -là qui en entendent parler, dans leur blog qui disent « ouais, en fait, on a vraiment besoin de ça », et qui ensuite, dès 'ils doivent basculer sur des solutions pupérines, ils font « Bon, alors c qui les experts dans ce domaine -là »

Pierre Vannier (32:40)
bien sûr.

Remi (32:58)
et qui pondent sur nous. Et a un autre aspect, si tu veux, 'est que le jour où OpenAI a sorti cette feature, tous les modèles provider en avaient besoin d 'un coup. Et qui était identifié comme expert, tu es...

Pierre Vannier (33:14)
Ça permet de faire de la pédagogie en fait et d 'ouvrir la porte là où vous étiez plutôt avec votre bâton de pèlerin à expliquer oui mais attends je t 'explique c 'est pas sexy mais ça va être important un jour. Et puis là hop, Open AI qui développe le truc, ça y est, la porte s 'ouvre, c la lumière, je vois la lumière au fond du tunnel.

Remi (33:30)
Exactement. Les modèles provider ne nous auraient jamais parlé il y a un an. Alors que là, d 'un coup, en fait, ils ont besoin de la feature parce qu 'OpenAI est là. Ils s 'aperçoivent que les gens l 'utilisent. ouais ?

Pierre Vannier (33:41)
finalement c 'est bonne pioche pour vous. C bonne pioche, c 'est bon choix. C 'est une confirmation quelque part.

Remi (33:48)
Pour moi, 'est une énorme validation du marché. Parce qu 'eux ont des informations sur le marché que nous, n pas à notre échelle.

Thomas (33:51)
...

Je voulais ton avis là -dessus puisque je sais pas si vous vous rappelez mais quand on s 'était rencontré pendant l 'événement de AI Engineering à la fin de ta discussion Rémi je te disais c 'est fou ça 'a fait plaisir ta présentation puisque tu es le seul dans cette conférence à parler de statistiques, de probabilités puisque en fait on s 'est rendu compte que pendant cette conférence on mettait en avant des outils que tout était derrière dès qu 'on voyait des lignes de code il faisait des appels aux APIs d 'OpenAI pour la plupart du temps et on bafou

toutes les connaissances et toutes les expertises qu peut avoir en statistique et en probabilité sauf que c 'est un peu... j 'abuse un peu mais le nerf de la guerre pour faire de la data c 'est son côté un peu non déterministe par nature Machine Learning, le MLOP, c 'est ça et moi je trouve que c une très bonne chose puisque il n 'y a que aujourd OpenAI qui peut créer de la sensibilité vu l 'engouement qu a autour d 'eux

Remi (34:47)
Il a aussi Maxime Labonne qui a parlé d 'open source, qui faisait partie des très rares talks dans la traque open source, qui faisaient vraiment de l 'open source. Je crois que le reste c 'était de la pub.

Thomas (34:55)
Je ne 'ai pas vu, ok.

Remi (35:04)
qui a fait une super présentation sur le modèle merging. ouais, nous, si tu veux, on a ce background là. On est arrivé à une question qu 'on 'a posé énormément. Alors surtout, surtout les investisseurs, pas se mentir, c pourquoi vous êtes pas open air. Vous êtes qui les mecs ? Et en fait, la raison pourquoi nous n pas open air, c 'est qu 'on arrive...

Donc dans ce domaine, avec une certaine naïveté, et surtout un background en statistique, très gros background en statistique, et un background en informatique un peu plus traditionnel, donc compilateur, etc. Et donc on arrive avec un point de vue qui est complètement différent de celui des gens qui bossent dans le domaine depuis 10 ans, et on arrive et on se dit « putain, les mecs qu 'est que vous faites quoi ? » Genre pourquoi ce truc qui est absolument fondamental ?

personne n 'y a pensé et a réglé le problème. voilà pourquoi, c parce qu 'on est arrivé avec une certaine naïveté et le background qui allait bien en fait.

Pierre Vannier (36:14)
D 'ailleurs, votre équipe, je rebondis là -dessus, mais gros bagages en stade, gros bagages en maths finalement quelque part. Et de l 'autre côté, c ça que je trouve ça assez étonnant et rafraîchissant aussi, 'est qu 'une grosse volonté de faire du bon software.

Et ça c 'est vachement important, je sais qu 'on en a parlé pas mal et ça va tendre la perche à Thomas qui va aborder le sujet juste après. Le bon software aujourd 'hui est rare, on l vu à l 'EI Engineering, Engineering World Fair, il a quand même, on bafoue aussi beaucoup de pratiques de Software Engineering, c 'est à dire qu 'on a plus vu du Keep it simply complex chez eux et pas stupid.

On a vu du repeat yourself, du over -engineering, 'ai beaucoup d 'anglicismes mais c 'est le monde du logiciel et du développement logiciel. On a vu quand même beaucoup de worst practice et pas de best practice et toi t 'as à coeur en tout cas de faire du bon software aussi.

Remi (37:25)
C 'est l 'amour du métier. Moi je suis un des plus jeunes dans la boîte. Et si je mets co -fondateur, fait un temps d 'expérience, temps de software. Les employés aussi. Et justement, 'est un peu une partie du recrutement. On s 'assure de recruter des gens qui voient ça comme de l 'artisanat et qui aiment leur métier. Qui aiment écrire du bon code, etc.

Moi je pense que, alors t 'as beaucoup d 'avantages à très court terme à écrire du code dégueu et rapide. En revanche, il arrive un moment où les courbes se croisent et là tu dégustes. Mais moi je dirais alors oui, a une raison pragmatique. Mais moi je pense que derrière il y a vraiment un amour du métier et du code bien écrit.

Thomas (38:20)
J 'avais une dernière question par rapport à ça, c 'est pour rebondir face au dernier épisode du podcast avec Tariq qui expliquait

Tu expliquais quelles sont fait les responsabilités des développeurs de l 'IA. Donc à plus forte raison il parlait de quand on est ingénieur, quand on a un diplôme d 'ingénieur, je sais pas si c le cas pour toi Rémi, mais on a parlé un peu de reconstruire à chaque fois la roue, ce genre de choses, on a plein de solutions qui proposent à 70 -80 % la même chose. Est -ce que tu as un avis là -dessus ?

Remi (38:56)
Sur la partie éthique, suis pas trop concerné. pense que le plus gros problème aujourd 'hui, c le fait qu 'on n pas accès aux données. Et la raison pour laquelle c 'est problématique, c que tu introduis nécessairement des biais dans ces modèles. Alors, qui sont les biais d 'Internet lui -même. Mais Internet lui -même est plein de biais. Et le problème, c 'est qu 'on livre ça

On livre ça dans une espèce de boîte noire, et tu sais pas ce qu 'il derrière, ça donne l 'impression de la scientificité et de l 'objectivité. Alors c 'est pas du tout le cas. Je sais pas, va lire Reddit, passe 2 heures sur Reddit, 4chan, tu verras très bien. sur Hacker News, et tu verras très bien que... Et puis, alors il a le contexte, et puis il a le fait que tu as des...

Pierre Vannier (39:47)
Ouais, on voit le truc, ouais.

Remi (39:53)
qui sont sous -représentées, même sur Internet et dans ces lieux -là. Les lieux où on a récupéré les données. Et ça, pense que c 'est un vrai problème. Il y a eu une période où on a pas mal critiqué les gens qui faisaient... J 'ai bossé sur les questions de biais dans le Yéa, etc. Mais pense qu 'il y a une vraie question derrière. On est en train, si tu veux, de donner un vernis scientifique et objectif.

un tas de données qui n 'a rien d 'objectif, qui n rien d 'équilibre.

Thomas (40:30)
Donc pour toi, l 'IA et les tiles, passe principalement par la data.

Remi (40:36)
au de vue de

Thomas (40:38)
J 'ai une autre question étant donné que tu travailles vraiment dans le domaine des LLM au quotidien, comment tu penses que nos métiers et le métier du développement, pas spécialement en IAM et du dev, va évoluer à travers le temps ? Franchement, ce serait un mensonge de te dire qu 'on utilise pas chat GPT, JIT Upco Pilot, instructor, cursor pour faire du code. Comment ça va évoluer à ton avis ?

Pierre Vannier (41:03)
deuxième boîte de Pandor.

Thomas (41:05)
essentiel je pense pour comprendre l 'avenir.

Remi (41:08)
Moi je pense que le métier va devenir beaucoup plus intéressant. Pour les développeurs seniors, ça va être catastrophique pour les juniors, je vais 'expliquer. Pour moi je pense que les développeurs vont passer beaucoup plus de temps, ça j 'ai vraiment hâte à faire de l 'architecture, designer les interfaces, etc. Tout ça, c 'est un boulot qu 'il aura toujours à faire, je pense.

Et ça c 'est très bien pour les développeurs seniors qui ont appris à faire ça. vois, 'est un truc, ça prend du temps quand même. t 'apprends un peu par osmose. Alors, soit t de la chance et t 'as des mentors et ils t 'expliquent un peu comment ils voient les choses, etc. Parce que c 'est quelque chose qui n pas très documenté. Soit tu t 'inspires de librairies existantes. En revanche, les développeurs juniors qui utilisent énormément l 'IA et qui lui demandent d 'architecturer des projets, etc. En fait, ils apprennent pas cette partie -là.

Finalement, écrire le ce pas très intéressant, n 'importe qui peut le faire. La vraie difficulté dans ce métier, c 'est de bien designer tes interfaces avec l 'extérieur et bien l 'architecture et ton code pour qu puisse évoluer dans le temps. Et ça, ça demande un travail qui est de prendre l 'aspect et de traduire l 'aspect en code.

Et la façon dont on traduit l 'aspect en code, généralement, c 'est en implementant des tests. Et du coup, je pense que le métier va évoluer, déjà, sur comment architecturer mon projet, qui ensuite te permet de savoir ce que tu dois demander au modèle, genre les sous -parties, etc. Pour ça, c 'est ultra intéressant. Donc, il y a cette première chose -là.

Et puis après c 'est de traduire l 'aspect en test. Éventuellement, peut -être que l 'IA va le remplir, mais c 'est pas très grave. C 'est pas notre plus grosse valeur ajoutée. Et d 'ailleurs le CSO de ma boîte, Brandon, il 'a toujours dit, et je pense que je l 'avais pas compris avant... Ça fait 4 ans à l 'époque, y a pas de code qui écrivait bien, enfin y a pas de modèle qui écrivait bien du code. Il 'a dit plusieurs fois, tu sais, le code le plus important qu 'on écrit c 'est les tests.

Et maintenant, après avoir fait plusieurs migrations sur des code base, et en utilisant l 'IA aujourd 'hui, je me disais en fait, il avait raison. Et c 'est vraiment profond comme remarque, fait. Parce que je pense que c ce qui va rester. L 'architecture et savoir quoi demander. Et l 'écriture des tests, finalement. La traduction de l 'aspect. Faire en sorte que l 'assistant suive l 'aspect.

Thomas (43:56)
C 'est un point intéressant. Vas -y Pierre.

Pierre Vannier (43:59)
Je voulais rebondir là -dessus sur ce côté test, assistant au codage, parce que tu parlais de Rust aussi. Et puis je crois que vous utilisez beaucoup Emacs, est un éditeur de code de 'époque de Viail, donc un des premiers éditeurs de code écrit en Lisp.

le langage de programmation. Donc moi, Boomer, je suis dans mon élément, connais Emacs, ça me fait plaisir même si j 'ai arrêté il longtemps. Et du coup, vous l 'utilisez aussi chez Point TXT et il me semble que vous avez commencé même à développer des choses et des nouvelles features IA dans Emacs. C 'est ça ?

Remi (44:48)
Ouais alors je pense qu 'on est 13 sur 15 aujourd 'hui à utiliser IMAX, il n a pas de discrimination peu importe.

Pierre Vannier (44:56)
Il 'y a pas de discrimination mais les deux qui utilisent PaiMax sont quand dans un placard.

Remi (44:59)
Il s 'en va !

Pierre Vannier (45:02)
Ils utilisent quoi Ils utilisent quoi pour faire de la pub ?

Remi (45:05)
Ils utilisent VS Code et NeoVim.

Pierre Vannier (45:11)
Ok. Personne n 'est parfait.

Remi (45:11)
Ouais ouais. Et personne n 'est parfait exactement. Alors je vais pas dire qu 'il a pas de prosénitisme, les pauvres, ils ont entendu parler tous.

Pierre Vannier (45:20)
s 'il a un domaine où il a du troll c 'est bien les IDE et il en a encore plus aujourd 'hui avec les IA et les couches d 'IA qui viennent s 'y mettre. On est d 'accord ?

Remi (45:29)
De toute façon la question est résolue, Vim est le meilleur éditeur et IMAX le meilleur OS. Moi j 'utilise IMAX avec les keybindings de Vim.

C 'est mon avis, les tranchées. On ne va pas discuter de ça. C 'est amusant, qu a vu des trucs cursors en sortie. On s dit qu 'est que ça prendrait pour implémenter la même chose en IMAX. Il faut savoir que IMAX est customisable à souhait, juste en écrivant du lisp. C 'est 'ailleurs assez ludique finalement.

Pierre Vannier (46:09)
Non, non pas du tout. Pour ceux qui nous écoutent, excuse -moi. Le lisp c 'est pas du tout ludique, tu te retrouves avec 100 milliards de parenthèses dans tous les sens. Y 'a que des... Y 'a...

Remi (46:17)
C 'est vraiment le meilleur des langages de programmation.

Pierre Vannier (46:24)
Mais c 'est qui qui l 'a écrit ? C 'est pas Donald Knut ? Non, Knut c 'est le...

Remi (46:28)
C 'était au MIT et... Non, non, c 'est quelqu 'un d 'autre. C 'était au MIT. Le papier original est super intéressant d 'ailleurs. moi c 'est mon langage de programmation préféré. Du coup, je suis dans mon élément dans IMAX. ouais, du coup on se dit, bah tiens, en haut. Et d 'ailleurs, je conseille de lire le premier papier original sur l 'ISP. Très intéressant.

Pierre Vannier (46:48)
John McCarthy.

Remi (46:58)
On s dit qu 'est -ce que ça prendrait pour faire ça dans Emacs quand on va écrire du Lisp. Il se trouve que tu as un package pour Emacs qui s 'appelle GPTL, très bien fait, dans le sens où il est ultra modulaire et si tu veux juste exposer des calls API, il le fait les résultats, etc. On s dit qu allait commencer par faire des divs, les demander des divs de code, etc. Je crois que c 'était moins de 100 lignes de Lisp.

Exactement la même chose.

Pierre Vannier (47:30)
C 'est au moins aussi court, aussi efficace que c court, que c 'est illisible. Pour les néophytes, j 'ai envie de dire. T 'as déjà vu du lisp, Thomas ? Regarde mes lisp, tu regardes sur GitHub et tu me diras avec tes yeux, avec les parenthèses. Non mais c vrai que c très puissant. C 'est très puissant. Et c un langage entièrement et purement fonctionnel. Je veux pas dire de bêtises.

Remi (47:36)
la la, il faut pas l 'écouter !

Aujourd 'hui on a des idéaux pour les parenthèses.

Ouais, et c 'est ultra expressif. Et t des macros qui te tonnent. En fait, peux faire n 'importe quoi avec l 'Hispereur. Ce qui est un avantage, c un problème.

Pierre Vannier (48:00)
Ouais ouais ouais, c 'est très puissant. Je troll mais c effectivement très puissant. Ouais ouais, bien sûr.

Remi (48:05)
C 'est Leucan aussi qui a dit que son langage de programmation préféré est à l 'ISP.

Tu vois ? Et du coup, s 'amuse progressivement à réimplémenter les features de cursor dans l'Max.

Pierre Vannier (48:20)
Mais tu disais quelque chose, c 'était assez intéressant, que David Einmeyer -Hansen, tu as dû voir le tweet ce week -end ou il a 3 -4 jours, où il faisait un live stream avec PrimeAgen et un autre live streamer, il faisait un live stream et il expliquait que pour lui, me dis si je dis des bêtises, mais coder ça fait partie d 'un artisanat.

Remi (48:30)
Oui.

Pierre Vannier (48:47)
Ce qu 'il intéresse vraiment, c de comprendre ce qu fait. Et pour lui, 'est bien tant que l 'assistant reste un assistant, mais c bien si tu sais faire quand même. C 'est même mieux si tu sais faire. Et j 'ai trouvé qu 'une fois n pas coutume, son positionnement était assez polémique.

mais finalement je trouve que c 'est intéressant parce que toi tu as un positionnement qui est un petit peu différent tu te positionne un petit peu plus haut sur la chaîne de valeur en disant l 'importance finalement c 'est l 'architecture c 'est la compréhension des specs et le passage des specs de quelque chose de fonctionnel vers quelque chose d 'à peu près technique et ensuite le code on s 'en fout.

Remi (49:24)
Moi je pensais l 'histoire du software, c 'est de monter de couches d 'abstraction en couches d 'abstraction et d 'automatiser de plus en plus. 'est l 'essence même du software depuis le tout début. Qui s 'est expliqué comment fonctionne le hardware aujourd 'hui ? Qui connaît l 'assembleur ? Qui connaît même le C ? Parce que dès que tu adoptes son raisonnement, tu peux vraiment rentrer dans une régression infinie. Je veux comprendre ce que je fais, lui il écrit du rubis. Tu fais ok, il compile encore rubis.

Pierre Vannier (49:30)
à devenir Dieu.

Remi (49:52)
Et ce en quoi il compile, ça compile en quoi ? Et ensuite, comment est -ce que ça interagit avec le profin ? c 'est sans fin. T 'en arrives à la physique quantique, quoi. Mais moi, dis, en fait, tant que t 'es à un niveau d 'abstraction qui te permet de construire des interfaces robustes, c 'est vraiment la question de l 'interface, peu importe.

Pierre Vannier (49:58)
Toi tu dis on s 'en fout un peu.

Mais est -ce qu 'on n 'arrive pas, quand même, excuse -moi, avec cette révolution d 'assistant au coding, est qu 'on n pas la seule profession dans l 'histoire des professions à couper la branche sur laquelle elle est assise ?

Remi (50:29)
Mais c 'est génial ! C 'est pas le rêve d 'un 'importe quel software develop, de ne plus écrire de code !

Pierre Vannier (50:37)
C 'est super mais après tu fais quoi ? C 'est la question tu vois ? Tu fais autre chose ?

Remi (50:41)
Je te dis, tu vas architecturer, tu vas travailler à un niveau d 'abstraction supérieur, 'est à dire que ça 'étonnerait. je dire ça, on va dire dans la prochaine année, on arrive à complètement remplacer notre boulot. Au pire, on deviendra tous product manager.

Et puis après ils seront remplacés aussi.

Pierre Vannier (51:06)
On rigole mais on rigole un peu jaune quand même Thomas t 'en penses quoi toi ?

Thomas (51:11)
Moi je suis plutôt d 'accord avec Rémi, fait ce qui compte c 'est l 'architecture et les langages peu importe lesquels, c des outils qui nous permettent d 'atteindre nos objectifs en tant que tel donc je pas très inquiet pour l 'avenir vis vis de ça.

Pierre Vannier (51:28)
Il faudrait qu 'on conclue toujours avec une question que tu sors de ta tête, bien remplie, trop remplie à mon avis, pour le prochain ou la prochaine invitée du podcast Y 'a pas que la data. Et justement, tu ne sais pas qui c 'est, mais c ça justement qui est bon. Qu 'est tu aimerais savoir autour de la data liée à de l 'informatique ou autres ?

Remi (51:59)
Je vais faire une pause avant de la réponse. Je peux te donner plusieurs réponses d 'ailleurs. Parce que moi, la question que j 'avais envie de qui relativement simple, 'est...

Pierre Vannier (52:02)
Ouais. Carrément.

Attends au pire.

Remi (52:16)
votre avis

qui, d 'ici 10 ans, dominera complètement le domaine de l 'intelligence artificielle.

Pierre Vannier (52:30)
J 'étais obligé de la sortir celle -là. Qui d 'ici 10 ans... Vas -y, répète. Qui d 'ici 10 ans...

Remi (52:39)
donnera le domaine de l 'intelligence artificielle.

Thomas (52:45)
Il faudra déjà définir ce que c 'est en soit l 'intelligence artificielle et si elle sera dans 10 ans.

Remi (52:46)
Et est -ce que cet acteur existe déjà ?

C 'est la première question en fait. -ce que la boîte qui dominera le domaine est déjà là ? Et si oui, votre avis, qu 'est -ce que ce sera ?

Pierre Vannier (52:52)
Go away.

Super intéressante question. Super intéressante question.

Thomas (53:06)
J 'ai un tout dernier point quand même Rémi, 'est quoi l 'avenir pour point TXT ?

Remi (53:13)
'est bien le roman. Un clave -mire ? Réponse, c 'est la question précédente. Non, mais... Non, a pour ambition de...

Pierre Vannier (53:15)
Répondre à la question précédente. LOL !

Thomas (53:17)
dans dix ans.

Pierre Vannier (53:22)
C 'est pas mal ça !

Remi (53:32)
de supporter, d 'assister, tout le workflow qui est autour des LLM. pas l 'ambition à rentrer dans les architectures, etc. En revanche, ce qui est relatif à tout ce qui est prompting, etc. et les imperfections. On n 'y est pas aujourd 'hui, mais on va y arriver à un moment. Et aussi et surtout, c notre spécialité sur les types de sorties des LLM. Parce que quand tu réfléchis ce qu fait...

c 'est qu encapsule ces modèles dans des fonctions. 'est que je peux donner des types d 'encrais, des types de sorties en ingénieur, il 'y a pas besoin de savoir qui est l 'élément.

Pierre Vannier (54:17)
Super intéressant, super intéressant. Allez faire un tour et voir la librairie Outlines. On souhaite bien évidemment tout le meilleur à Rémi et à son équipe. on crie CoCoRico parce que c 'est une équipe française, une fois n 'est pas coutume.

qui travaillent sur de l 'IA et sur des sujets qui sont pas sexy mais qui nous nous passionnent. Et on remercie, un grand merci Rémi d 'être venu avec nous et d 'avoir partagé un petit peu toutes tes opinions et un grand merci à Thomas et à nos auditeurs et auditrices qui nous écoutent.

Remi (54:50)
Merci à vous, 'était un vrai plaisir. suis content d 'avoir pu parler d 'ISP. À bientôt.

Thomas (54:50)
Merci Rémi, merci Pierre.

Pierre Vannier (54:55)
Allez, merci à tous, à bientôt.

Thomas (54:57)
Merci.

IA pas que la Data - Reprendre le contrôle sur tout ce qui se dit autour de l’intelligence artificielle

Plus d'épisodes

Chapitres

Créateurs et invités

Qu'est-ce que IA pas que la Data - Reprendre le contrôle sur tout ce qui se dit autour de l’intelligence artificielle ?