yt

samedi 19 avril 2025

ON RECODE CHATGPT DE ZERO - Episode 1 : La TOKENISATION

ON RECODE CHATGPT DE ZERO - Episode 1 : La TOKENISATION




SANS PUBLICITES






Bienvenue dans cette série où je décortique le fonctionnement de ChatGPT… et où je le recode de zéro. Pas besoin d’être dev pour suivre, je t’explique tout simplement.
Dans cet épisode, on répond à une question toute bête mais cruciale :
Comment transformer du texte en nombres que le modèle peut comprendre ?

On va explorer :

Pourquoi "donner des lettres" au modèle, ça ne marche pas

Pourquoi les approches naïves comme tokeniser lettre par lettre ou mot par mot sont limitées

Et surtout, comment fonctionne la tokenization BPE (Byte Pair Encoding) avec un exemple concret

Ah, et bien sûr, on commence à implémenter notre propre tokenizer from scratch, parce qu’on est là pour souffrir un peu.

Le code : https://github.com/ThePixelCrafted/chatgpt_de_zero

MES RESEAUX :
Insta : https://instagram.com/pixelcrafted.raphael
TikTok : https://tiktok.com/@pixelcrafted.raphael


TIMELINE :

00:00 Intro
00:26 Qu'est-ce que c'est un tokenizer
02:24 Tokeniser lettre par lettre
04:23 Tokeniser mot par mot
06:12 L'algorithme BPE
09:35 La tokénisation en pratique
12:10 Outro

PixelCrafted | La Tech Décodée 🤸




SANS PUBLICITES






Bienvenue dans cette série où je décortique le fonctionnement de ChatGPT… et où je le recode de zéro. Pas besoin d’être dev pour suivre, je t’explique tout simplement.
Dans cet épisode, on répond à une question toute bête mais cruciale :
Comment transformer du texte en nombres que le modèle peut comprendre ?

On va explorer :

Pourquoi "donner des lettres" au modèle, ça ne marche pas

Pourquoi les approches naïves comme tokeniser lettre par lettre ou mot par mot sont limitées

Et surtout, comment fonctionne la tokenization BPE (Byte Pair Encoding) avec un exemple concret

Ah, et bien sûr, on commence à implémenter notre propre tokenizer from scratch, parce qu’on est là pour souffrir un peu.

Le code : https://github.com/ThePixelCrafted/chatgpt_de_zero

MES RESEAUX :
Insta : https://instagram.com/pixelcrafted.raphael
TikTok : https://tiktok.com/@pixelcrafted.raphael


TIMELINE :

00:00 Intro
00:26 Qu'est-ce que c'est un tokenizer
02:24 Tokeniser lettre par lettre
04:23 Tokeniser mot par mot
06:12 L'algorithme BPE
09:35 La tokénisation en pratique
12:10 Outro

PixelCrafted | La Tech Décodée 🤸

Aucun commentaire:

Enregistrer un commentaire