ON RECODE CHATGPT DE ZERO - Episode 1 : La TOKENISATION

SANS PUBLICITES
Bienvenue dans cette série où je décortique le fonctionnement de ChatGPT… et où je le recode de zéro. Pas besoin d’être dev pour suivre, je t’explique tout simplement.
Dans cet épisode, on répond à une question toute bête mais cruciale :
Comment transformer du texte en nombres que le modèle peut comprendre ?
On va explorer :
Pourquoi "donner des lettres" au modèle, ça ne marche pas
Pourquoi les approches naïves comme tokeniser lettre par lettre ou mot par mot sont limitées
Et surtout, comment fonctionne la tokenization BPE (Byte Pair Encoding) avec un exemple concret
Ah, et bien sûr, on commence à implémenter notre propre tokenizer from scratch, parce qu’on est là pour souffrir un peu.
Le code : https://github.com/ThePixelCrafted/chatgpt_de_zero
MES RESEAUX :
Insta : https://instagram.com/pixelcrafted.raphael
TikTok : https://tiktok.com/@pixelcrafted.raphael
TIMELINE :
00:00 Intro
00:26 Qu'est-ce que c'est un tokenizer
02:24 Tokeniser lettre par lettre
04:23 Tokeniser mot par mot
06:12 L'algorithme BPE
09:35 La tokénisation en pratique
12:10 Outro
Dans cet épisode, on répond à une question toute bête mais cruciale :
Comment transformer du texte en nombres que le modèle peut comprendre ?
On va explorer :
Pourquoi "donner des lettres" au modèle, ça ne marche pas
Pourquoi les approches naïves comme tokeniser lettre par lettre ou mot par mot sont limitées
Et surtout, comment fonctionne la tokenization BPE (Byte Pair Encoding) avec un exemple concret
Ah, et bien sûr, on commence à implémenter notre propre tokenizer from scratch, parce qu’on est là pour souffrir un peu.
Le code : https://github.com/ThePixelCrafted/chatgpt_de_zero
MES RESEAUX :
Insta : https://instagram.com/pixelcrafted.raphael
TikTok : https://tiktok.com/@pixelcrafted.raphael
TIMELINE :
00:00 Intro
00:26 Qu'est-ce que c'est un tokenizer
02:24 Tokeniser lettre par lettre
04:23 Tokeniser mot par mot
06:12 L'algorithme BPE
09:35 La tokénisation en pratique
12:10 Outro
PixelCrafted | La Tech Décodée 🤸

SANS PUBLICITES
Bienvenue dans cette série où je décortique le fonctionnement de ChatGPT… et où je le recode de zéro. Pas besoin d’être dev pour suivre, je t’explique tout simplement.
Dans cet épisode, on répond à une question toute bête mais cruciale :
Comment transformer du texte en nombres que le modèle peut comprendre ?
On va explorer :
Pourquoi "donner des lettres" au modèle, ça ne marche pas
Pourquoi les approches naïves comme tokeniser lettre par lettre ou mot par mot sont limitées
Et surtout, comment fonctionne la tokenization BPE (Byte Pair Encoding) avec un exemple concret
Ah, et bien sûr, on commence à implémenter notre propre tokenizer from scratch, parce qu’on est là pour souffrir un peu.
Le code : https://github.com/ThePixelCrafted/chatgpt_de_zero
MES RESEAUX :
Insta : https://instagram.com/pixelcrafted.raphael
TikTok : https://tiktok.com/@pixelcrafted.raphael
TIMELINE :
00:00 Intro
00:26 Qu'est-ce que c'est un tokenizer
02:24 Tokeniser lettre par lettre
04:23 Tokeniser mot par mot
06:12 L'algorithme BPE
09:35 La tokénisation en pratique
12:10 Outro
Dans cet épisode, on répond à une question toute bête mais cruciale :
Comment transformer du texte en nombres que le modèle peut comprendre ?
On va explorer :
Pourquoi "donner des lettres" au modèle, ça ne marche pas
Pourquoi les approches naïves comme tokeniser lettre par lettre ou mot par mot sont limitées
Et surtout, comment fonctionne la tokenization BPE (Byte Pair Encoding) avec un exemple concret
Ah, et bien sûr, on commence à implémenter notre propre tokenizer from scratch, parce qu’on est là pour souffrir un peu.
Le code : https://github.com/ThePixelCrafted/chatgpt_de_zero
MES RESEAUX :
Insta : https://instagram.com/pixelcrafted.raphael
TikTok : https://tiktok.com/@pixelcrafted.raphael
TIMELINE :
00:00 Intro
00:26 Qu'est-ce que c'est un tokenizer
02:24 Tokeniser lettre par lettre
04:23 Tokeniser mot par mot
06:12 L'algorithme BPE
09:35 La tokénisation en pratique
12:10 Outro
Aucun commentaire:
Enregistrer un commentaire