Et si maintenant j’utilisais WordPress pour prendre des notes sur mes découvertes?
Voici donc une synthèse de tutoriaux sur le Traitement de langage Neuronal, par Dan Jurafsky.
-01- De nombreux domaines ont déjà des solutions appliquées:

Parfois, le langage comporte des contradictions qui demandent précision. On peut se servir d’éléments les de probabilités:

Les outils pour étudier le NLP sont accessibles!

La disjonction sépare la relation entre deux alternatives distinctes. De détecteur des majuscules peut servir de tri de compréhension de mots:

Il existe des outils comme Regex Tester pour faire des recherches de patterns de mots:

Tokenization is the process of breaking down a piece of text, like a sentence or a paragraph, into individual words or “tokens.” These tokens are the basic building blocks of language, and tokenization helps computers understand and process human language by splitting it into manageable units.

On devra compter combien de mots possède une phrase… nombre qui varie selon ce qu’on considère comme 1 mot (St Raphael =1? =2?, Jean Baptiste =1? =2?). On assignera aussi un Token aux types de mots.

Une simple commande en mode Terminal peut nous donner des informations sur le contenu Type/Token d’un texte!!!

