statistiques de vocabulaire sur un texte

par NLM76 Sam 28 Jan 2017 - 10:40

Bonjour,
j'aimerais trouver ou produire des statistiques utiles sur un texte (long) pour le vocabulaire. Par exemple, je voudrais établir la liste du vocabulaire utilisé par Racine dans Phèdre. Je ne suis pas arrivé à trouver ça sur le Grand Entrefilet. Vous avez des adresses ou des techniques, par exemple avec un traitement de texte (récupérer le texte dans calc et trier par ordre alphabétique, etc.)?

par Thalia de G Sam 28 Jan 2017 - 10:52

Partir d'un document word serait-il envisageable ?

par trompettemarine Sam 28 Jan 2017 - 11:02

Charles Bernet, Le vocabulaire des tragédies de Jean Racine. Analyse statistique

Je pensais avoir l'ouvrage en question, mais pas moyen de mettre la main dessus.

par NLM76 Sam 28 Jan 2017 - 11:07

Thalia de G a écrit:Partir d'un document word serait-il envisageable ?

Oui. Je pars d'un document libreoffice. Mais comment faire efficacement ?

par 288 Sam 28 Jan 2017 - 11:21

A mon petit niveau de bricoleur, je ferais un simple Ctrl + F. J'entrerais ensuite le mot concerné - âme, courroux, vue etc. - pour connaître le nombre d'occurrences.

par yranoh Sam 28 Jan 2017 - 11:30

J'avais lu quelque chose là-dessus sur internet, mais je suis incapable de le retrouver.
Peut-être trouveras-tu ce que tu cherches sur cette page :

https://www.ac-strasbourg.fr/fileadmin/pedagogie/histoiregeographie/TICE/GFA_TICE/Mieux_lire_et_comprendre_un_texte_avec_des_outils_de_lex.pdf

par Fomoire Sam 28 Jan 2017 - 11:53

Si tu veux vraiment faire une véritable analyse textuelle, ça demande un investissement non négligeable pour maitriser les outils.

Ces outils sont disponibles gratuitement pour certains : RTemis ( http://rtemis.hypotheses.org/ ) ou Iramuteq ( http://www.iramuteq.org/ ), les deux étant des librairies de R ( https://www.rstudio.com/ ).
Exemple de ce qu'on peut faire avec Iramuteq, sur des discours politiques : http://www.iramuteq.org/Members/pmarchand/l2019economie-au-fn-programme-ou-rhetorique

A mon avis, ça dépasse d'assez loin ce que tu veux faire, mais je donne quand même les références car ça peut intéresser (pour la culture, pour voir ce qu'on peut faire ou pour quelqu'un qui travaille dans une optique plus recherche, avec la possibilité de s'investir dans les logiciels).

Sinon, tu peux faire joli avec un nuage de mots (style http://www.wordle.net ). Ca donne une image intéressante des mots les plus présents dans un texte (en enlevant les mots communs comme les articles).

Et ce site : http://www.writewords.org.uk/word_count.asp , qui te donne un tableau de comptage des mots d'un texte. Vu que c'est une petite appli web, je ne sais pas si tu pourras faire l'intégralité de la pièce d'un coup, mais tu devrais pouvoir acte par acte. Ça demande quand même un travail derrière, car tu vas devoir éliminer tous les mots communs, corriger les apostrophes (le site considère que deux mots reliés par une apostrophe forment un seul mot. L'autre solution étant de remplacer toutes les apostrophes dans le fichier libreoffice par du vide) et agréger les mots qui sont issus du même lemme (histoire que cheval et chevaux soient comptés comme un seul mot).

par almuixe Sam 28 Jan 2017 - 12:05

Je ferais :
Dans word, rechercher-remplacer les espaces par des virgules
Dans bloc note ou autre, copier le texte puis le sauver en .txt
importation dans excel en indiquant que les virgules séparent les mots
puis quand il y a un mot par ligne, classer les mots par ordre alphabétique,
puis compter les mots intéressants.

par NLM76 Sam 28 Jan 2017 - 12:11

almuixe a écrit:Je ferais :
Dans word, rechercher-remplacer les espaces par des virgules
Dans bloc note ou autre, copier le texte puis le sauver en .txt
importation dans excel en indiquant que les virgules séparent les mots
puis quand il y a un mot par ligne, classer les mots par ordre alphabétique,
puis compter les mots intéressants.

Oui. C'est à peu près ce que j'ai fait. Si ce n'est que j'ai fait un copié-collé de writer dans calc, en indiquant que tout pouvait être séparateur.
Il ne s'agit pas seulement de repérer les mots intéressants, mais de savoir quels mots il faut comprendre pour lire Phèdre. Une liste de vocabulaire fréquentiel.

par Glouglou Sam 28 Jan 2017 - 17:00

Le CNRTL et ATILF ont développé des outils pour cela. Je ne m'en suis jamais servie mais on m'a assuré que c'était bien fait et pratique pour des relevés de vocabulaire.
Les liens : Frantext sur le site ATILF et FastKwic sur CNRTL.

par RogerMartin Sam 28 Jan 2017 - 17:31

L'article que je mets en lien explique à quel point il est important d'utiliser un corpus lemmatisé (pour que les "vraies" fréquences apparaissent), ce qui n'est pas toujours le cas des textes disponibles dans Frantext.
https://hal.inria.fr/file/index/docid/465110/filename/LabbeRouen.pdf
On trouve dans l'article quelques relevés, mais comme ce sont les termes vraiment les plus répétés, ce ne sont pas nécessairement les plus difficiles à comprendre.

Est cité à nouveau l'ouvrage de Charles Bernet : il semble que le travail ait déjà été fait pour les tragédies de Racine.
Le vocabulaire des tragédies de Racine (Analyse statistique), Genève-Paris, Slatkine-Champion, 1983.
L'ouvrage est conservé dans 28 bibliothèques universitaires, il ne devrait pas etre impossible de le consulter par le pret inter-bibliothèques.
http://ccfr.bnf.fr/portailccfr/jsp/public/index.jsp (en tapant vocabulaire tragédies Racine l'ouvrage sort seul)

On trouve à la BNF Tolbiac l'ouvrage : Jean Racine, «Phèdre», concordances, index et relevés statistiques : établis d'après l'édition P. Mesnard du Centre d'étude du vocabulaire français, Faculté des lettres et sciences humaines de Besançon, mais là il faut envisager un déplacement.

Il est tout à fait envisageable de contacter le collègue qui a rédigé l'article, c'est sa spécialité après tout, il a probablement des listes déjà établies, et il devrait etre de bon conseil, personnellement c'est ce que je ferais dans ce genre de situation.
dominique.labbe@umrpacte.fr

http://www.persee.fr/doc/lfr_0023-8368_1969_num_2_1_5419
Bon courage : on lit là que le vocabulaire dans Phèdre est plus étendu que dans l'ensemble des tragédies de Corneille Wink

Un lexique "tout pret" que je soupçonne d'etre tiré d'un Petit Classique Larousse mais qui ne m'a pas l'air trop sot :
http://personal.colby.edu/personal/a/ampaliye/FR252/phedre_lexique.pdf

par NLM76 Dim 29 Jan 2017 - 16:50

Merci les gars pour les idées intéressantes.
J'ai fait ceci avec un traitement de texte et un tableur, qui me montre qu'avec les 170 mots les plus fréquents, représentant 72 % des mots de Phèdre (calcul à vérifier), eh bien j'ai beaucoup de mots à travailler et à faire travailler avec les élèves (en rouge). Je pense que je vais pouvoir arriver à un tableau d'objectifs aussi bien pour moi que pour les élèves.
Vous avez remarqué combien les mots qui posent difficulté sont nombreux dès les fortes fréquences, en particulier pour les noms et les adjectifs qualificatifs ?

P.S. Pour la lemmatisation, elle est faite très grosso modo, pour choisir par exemple entre nom et verbe, directement sur la liste des mots sans contexte, avec ma connaissance intuitive du texte de Racine. Les adjectifs verbaux et les participes passés sont intégrés sous la vedette du verbe. Les homonymes sont généralement confondus dans la catégorie que j'ai prétendue dominante. Mais ça n'est pas gênant, dans l'optique pédagogique: les mots homonymes doivent être évidemment étudiés en tant que tels.

Ah merci, j'ai jeté un coup d'oeil à ta liste. Oui, pour le regroupement quand on fait à la main, ma foi on fait à la main.
J'ai regardé ta sélection en rouge. Je me demande si plaindre par ex. ne fait pas partie des candidats potentiels à l'explication, non à cause d'un sens difficile, mais de constructions comme "plaindre qqch", idem pour rendre.
J'ai souvent eu ce souci en enseignant Shakespeare : tel verbe existe toujours en anglais moderne, mais a changé de valence, si bien que les étudiants ne le comprennent pas en contexte. J'ai toujours eu plus de mal à identifier leurs difficultés à comprendre ces constructions que les simples questions de vocabulaire (du style bras, gloire, etc. en français classique).

Oui; ce sont les questions qu'il faut se poser. Je suis en train de voir comment organiser l'enseignement de ces affaires-là. J'ai commencé par faire un projet de fiche d'objectifs:

statistiques de vocabulaire sur un texte

statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte

Re: statistiques de vocabulaire sur un texte