[Bestiaire ébloui des lexies tératoïdes]

Chapitre 38

Désordre alphabétique

 

__________

 

 

Le code qualitatif alphabétique n’est pas très fourni ; en fait, il n’a guère que trois éléments :

A = excellent

B = moins bon

Z = nul (film de série Z).

(Perec, Penser/Classer)

 

 

Si le passionnant livre de Marc-Alain Ouaknin nous éclaire sur la venue au monde de notre alphabet (Les mystères de l’alphabet, éditions Assouline), il ne dit rien, ou très peu, sur l’ordre alphabétique, lequel semble définitivement coulé dans sa norme actuelle :

 

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

 

Pourquoi ne pas imaginer un autre rangement ? L’ordre d’apparition des lettres dans le dictionnaire, par exemple :

 

A S B C O T U L E I N Z M G R J D Q F V X Y H P K W

 

Ou leur ordre de disparition :

 

J F X V B W D K G L C A P R I Q E O N Z Y T H U M S

 

 

On pourrait classer l’alphabet en fonction d’un autre critère : le nombre de mots qui commencent par une lettre donnée : il y a plus de mots en C que de mots en P, plus de mots en P que de mots en A, plus de mots en A que de mots en S, etc. Le dictionnaire ainsi rangé fatiguera moins le poignet, on ne manipulera plus des stères de papiers, il suffira de faire déborder les onglets nécessaires au bon endroit).

 

Voici, comptés dans le Robert en neuf volumes, le nombre de mots par entrée alphabétique :

 

C. (10.028)

P. (9.909)

A. (8.643)

S. (7.904)

E. (6.275)

D. (6.158)

M. (6.029)

R. (5.715)

T. (5.421)

B. (5.136)

I. (4.600)

G. (3.766)

F. (3.749)

H. (3.078)

L. (2.862)

V. (2.371)

O. (2.230)

N. (2.028)

J. (917)

U. (595)

Z. (499)

Q. (488)

K. (481)

W. (159)

X. (108)

Y. (103)

 

Et le classement qui en résulte :

 

C P A S E D M R T B I G F H L V O N J U Z Q K W X Y

 

On peut ranger les entrées du dictionnaire par ordre alphabétique inverse : il se vérifie alors que plus de la moitié des mots se termine en E. Voici les vingt-six terminaisons alphabétiques :

 

E. (52.110)

R. (14.496)

T. (8.616)

N. (7.328)

S. (3.328)

L. (2.354)

X. (2.071)

O. (1.517)

A. (1.301)

U. (1.035)

I. (977)

F. (845)

D. (771)

M. (669)

C. (383)

G. (285)

H. (234)

K. (206)

Y. (193)

P. (168)

B. (97)

Z. (70)

V. (28)

W. (22)

Q. (10)

J. (5)

 

Et la suite qui en résulte :

 

E R T N S L X O A U I F D M C G H K Y P B Z V W Q J

 

Mais le compte des féminins, des pluriels et des formes verbales, qui reste à faire, semble condamner ce type de rangement.

 

Il y a aussi la consommation d’encre de chaque lettre, que nous avons vue dans un chapitre précédent : les revoici de la plus légère à la plus lourde :

 

I J L V P Y F T S C A U Z E O G X D K R Q B N H W M

 

Il y a encore le classement par fréquence alphabétique décroissante (le E est la lettre la plus fréquente de la langue française, puis le A, puis le S, etc.), classement qui pourra varier selon le corpus de textes pris en compte (administration, presse, littérature...). Le tableau de fréquence placé ici donne :

 

E A S I N T R L U O D C P M V G F B Q H X J Y Z K W

 

Un classement proche a été calculé ici par Jean-Marc Falcoz :

 

E A S I T N R U O L D C M P V Q F G H B J X Y Z K W

 

 

Et voici une dernière manière de classer les vingt-six lettres. Elle semble complètement folle, mais se révèle la plus sage : ranger les lettres à l’oreille. On commence par transcrire la prononciation de chacune d’elles :

 

A. a

B.

C.

D.

E. e

F. effe

G.

H. ache

I. i

J. gi

K. ka

L. elle

M. emme

N. enne

O. o

P.

Q. ku

R. erre

S. esse

T.

U. u

V.

W. doublevé

X. iks

Y. igrek

Z. zed

 

Puis on classe ces prononciations par ordre alphabétique (il y a là une drôle de façon de tourner en rond, c’est vrai !) :

 

a, ache, bé, dé, doublevé, e, effe, elle, emme, enne, erre, esse, gé, gi, i igrek, iks, ka, ku, o, , , té, u, vé, zed.

 

On obtient une nouvelle distribution qui accommodera, nous l’espérons, les tympans les plus fins :

 

A H B D W E F L M N R S G J I Y X K Q O P C T U V Z

 

Alain LaBonté (Québec) s’est posé la question des accents : dans quel ordre classer des mots comme côte, cote, coté, côté ? Pêche, pèche, péché ?

 

Résumons la norme canadienne de classement à laquelle notre correspondant a travaillé. L’ordre alphabétique recommandé est celui-ci, chiffres, capitales et bas-de-casse compris :

 

0 1 2 3 4 5 6 7 8 9

a A à À â Â ä Ä

b B

c C ç Ç

d D

e E é É è È ê Ê ë Ë

f F

g G

h H

i I î Î ï Ï

j J

k K

l L

m M

n N

o O ô Ô ö Ö

p P

q Q

r R

s S

t T

u U ù Ù û Û ü Ü

v V

w W

x X

y Y ÿ ¨Y

z Z.

 

Les ligatures æ, Æ, œ, Œ, se comportent comme si les deux lettres n’étaient pas soudées. (Un beau document .pdf de Jacques André donne ici de nombreux codages informatiques intéressants).

 

On voit donc que les suscriptions sont classées ainsi :

 

- pas d’accent,

- accent aigu,

- accent grave,

- accent circonflexe,

- tréma

(le tilde et la barre horizontale ne sont pas mentionnés dans la norme ; auraient-ils disparu de nos dictionnaires ?).

 

Pour les listes de mots et de noms, on applique les règles de classement suivantes :

 

1. On ne tient compte ni de la casse, ni des accents, ni d’aucun autre signe diacritique – et on classe par ordre alphabétique.

 

2. En cas d’homographie résultant de la première règle on classe par la fin (ça c’est le détail important qui tue !).

 

Ainsi obtiendra-t-on pour nos deux exemples :

 

cote

côte

coté

côté

pèche

pêche

péché.

 

Subtil, n’est-il pas? Essayez, en guise d’exercice jusqu’au chapitre suivant, de classer par ordre alphabétique cette liste de mots :

 

Réformé, élevé, gêné, déca, relève, deçà, réforme, maçon, des, gène, élève, révélé, dés, relevé, mâcon, reformé, gêne, révèle, récréé, recrée, dès, récrée, recréé, reforme.

 

 

Ne pourrait-on s’amuser à classer autrement les chiffres que nous connaissons ? L’ordre alphabétique donne cinq, deux, huit, neuf, quatre, sept, six, trois, un, zéro. Soit :

 

5, 2, 8, 9, 4, 7, 6, 3, 1, 0

 

On pourrait envisager de faire comme pour les lettres et de les classer selon leur fréquence, mais est-ce pertinent ? À première vue nous utilisons autant de 1 que de 2, de 3, de 4, ... mais il n’en est rien ! La célèbre loi de Benford-Newcomb nous apprend que nous employons plus de 1 que de 2, plus de 2 que de 3, etc. jusque 9 ! Près d’un tiers des nombres que nous manipulons commence par 1 ! Et 18% d’entre eux commencent par 2 !

Mais cette loi ne s’intéresse qu’au premier chiffre significatif (dans 0,0682 ce sera 6 par exemple), biaisant donc le compte des zéros... La table des fréquences des chiffres, zéro compris, reste donc à faire.

 

En revanche, pour ce qui est des fréquences des chiffres et des nombres dans le langage parlé, voici ce qu’une enquête de Robert Frot a montré récemment (Robert Frot est membre du comité technique du CSA et auteur avec une équipe de l’INA d’un Dictionnaire de la radio) :

 

 

Nombre

Fréquence

Nombre

Fréquence

Deux

689

Sept

135

Trois

450

Quinze

116

Cent

397

Cinquante

101

Vingt

335

Quarante

93

quatre

322

Une (numéral)

92

Dix

311

Soixante

83

Cinq

310

Quatorze

45

Mille

257

Onze

43

Huit

207

Douze

42

Six

206

Million

37

Un (numéral)

161

Treize

25

Trente

154

Seize

24

Neuf (nombre)

137

 

 

 

 

Ce qui nous amène à reclasser les chiffres parlés ainsi (hors zéro qui n’est que rarement prononcé et après addition des un et une) :

 

2, 3, 4, 5, 1, 8, 6, 9 et 7.

 

 

__________

 

Solutions du chapitre précédent :

H est la première et la quarante-neuvième lettre de cette phrase.

H est la première, dix-huitième et cinquante-neuvième lettre de cette phrase.

Q est la première lettre de cette phrase.

Q est la première et la vingt-quatrième lettre de cette phrase.

U est la première lettre de cette phrase.

U est la première, trente-troisième et quarante-deuxième lettre de cette phrase.

X est la première lettre de cette phrase.

X est la première et la vingt-sixième lettre de cette phrase.

[On trouvera ici un tableau complet reprenant tout l’alphabet]

 

 

L’intéressant courrier ci-dessous (de Nicolas Graner) est passé sur la liste Oulipo le 27 février 2013 :

 

GEF écrit :

 

> En fait, le site de statistiques

> http://www.apprendre-en-ligne.net/crypto/stat/francais.html

> classe les plus rares dans l'ordre WKZY_J_X (puis HQBFGV),

 

Il faut bien distinguer les fréquences des lettres dans les textes français et leurs fréquences dans les dictionnaires et autres listes de mots. Par exemple, le h et le y sont plus rares dans les textes que dans les dicos parce que les mots où ils figurent sont souvent des mots savants peu utilisés. Au contraire le q est plus fréquent dans les textes à cause de quelques mots très utilisés comme qui, que, quoi, quelque... Il y a aussi une différence entre un dictionnaire classique ne donnant que les lemmes (forme "neutre" du mot) et une liste de mots comprenant les formes fléchies. Ainsi dans la liste de tous les mots autorisés au Scrabble, le s et le z sont surreprésentés aussi bien par rapport à leur fréquence dans les textes que dans les entrées de dictionnaires.

 

Voici les classements issus de :

 

1) le site mentionné ci-dessus, qui a analysé quelques textes  "classiques".

2) la liste des mots autorisés par l'Officiel du Scrabble 5.

3) les entrées du Grand Robert électronique (en plus des lemmes, inclut les pluriels et féminins irréguliers, notamment les pluriels en -x).

 

1) textes : w k z y j x h q b f g v m p c d o u l r t n i s a e

2) ODS 5  : w k j x y q v z h f b g d p m c u l o t n r i a s e

3) Robert : w k z j x y q v f b h g d p m c u l s o n t r a i e

 

Dans les trois cas le J est plus rare que le X, n'en déplaise à Perec et aux points du Scrabble.

 

Reste à extraire les potentialités littéraires de tout ceci... :)

 

Nicolas

______________________________________________________________________

 

 

Chapitre suivant, .

Retour à la page d’accueil, ici.