[Bestiaire
ébloui des lexies tératoïdes]
Chapitre
38
Désordre alphabétique
__________
Le code qualitatif alphabétique
n’est pas très fourni ; en fait, il n’a guère que trois éléments :
A = excellent
B = moins bon
Z = nul (film de série Z).
(Perec,
Penser/Classer)
Si
le passionnant livre de Marc-Alain Ouaknin
nous éclaire sur la venue au monde de notre alphabet (Les mystères de
l’alphabet, éditions Assouline), il ne dit rien,
ou très peu, sur l’ordre alphabétique, lequel semble définitivement coulé dans
sa norme actuelle :
A B C D E F G H I J K L M N O P Q
R S T U V W X Y Z
Pourquoi ne pas imaginer un autre
rangement ? L’ordre d’apparition des lettres dans le
dictionnaire, par exemple :
A S B C
O T U L E I N Z M G R J D Q F V X Y H P K W
Ou leur ordre de disparition :
J F X V B W D K G L C A P R I Q E
O N Z Y T H U M S
On pourrait classer l’alphabet en
fonction d’un autre critère : le nombre de mots qui commencent par une
lettre donnée : il y a plus de mots en C que de mots en P,
plus de mots en P que de mots en A, plus de mots en A que
de mots en S, etc. Le dictionnaire ainsi rangé fatiguera moins le
poignet, on ne manipulera plus des stères de papiers, il suffira de faire
déborder les onglets nécessaires au bon endroit).
Voici, comptés dans le Robert
en neuf volumes, le nombre de mots par entrée alphabétique :
C. (10.028)
P. (9.909)
A. (8.643)
S. (7.904)
E. (6.275)
D. (6.158)
M. (6.029)
R. (5.715)
T. (5.421)
B. (5.136)
I. (4.600)
G. (3.766)
F. (3.749)
H. (3.078)
L. (2.862)
V. (2.371)
O. (2.230)
N. (2.028)
J. (917)
U. (595)
Z. (499)
Q. (488)
K. (481)
W. (159)
X. (108)
Y. (103)
Et le classement qui en
résulte :
C P A S E D M R T B I G F H L V O
N J U Z Q K W X Y
On peut ranger les entrées du
dictionnaire par ordre alphabétique inverse : il se vérifie alors que plus
de la moitié des mots se termine en E. Voici les vingt-six terminaisons
alphabétiques :
E. (52.110)
R. (14.496)
T. (8.616)
N. (7.328)
S. (3.328)
L. (2.354)
X. (2.071)
O. (1.517)
A. (1.301)
U. (1.035)
I. (977)
F. (845)
D. (771)
M. (669)
C. (383)
G. (285)
H. (234)
K. (206)
Y. (193)
P. (168)
B. (97)
Z. (70)
V. (28)
W. (22)
Q. (10)
J. (5)
Et la suite qui en résulte :
E R T N
S L X O A U I F D M C G H K Y P B Z V W Q J
Mais le compte des féminins, des
pluriels et des formes verbales, qui reste à faire, semble condamner ce type de
rangement.
Il y a aussi la consommation
d’encre de chaque lettre, que nous avons vue dans un chapitre précédent :
les revoici de la plus légère à la plus lourde :
I J L V P Y F
T S C A U Z E O G X D K R Q B N H W M
Il y a encore le classement par fréquence
alphabétique décroissante (le E est la lettre la plus fréquente de
la langue française, puis le A, puis le S, etc.), classement qui
pourra varier selon le corpus de textes pris en compte (administration, presse,
littérature...). Le tableau de fréquence placé ici
donne :
E A S I N T R L U O D C P M V G F
B Q H X J Y Z K W
Un classement proche a été calculé
ici
par Jean-Marc Falcoz :
E A S I T N R U O L D C M P V Q F G H B J X Y Z K W
Et voici une dernière manière de
classer les vingt-six lettres. Elle semble complètement folle, mais se révèle
la plus sage : ranger les lettres à l’oreille. On commence par
transcrire la prononciation de chacune d’elles :
A. a
B. bé
C. sé
D. dé
E. e
F. effe
G. gé
H. ache
I. i
J. gi
K. ka
L. elle
M. emme
N. enne
O. o
P. pé
Q. ku
R. erre
S. esse
T. té
U. u
V. vé
W. doublevé
X. iks
Y. igrek
Z. zed
Puis on classe ces prononciations
par ordre alphabétique (il y a là une drôle de façon de tourner en rond, c’est
vrai !) :
a, ache, bé, dé, doublevé, e, effe, elle, emme, enne, erre, esse, gé, gi, i
igrek, iks, ka, ku, o, pé, sé,
té, u, vé, zed.
On obtient une nouvelle
distribution qui accommodera, nous l’espérons, les tympans les plus fins :
A H B D W E F L M N R S G J I Y X
K Q O P C T U V Z
Alain
LaBonté
(Québec) s’est posé la question des accents : dans quel ordre classer des
mots comme côte, cote, coté, côté ? Pêche, pèche, péché ?
Résumons
la norme canadienne
de classement à laquelle notre correspondant a travaillé. L’ordre alphabétique
recommandé est celui-ci, chiffres, capitales et bas-de-casse compris :
0
1 2 3 4 5 6 7 8 9
a
A à À â Â
ä Ä
b
B
c C ç Ç
d D
e E é É è È ê Ê ë Ë
f F
g G
h H
i I î Î ï Ï
j J
k K
l L
m M
n N
o O ô Ô ö Ö
p
P
q Q
r R
s S
t T
u U ù Ù û Û
ü Ü
v
V
w
W
x
X
y
Y ÿ ¨Y
z
Z.
Les
ligatures æ, Æ, œ, Œ, se comportent comme si les deux lettres n’étaient pas
soudées. (Un beau document .pdf
de Jacques André donne ici de nombreux
codages informatiques intéressants).
On voit donc que les suscriptions sont
classées ainsi :
- pas d’accent,
- accent aigu,
- accent grave,
- accent circonflexe,
- tréma
(le tilde et la barre horizontale ne sont pas mentionnés dans la
norme ; auraient-ils disparu de nos dictionnaires ?).
Pour les listes de mots et de noms, on
applique les règles de classement suivantes :
1. On ne tient compte ni de la casse, ni
des accents, ni d’aucun autre signe diacritique – et on classe par ordre alphabétique.
2. En cas d’homographie résultant de la
première règle on classe par la fin (ça c’est le détail important qui tue !).
Ainsi obtiendra-t-on pour nos deux
exemples :
cote
côte
coté
côté
pèche
pêche
péché.
Subtil, n’est-il pas? Essayez, en guise
d’exercice jusqu’au chapitre suivant,
de classer par ordre alphabétique cette liste de mots :
Réformé, élevé, gêné, déca, relève, deçà,
réforme, maçon, des, gène, élève, révélé, dés, relevé, mâcon, reformé, gêne,
révèle, récréé, recrée, dès, récrée, recréé, reforme.
Ne pourrait-on s’amuser à classer
autrement les chiffres que nous connaissons ? L’ordre alphabétique
donne cinq, deux, huit, neuf, quatre, sept, six, trois, un, zéro.
Soit :
5, 2, 8, 9, 4, 7, 6, 3, 1, 0
On
pourrait envisager de faire comme pour les lettres et de les classer selon leur
fréquence, mais est-ce pertinent ? À première vue nous utilisons autant de
1 que de 2, de 3, de 4, ... mais il n’en est rien ! La célèbre loi de Benford-Newcomb
nous apprend que nous employons plus de 1 que de 2, plus de 2 que de 3, etc.
jusque 9 ! Près d’un tiers des nombres que nous manipulons commence par
1 ! Et 18% d’entre eux commencent par 2 !
Mais
cette loi ne s’intéresse qu’au premier chiffre significatif (dans 0,0682 ce
sera 6 par exemple), biaisant donc le compte des zéros... La table des fréquences
des chiffres, zéro compris, reste donc à faire.
En
revanche, pour ce qui est des fréquences des chiffres et des nombres dans le langage
parlé, voici ce qu’une enquête de Robert Frot
a montré récemment (Robert Frot est
membre du comité technique du CSA et auteur avec une équipe de l’INA d’un Dictionnaire
de la radio) :
Nombre |
Fréquence |
Nombre |
Fréquence |
Deux |
689 |
Sept |
135 |
Trois |
450 |
Quinze |
116 |
Cent |
397 |
Cinquante |
101 |
Vingt |
335 |
Quarante |
93 |
quatre |
322 |
Une
(numéral) |
92 |
Dix |
311 |
Soixante |
83 |
Cinq |
310 |
Quatorze |
45 |
Mille |
257 |
Onze |
43 |
Huit |
207 |
Douze |
42 |
Six |
206 |
Million |
37 |
Un (numéral) |
161 |
Treize |
25 |
Trente |
154 |
Seize |
24 |
Neuf (nombre) |
137 |
|
|
Ce
qui nous amène à reclasser les chiffres parlés ainsi (hors zéro
qui n’est que rarement prononcé et après addition des un et une) :
2, 3, 4,
5, 1, 8, 6, 9 et 7.
__________
Solutions
du chapitre précédent :
H est la première et la quarante-neuvième
lettre de cette phrase.
H est la première, dix-huitième et
cinquante-neuvième lettre de cette phrase.
Q est la première lettre de cette phrase.
Q est la première et la vingt-quatrième
lettre de cette phrase.
U est la première lettre de cette phrase.
U est la première, trente-troisième et quarante-deuxième
lettre de cette phrase.
X est la première lettre de cette phrase.
X est la première et la vingt-sixième
lettre de cette phrase.
[On trouvera ici un
tableau complet reprenant tout l’alphabet]
L’intéressant
courrier ci-dessous (de Nicolas Graner)
est passé sur la liste Oulipo le 27
février 2013 :
GEF écrit :
>
En fait, le site de statistiques
>
http://www.apprendre-en-ligne.net/crypto/stat/francais.html
>
classe les plus rares dans l'ordre WKZY_J_X
(puis HQBFGV),
Il
faut bien distinguer les fréquences des lettres dans les textes français et
leurs fréquences dans les dictionnaires et autres listes de mots. Par exemple,
le h et le y sont plus rares dans les textes que dans les dicos parce que les
mots où ils figurent sont souvent des mots savants peu utilisés. Au contraire
le q est plus fréquent dans les textes à cause de quelques mots très utilisés
comme qui, que, quoi, quelque... Il y a aussi une différence entre un
dictionnaire classique ne donnant que les lemmes (forme "neutre" du
mot) et une liste de mots comprenant les formes fléchies. Ainsi dans la liste
de tous les mots autorisés au Scrabble, le s et le z sont surreprésentés aussi
bien par rapport à leur fréquence dans les textes que dans les entrées de
dictionnaires.
Voici
les classements issus de :
1)
le site mentionné ci-dessus, qui a analysé quelques textes "classiques".
2)
la liste des mots autorisés par l'Officiel du Scrabble 5.
3)
les entrées du Grand Robert électronique (en plus des lemmes, inclut les
pluriels et féminins irréguliers, notamment les pluriels en -x).
1) textes
: w k z y j x h q b f g v m p c d o u
l r t n i s a e
2) ODS 5 : w k j x y q v z h f b g d p m c u l o t n r i a s e
3) Robert : w k z j x y q v f b h g d p m c u l s o n t r a i e
Dans
les trois cas le J est plus rare que le X, n'en déplaise à Perec et aux points
du Scrabble.
Reste
à extraire les potentialités littéraires de tout ceci... :)
Nicolas
______________________________________________________________________
Chapitre
suivant, là.
Retour
à la page d’accueil, ici.