L'Analyse de la variance

dans la recherche linguistique

0. Introduction : de la variance à l'analyse de la variance

Retour à la page d'accueil

Parmi les techniques statistiques qui sont à la portée de tout un chacun, l'analyse de la variance reste encore un peu à l'ombre, parce que, quoiqu'elle ait été définie dans son principe depuis assez longtemps, elle n'a été mise à la portée des statisticiens non spécialistes qu'avec la diffusion générale des moyens de calcul modernes. Alors qu'elle est en effet d'une logique relativement simple dans son principe, sa pratique exige des calculs nombreux qui étaient extrêmement fastidieux aussi longtemps que l'ordinateur n'a pas pu être chargé de leur réalisation.

Le but qu'on se propose dans ce type de calcul est en fait une sorte de généralisation de la comparaison des moyennes ou de la comparaison des pourcentages lorsqu'il y a plus de deux valeurs à comparer.

Cette technique est utile en linguistique dans l'analyse de certaines données, en particulier de données organisées en blocs de même taille. Il s'agit alors le plus souvent d'analyses de la variance à un seul facteur. Les analyses à deux facteurs sont en revanche la règle dans l'exploitation d'enquêtes d'usage linguistique. Ces enquêtes sont encore peu répandues, mais on espère que les linguistes ne tarderont pas à en percevoir la nécessité pour assurer la réalité des faits sur lesquels ils raisonnent. C'est dans l'exploitation des résultats d'enquêtes d'usage que l'analyse de la variance est indispensable et qu'elle prouve toute son utilité pour le linguiste.

Procédons par ordre, pour faire comprendre cette technique à quelqu'un qui ne connait jusque-là que la variance…

0.1 La variance.

Selon la définition classique, la variance est la moyenne des carrés des écarts par rapport à la moyenne. On a n observations d'une variable, chaque observation pouvant être désignée comme xi ; leur moyenne est égale à

c'est-à-dire : la moyenne est égale au quotient qu'on obtient en divisant par le nombre n des données la somme de toutes les valeurs observées de la variable (de la première à la nième). Ceci posé, la variance est une autre moyenne, celle qu'on obtient à partir du carré des différences qui séparent les n observations de la moyenne  :

c'est-à-dire : la variance est égale au quotient qu'on obtient en divisant par le nombre n des données la somme des carrés de toutes les différences qui séparent les observations individuelles de leur moyenne commune. En fait, surtout avec les moyens modernes de calcul, il est beaucoup plus facile d'obtenir la variance avec des données pour lesquelles on n'a pas besoin de connaitre d'avance la moyenne  :

En d'autres termes : on calcule la somme des x, et en même temps la somme de leurs carrés ; si nous appelons S la somme des x et SS la somme des carrés de x, nous divisons par n le carré de S et nous retirons de SS le quotient, après quoi nous redivisons par n la différence obtenue. Les trois formulations ci-dessus sont strictement équivalentes.

Un exemple simplifié

Prenons le cas des 14 vers d'un sonnet, et prenons pour variable le nombre de mots par vers (ce n'est pas absurde, vu que les vers ont tous le même nombre de syllabes). Le sonnet Quand vous serez bien vieille… de Ronsard a 14 vers ayant les nombres de mots suivants :
10 7 7 9 8 7 10 6 9 8 7 7 9 8
. La moyenne se calcule en divisant le total par le nombre de vers, c'est-à-dire 112 par 14 ; par chance, le résultat est un entier : 8.

Pour calculer la variance, nous faisons d'abord la liste des carrés des écarts par rapport à la moyenne. Voici d'abord la liste des écarts par rapport à la moyenne (en valeurs absolues) :
0 1 1 1 0 0 0 2 1 0 1 1 1 0
ce qui nous donne les carré suivants :
4 1 1 1 0 1 4 4 1 0 1 1 1 0
  Leur moyenne est égale au quotient de leur total par le nombre des vers, c'est-à-dire 20/14 = 1,42857.

Il a été dit qu'on peut obtenir le même résultat en faisant la somme de tous les carrés des effectifs :
100 49 49 81 64 49 100 36 81 64 49 49 81 64
Somme : 916 ; de cette somme, il faut retirer le carré de la somme des x (le carré de 112) divisé par n, et diviser le résultat lui-même par n. Essayons : le carré de 112 est de 12544, qui divisé par 14 fait 896 ; 916 - 896 = 20, c'est-à-dire précisément la somme des carrés des différences ; la division par 14 fera donc aussi 1,42857.

On pourra trouver ce deuxième calcul bien plus compliqué que le précédent ; mais si on n'avait pas pris un cas particulier où la moyenne est un entier, les choses auraient été bien différentes.

Dans la comparaison entre deux moyennes, on se sert habituellement de l'écart type, qui est la racine carrée positive de la variance. La variance étant généralement notée par le symbole s2, l'écart type est noté s. Pour fixer les idées, mais en simplifiant à l'excès, on peut dire que deux moyennes distantes de deux fois au moins la valeur de s sont dites "significativement différentes".

0.2. Facteurs d'une variance

Supposons maintenant que nous ayons une variance obtenue d'une façon comparable à ceci : dans une enquête menée auprès d'un grand nombre de personnes, on a demandé aux personnes interrogées si elles prononceraient le -c final du mot donc dans une série de 18 phrases. On a procédé, pour pouvoir apprécier les résultats, au regroupement de 18 réponses pour former une "bloc", et on a compté les réponses "Non" (= "Je ne prononcerais pas le -c final"). On obtient ainsi un certain nombre de "blocs", et on évalue à l'intérieur de chaque bloc la proportion des réponses "Non".

N.B. Le fait que le nombre des phrases soit de 18 et que la taille du bloc de réponses soit aussi de 18 est un hasard. Le programme qu'on utilisera fera toujours des blocs d'effectifs voisins de cela, mais le nombre des questions peut être quelconque.

Ceci posé, nous obtenons une moyenne et une variance de cette proportion :

Moyenne : 0,345
Variance : 0,0595

Malheureusement, ceci ne nous apprend pas grand-chose. La moyenne nous dit que, dans le cas des phrases proposées, la proportion des -c non prononcés selon les réponses des personnes interrogées est de l'ordre d'un tiers. Mais notre but était de voir en fonction de quoi le -c était prononcé ou non.

Or nous avions proposé aux personnes interrogées des phrases de différents types ; comme toujours dans une enquête, nous partions d'une hypothèse en fonction de laquelle les phrases avaient été préparées. Notre hypothèse était que, d'une part, le type déclaratif, ou impératif, ou interrogatif de la phrase jouait un rôle dans le choix de la prononciation de donc, et que par ailleurs la position de donc dans la phrase, à savoir : devant une pause, devant une consonne ou devant une voyelle, exerçait aussi une influence sur ce choix. Comment savoir si cette double hypothèse peut être confirmée par les réponses obtenues ?

Le principe de l'analyse de la variance repose sur l'idée suivante : l'hypothèse nulle est que la variance observée est purement aléatoire, c'est-à-dire que rien d'autre que le hasard n'intervient dans le choix d'une prononciation ou de l'autre. Si cette hypothèse nulle peut être "falsifiée" - si on peut prouver qu'elle ne correspond pas à la réalité -, on aura avancé d'un bon pas. L'idée est qu'on va calculer aussi les variations observées à l'intérieur des sous-ensembles suivants :

- uniquement les phrases déclaratives ;
- uniquement les phrases impératives ;
- uniquement les phrases interrogatives .
- uniquement celles où donc est suivi d'une pause ;
- uniquement celles où il est suivi d'un mot à initiale vocalique ;
- uniquement celles où il est suivi d'un mot à initiale consonantique.

Bien entendu, il faudra voir aussi ce qui se passe pour l'intersection d'un type de phrase et d'une position de donc. Par bonheur, le questionnaire a été composé de telle façon que chaque intersection d'un des trois types et d'une des trois positions était représentée par deux phrases différentes. Les questions sont présentées sous forme de six listes différentes, mais les 18 phrases considérées figurent dans toutes les listes, dans un ordre variable de l'une à l'autre, et entourées de 18 autres phrases, qui varient et dont nous ne nous occuperons pas ici.

L'analyse de la variance doit servir à voir dans quelle mesure les variations dans la proportion des réponses "Non" sont imputables au type de phrase ou à la position de donc dans les 18 phrases communes à toutes les listes, et dans quelle mesure au contraire elle y est attribuable au simple hasard - étant bien entendu que nous appellerons "simple hasard" tous les autres facteurs possibles de variation auxquels peut-être nous n'avons pas pensé.

1. Trois types de données

La technique de l'analyse de la variance est applicable lorsqu'on dispose de données qui peuvent se présenter comme celles dont on vient de parler. Nos données sont en effet de la nature suivante : nous avons deux "variables contrôlées", qui sont le type de phrase et la position du mot donc dans la phrase. Pour chaque intersection d'une modalité d'une de ces deux variables et d'une modalité de l'autre, un bloc de réponses nous fournit une proportion de réponses "Non". Cet ensemble de proportions - nous en avons 9, puisque chacune des deux variables contrôlées peut avoir trois modalités - se présente comme un tableau à double entrée, l'une des variables constituant les lignes, l'autre les colonnes du tableau. Mais en réalité nous n'avons pas un seul bloc de cette nature, mais toute une série (26, en fait). Nos données sont donc comme un ensemble de 26 tableaux à double entrée, ou comme un tableau à trois dimensions comportant 3 × 3 × 26 données. Voici quelques autres exemples de données utilisables pour l'analyse de la variance. Les données individuelles peuvent être soit des proportions, soit des mesures.

1.1 Une seule variable contrôlée, proportions

Voici, dans Les Amants du Métro de Jean Tardieu, la proportion de déterminants définis qu'on rencontre dans les différents rôles. Pour cela, on a extrait de chacun des principaux rôles un échantillon représentatif de 200 mots répartis en 5 blocs de 40. Bien entendu, on est ici obligé de se limiter aux rôles comportant un minimum de 200 mots. En comptant dans chaque bloc le nombre d'articles définis (simples ou contractés), d'adjectifs possessifs et d'adjectifs démonstratifs, on obtient les effectifs du tableau 1.

Tableau 1

Rôle\Bloc

1

2

3

4

5

Total

Didascalies

5

5

5

8

5

28

Elle

0

0

2

2

2

6

L'amateur de journaux

1

4

2

1

4

12

Lui

0

0

2

1

3

6

La star imaginaire

3

3

3

3

3

15

La dame offensée

2

1

2

3

4

12

l'individu ...fondre...

1

1

6

0

6

14

L'ouvrier compréhensif

6

1

1

3

2

13

L'étudiante

4

2

5

7

6

24

Total

22

17

28

28

35

130

Légende. Dans Les Amants du Métro de Jean Tardieu, on a extrait de chacun des rôles les plus longs (plus de 200 mots) un échantillon de 200 mots représentatif du rôle entier et on l'a réparti en 5 blocs de 40 mots. Les effectifs indiqués sont ceux des déterminants définis par bloc de 40 mots. Il n'y a évidemment aucune correspondance ni aucune simultanéité entre les différents blocs d'un rôle à l'autre.

 

La présentation en tableau à double entrée a ici un caractère fallacieux en ceci qu'une telle présentation invite à considérer qu'il y a un parallélisme entre les différentes colonnes de même qu'entre les différentes lignes. Or si l'on peut considérer comme un objet d'étude la comparaison entre les fréquences des déterminants définis d'un rôle à un autre - quelle que soit la justification linguistique, stylistique ou thématique de cette comparaison ; en revanche il ne serait pas très rationnel de vouloir comparer les fréquences de ces mêmes unités d'un bloc à un autre, fût-ce pour se demander si le texte, à mesure qu'on progresse, devient de plus en plus "défini" ou de moins en moins "défini", comme on peut en avoir l'impression. Ce ne serait pas très rationnel, parce que si les didascalies (indications scéniques) sont à peu près uniformément réparties sur toute la longueur de la pièce, et si le rôle de Lui l'est aussi, des rôles tels que La dame offensée mais provocante, La star imaginaire ou L'ouvrier compréhensif apparaissent dans une seule scène pour disparaitre définitivement aussitôt après. Concrètement : la pièce occupe les pages 9 à 60 de l'édition originale. Le rôle de L'étudiante est présent aux pages 20 et 21 exclusivement. Celui de L'individu-en-train-de-fondre-dans-la-foule apparait aux pages 55 à 57. Il ne serait donc pas très pertinent de prétendre comparer le premier bloc de l'un de ces rôles au premier bloc de l'autre, puis le deuxième bloc de l'un au deuxième de l'autre et ainsi de suite.

En termes d'analyse de la variance, nous avons affaire ici à une seule variable contrôlée, le rôle, et pour chacune des modalités de cette variable (on dit aussi : chaque expression, chaque niveau, chaque état ; ici : chaque rôle), nous avons cinq mesures - cinq répétitions. On verra ensuite comment on pourra traiter ces données.

1.2 Deux variables contrôlées, proportions.

Prenons maintenant un exemple très différent. Dans une enquête d'usage sur la liaison, c'est-à-dire (en gros) sur l'articulation, devant un mot à initiale vocalique, d'une consonne finale habituellement muette, on a voulu voir quels sont les critères selon lesquels la liaison se fait ou ne se fait pas. Le questionnaire proposé aux sujets était réparti en un certain nombre de "listes" qui se distinguaient soit par les expressions qu'on y trouvait, soit par l'ordre dans lequel les mêmes expressions y étaient présentées. Les listes A, B, C et D contenaient toutes les quatre les expressions 1 à 18, dans un ordre différent et entourées d'expressions différentes. Le tableau 2 nous dit combien, parmi 24 sujets ayant répondu sur la même liste, ont répondu "Oui" à propos de chaque expression dans laquelle la liaison potentielle était en [t].

Tableau 2. Sur 24 sujets interrogés,
nombre de ceux qui se prononcent en faveur de la liaison

Expression

A

B

C

D

1 ils sont_allés

21

20

18

20

3 cent_adhérents

4

6

3

12

6 quand_il veut

21

18

23

21

11 tout_est fini

23

24

24

24

16 ils sont_associés

21

17

17

19

17 ce grand_imbécile

23

15

21

18

18 ils l'ont_omis

9

8

11

14

Légende. Sur 24 sujets interrogés, le tableau dit combien ont répondu "Oui" à la question de la liaison à propos des expressions indiquées. On n'a retenu ici que les expressions dans lesquelles la liaison potentielle était en [t]. Le public concerné ici est un ensemble d'étudiants parisiens interrogés sous la responsabilité de Mary-Annick Morel.

 

Ces données peuvent autoriser deux sortes de questions :

- d'une part : les différentes expressions se distinguent-elles significativement les unes des autres pour ce qui concerne le succès rencontré par la forme liée ?
- d'autre part : les mêmes expressions obtiennent-elles des résultats significativement différents selon l'organisation interne de la liste dans laquelle on les rencontre, selon la place à laquelle elles y figurent ?

Comme les données précédentes, celles-ci sont présentées sous la forme d'un tableau à double entrée ; mais la différence est que non seulement chaque ligne représente ici une modalité d'une variable cohérente : l'expression particulière sur laquelle on interroge, mais en même temps chaque colonne est elle aussi une modalité d'une autre variable, la liste. La première variable permet de répondre - ou plus modestement contribuera à fournir la réponse à un questionnement proprement linguistique sur les critères de la liaison ; la deuxième variable permet de s'interroger sur un point de méthodologie de l'enquête : les réponses obtenues sont-elles "biaisées" par la façon dont les questions s'enchainent les unes aux autres ?

1.3 Mesures

Voici maintenant un troisième et dernier exemple. Dans une enquête sur l'interrogation directe "totale", c'est-à-dire celle qui appelle une réponse par "Oui" ou par "Non", une série de phrases était proposée aux sujets sous les trois formes interrogatives classiques : forme à inversion, forme en est-ce que, forme à intonation seule, et les sujets étaient invités à classer ces trois formes de la plus courante à la plus rare (selon leur impression). Le tableau 3 indique des résultats concernant la forme à inversion : il nous dit combien, parmi les 23 sujets à qui la même liste a été soumise, n'ont pas répondu (0), ont classé 1e la forme à inversion (1), l'ont classée deuxième (2), troisième (3) et ont refusé de la classer, la considérant comme inusitée (9). Dans un tel cas, on obtient comme réponse globale, non pas une proportion, mais une sorte de mesure à laquelle il est possible de donner plusieurs formes :

Tableau 3. Classements

Questions (Liste C)

Rép

0

1

2

3

9

13 Le chat est-il un félin ?

23

0

8

12

3

0

14 Prend-il le bus pour aller à l'école?

23

0

10

3

10

0

15 Ira-t-il en Martinique l'an prochain?

23

0

5

12

6

0

16 Va-t-il apprécier notre cadeau?

23

0

7

10

6

0

17 Connaissait-il l'ancien directeur?

23

0

8

9

6

0

18 A-t-il réparé le joint de culasse ?

23

0

8

6

9

0

19 Est-il tombé de la chaise ?

23

0

6

6

11

0

20 Serait-il disponible demain ?

23

0

6

7

10

0

22 N'a-t-il pas meilleure mine ?

23

0

8

7

8

0

23 Est-ce demain qu'il part ?

23

0

3

5

14

1

24 Pleut-il ?

23

1

1

3

17

1

             

Questions (Liste D)

Rép

0

1

2

3

9

13 Le chat est-il un félin ?

23

1

5

9

8

0

14 Prend-il le bus pour aller à l'école?

23

0

3

9

11

0

15 Ira-t-il en Martinique l'an prochain?

23

1

7

7

8

0

16 Va-t-il apprécier notre cadeau?

23

0

11

7

5

0

17 Connaissait-il l'ancien directeur?

23

0

7

8

8

0

18 A-t-il réparé le joint de culasse ?

23

0

7

7

9

0

19 Est-il tombé de la chaise ?

23

0

7

9

7

0

20 Serait-il disponible demain ?

23

0

7

9

7

0

22 N'a-t-il pas meilleure mine ?

23

0

9

4

10

0

23 Est-ce demain qu'il part ?

23

1

4

7

11

0

24 Pleut-il ?

23

2

3

3

15

0

 

- On peut résumer les données en calculant le classement moyen d'une phrase, ce qui, pour la phrase 13 du tableau 3, nous donnerait dans la liste C (8 ´ 1 + 12 ´ 2 + 3 × 3) ÷ 23 = 1,78. L'inconvénient de cette méthode est qu'on ne sait pas trop comment compter le refus de classer, qui apparait aux questions 23 et 24 ; si on le compte comme un classement de 4e (sur 3 !), ce n'est qu'un pis-aller. Un deuxième inconvénient de ce procédé est que la valeur la plus faible représente la meilleure usualité, et la plus grande l'usualité la plus douteuse, ce qui n'est pas très intuitif. On préfèrera spontanément les mesures qui sont d'autant plus grandes que l'acceptabilité parait meilleure.

- Un autre procédé consiste à considérer le classement de 1er comme la reconnaissance d'une acceptabilité (ou d'une "usualité") parfaite, valant 1 ; le classement en 2e serait considéré comme l'équivalent de 2/3 = 0,667, et le classement de 3e comme l'équivalent de 1/3 = 0,333. De cette façon on obtient une valeur de 1 si la phrase est classée en n° 1, de 0,333 si elle est classée en 3e, et par convention on peut mettre 0 si quelqu'un refuse de classer la forme. Cette dernière situation est en principe plus rare que les autres : on ne peut guère supposer qu'une majorité de gens refusera carrément une forme qui est proposée par écrit. Si nous appelons k le classement proposé, n le nombre d'éléments à classer, cela donne u = . Les n éléments classés auront ainsi des valeurs d'un total de (Par exemple, pour n=3 éléments classés , ).

- Un troisième procédé consiste à faire en sorte que les valeurs obtenues par les n formulations à classer (ici n = 3) fassent un total à peu près égal à 1, comme dans le cas des proportions. Pour cela, on peut prendre les valeurs obtenues par le procédé précédent et les diviser par  ; dans le cas présent, on divisera donc par 2. La formule générale est alors la suivante : u' = .

Quel que soit le procédé utilisé, l'analyse de la variance devrait être en principe possible. Dans ce qui suit, on la fera en utilisant une moyenne obtenue sur l'ensemble des 23 réponses ; on verra plus loin pourquoi on opère ainsi plutôt que d'utiliser la variable individuelle (cf. § 4.3).

1.4 Récapitulation

Dans tous les cas envisagés, une analyse de la variance est possible. Pourquoi s'être tant attardé sur ces questions de présentation des données ? C'est que l'analyse de la variance ne se conçoit que dans le cas d'une forme particulière de données : elle n'est aisée - et ne sera envisagée dans ce qui suit - que lorsque les conditions suivantes sont satisfaites :

- Lorsque la variable étudiée consiste en proportions (ce qui est le cas le plus courant en linguistique), il faut que toutes les proportions examinées aient été obtenues à partir d'un même nombre d'alternatives ; c'est pourquoi, dans l'exemple de Tardieu (1.1), on n'a pas examiné les rôles entiers, mais des échantillons de même taille pour tous les rôles. Il est clair que de telles études ne sont réellement convaincantes que si ce retaillage des différents fragments de texte selon le lit de Procuste de la taille constante ne coupe pas trop de texte, c'est-à-dire si les différents éléments comparés sont dès le départ de longueur comparable. Dans les enquêtes d'usage, ce résultat est facile à obtenir par une organisation rationnelle des questionnaires.

- Lorsque la variable étudiée est faite de mesures, deux cas peuvent se présenter : si les mesures individuelles sont réellement des faits individuels (longueur des silences dans une conversation, longueur des mots ou des phrases dans un texte etc.), on ne se soucie du nombre d'observations que dans la mesure où tous les états (toutes les expressions) d'une même variable doivent être représentés par un même nombre d'observations - mais dans la pratique, comme les variables examinées ou du moins ce qu'on appellera les "résidus" doivent suivre la loi normale (loi de Gauss), les variables linguistiques sont sans doute rarement de ce type ; lorsque, au contraire, on prend pour faits individuels des moyennes, il faut, là encore, que toutes les moyennes utilisées aient été obtenues à partir d'un nombre comparable de données individuelles : la normalité des résidus est à peu près garantie lorsque les moyennes sont toutes issues d'un même nombre de données, et très improbable dans le cas contraire.

Voyons en quoi précisément se distinguent les trois sortes de données qui ont été prises pour exemples dans les paragraphes précédents.

Dans les exemples relatifs à Tardieu et à la liaison, nous avons affaire à des proportions ; dans celui qui concerne l'interrogation totale, à des mesures. Ce qui distingue l'un de l'autre les deux premiers de ces exemples, c'est qu'on trouve dans le premier cas des "répétitions" qui ne peuvent pas être considérées comme une deuxième variable, alors qu'il y a une deuxième variable dans le cas du deuxième exemple, mais pas de répétitions (il y a une seule proportion dans chaque case du tableau). Dans le cas des proportions de réponses "Non" dans l'enquête sur la prononciation de donc, nous avions deux variables, et en même temps un grand nombre de répétitions.

Dans l'exemple sur l'interrogation, on se trouve en présence d'une mesure, en l'occurrence une moyenne, obtenue ici sur un effectif de 23 groupes de réponses (chaque question recevant trois réponses, à savoir trois propositions de rangs). Là aussi on a deux variables, qui sont d'une part la question individuelle et d'autre part la liste, puisque les données permettront de voir si les deux listes conduisent aux mêmes résultats globaux. Il n'y a pas de répétitions ici.

Il peut arriver qu'on dispose d'un plus grand nombre de variables. Dans une enquête déjà réalisée, les mêmes listes ont été proposées à deux sortes de publics, et par ailleurs les mêmes questions figurent dans des listes différentes dans des environnements différents. On a donc au moins trois variables susceptibles d'être examinées : d'une part la question (les réponses pourraient varier en fonction de paramètres particuliers à telle ou telle phrase), ensuite la liste (la même question peut ne pas recevoir le même traitement selon l'environnement dans lequel elle apparait), enfin le public. Dans un tel cas, l'une de ces variables doit être négligée ou traitée - si les données sont assez abondantes - comme ensemble de "répétitions". Mais pour éviter de se laisser abuser, il faut alors faire tous les calculs envisageables, en prenant comme facteurs successivement tous les couples de variables possibles, quitte à traiter provisoirement en tant que "répétitions" des facteurs que l'on considère comme essentiels. On trouvera au § 3.3 un exemple concret d'une telle multiplicité possible de facteurs.

 

Tableau 4. Moyennes d'une série de classements

Listes

G

H

K

L

(61) Le concierge habite l'immeuble ?

0,2847

0,3264

0,2847

0,2639

(62) Il court vite ?

0,3542

0,3611

0,2847

0,3194

(63) Il trahira notre secret ?

0,2569

0,3056

0,2222

0,2569

(64) Il va passer son permis de conduire ?

0,3611

0,3333

0,3472

0,2986

(65) Il voyait la Seine de sa chambre ?

0,3194

0,3681

0,2569

0,3056

Légende. Dans l'enquête conduite par Séverine Heintz, les phrases 61 à 65 figuraient dans quatre listes, appelées G, H, K et L. La forme où l'interrogation est marquée par l'intonation seule y a obtenu les résultats moyens figurant sur ce tableau. La moyenne aurait été égale à 0,5 si tous les sujets interrogés avaient été unanimes à considérer cette forme d'interrogation comme la plus usitée et avaient tous classé les deux autres formes 2e et 3e.

 

2. Principes de calcul de l'analyse de la variance

Prenons un cas relativement simple pour commencer.

Dans l'enquête sur les phrases interrogatives directes "totales", cinq phrases ont obtenu les résultats résumés par le tableau 4. Admettons que pour une raison quelconque, on considère que ces cinq phrases permettent de bien juger d'un aspect de la problématique des phrases interrogatives. Il s'agissait ici de questions dans lesquels les sujets étaient appelés à classer les trois formes interrogatives, et la tableau 4 indique le paramètre moyen u' (v. ci-dessus) obtenu par la forme où l'interrogation n'est marquée que par l'intonation seule. Ces résultats permettent-ils de dire

1° si ces cinq phrases ont été appréciées de façon différenciée (la forme "intonation seule" est-elle mieux reçue dans l'une ou l'autre des phrases que dans celles qui restent ?) ;

2° si les quatre listes amènent des résultats différents (l'environnement dans lequel ces phrases apparaissent intervient-il dans le jugement qui est porté sur elles ?).

2.1 Présentation des données

Tableau 5. Présentation standard des données

Listes

Quest.

Moy

G

(61)

0,2847

H

(61)

0,3264

K

(61)

0,2847

L

(61)

0,2639

G

(62)

0,3542

H

(62)

0,3611

K

(62)

0,2847

L

(62)

0,3194

G

(63)

0,2569

H

(63)

0,3056

K

(63)

0,2222

L

(63)

0,2569

G

(64)

0,3611

H

(64)

0,3333

K

(64)

0,3472

L

(64)

0,2986

G

(65)

0,3194

H

(65)

0,3681

K

(65)

0,2569

L

(65)

0,3056

N.B. Les données sont celles du tableau 4.

Ici un autre préliminaire s'impose. Pour les calculs, les données ne peuvent pas être présentées sous forme du tableau à double entrée tel que nous l'avons utilisé ci-dessus. Tous les logiciels statistiques demandent une présentation plus analytique, moins intuitive, mais plus explicite. Cette présentation consiste à présenter une donnée par ligne, accompagnée de ses coordonnées.

2.2.1 Mesures

Par exemple, les données du tableau 4 se présenteront, selon ce standard, comme le montre le tableau 5. Sur ce tableau, la première colonne indique le nom de la liste, la deuxième le numéro de la question, et la troisième indique la valeur de la moyenne. Ce type de données - les mesures - peuvent être mises telles quelles dans le tableau et traitées par le programme d'analyse de la variance.

2.2.2 Proportions

Dans le cas des proportions, les choses sont un peu moins simples. En effet les variations dans les proportions sont parfois assez dissymétriques : autour d'une proportion moyenne de 0,1, la variation vers le haut est plus libre que vers le bas ; c'est seulement dans le cas de proportions voisines de 0,5 que la symétrie est à peu près assurée. C'est pourquoi on a coutume d'opérer sur les proportions une transformation qu'on appelle la "transformation angulaire", qui a pour effet d'améliorer la symétrie et la normalité des données.

La formule de cette transformation est la suivante : F(p) = , p étant la proportion. En d'autres termes, il s'agit de la valeur de l'angle (exprimée en radians) qui a pour sinus la racine carrée de p. Il est clair que cette transformation n'a aucune signification linguistique, pas plus qu'elle n'a de signification sociologique dans le cas d'une analyse de faits sociologiques. Il s'agit simplement d'un procédé améliorant la conformité à la loi de Gauss dans le cas où les proportions sont soumises à des variations régulières (aléatoires).

 

Tableau 6. Transformation angulaire

Rôle

Eff

p

ArcSin()

Didascalies

5

0,125

0,361367

Elle

0

0

0,000000

L'amateur de journaux

1

0,025

0,158780

Lui

0

0

0,000000

La star imaginaire

3

0,075

0,277406

La dame offensée

2

0,05

0,225513

l'individu ...fondre...

1

0,025

0,158780

L'ouvrier compréhensif

6

0,15

0,397699

L'étudiante

4

0,1

0,321751

Les données évoquées à propos de l'enquête sur donc devraient être soumises à cette transformation. Les données de la première colonne (premier bloc) du tableau 1 seront transformées elles aussi comme l'indique le tableau 6. Bien entendu, les effectifs commencent par être divisés par 40, ce qui nous donne p, puisqu'il s'agissait du nombre d'occurrences par bloc de 40 mots. C'est p qui est ensuite soumis à la transformation angulaire.

2.2 Calcul des moyennes et des variances

Nous présentons ici d'abord le cas du tableau 4. Il est assez facile de partir de ce cas particulier pour exposer les deux autres cas qui devront être présentés. Il s'agit ici des données d'une analyse de la variance à deux facteurs sans répétitions : dans le tableau 4, on a affaire à deux facteurs possibles : le facteur "phrase" et le facteur "liste". Par ailleurs, pour chaque phrase, on ne dispose que d'une seule mesure par liste. Si l'on disposait de plusieurs mesures par phrase et par liste (mais le même nombre de mesures dans toutes les cases du tableau), on serait dans la situation de deux facteurs "avec répétitions". Si, comme dans le cas du tableau 1, une des dimensions du tableau n'était pas assimilable à un facteur, on aurait aussi des répétitions, mais avec un seul facteur.

Les moyennes du tableau 4 (ou du tableau 5) ne sont pas toutes identiques, mais ont toutes été calculées à partir d'effectifs analogues (24 en l'occurrence ; le programme a négligé systématiquement les quelques cas où les réponses manquaient). On part de l'hypothèse nulle qu'elles sont toutes des valeurs aléatoires soumises à une même variance, et on peut calculer les valeurs suivantes :

, où l'indice i renvoie à une valeur de la variable "phrase", et j à une valeur de la variable "liste", n étant le nombre total de mesures, c'est-à-dire I × J, si on désigne par I le nombre de phrases concernées (5) et par J le nombre de listes (4). Nous avons donc ici la moyenne arithmétique des vingt mesures individuelles fournies par le tableau 4.

c'est-à-dire la moyenne des valeurs d'une même ligne (moyenne des quatre totaux d'une même phrase) ;

c'est-à-dire la moyenne des valeurs d'une même colonne (moyenne des cinq totaux d'une même liste).

La variance de x, selon la définition classique, est égale à
. Mais dans le calcul de l'analyse de la variance, au lieu de la moyenne des
, c'est leur somme qu'on utilise, donc
.

C'est cette somme qui pourra être "analysée", c'est-à-dire décomposée ici en trois parties :

- celle qui provient de la variabilité due au facteur 1 (ligne, c'est-à-dire phrase), et désignée par ssf1 ;
- celle qui provient de la variabilité due au facteur 2 (colonne, c'est-à-dire liste), et désignée par ssf2 ;
- celle qui provient d'autre origine, et dont on tirera la "variance résiduelle" (dans le logiciel statistique MINITAB, cette troisième partie est appelée "erreur") ; on la désigne par ssR.

En fait, nous avons affaire ici, non à la variance, mais à un multiple de la variance. Mais ce sont ces valeurs qui peuvent ainsi s'additionner pour donner ssT = ns 2. Pour ce même total ns 2, on use aussi de la notation (n - 1)s2, puisque c'est en le divisant par n - 1 qu'on obtient la "variance expérimentale". De là la formule bien connue
, qui indique que cette somme, divisée par la variance théorique, suit une loi du à n - 1 degrés de liberté. Mais la variance théorique n'est pas toujours disponible.

Deux de ces trois parties sont relativement aisées à calculer :

Comme on voit, elles s'obtiennent aisément à partir des moyennes par ligne, des moyennes par colonne et de la moyenne générale. La troisième partie est
. On peut démontrer que
, d'où l'idée d'appeler tout ce calcul "analyse de la variance". Le troisième terme de l'addition, ssR , se calculera en fait plus facilement par soustraction :

ssR = ssT - ssf1 - ssf2.

Procédons à ces calculs à propos des données du tableau 4.

= 0,30556 et donc = 0,305562 = 0,093364.

i• | i = 1...5 : 0,2900,3300,2600,3350,313
•j | j = 1...4 : 0,3150,3390,2790,289

ssT = 0,03289
ssf1 = 0,01517
ssf2 = 0,01090
ssR = 0,00682

Voici le détail des calculs pour ssf1 : nous élevons au carré chacun des et nous faisons la somme des cinq carrés, après quoi nous multiplions par J = 5 la somme obtenue :

Somme des carrés des : 0,4708, multiplié par J : 1,8832.

Il nous reste à retirer de cela n fois le carré de la moyenne générale : 20 × 0,093367 = 1,86734. La différence entre ces deux résultats fait le ssf1 ci-dessus (mis à part des erreurs d'arrondi dues aux nombres variables des décimales qui ont pu être utilisées ; les calculs faits par l'ordinateur sont toujours plus précis que ceux qu'on peut faire avec un nombre réduit de décimales).

Mais avec cela, l'analyse de la variance n'est pas terminée.

2.3 Degrés de liberté

C'est à ce stade qu'intervient la notion de "nombre de degrés de liberté". On a l'habitude de cette notion, par des tests tels que celui du c2 ou celui du coefficient de corrélation linéaire. On se souvient qu'il s'agit souvent du nombre des données moins 1, ou du nombre de colonnes ou de lignes de données moins 1. On retrouve ce principe ici.

On associe à ssT un nombre de degrés de liberté égal au nombre des mesures moins une. On associe ensuite

- à ssf1 un nombre de degrés de liberté égal à I - 1 (donc 4 dans le cas présenté)

- à ssf2 un nombre de degrés de liberté égal à J - 1 (c'est-à-dire 3 dans notre cas)

- à ssR un nombre égal à (I - 1) × (J - 1) (ici 12)

On vérifie que le total fait bien n - 1 = I × J - 1 (ici 19).

C'est par ces nombres de degrés de liberté qu'il s'agit de diviser les sommes précédemment obtenues de manière à obtenir la variance proprement dite imputable à chacun des facteurs. Précisément : ssf1 sera divisé par 4, ssf2 par 3 et ssR par 12.

2.4 Variances

On présentera ici les formules générales immédiatement suivies de leur application au cas particulier qui nous sert ici d'exemple. Chaque variance est désignée par un symbole reconnaissable à partir des notations usuelles : s12 est la variance imputable au premier facteur, s22 celle qui est imputable au deuxième facteur, et sR2 la variance résiduelle (celle qui ne provient d'aucun des deux facteurs).

s12 = = = 0,007401

s22 = = = 0,018927

sR2 = = = 0,000504

2.5 Facteurs F de Fisher-Snedecor

Il reste une dernière opération à exécuter : les variances imputables aux deux facteurs vont être divisées chacune par la variance résiduelle. Le résultat est une variable qui suit une loi de Fisher-Snedecor comportant le couple de degrés de liberté des deux variances qui en a permis le calcul :

f1 = . Les nombres de degrés de liberté de f1 sont de I - 1 et (I - 1)×(J - 1).

f2 = . Les nombres de degrés de liberté de f2 sont de J - 1 et (I - 1)×(J - 1).

Pour conclure à propos des facteurs f1 et f2, il faut se reporter à une table de Fisher-Snedecor. Il est facile de faire afficher par un logiciel comme Excel la probabilité associée à un résultat F muni de son couple de degrés de liberté.

Concrètement, dans le cas particulier que nous envisageons ici,
f1 = = 6,668
f2 = = 6,389

Au vu du nombre des degrés de liberté, la table nous dit que f1 a une probabilité de l'ordre de 3,6 pour mille (inférieure à 1 %), et f2 une probabilité proche de 7,8 pour mille. Si nous avons décidé d'opter pour le seuil usuel de 5 %, f1 n'aurait pas dû dépasser la valeur limite de 3,259, et f2 celle de 3,490. Nous sommes donc fondés à considérer les deux facteurs comme significatifs : les mesures observées sont significativement influencées par le facteur "phrase" et par le facteur "liste".

D'un point de vue linguistique, il reste maintenant à interpréter ce résultat. Ici, bien entendu, la technique statistique ne nous apporte plus rien. Comme il s'agit du résultat (très partiel) d'une enquête d'usage linguistique, on regardera d'abord comment les phrases se distinguent les unes des autres. Il s'agira de décider, sur la base des autres résultats de l'enquête, si le score relativement défavorable obtenu par la forme Il trahira notre secret ? et le résultat beaucoup plus avantageux observé pour Il court vite ? et pour Il va passer son permis de conduire ? sont dus à des caractères particulières aux phrases individuelles ou à des facteurs linguistiques plus généraux. On sera conduit de toute façon à se demander si tel ou tel résultat défavorable (tel classement de dernier) n'est pas dû au fait qu'une autre formulation apparaissait immédiatement comme la plus naturelle. Ici, on peut constater que dans les phrases très courtes, l'interrogation par inversion du pronom sujet n'est pas très bien reçue (alors qu'elle bénéficie de la bénédiction de l'institution scolaire), et que les phrases longues résistent un peu plus que les autres à la forme en est-ce que, qui les allonge encore un peu plus. Avec tout cela, nous n'avons pas commenté les différences également significatives observées d'une liste à l'autre : comment se fait-il que la liste G, et surtout la liste H, obtiennent des moyennes nettement supérieures à celles des deux autres listes, qui contiennent les mêmes phrases ? Le commentaire correspondant requiert la prise en compte d'un autre fait, qui n'a pas encore été mentionné : les questions "à classements" viennent en fin de liste dans les listes G et H, en début de liste dans les listes K et L. On n'entamera pas ici cette discussion. Comme on le voit, c'est la considération de l'ensemble des résultats qui permettra éventuellement de conclure ; et de toute manière, l'interprétation des résultats laissera toute sa place à l'intuition du linguiste, et fera nécessairement taire le statisticien.

2.6 Autre exemple

Nous avons présenté dans le tableau 2 un autre cas de deux facteurs sans répétitions ; de plus, les deux facteurs étaient les mêmes que dans l'exemple qui vient d'être utilisé : la phrase et la liste. La variable étudiée est la proportion des sujets qui se prononcent en faveur de la liaison dans une série de sept expressions apparaissant dans les quatre mêmes listes. Comme il s'agit ici d'une proportion de réponses "Oui", et non d'une mesure, on opèrera la transformation angulaire, qui conduira à remplacer par exemple l'effectif de 21 (sur 24) par la proportion p = 0,875, puis p par ArcSin() = 1,2094. Après cela on fera l'analyse de la variance à partir des résultats de cette transformation. On obtient ainsi

ssT = 2,9705 avec 27 degrés de liberté (4 × 7 - 1 : il y avait 7 expressions, 4 listes)
ssf1 = 2,5859 avec 6 degrés de liberté (7 expressions)
ssf2 = 0,0618 avec 3 degrés de liberté (4 listes)
ssR = 0,3228 avec 18 degrés de liberté (3 × 6)

La division de chaque somme ss par son nombre de degrés de liberté nous fournit les variances ; ensuite, en divisant s12 et s22 par sR2, on obtient les facteurs :

f1 = 24,03, qui avec 6 et 18 degrés de liberté, a une probabilité à peu près nulle (de l'ordre de 0,0000001), et

f2 = 1,15, qui avec 3 et 18 degrés de liberté, a une probabilité d'environ 0,36.

Dans ce cas, nous pourrons donc dire que le facteur "expression" (ou "phrase") intervient massivement dans la détermination de la liaison : les différentes expressions sont significativement différentes entre elles pour ce qui est de la probabilité de la liaison ; en revanche rien ne permet de dire qu'il y ait une différence d'une liste à l'autre là où les expressions proposées sont les mêmes.

3. Généralisations

Nous n'avons parlé en détail, jusqu'ici, que des analyses de la variance à deux facteurs sans répétitions, concernant des mesures d'abord, puis les proportions dans le dernier exemple développé. Mais les données fournies au tableau 1 étaient d'autre nature : elles n'autorisaient qu'un calcul à un seul facteur. Dans ce cas, les répétitions sont indispensables, car il faut pouvoir utiliser des moyennes par ligne - or il n'y a pas de moyenne disponible si l'on a une seule donnée par ligne. A tout cela, il faudra ajouter le cas où les données à deux facteurs comportent des répétitions. On va aborder maintenant ces autres cas.

3.1 Analyse de la variance à un seul facteur

Ici on a besoin de répétitions. Nous pourrions donc prendre les données du tableau 4, et les traiter en considérant l'une des deux variables comme source de répétitions. Mais dans tous les cas où les deux dimensions du tableau peuvent être interprétées comme des facteurs (c'est-à-dire présentent une cohérence logique), il faut au moins faire l'essai de l'analyse à deux facteurs, pour ne pas considérer abusivement comme aléatoires des variations qui sont à mettre au compte de ces facteurs. On ne gagne rien à négliger un des facteurs possibles.

3.1.1 Le calcul de l'analyse de la variance

Lorsque la deuxième dimension (disons : les colonnes) du tableau à double entrée n'est pas un facteur, nous n'avons pas à nous soucier des moyennes par colonne, mais seulement des moyennes par ligne et de la moyenne générale. D'où le formulaire qui suit.

Bien entendu, on aura besoin de la moyenne générale . Nous utilisons ici l'indice k pour les répétitions, par convention ; nous avions utilisé j pour l'indice des expressions du deuxième facteur.

On utilisera aussi les moyennes par ligne ; appelons K le nombre des répétitions : . Dans chaque ligne, on additionne les K observations, puis on divise le total par K.

Ici aussi, au lieu de la variance , on utilise la somme des carrés des déviations par rapport à la moyenne, soit .

Ce total se décomposera ici en deux parts seulement, à savoir

- la part imputable au facteur (unique), traduit par les déviations des moyennes de ligne par rapport à la moyenne générale :

- la part non imputable au facteur, qui se traduit par les variations internes à chacune des lignes :

.

On remarquera qu'il ne s'agit pas de la même chose que dans le cas d'un deuxième facteur, car on n'utilise pas les moyennes par colonne.

Le nombre des degrés de liberté du facteur est égal à I - 1 ; celui de la variance résiduelle est de n - I. La variance totale a donc n - 1 degrés de liberté.

On calculera la variance en fonction de ces degrés de liberté :

, et

ce qui nous permet finalement de calculer le facteur .

Comme précédemment, l'interprétation du résultat se fait en fonction des deux nombres de degrés de liberté, en consultant la table de Fisher-Snedecor.

3.1.2 Exemples

3.1.2.1 Mesures

Reprenons, pour commencer, l'exemple des données du tableau 4. Remarquons tout de même qu'il est un peu abusif de traiter comme des "répétitions" les quatre listes, puisque nous avons déjà vu que leurs moyennes sont significativement différentes. Mais qu'obtiendrions-nous si nous considérions ces différences comme négligeables ?

= 0,30556 (comme précédemment, bien sûr).

Les moyennes par ligne de notre test précédent restent les moyennes par ligne.

La valeur ssf reste identique à la valeur ssf1 du calcul à deux facteurs, puisqu'elle a été obtenue de la même façon. Mais ce qui change, c'est ssR et le nombre de degrés de liberté qui y est associé.

ssR = 0,01772, et sR2 = = = 0,001181

En fait, la variance totale, obtenue de la même façon que précédemment, n'ayant pas changé non plus, on compte avec la "variance résiduelle" à la fois ce qui précédemment était déjà la variance résiduelle et aussi ce qui relevait du deuxième facteur. La valeur du facteur va changer en conséquence, puisque la variance résiduelle proprement dite sR2 sera obtenue en combinant deux types de variation, ce qui la changera - l'augmentera en général, et changera par là même - diminuera en général - la valeur du facteur.

ssf = 0,00379, et sf2 = = = 0.00379.

Cela qui nous donne un facteur de = 3,209, qui, avec 4 et 15 degrés de liberté, se situe à 4,3 %.

Quoique la probabilité soit nettement plus grande que dans le cas de l'analyse à deux facteurs, nous conclurons tout de même, comme précédemment, que le facteur "phrase" a une influence significative sur les variations des moyennes observées - du moins si nous nous sommes fixé le seuil statistique usuel de 5 %. Nous expliquons facilement, du reste, que la probabilité obtenue soit plus forte que précédemment, puisque la variance dite résiduelle est ici en réalité très composite, et inclut, les calculs précédents l'ont montré, une variation significative d'une colonne à l'autre.

3.1.2.2 Proportions

Voici maintenant un second exemple, celui qui nous est fourni par les données du tableau 1, qui ne peut pas être traité autrement que comme comportant un seul facteur. Ce cas se distingue du précédent par un autre caractère important : c'est qu'ici il s'agit de proportions et non plus de mesures à proprement parler. La conséquence en est, comme on l'a déjà vu, qu'on opère dans ce cas sur les données de départ la transformation angulaire

Les données du tableau 1 sont les effectifs observés par bloc de 40 mots (à l'intérieur du rôle). Il faut donc commencer par calculer la proportion que cela représente en divisant ces effectifs par 40. On remplacera donc 1 par = 0,025, et de même 2 par 0,05, 3 par 0,075 etc. On extraira la racine carrée de ces proportions : = 0,158 ; = 0,224 etc. ; enfin on calculera l'arcsinus (en radians) de ces racines carrées : ArcSin(0,158) =0,159 ; ArcSin(0,224) = 0,226 etc. Résumons en formule :

x = P(k) = ArcSin()

n désigne le nombre d'alternatives ayant servi au calcul de la proportion, ici 40.

A partir de ces nouvelles données, on fera le calcul comme précédemment, et on obtiendra

ssT = 0,6385 avec 44 degrés de liberté (puisqu'il y a 45 données individuelles)
ssf = 0,2778 avec 8 degrés de liberté (il y a neuf "rôles")
ssR = 0,3606 avec 36 degrés de liberté

ce qui nous donne un facteur F = 3,47 d'une probabilité de 0,005 (5 pour mille). Nous concluons que les différents rôles ne font pas le même usage des déterminants définis. L'interprétation linguistique, stylistique ou thématique reste évidemment à donner. On n'est pas surpris que les didascalies soient le "rôle" le plus riche en déterminant définis (plus particulièrement en articles définis) et que les rôles des deux protagonistes Lui et Elle soient les deux rôles qui en comportent le moins (par rapport au nombre de mots total du rôle respectif). Les protagonistes sont complètement occupés par leur relation, par les problèmes du moi et du toi ; au contraire les didascalies doivent présenter des faits objectifs variés, et qui peuvent être munis de l'article défini même sans avoir été précédemment évoqués, du moins lorsqu'il s'agit de personnages (L'ouvrier compréhensif, La dame offensée... etc.).

3.2 Analyse de la variance à deux facteurs avec répétitions

Le cas envisagé ici ne se présentera sans doute dans les travaux des linguistes qu'à propos d'une enquête devant un public très abondant ; il peut être intéressant alors de considérer différents publics comme des "répétitions" (mais cela ne dispense pas de vérifier par ailleurs s'ils ne peuvent pas constituer aussi un facteur de variation, qui sera alors un facteur socio-linguistique).

3.2.1 Moyennes et valeurs ss = (n - 1)s2

Nous avons dans ce cas une combinaison des cas rencontrés dans les situations déjà envisagées. Nous avons toujours une moyenne globale qui pourra cette fois s'écrire

, où l'on désigne par i les modalités du premier facteur, par j celles du deuxième facteur, et par k les répétitions. On suppose - et c'est très souhaitable - qu'on a le même nombre de répétitions pour toutes les intersections de modalités des deux facteurs. En plus de la moyenne générale, il faudra tenir compte des trois groupes de moyennes suivants :

Il s'agit ici de la moyenne d'une intersection de modalités de la première et de la deuxième variable contrôlée. Il y a I × J moyennes de ce type, si nous continuons à désigner par I le nombre de modalités de la première, par J le nombre de modalités de la deuxième).

Il s'agit de la moyenne d'une "ligne" donnée, si l'on regroupe dans une même ligne toutes les données comportant la même valeur de i, non seulement pour l'ensemble des répétitions, mais aussi pour l'ensemble des valeurs de la deuxième variable.

Il s'agit de la moyenne d'une "colonne", si l'on regroupe dans une même colonne toutes les données comportant la même valeur de j.

Ce qui nous fera obtenir
(variation totale)
(variation d'une ligne à une autre)
(variation d'une colonne à une autre)

Dans ces deux dernières formules, il est important de remarquer que la somme se fait sur i, j et k, ce qui a la conséquence suivante : il n'existe de la différence , et donc aussi de son carré, que I valeurs potentiellement distinctes ; il faudra chaque fois multiplier chacun de ces carrés par J×K, puisqu'il faut l'utiliser pour chaque individu objet d'une observation (chaque mesure ou chaque proportion). De même chaque devra être multiplié par I×K.

Une nouvelle part de variance doit être ajoutée ici, qu'on appelle l'interaction entre les deux facteurs (le lien qui existe entre l'un et l'autre) :

Enfin on aura pour variance résiduelle , ce qui nous donnera un total analysable comme suit :

ssT = ssf1 + ssf2 + ssf1,2 + ssR

Comme on le voit, ce qu'on appelle ici variance résiduelle, c'est la part de la variation qui est due aux répétitions, comme dans le cas de l'analyse de la variance à un seul facteur.

3.2.2 Nombre de degrés de liberté

Comme précédemment, le nombre total de degrés de liberté est égal à n - 1, si l'on appelle n le nombre total d'observations, en principe n = I × J × K, avec I : le nombre de modalités (ou états ou expressions) de la première variable "contrôlée" (premier facteur) ; J : le nombre de modalités de la deuxième variable "contrôlée" (deuxième facteur) ; K : le nombre de répétitions, supposé (ou rendu) constant pour toutes les intersections de modalités des deux facteurs. Ceci posé, les nombres de degrés de liberté s'établissent comme suit :

Premier facteur : I - 1
Deuxième facteur : J - 1
Interaction : (I - 1) × (J - 1)
Variance résiduelle : I × J × (K - 1)

On vérifiera aisément que le total est bien égal à n - 1.

3.2.3 Calcul des variances et des facteurs

Comme on l'avait fait jusqu'ici, on obtient les variances en divisant la valeur ss par le nombre correspondant de degrés de liberté. Enfin trois variables de Fisher-Snedecor seront obtenues en divisant chacune des trois variances : s12, s22 et s1,22 (celle de l'interaction) par la variance résiduelle sR2.

Comme dans les autres cas, la probabilité de la variable F de Fisher-Snedecor est évaluée par consultation de la table, et la conclusion est tirée de la constatation de cette probabilité : si la probabilité est inférieure au seuil préalablement fixé, on conclut que le facteur considéré (ou l'interaction) est significatif ; si la probabilité est supérieure, on ne peut pas conclure.

3.3 Un exemple

Pour ce cas plus complexe que les précédents, on donnera un exemple comportant évidemment des données abondantes. On prendra celles dont il a été question tout au début : celles qui concernent l'enquête sur donc. On ne fournira pas ici le détail des données. En voici une rapide description. Ainsi qu'il a été dit, chaque sujet interrogé a trouvé sur sa liste les 18 phrases en question, qu'on trouvera sur le tableau 7, avec une moyenne simplement indicative (puisque cette moyenne ne sera pas utilisée elle-même dans le test). Il est facile de voir intuitivement que les deux facteurs examinés, le type de phrase et la position de donc devant une pause, une consonne ou une voyelle jouent un rôle dans les résultats obtenus. Mais dans l'analyse de la variance, ce rôle sera mesuré.

En réalité, ce qui sera soumis à l'analyse de la variance, ce sont des données telles que celles du tableau 8 (un très petit extrait de l'ensemble des données).

Tableau 8. Début des données soumises à l'analyse de la variance

Type de phrase

Phon._suiv.

Non

Bloc

Déclaratif

Pause

0

18

0,000000

Impératif/Exclamatif

Pause

4

18

0,490883

Interrogatif

Pause

3

18

0,420534

Déclaratif

Consonne

4

18

0,490883

Impératif/Exclamatif

Consonne

8

18

0,729728

Interrogatif

Consonne

8

18

0,729728

Déclaratif

Voyelle

0

18

0,000000

Impératif/Exclamatif

Voyelle

2

18

0,339837

Interrogatif

Voyelle

3

18

0,420534

Déclaratif

Pause

1

18

0,237941

Impératif/Exclamatif

Pause

3

18

0,420534

Interrogatif

Pause

0

18

0,000000

Déclaratif

Consonne

3

18

0,420534

Impératif/Exclamatif

Consonne

3

18

0,420534

Interrogatif

Consonne

3

18

0,420534

Déclaratif

Voyelle

1

18

0,237941

Ici, on le voit, les données ont été groupées selon les deux facteurs envisagés, et, par exemple, la ligne "Déclaratif, devant pause" regroupe les réponses relatives aux phrases 7 et 8. Comme le nombre des sujets interrogés est de 240 et qu'il suffit de 9 personnes pour faire un "bloc" de 18 réponses par intersection de modalités, il est facile de calculer qu'on obtient 26 blocs complets si tout le monde ou à peu près répond à toutes les questions (ce qui en l'occurrence a été le cas).

L'analyse de la variance réalisée sur ces données très abondantes a donné le résultat qu'on peut voir dans le tableau 9.

Les résultats ne permettent aucun doute. Chacun des deux facteurs envisagés intervient de façon massive dans les réponses, même si le type de phrase semble être encore plus important que la position. L'interaction (5,13301), avec une probabilité d'un demi pour mille en gros, semble être peu importante en comparaison des facteurs pris en eux-mêmes, mais il n'empêche qu'elle est significative elle aussi.

Nous n'allons pas commenter plus longuement ici ce résultat. Mais il y a une chose qu'il ne faut pas occulter : on aurait pu envisager d'autres facteurs : d'une part les questions ont été toutes présentes dans six listes différentes, et il n'est pas à exclure que les environnements différents dans lesquels chaque phrase y apparait ait pu influencer les réponses. Ensuite les publics interrogés ont été certes uniquement des étudiants, dans cette enquête, mais la moitié étaient des étudiants de Strasbourg, l'autre moitié des étudiants de Grenoble, et il n'est pas dit que les Grenoblois aient répondu comme les Strasbourgeois. Les étudiants des deux universités étaient pour une part des débutants de première année, pour une part des étudiants de licence, et on peut penser que, plus avancés dans des études de Lettres, les étudiants ont pu affiner leur perception des faits de langue, ou peut-être se laisser influencer par des enseignements normatifs. Mais ce qui est important ici, c'est que toutes les variations envisageables à partir de ces facteurs non pris en compte sont incluses dans la variance résiduelle ; si elles étaient importantes par rapport à la variation due à nos deux facteurs, la variance résiduelle serait importante aussi, et les facteurs apparaitraient d'autant plus faibles.

4. Précautions, vérifications et variantes

On n'a exposé rapidement ici que la présentation des données et les calculs qui conduisent aux tests d'analyse de la variance. Mais il ne faut pas perdre de vue les faits suivants, sur lesquels on ne peut pas s'appesantir ici, et qui du reste ne posent souvent pas trop de problèmes.

4.1 Normalité des résidus

L'analyse de la variance telle qu'elle est proposée ici est légitime dans le cas où les résidus sont distribués selon la loi de Gauss (loi normale). Les logiciels de traitement statistique du commerce (par exemple MINITAB) proposent des tests de normalité, qui permettent de s'assurer que la distribution observée ne s'écarte pas trop de ce modèle. On fera bien de recourir à ces tests.

4.2 L'intervalle d'acceptation est illimité "à gauche".

On peut utiliser deux lois statistiques, selon la nature des données : la loi du c 2 (nous n'envisageons pas ici cette possibilité, qui nécessiterait un développement assez long) et la loi de Fisher-Snedecor ; il est bon de se souvenir que l'intervalle d'acceptation de l'hypothèse nulle est défini, dans les deux cas, unilatéralement : seules les valeurs anormalement grandes de la variance sont considérées comme "significatives". Il est pensable que dans certains cas très particuliers l'égalité des différentes moyennes partielles soit plus parfaite que ne le comporterait le hasard. Le test proposé ne décèlera ces cas que si l'on songe à utiliser la table correspondante et à faire attention aux valeurs particulièrement faibles des facteurs.

4.3 Utilisation de variables quantitatives individuelles ou de moyennes

Dans le cas de données purement qualitatives, on ne peut travailler que sur des proportions, et on vient de voir quelles conséquences il convient de tirer de cette circonstance. Mais lorsqu'on est devant une variable d'aspect quantitatif telle qu'un classement, on pourrait envisager d'étudier, soit ces variables elles-mêmes, soit une forme transformée obtenue à partir d'elles, comme les formes u = ou u' = dont il a été question ci-dessus.

Mais l'expérience montre que les réponses du type d'un classement de 3, 4 ou 5 éléments est une variable quantitative extrêmement fruste, et que les variations aléatoires que l'on constate d'un sujet à l'autre sont trop importantes pour que ces réponses individuelles soient réellement utilisables. En effet l'ampleur des variations individuelles produit une variance résiduelle tellement forte que le rôle des facteurs apparait le plus souvent comme non significatif, puisque c'est par la variance résiduelle que les autres variances sont divisées dans le calcul du facteur F. Par ailleurs les résidus qu'on obtient avec une telle variable ne peuvent absolument pas être considérés comme gaussiens, ce qui condamne définitivement leur utilisation. Mais comme par ailleurs le recours à des moyennes s'accompagne forcément d'une perte d'information (schématisation) proportionnelle au nombre des mesures individuelles utilisées, il s'agira de choisir la moyenne qui produira des résultats stables et gaussiens avec le minimum de déperdition d'information. On peut considérer que la moyenne de 15 à 20 réponses individuelles est généralement une mesure d'une stabilité suffisante pour donner des résultats fiables ; il est inutile d'aller au-delà, et si l'on dispose de données beaucoup plus abondantes, il sera plus indiqué de les utiliser en tant que répétitions que de calculer une moyenne sur un nombre beaucoup plus important d'individus. Si au contraire le nombre des sujets interrogés est plus faible, on peut s'attendre à ce que la variance résiduelle s'accroisse par rapport aux autres variances.

Comme dans le cas de la comparaison de proportions, l'effectif le plus avantageux pour l'analyse de la variance dans le cas de classements est d'une vingtaine d'observations individuelles par donnée utilisée. Il est clair que si l'on avait affaire à des mesures d'une plus grande finesse, les choses se présenteraient différemment ; mais en matière linguistique, on peut supposer que la plupart des données relèveront d'un de ces deux types.

Vous pouvez, si vous voulez, télécharger ici un programme qui fait l'analyse de la variance, et un autre programme qui permet de faire un certain nombre d'autres calculs statistiques parmi les plus courants et les plus élémentaires (moyenne et variance, chi2, corrélations...). Chacun de ces programmes comporte un fichier d'aide accessible par la touche F1. Le fichier téléchargé est compressé ; il devra être lancé par un double clic de souris, comme pour exécuter un programme, pour que les fichiers autoextractibles deviennent accessibles. Après cette extraction, le fichier téléchargé pourra être détruit.

Télécharger le programme d'analyse de la variance
Télécharger le programme faisant les calculs élémentaires
N.B. Le programme d'extraction utilisé ici est dû à Laurent Laubenheimer. Il s'appelle AZIPEX et est distribué gratuitement sur le Web.
Retour à la page d'accueil
Retour à la page "Enquête"
Retour à la page d'accueil de l'Université Marc Bloch