Soit \displaystyle (x_i) une série statistique (à valeurs réelles) :
| i → | 1 | 2 | … i … | N |
| \displaystyle x_i | \displaystyle x_1 | \displaystyle x_2 | \displaystyle {..\;} x_i{\;..} | \displaystyle x_N |
La valeur moyenne est : \displaystyle\bar x = \frac1N\sum_{i=1}^Nx_i
et pour la moyenne pondérée par des effectifs \displaystyle n_i. Voir
A.N. Par exemple, les montants \displaystyle x_i de 7 factures en milliers d’euros :
| i → | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| \displaystyle x_i | 1 | 2 | 3 | 4 | 5 | 9 | 11 |
- Lecture de la médiane m
La série est ordonnée et 4 est la valeur qui sépare la série en 2 parties égales.
C’est le « milieu » : 3 valeurs sont supérieures à 4 et 3 inférieures à 4.
50% des valeurs sont inférieures à 4.
| m = 4 (= 4000€) |
Remarque : en statistiques, on utilise le mot « fractile »
| médiane M1 | fractile
(50%) |
50% des valeurs sont inférieures à M1 |
| déciles D1, D2.., D9 | fractiles
(10%,20%…,90%) |
10% des valeurs sont inférieures à D1… etc |
| quartiles Q1, Q2, Q3 | fractiles
(25%,50%,75%) |
M1=D5=Q2 |
- Le calcul de la moyenne \displaystyle\bar x
- un processus (*) est engagé : \displaystyle\big(\Sigma x_i \big)
- c’est la valeur se substituant aux autres : (isobarycentre)
| i → | 1 | 2 | 3 | 4 | 5 | 6 | 7 | \displaystyle\Sigma |
| \displaystyle x_i | 1 | 2 | 3 | 4 | 5 | 9 | 11 |
35 |
| \displaystyle \bar x | 5 | 5 | 5 | 5 | 5 | 5 | 5 |
35 |
\displaystyle 7\bar x =\sum_{i=1}^7x_i= 35 donc \displaystyle \bar x = \frac17\sum_{i=1}^7x_i= \frac1735=5
| \displaystyle \bar x = 5 (= 5000€) |
(*) un autre processus pourrait être engagé : le produit \displaystyle\big(\Pi x_i \big) ; la somme des carrés, des inverses : \displaystyle\big(\Sigma x_i^2\big)\;\;\;\big(\Sigma\frac{1}{x_i} \big) … un autre processus…
————————–
Mais, quelle est la mieux « placée » ? (au plus près des autres)
Il faut pour cela convenir de la manière dont on calcule les distances…
Cas 1 La distance entre les réels a et b : |b–a|
Dans ce cas, la mieux placée est la médiane 4 :
| \displaystyle x_i | 1 | 2 | 3 | 4 | 5 | 9 | 11 | \displaystyle \Sigma |
| \displaystyle |x_i -4| | 3 | 2 | 1 | 0 | 1 | 5 | 7 |
19 |
| \displaystyle |x_i -5| | 4 | 3 | 2 | 1 | 0 | 4 | 6 |
20 |
Cas 2 La distance euclidienne
Dans ce cas, la mieux placée c’est la moyenne 5.
| \displaystyle x_i | 1 | 2 | 3 | 4 | 5 | 9 | 11 | \displaystyle \Sigma |
| \displaystyle (x_i -4)^2 | 9 | 4 | 1 | 0 | 1 | 25 | 49 |
89 |
| \displaystyle (x_i -5)^2 | 16 | 9 | 4 | 1 | 0 | 16 | 36 |
82 |
D’où la définition de l’écart type : un écart quadratique moyen ! (mean square deviation)
\displaystyle\sqrt{\frac1N\sum_{i=1}^N(x_i -5)^2} égal ici à : \displaystyle\sqrt{\frac{82}{7}}