Équipe T. Brue

Accueil > Recherche > Équipe T. Brue > Documents > Notions de bases en statistiques

Notions de bases en statistiques

S’adresse à un public qui a des notions vagues et qui utilise des tests, mais qui aimerait clarifier certaines notions

Ecart-type – erreur-type – erreur-type de la moyenne

Ecart-type

On parle d’écart-type (ou standard deviation en anglais) pour une population dont on connait toutes les valeurs.

L’écart-type ayant pour but de chiffrer l’écart entre les valeurs et la moyenne. Il est donc logique de calculer la différence entre chaque valeur et la moyenne. Dans un premier temps, on a autant de différences que de valeurs. Dans un second temps, une valeur moyenne est extraite de ces différences.

- Mettre au carré les différences :

  • qui dit moyenne, dit somme des valeurs divisé par le nombre de valeur. Hors, la somme de valeurs positives et négatives s’annulent. Et dans notre cas, on a bien des valeurs inférieures et des valeurs supérieures à la moyenne. Dans le cas de l’écart-type, toutes les différences sont rendues positives en les multipliant par elles-mêmes (mises au carré). la mise au carré est préféré à la prise des valeurs absolu, qui sont plus embêtantes en mathématique (ça ne se dérive pas notamment).

- Extraire la moyenne :

  • on souhaite une moyenne. Donc la somme des différences (mises au carré) sont divisées par le nombre de différences. Si on s’arrête là, la statistique s’appelle la variance. (si on fait ça avec la valeur absolue des différence on obtient l’écart-moyen

- Exprimer la dispersion dans la même unité que la moyenne :

  • A présent la somme des différences n’est plus dans la même unité que la moyenne. Pour parler dans la même unité, on prend la racine de l’ensemble du calcul.

l’écart-moyen est inférieur à l’écart-type (division par n au lieu de racine de n) mais n’a pas de signification statistique.

Erreur-type, Erreur-type de la moyenne

La plupart du temps, on ne veut pas connaître la moyenne et l’écart-type de notre échantillon, mais estimer la moyenne et l’écart-type de la population entière à partir de notre échantillon "représentatif". On estime la moyenne du caractère dans la population en calculant la moyenne du caractère dans l’échantillon. Donc la moyenne estimée et la moyenne sont synonymes. Pour la variance, c’est plus compliqué : on estime la variance du caractère dans la population en mesurant la variance du caractère dans l’échantillon et en multipliant le résultat obtenu par n/(n-1) où n est le nombre des individus constituant l’échantillon. Il en résulte que l’erreur-type (ou standard error) se calcul comme l’écart-type mais en prenant n-1 comme nombre de l’échantillon (dans Exel c’est ECARTYPEP(). Donc l’erreur-type est l’estimation de l’écart-type du paramètre dans la population. Cette méthode statistique permet d’obtenir une estimation exacte en moyenne des paramètres de la population (ici moyenne et variance ou écart-type). Mais l’estimation obtenue d’un paramètre est une réalisation, (un exemple de valeur possible, pour le dire en français) d’une variable aléatoire. Cette variable aléatoire est appelée estimateur, et en tant que variable aléatoire, elle a des paramètres, notamment une moyenne et un écart-type. Pour les deux estimateurs considérés, la moyenne de l’estimateur est égale à la valeur du paramètres qu’ils servent à estimer (ce sont des estimateurs non biaisés). Et, par définition, l’erreur-type d’une méthode d’estimation est l’écart-type de l’estimateur utilisé.

Donc pour la moyenne, l’erreur-type de la moyenne est égale à

ou s est l’écart-type (inconnu) du caractère considéré dans la population.

Pour la variance, on montre que l’erreur-type de la variance est égale à . Mais personne ne parle jamais de l’erreur-type de la variance.

Toutefois, on se permet d’appeler également erreur-type d’une méthode d’estimation, l’estimation de l’écart-type de l’estimateur utilisé.

On peut donc dire que l’erreur-type de la moyenne (ou SEM pour standard error of the mean) est égale à ou s est l’erreur-type.

Mais l’erreur-type de la moyenne est une mesure de l’importance de l’écart qui peut exister entre l’estimation qu’on va obtenir pour la moyenne du caractère et la vraie valeur de celui-ci, mais ce n’est pas une mesure de la variabilité de ce caractère.

Donc dans tous les articles où l’on veut comparer des moyennes, on devrait donner l’erreur-type et non l’erreur-type de la moyenne.

A mon avis on ne le fait pas parce que l’erreur-type de la moyenne a le mérite d’être plus faible ...

Intervalle de confiance

C’est l’ensemble des valeurs que peut prendre un paramètre au risque α

Dans le cas simple de l’estimation de la moyenne d’une population à distribution normale dont on cherche à estimer la moyenne m, si α=5% et l’effectif de la population = n et l’écart-type s

l’intervalle de confiance est m ± 2 s.

Dit autrement, on trouve 95% de la population entre m-2s et m+2s

Hypothèse nulle, hypothèse alternative, risque α, risque ß

Faire un test statistique c’est calculer la probabilité de se tromper lorsque l’on dit que notre hypothèse est vraie. Dans le cas d’une comparaison de valeurs, l’hypothèse nulle, notée h0 c’est :

h0=“les deux échantillons proviennent de la même population.”

L’hypothèse alternative, notée h1 sera :

h1 = les deux populations proviennent de la même population.

Il y a deux façons de se tromper lors d’un test statistique :

- la possibilité de rejeter à tort l’hypothèse nulle lorsqu’elle est vraie. C’est le risque de première espèce, ou α, car on note α le risque de se tromper dans ce sens (faux positif)

- la possibilité d’accepter à tort l’hypothèse nulle lorsqu’elle est fausse. c’est le risque de deuxième espèce, le risque ß car on note ß le risque de se tromper dans ce sens (faux négatif)

On peut résumer la situation par un tableau croisant la réalité avec les conclusions de l’expérimentateur :



Conclusions



h0 est vraie

h1 est vraie

Réalité

h0 est vraie

super !!!

(ça arrive avec la proba 1- α)

risque α

h1 est vraie

risque ß

super !!!

(ça arrive avec la proba 1- ß)

Se prémunir du risque α est assez facile, il suffit de faire les bons tests (Cf choisir le bon test) en respectant leur critères d’application (vérifier la normalité des données, l’effectif minimum, ne pas jeter sans raison des résultats …), et de prendre un α petit (mais on augmente le risque ß)

Se prémunir du risque ßest plus subtil, mais on peut faire des tests de puissance (Cf les tests de puissance), afin de déterminer si compte tenu des différences observés entre les moyennes et la variance de ces moyennes, les effectifs étaient suffisants pour pouvoir rejeter l’hypothèse nulle.

    Ils nous font confiance

  • logo amu
  • logo cnrs
  • logo inserm
  • logo AP-HM
  • logo F�d�ration pour la Recherche sur le Cerveau
  • logo Fondation pour la Recherche Medical en France
  • logo IBiSA
  • logo Europe programme FEDER
  • logo Agence Nationale de la Recherche
  • logo Plateforme Technologique Aix-Marseille
  • logo Vect-Horus
  • logo Neuron Experts