Quel est le risque global de se tromper au moins une fois si l'on effectue 6 tests statistiques indépendants avec un risque individuel r = 10% ?
Pensez au complémentaire de la probabilité que tous les tests soient corrects simultanément.
Cette valeur correspond à la probabilité que tous les tests soient corrects (0,96), et non au risque d'avoir au moins une erreur.
Cette valeur suppose une addition simple des risques individuels, ce qui est une erreur conceptuelle car les probabilités ne s'additionnent pas ainsi pour des événements indépendants.
Le risque global se calcule par la formule 1 - (1 - r)n, soit ici 1 - (0,9)6, ce qui donne environ 0,4685.
Le risque global augmente avec le nombre de tests ; il ne peut pas rester égal au risque individuel initial.
Question 2/ 28
Dans le contexte d'une étude statistique, qu'est-ce qu'un 'plan balancé' ?
Cela concerne la répartition des effectifs entre les différents groupes comparés.
Le terme balancé fait référence à la répartition des observations (lignes) dans les sous-populations, pas au nombre de colonnes.
La balance ne concerne pas la valeur des moyennes mais la structure de l'échantillonnage entre les groupes.
Un plan est dit balancé lorsque les effectifs au sein de chaque niveau du facteur étudié sont identiques, ce qui optimise la puissance de l'analyse.
L'égalité des variances est l'homoscédasticité, une condition d'application, mais cela ne définit pas un plan balancé.
Question 3/ 28
Quelle est l'hypothèse nulle (H0) d'une ANOVA à un facteur ?
L'ANOVA cherche à vérifier si tous les groupes peuvent être considérés comme issus d'une même population en termes de position.
Ceci correspond à l'hypothèse alternative (H1) et non à l'hypothèse nulle.
C'est l'hypothèse nulle du test de Bartlett pour l'homoscédasticité, pas celle de l'ANOVA qui porte sur les moyennes.
L'hypothèse nulle suppose toujours une égalité ou une absence d'effet, pas une différence systématique entre tous les groupes.
L'ANOVA teste l'égalité globale de toutes les moyennes des k populations étudiées.
Question 4/ 28
Dans le modèle mathématique de l'ANOVA yij = μ + τj + εi, que représente le terme εi ?
C'est la partie du modèle qui explique la variabilité 'intra-groupe'.
La moyenne générale est représentée par le symbole μ.
εi est une variable aléatoire dont la variance est σ2, mais le terme lui-même est une valeur d'écart individuelle.
L'effet du groupe est représenté par le paramètre τj.
Le terme εi représente l'écart entre l'observation et la moyenne de sa sous-population, modélisé par une loi normale centrée en zéro.
Question 5/ 28
La statistique F observée dans une ANOVA est calculée comme :
Pensez au rapport entre la variance 'inter-groupes' et la variance 'résiduelle'.
Cela correspondrait à la variance globale de l'échantillon, sans tenir compte du découpage en groupes.
La statistique F compare la variabilité entre les groupes (expliquée par le facteur) à la variabilité à l'intérieur des groupes (résidus).
La statistique F est un rapport de variances (ou carrés moyens) et non un produit.
L'ANOVA utilise des sommes de carrés d'écarts à la moyenne et non de simples différences d'étendue.
Question 6/ 28
Quels sont les degrés de liberté associés à la variance 'intra-groupe' (résidus) pour n observations et k groupes ?
Considérez le nombre total d'observations diminué du nombre de moyennes de groupes estimées.
Les degrés de liberté se soustraient des effectifs totaux à mesure que des paramètres sont estimés.
C'est le nombre de degrés de liberté associé à la variabilité 'inter-groupe'.
C'est le nombre de degrés de liberté pour la variance totale de l'échantillon.
On retire un degré de liberté pour chaque moyenne de groupe calculée (il y en a k).
Question 7/ 28
Le test de Bartlett est utilisé pour vérifier quelle condition d'application de l'ANOVA ?
Ce terme barbare désigne le fait que les groupes ont des étalements similaires.
L'ANOVA à un facteur ne suppose pas une relation linéaire mais compare simplement des moyennes de groupes qualitatifs.
La normalité se vérifie généralement par un graphique quantile-quantile (Q-Q plot) ou d'autres tests spécifiques comme Shapiro-Wilk.
Le test de Bartlett vérifie si les variances au sein des différentes sous-populations sont significativement différentes ou non.
L'indépendance est une condition liée au protocole expérimental et ne peut être vérifiée par un test comme celui de Bartlett.
Question 8/ 28
Si l'homoscédasticité n'est pas rencontrée, quelle transformation est souvent suggérée en premier en biologie ?
C'est une transformation qui compresse les grandes valeurs et est utile si la variance augmente avec la moyenne.
Centrer les données ne modifie pas leur variance et ne règle donc pas les problèmes d'hétéroscédasticité.
Bien qu'elle puisse stabiliser certains types de données, elle n'est pas le premier choix systématique comme le logarithme.
Élever au carré a tendance à augmenter l'hétéroscédasticité si la variance croît avec la moyenne.
La transformation log est très courante pour stabiliser la variance, surtout lorsque les données suivent une distribution log-normale.
Question 9/ 28
Quand est-il approprié d'effectuer un test 'post-hoc' ?
C'est une analyse complémentaire qui suit une conclusion de différence significative globale.
Réaliser des tests multiples sans ANOVA préalable augmente drastiquement le risque de faux positifs (inflation de α).
On ne recherche quelles moyennes diffèrent que si l'on a d'abord prouvé qu'il existe une différence globale significative.
Si les variances sont inégales, les tests post-hoc classiques comme Tukey ne sont pas valides ; on utilise d'abord l'ANOVA pour valider la différence de moyennes.
Si l'ANOVA ne rejette pas H0, les tests post-hoc ne sont pas justifiés et risqueraient de détecter des différences dues au seul hasard.
Question 10/ 28
En quoi consiste la correction de Bonferroni pour les tests multiples ?
C'est une méthode simple qui rend chaque test individuel plus 'sévère'.
En réduisant le seuil de chaque test individuel, on maintient le risque d'erreur global au niveau de α souhaité.
C'est le principe des tests non paramétriques comme Kruskal-Wallis, pas une méthode de correction de seuil.
La correction se base sur le nombre de tests (comparaisons) et non sur le nombre d'observations dans l'échantillon.
Ceci n'a aucun lien avec la gestion du risque alpha lors de tests multiples.
Question 11/ 28
Que signifie l'acronyme 'HSD' dans le test de Tukey HSD ?
Cela exprime l'idée d'une différence 'honnête' entre les groupes.
Le terme HSD est spécifique à la procédure de comparaison multiple de Tukey.
La méthode calcule l'écart minimal pour considérer honnêtement que deux moyennes sont significativement différentes.
L'acronyme HSD fait référence à la nature de la différence détectée entre les moyennes.
Bien que le test repose sur des distributions standardisées, ce n'est pas la signification de l'acronyme.
Question 12/ 28
Sur un graphique de Tukey HSD, comment identifie-t-on une différence significative entre deux groupes ?
Regardez la position de l'intervalle par rapport à la ligne pointillée verticale représentant l'absence de différence.
Un intervalle large indique une grande incertitude, ce qui rend la détection d'une différence significative moins probable.
Le chevauchement des barres d'erreurs individuelles est un mauvais indicateur ; on regarde l'intervalle de confiance de la *différence*.
Le signe de la différence indique seulement quel groupe a la moyenne la plus élevée, pas si la différence est statistiquement significative.
Si l'intervalle de confiance autour de la différence des moyennes exclut zéro, on rejette l'égalité des moyennes au seuil choisi.
Question 13/ 28
Quelle est l'alternative non paramétrique de l'ANOVA à un facteur ?
C'est un test basé sur les rangs qui permet de s'affranchir des conditions de normalité.
Ce test s'applique à deux variables qualitatives, alors que nous comparons ici une variable quantitative entre plusieurs groupes.
Ce test compare les rangs moyens plutôt que les moyennes arithmétiques et ne nécessite pas la normalité des résidus.
C'est un test pour vérifier l'homoscédasticité, pas pour comparer des localisations de groupes.
C'est l'équivalent non paramétrique du test t de Student pour deux groupes seulement.
Question 14/ 28
Sur quoi repose le calcul du test de Kruskal-Wallis ?
Les valeurs sont classées de la plus petite à la plus grande avant l'analyse.
C'est le principe de l'ANOVA (paramétrique) et non du test de Kruskal-Wallis.
Le test de Kruskal-Wallis ne suppose pas une distribution normale des données originales.
Comme la plupart des tests non paramétriques, Kruskal-Wallis remplace les valeurs par leur position ordonnée dans l'échantillon global.
L'objectif est de comparer les localisations (rangs moyens) et non les dispersions.
Question 15/ 28
Quelle distribution théorique est utilisée pour calculer la valeur p du test de Kruskal-Wallis ?
C'est la même distribution que celle utilisée pour les tests de contingence, avec k-1 degrés de liberté.
Bien que certaines statistiques tendent vers la normale, le test de Kruskal-Wallis utilise spécifiquement le χ2 pour sa valeur de test.
La statistique de test calculée par Kruskal-Wallis suit approximativement une loi du χ2 à k-1 degrés de liberté.
La loi de Student est utilisée pour comparer les moyennes de deux groupes (test t).
La distribution F est utilisée pour l'ANOVA paramétrique, pas pour le test de Kruskal-Wallis.
Question 16/ 28
Dans R, quelle fonction permet d'obtenir le tableau de l'ANOVA à partir d'un modèle linéaire ?
C'est la fonction qui porte le nom même de la méthode d'analyse.
lm() sert à calculer les paramètres du modèle linéaire mais ne produit pas directement le tableau de test de l'ANOVA.
Cette fonction réalise le test d'homoscédasticité, une étape préalable à l'ANOVA.
La fonction anova() appliquée à un objet produit par lm() génère le tableau récapitulatif avec les sommes de carrés et la statistique F.
summary() donne des détails sur les coefficients du modèle, mais pas le tableau classique de décomposition de la variance de l'ANOVA.
Question 17/ 28
Comment appelle-t-on la variable qualitative qui définit les groupes dans une ANOVA ?
C'est la variable qui se place à droite du tilde (~) dans une formule R.
Le facteur (qualitatif) est supposé expliquer les variations observées dans la variable réponse.
C'est un synonyme de variable réponse, pas de variable explicative.
La variable réponse est la variable quantitative sur laquelle on effectue les mesures.
Le résidu représente l'erreur aléatoire et non la variable de regroupement.
Question 18/ 28
Dans un graphique quantile-quantile (Q-Q plot) des résidus, que cherche-t-on à observer ?
On compare les quantiles observés aux quantiles théoriques d'une loi normale.
Un bon alignement indique que la distribution des résidus suit une loi normale, respectant ainsi une condition de l'ANOVA.
Le Q-Q plot étudie la distribution globale des résidus, pas la séparation des groupes.
La forme de cloche s'observe sur un histogramme ou une densité, pas sur un graphique Q-Q qui compare des quantiles.
Bien qu'il aide à voir les valeurs aberrantes, son but principal est de vérifier l'adéquation à une distribution théorique (normale).
Question 19/ 28
Pourquoi l'ANOVA est-elle considérée comme une analyse de la variance alors qu'elle compare des moyennes ?
C'est une question de partitionnement d'une mesure de variabilité globale.
Elle utilise les carrés moyens, mais le but final est de tester si les écarts entre moyennes sont supérieurs à ce que le hasard permettrait.
L'étalement (variance) est utilisé comme outil, mais l'objet du test reste la différence de position (moyennes).
La comparaison des moyennes se fait indirectement en comparant la variance entre les moyennes de groupes à la variance résiduelle.
C'est une confusion avec la distribution de Poisson ; l'ANOVA ne requiert pas cette égalité.
Question 20/ 28
Vrai ou Faux : Le test de Kruskal-Wallis est plus puissant que l'ANOVA lorsque les conditions de cette dernière sont respectées.
Les tests utilisant l'information complète des données sont généralement préférables.
Les tests paramétriques (ANOVA) sont plus puissants que les tests non paramétriques quand la normalité et l'homoscédasticité sont vérifiées.
Un test non paramétrique perd de l'information en transformant les valeurs en rangs, ce qui diminue sa puissance par rapport à un test paramétrique valide.
Question 21/ 28
Que se passe-t-il si l'on compare 10 groupes deux à deux avec un risque α = 5% sans correction ?
Référez-vous au tableau de l'inflation du risque pour un grand nombre de groupes.
Avec 10 groupes, il y a 45 comparaisons (C102), ce qui conduit à une inflation massive du risque global selon la formule 1 - (0,95)45.
Le test reste techniquement possible, mais ses conclusions seraient statistiquement non fiables.
L'augmentation de l'échantillon améliore la puissance mais ne réduit pas l'inflation du risque α liée à la multiplicité des tests.
C'est l'erreur courante ; le risque global augmente avec le nombre d'opportunités de faire une erreur de type I.
Question 22/ 28
Quelle est la règle de décision habituelle pour rejeter l'hypothèse nulle dans un test d'ANOVA ?
C'est la même règle que pour le test t de Student ou le test du χ2.
Le nombre de groupes n'influence pas directement la décision de rejet, seulement les paramètres de la distribution.
C'est la règle universelle en test d'hypothèse : une faible valeur p indique que les données sont peu probables sous H0.
Une valeur F proche de 1 indique que la variance inter est similaire à la variance intra, ce qui soutient H0.
Si les moyennes sont égales, on accepte H0 ; on la rejette justement quand elles diffèrent.
Question 23/ 28
La propriété d'additivité des parts de variance signifie que :
Elle concerne la décomposition de la somme des carrés des écarts à la moyenne générale.
L'additivité s'applique aux sommes de carrés (SC) globales, pas aux variances individuelles des sous-populations.
La statistique F est un ratio et non une somme.
Cette égalité fondamentale permet de partitionner la variabilité totale en composantes explicables et résiduelles.
Les degrés de liberté se partitionnent également, mais cela n'est pas la définition de l'additivité des variances elle-même.
Question 24/ 28
Dans R, quelle extension est mentionnée comme utile pour effectuer des tests post-hoc complexes comme Tukey ?
Pensez à un package dont le nom évoque les 'multiples comparaisons'.
{ggplot2} sert à la visualisation mais ne réalise pas les calculs statistiques des tests post-hoc.
{dplyr} est utilisé pour le remaniement des données (select, filter, mutate) et non pour les tests d'inférence.
Le package {multcomp} fournit les outils nécessaires pour les comparaisons multiples, notamment avec la fonction glht().
{skimr} sert à produire des résumés statistiques descriptifs des tableaux de données.
Question 25/ 28
Le test de Kruskal-Wallis est réalisé avec 4 populations. Combien de degrés de liberté la distribution du χ2 aura-t-elle ?
Appliquez la formule k-1.
Le nombre de degrés de liberté pour Kruskal-Wallis est k-1, où k est le nombre de groupes.
Un seul degré de liberté correspondrait à la comparaison de deux groupes seulement.
C'est le calcul des degrés de liberté intra pour une ANOVA paramétrique, pas pour le test de Kruskal-Wallis.
On perd un degré de liberté car on compare les rangs moyens par rapport à une référence globale.
Question 26/ 28
Vrai ou Faux : Dans une ANOVA, les résidus doivent suivre une loi normale, mais la variable réponse elle-même ne doit pas nécessairement être normale dans chaque groupe.
Réfléchissez au lien entre yij et εi dans l'équation du modèle.
Si les résidus sont normaux, cela implique mathématiquement que la variable réponse suit une loi normale au sein de chaque sous-population (autour de sa propre moyenne).
La normalité des résidus est équivalente à la normalité de la variable réponse au sein de chaque groupe défini par le facteur.
Question 27/ 28
Quelle étape suit logiquement un test de Kruskal-Wallis significatif ?
C'est la même logique de 'garde-fou' que pour l'ANOVA.
Si on a choisi Kruskal-Wallis, c'est généralement parce que les conditions de l'ANOVA n'étaient pas remplies ; il est inutile d'y revenir.
Le test de Bartlett est une étape préalable à l'ANOVA et n'a pas d'utilité après un test de Kruskal-Wallis.
Tout comme l'ANOVA, Kruskal-Wallis ne dit pas quels groupes diffèrent ; il faut donc une procédure de comparaison multiple adaptée aux rangs.
Kruskal-Wallis travaille sur les rangs (médianes/positions) ; les moyennes arithmétiques peuvent être trompeuses sur des données non normales.
Question 28/ 28
Dans le tableau de l'ANOVA, que représente le 'Carré Moyen' (Mean Square) ?
C'est une étape de normalisation de la variabilité par les dimensions du problème.
Le carré moyen est une estimation de la variance associée à une source donnée (facteur ou erreur).
C'est une erreur de terminologie ; il n'y a pas de lien direct avec la racine carrée des moyennes.
L'écart-type est la racine carrée de la variance, alors que le carré moyen *est* une variance.
Le carré moyen concerne les écarts de données et non l'effectif au carré.