Read Statistiques bivariées - Partie I - Introduction et statistiques descriptives text version

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Statistiques bivariées

Cours du semestre 6 ­ Licence Sciences Sociales Université Marc Bloch ­ Strasbourg 2

Cours

Didier Breton - [email protected]

Travaux dirigés Mohamed Ouardani - [email protected] Virginie Jourdan - [email protected] Travaux pratiques ­ logiciel SAS Didier Breton - [email protected]

Année Universitaire 2007/2008

1

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Préalable

Ce cours se base totalement sur le cours construit et dispensé durant des années par Jacqueline Igersheim en formation initiale et actuellement repris par M. Ouardani en enseignement à distance. Qu'ils soient tous les 2 très sincèrement remerciés de m'avoir autorisé à reprendre presque intégralement leur cours que je prendrai grands soins de compléter dès l'an prochain.

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Présentation

Le cours Le jeudi de 10h00 à 12h00 ­ Platane A 4 Les dates des cours le 24/01 ­ 31/01 ­ 28/02 ­ 13/03 - 27/03 ­ 24/04 Les travaux dirigés V. JOURDAN : le mardi 11h00 ­ 13h00 ­ Pla A9 / Le mercredi 9h00 ­ 11h00 ­ Amphi 2 M. OUARDANI : le jeudi de 10h00 à 12h00 ­ Platane A 4 en alternance avec le cours Les 07/02 ­ 14/02 ­ 06/03 ­ 20/03 ­ 03/04 Le TD SAS : D. BRETON : le jeudi 12h00 ­ 14h00 ­ 5310 ; obligatoire pour les démographes Les 28/02 ­ 06/03 ­ 13/03 ­ 27/03 ­ 03/04 ­ 24/04 L'évaluation : Contrôle terminal écrit lors de la semaine d'examen ­ 2 heures Articulation cours TD :

Obligation d'être inscrit dans un des 3 créneaux de Travaux dirigés. Le TD Sas est facultatif : utilisation d'un logiciel de statistique : SAS. Ils sont obligatoires pour les démographes.

Références bibliographiques : DROESBEKE J. J., Éléments de statistique, Bruxelles, éditions Ellipses, 1997, 550 pages. PY B., Statistiques descriptives, éditions Economica, 1992, 353 pages WONNACOTT T. H. & WONNACOTT R J., Statistique, éditions Economica, 1995, 922 pages GRAIS B., Méthodes statistiques, 3e édition, éditions Dunod, 1998,401 pages.

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Plan du cours

INTRODUCTION Dans la continuité des enseignements des semestres 1 à 4 Deux questions centrales PARTIE 1 :STATISTIQUES DESCRIPTIVES ET ECHANTILLONNAGE I. POPULATION ET ECHANTILLON La population L'échantillon LA PRESENTATION D'UNE SERIE UNIVARIEE Quelques concept de base La présentation d'une série sous forme d'un tableau Paramètres de tendance centrale et de dispersion Estimation de paramètres 5 5 5 8 9 9 9 13 14 15 19 25

II.

III. REPRESENTATIVITE D'UN ECHANTILLON ERREUR ! SIGNET NON DEFINI. Représentativité selon un paramètre Erreur ! Signet non défini. Test multinomial : représentativité suivant plusieurs modalités/classe d'une variable qualitative/quantitative discrétisée Erreur ! Signet non défini. Test du Chi-2 : représentativité suivant le croisement une variable qualitative et/ou quantitative discrétisée

Erreur ! Signet non défini.

PARTIE 2 : ANALYSE MULTIVARIEE INTRODUCTION I. ERREUR ! SIGNET NON DEFINI. ERREUR ! SIGNET NON DEFINI.

MESURER LA RELATION ENTRE DEUX VARIABLES QUALITATIVESERREUR ! SIGNET NON DEFINI. Le tableau de contingence Erreur ! Signet non défini. Test d'indépendance Erreur ! Signet non défini. II. MESURER LA RELATION ENTRE DEUX VARIABLES QUANTITATIVESERREUR NON DEFINI. Les données Calculs de corrélation Droites de régression ! SIGNET

Erreur ! Signet non défini. Erreur ! Signet non défini. Erreur ! Signet non défini.

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Introduction

DANS LA CONTINUITE DES ENSEIGNEMENTS DES SEMESTRES 1 A 4

Ce cours est le dernier cours de statistiques descriptives du cursus Licence en Sciences sociales. Rappelons rapidement le contenu des enseignements des 4 premiers semestres, le 5ème semestre n'offrant un enseignement en statistiques uniquement pour les démographes. Semestre 1 : Statistiques descriptives · sensibilisation à l'enquête quantitative et au questionnaire · calculs et utilité des indicateurs de tendance centrale : moyenne, mode, médiane et des indicateurs de dispersion : variance, écart-type, coefficient de variation Comment calculer et interpréter ces différents indicateurs au sein d'une population et quelle que soit la forme de la série. Semestre 2 : Probabilités · Probabilité : Notion de variable aléatoire, lois discrètes et continues Semestre 3 : Théorie de l'estimation · Statistique inférentielle : Estimation : utilisation du théorème central-limit et loi des grands nombres qui permettent de juger de la convergence de la loi suivie par un estimateur d'un paramètre (moyenne ou proportion) vers une loi continue connue. · Ensuite, en faisant l'hypothèse que l'échantillon est représentatif (ou après avoir vérifié sa représentativité) il est possible d'inférer ou d'obtenir une estimation qui prend la forme d'un intervalle (intervalle de confiance), de la valeur du paramètre dans la population mère (population totale). Semestre 4 : Théorie des tests (décisions) · Tests de cohérence de la valeur obtenue d'un paramètre (moyenne proportion) par rapport une valeur donnée (réelle ou théorique). · Tests de comparaison de deux moyennes ou deux proportions mesurées au sein d'échantillons. · Le test d'indépendance du Chi-2. En parallèle des enseignements statistiques du semestre 3 et 4, le TD d'enquête quantitative MODALISA est une application des enseignements de statistiques et une occasion de vous confronter la réalité d'une enquête quantitative.

DEUX QUESTIONS CENTRALES

Le cours de statistique de ce semestre prolonge et complète ces différents enseignements. La

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

question centrale de ce cours est relative aux statistiques bivariées (deux variables) :

Comment juger de la significativité et au cas échéant de la force de la dépendance statistique entre deux variables ? (1)

Répondre statistiquement à cette question dépend de la nature des deux variables étudiées. Trois configurations sont possibles : Cas A : Deux variables qualitatives proportions et du test du Chi-2. révision et prolongement des tests de comparaison de deux révision et prolongement des tests

Cas B : Une variable qualitative et une variable quantitative de comparaisons de deux moyennes. Cas C : Deux variables quantitatives

Corrélation et régression linéaire.

L'analyse dans ce cas n'est plus univariée mais bien bivariée. On analyse de manière simultanée les caractéristiques des individus suivant deux variables. Dans le cas de données collectées par questionnaires il s'agit d'analyser la relation entre deux séries de réponses des individus. Est-ce que les répondes à une question A sont dépendantes/liées/corrélées aux réponses à une question B. Mais avant d'aborder la question de la dépendance vous devez avoir les moyens de juger de la représentativité d'un échantillon. Et donc de savoir répondre à la question suivante :

L'échantillon tiré, suivant un protocole (plan de sondage) donné, est-il représentatif de la population mère ? (2)

Pour répondre à cette question, nous utiliserons plusieurs « techniques », « outils » : Intervalle de confiance d'une proportion ou d'une moyenne Test de multinomial Test du Chi-2 La notion de représentativité est toujours une notion relative. On peut vérifier la représentativité d'un échantillon suivant la distribution : · d'une variables qualitative dichotomique ou quantitative : construction d'intervalle de confiance · de la distribution des effectifs suivant une variable à k modalités (k>2) : test multinomial · de la distribution suivant deux variables qualitatives ou quantitatives discrétisées : le test du Chi 2

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Dans les deux cas (dépendance ou représentativité de l'échantillon) le schéma général est le même : 1- On part de la situation Théorique (Intervalle ou répartition des effectifs) , appelée H0 , c'est-à-dire celle que l'on devrait obtenir si l'échantillon était représentatif ou si l'on était dans une situation d'indépendance. 2- On compare cette situation théorique à la situation observée dans l'échantillon tiré. 3- De la différence (distance) entre la situation théorique et la situation observée on parvient à une conclusion avec un certain niveau de confiance ou certitude. La conclusion consiste à rejeter ou non l'hypothèse selon laquelle la situation observée dans l'échantillon est conforme à celle énoncée en hypothèse. Dans le cas de la vérification de la dépendance entre les deux variables (1), la situation théorique est celle de l'indépendance entre les deux variables et si l'on cherche à vérifier la représentativité d'un échantillon (2), la situation théorique est celle de la représentativité de l'échantillon.

Mais avant de répondre à ces deux questions, une partie introductive servira de rappel sur la notion d'échantillon, sur quelques notions de vocabulaire en statistique univariée et bivariée et sur les modalités de calcul des indicateurs statistiques de tendance centrale et de dispersion d'une série univariée. En conclusion se cours se décompose en trois parties : Premier temps : Rappels : vocabulaire, Indicateurs, tirage d'échantillon ­ TD1-2 Deuxième temps : Juger de la représentativité d'un échantillon ­ TD2-3 Troisième temps : Juger de la dépendance entre deux variables. ­ TD 4, 5 et 6

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Partie 1 : Statistiques descriptives et échantillonnage

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

I. Population et Echantillon

LA POPULATION

La Population regroupe toutes les personnes susceptibles d'être enquêtées. Une population est localisée, datée et caractérisée. Elle a une taille « N » c'est-à-dire qu'elle regroupe « N » individus appelés aussi unités statistiques. .

· Par exemple la population française au 24 janvier 2008 est constituée de l'ensemble des individus qui vivent sur le territoire national le 24 janvier 2008. On ne peut pas connaître la taille exacte de cette population. De plus la question est de savoir à quel moment la dénombrer dans la journée du 24 janvier 2008 ? La population des « étudiants de l'Université Marc Bloch l'année universitaire 2007-2008 » est constituée de l'ensemble des étudiants inscrits dans les fichiers de la scolarité au jour de la clôture des inscriptions. On peut facilement connaître cette population (la dénombrer et la caractériser).

·

Dans le cas d'enquête la Population est aussi dénommée « population mère » ou « population totale ». L'idéal pour une enquête statistique serait d'interroger l'ensemble de la population. Une telle démarche, qualifiée d'exhaustive est parfois impossible compte tenu de la taille trop importante de la population, des moyens financiers, du temps disponibles ou tout simplement parce qu'une telle démarche est techniquement impossible. Mais l'exhaustivité peut aussi être inutile statistiquement compte tenu des niveaux de précisions obtenus à partir d'un échantillon, sous réserve de la représentativité de ce dernier. L'exhaustivité reste cependant la démarche idéale pour au moins deux raisons : Elle élimine toutes les questions de l'aléa et de la représentativité statistique. Les indicateurs obtenus sont les indicateurs réels. L'exhaustivité autorise plus de traitements et notamment des traitements croisés et multivariés du fait d'effectifs plus importants qu'en travaillant sur des échantillons. C'est par exemple le cas pour les études locales fines ou l'étude des sous populations marginales.

Une enquête peut être menée au sein de la population dans son ensemble. Le mot enquête ne doit pas être associée à celle d'échantillon !

L'ECHANTILLON

L'échantillon représente une fraction de la population totale. Il a une taille « n ». Il a une vocation : être représentatif de la population totale. On suppose donc que l'échantillon qui sera ensuite enquêté sera représentatif de la population totale, tout du moins du point de vue des variables clés et centrales dans la problématique de l'étude concernée. En effet sans représentativité, les conclusions obtenues à partir de l'échantillon ne peuvent pas être extrapolées à la population totale. La représentativité est en partie dépendante du mode de tirage choisit encore appelé plan de

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

sondage. Une des garanties d'une bonne représentativité d'un échantillon est la « dose d'aléatoire », dans le plan de sondage. Plus elle est importante plus forte sera la probabilité de disposer d'un échantillon représentatif. Le « hasard » limite les risques de sélection d'individus au comportement ou profil particuliers. Un échantillon non représentatif est soit surreprésenté ou sous représenté d'individus aux caractéristiques particulières. Par exemple sur ou sous représenté d'un sexe, d'une profession ou encore d'une origine particulière. Il existe comme vous l'avez vu en première année (premier semestre), deux grandes familles d'échantillon : les échantillons probabilistes (aléatoire) et les échantillons à choix raisonnésempirique (méthode des quotas par exemple). Seuls les échantillons aléatoires sont rappelés dans ce cours. Un sondage est dit aléatoire ou probabiliste si chaque individu de la population a la même probabilité d'appartenir à l'échantillon : Le taux de sondage est de

n N 1 N

.

Exemple 1 : Je veux tirer un échantillon de 30 personnes au hasard dans une salle de 110 étudiants (N = 110). · Chaque étudiant à une probabilité en théorie de 1/110 d'être tiré au sort. Le taux 30 de sondage est de = 0,273 soit 27,3% (un peu plus d'1/4) 110

Échantillon avec ou sans remise

Un tirage d'échantillon est dit exhaustif si le tirage se fait sans remise. Une personne ne peut être interrogée qu'une et une seule fois. A tirage est dit indépendant si le tirage se fait avec remise. Une personne peut être tiré et interrogée à plusieurs reprises. Quand la taille de la population est très importante et que la taille de l'échantillon est en comparaison suffisamment petit alors même si le tirage se fait sans remise on peut supposer que les tirages sont indépendants. La limite avait été fixée à 1/10 en deuxième année.

Base de sondage

Pour tirer un échantillon, l'idéal est de disposer d'une base de sondage. C'est ce qui se fait dans toutes les enquêtes quantitatives sérieuses. Une base de sondage est une liste papier ou informatique de personnes ou plus généralement d'adresses ou de coordonnées (téléphone, emails, ...). Tirage systématique dans une base de sondage Procédé :

· ·

Numéroter tous les individus de 1 jusqu'à N. Choisir un nombre b compris entre 1 et r =

N n

.

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

·

Interroger alors l'individu numéroté b, puis l'individu b + r, puis le b + 2 * r, le b + 3 * r, ... , le b + (n ­ 1) * r Je numérote mes individus de 1 à 110. Je tire un nombre compris entre 1 et

N = 3,7 4 ; par exemple le 3 (c'est-à-dire b = 3) n

Exemple à partir des données de l'exemple 1 :

· · ·

J'interroge les individus numérotés 3, 11, 15, 19, 23, ... , 108.

Dans le cas d'un échantillon choisi sur la base d'un tirage, la difficulté est souvent de disposer d'une base de sondage actualisée. Une base de sondage non actualisée conduira à une proportion de non réponses importante du fait des déménagements (changement d'adresse postale), des décès, de changements de coordonnées (téléphonique, emails). Les non réponses doivent faire l'objet de la plus grande attention.

Échantillons stratifiés à taux de sondage constant

Cela consiste à construire l'échantillon comme un modèle réduit de la population suivant certaines variables dites de contrôle et dont on connaît la répartition sur la population. Cette méthode garantit la représentativité de l'échantillon du point de vue des variables de stratification retenues. On peut alors partitionner la population en un nombre fini de sous-populations U1, U2, ... , UH, encore appelées strates à l'aide de ces variables. On tire alors dans chacune de ces strates avec le même taux de sondage «

n N

». Soit

N1, N2, ... , NH les tailles respectives des strates. Je tire au hasard n1 individus dans la strate U1, n2 individus dans la strate U2, etc.

n1 n n n = 2 =...= H = N1 N2 NH N

Exemple 2 : Dans une population de 300 personnes je souhaite interroger 15 personnes. La population est composée de 200 hommes () et 100 femmes (). Je peux constituer la strate des 200 hommes U1 et je tire au hasard au 20e dans cette strate, soit 10 hommes. La deuxième strate U2 est constituée par les 100 femmes et je tire au hasard au 20e dans cette strate, soit 5 femmes. J'obtiens dans mon échantillon d'hommes et de femmes. Effectuer un sondage stratifié consiste à prélever indépendamment les uns des autres, des échantillons simples, habituellement sans remise, dans chacune des sous-populations U1, U2, ... , UH. Quand on ne dispose pas de la base de sondage, la méthode des quotas, méthode non probabiliste, est une méthode qui s'approche d'un tirage stratifié. Mais l'enquêteur est alors libre de trouver les individus correspondant aux quotas imposés par le responsable de l'enquête. 2 femmes de 15-17ans par exemple. Par conséquent, on diminue la part de l'aléatoire puisque généralement, même involontairement, l'enquêteur ne choisira pas totalement au hasard la personne qu'elle va interroger. De plus si elle permet de s'approcher d'un tirage stratifiée en l'absence de base de sondage, on ne peut tirer suivant des quotas que si l'on a une connaissance de ces « quotas » dans la population totale.

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Echantillon stratifié à probabilités inégales

Tirer par exemple dans les différentes strates avec des probabilités inégales. Exemple 3 : Dans une ville qui compte 2 000 élèves en Classe de CP qui se répartissent à 80% dans des écoles publiques et 20% dans des écoles privées, vous souhaitez travailler sur les modalités d'apprentissage de la lecture. Or une de partie de vos hypothèses se réfère au clivage privé/public. Les moyens disponibles permettent d'interroger au maximum 200 familles. En cas de tirage avec des probabilités égales vous ne disposerez que de 40 familles dont les enfants sont inscrits en école privé. Une solution est de surreprésenter les familles dont les enfants sont inscrits dans le privé en vous fixant une équirépartition dans l'échantillon : 100 privé et 100 public, soit des taux de sondage respectifs de 100/1600 dans le public et 100/400 dans le privé. Il faut ensuite tenir compte de ce tirage dans le calcul de la moyenne dans la population totale en attribuant un poids plus faible aux familles du privé qu'aux familles du public. C'est ce à quoi servent les coefficients de pondération.

Le sondage à plusieurs degrés ou le sondage par grappes.

La construction d'un tel échantillon consiste à tirer au hasard des unités primaires et éventuellement secondaires, tertiaires, ... (les grappes) et dans la grappe la plus fine d'interroger toutes les personnes concernées par l'enquête. L'avantage de cette méthode est notamment de diminuer les coûts de collecte en concentrant, par exemple, le passage d'enquête dans une aire géographique circonscrite.

La notion de coefficient de pondération

A chaque individu au sein d'un échantillon on peut attribuer un poids, appelé coefficient de pondération (pi), proportionnel à sa probabilité d'appartenir à l'échantillon (probabilité d'être tiré au sort). La somme des pi est égal à N, la taille de la population totale.

p =N

i =1 i

i=n

Dans le cas d'un tirage simple, le coefficient de pondération est égal à l'inverse du taux de sondage. Dans l'exemple 1, chaque étudiant de l'échantillon à un coefficient de pondération de 110 = 3,7. Chaque individu représente 3,7 personnes de la population totale. On parle 30 d'échantillon auto-corrélé. Mais plus généralement : plus la probabilité d'un individu de l'échantillon d'être tiré au sort était faible, plus son coefficient de pondération est important. Dans l'exemple 3, chaque famille « du privé » pèse 4 (400/100) et chaque famille « du public » pèse pour 16 (1600/100). Il faudra tenir compte de ces coefficients pour le calcul des moyennes valant pour l'ensemble de la population.

Quelques exemples pratiques de plan de sondage

L'enquête sur la perception du sida par les jeunes dans le Bas- Rhin Population : {Les jeunes de 18 à 24 ans du Bas-Rhin } Problématique : Une enquête effectuée en 1993 cherchait à cerner les représentations du Sida, leurs attitudes face à leur première relation, leurs conduites contraceptives lors de leurs relations sexuelles et leur résistance à l'emploi du

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

préservatif. Échantillon : Un échantillon de taille 400 devait être interrogé. La méthode retenue a été celle des quotas puisque le recensement de 1990 nous permettait d'avoir la ventilation des jeunes selon plusieurs variables mais qu'aucune base de sondage n'était disponible : Le sexe : Garçons vs. Filles ; L'âge : 3 tranches d'âge : 15-18 ans, 19-21 ans et 22-24 ans ; L'activité : Actif vs. Non actif Lieu d'habitation : Communauté Urbaine de Strasbourg (CUS) vs. Ailleurs ; Intérêt : les enquêteurs étaient des étudiants et lorsque en les laissant libres d'interroger les personnes de leur choix, ils ont choisi en majorité des étudiants. Une solution a été de leur imposer des « profils types »: 1 homme de 22-24 ans ouvrier habitant la CUS. L'enquête sur le vieillissement du personnel soignant Population : {infirmières, aides soignantes et agents d'entretien des hôpitaux de Strasbourg} Problématique : Connaître les facteurs de vieillissement selon la perception des agents, déterminer les tâches les plus pénibles aussi bien physiquement que psychologiquement et essayer de déterminer des solutions. Échantillon : échantillon de taille 400 environ. On disposait du fichier de ces catégories de personnel. En classant le fichier par grade, par sexe (très peu d'hommes), par âge il a été possible e tirer au 15 dans ce fichier par tirage systématique. Il a fallu d'abord numéroter les personnes de chaque catégorie 1, 2, 3, 4, 5, ; 1, 2, 3, 4, 5, etc. Puis tirer au hasard un nombre, en l'occurrence 2 (chiffre entre 1 et 5) et enfin envoyer un courrier à toutes les personnes qui portaient le numéro 2. Ce procédé donne un échantillon sans remise stratifié. Problème : Toutes les personnes n'ont pas répondu, les infirmières (grade le plus haut) ont été les plus nombreuses à répondre. Une solution a été de constituer un échantillon de secours pour les autres catégories et redresser l'échantillon de manière à garder un échantillon représentatif des variables de contrôle. L'enquête sur la violence au collège Ici, nous avons procédé par échantillonnage à choix raisonné. Interroger des enfants à l'entrée au collège (6e) et à la sortie du collège (3e). Les collèges retenus ont été ceux qui voulaient bien que soit menée cette enquête pour mener cette enquête. Dans chaque collège, ont été retenue 3 classes de 6e et 3 classes de 3e et tous les enfants des classes ont alors été interrogés à l'issue d'un cours. Rien ne permet ici d'affirmer que l'échantillon est correct, mais cela permet de comparer l'opinion des 6ème et des 3éme et de comparer les collèges entre eux.

II. La présentation d'une série univariée

Les données collectées dans une population exhaustive ou auprès d'un échantillon peuvent être

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

présentées dans un premier temps sous la forme d'un tableau et/ou d'un graphique.

QUELQUES CONCEPTS DE BASE

Les individus

Il s'agit de l'unité statistique élémentaire qui compose la population. Ce sont les entités que l'on tire au sort pour constituer l'échantillon ou encore celles que l'on interrogera dans l'étude. Ces unités statistiques peuvent être des personnes (souvent le cas en sociologie), mais aussi des logements (INSEE), des entreprises etc.

Les variables

Les variables correspondent aux caractères attachés à une unité statistique. A une question dans un questionnaire peut être associée une ou des variables selon les cas. Deux individus peuvent avoir une même valeur pour une variable donnée mais un individu à une et une seule valeur de la variable associée. Une variable généralement représentée par la lettre « X » indicée ou non. Elle à un nom qui la caractérise le plus précisément possible. Soit X une variable. Observer sa valeur sur un individu consiste à lui affecter un élément de l'ensemble V des valeurs possibles. Mathématiquement, c'est une application de E/U dans V. Exemple : X = Sexe / V = {homme, femme} Il n'existe qu'une image dans l'ensemble d'arrivée. Un individu n'a qu'une modalité de sexe. C'est pourquoi lorsqu'on pose une question où un individu peut associer 2 ou plusieurs éléments de V, par exemple, Exemple "Quel est votre chauffage ?", on est obligé de créer au moins 2 variables, puisqu'un même individu peut avoir plusieurs types de chauffages. À une même question peut correspondre plusieurs variables. On distingue deux grands types de variables : Les qualitatives et les quantitatives Les variables qualitatives Ce sont celles dont l'ensemble V des valeurs prises n'est pas un ensemble de nombres mais un ensemble de qualités : ex : le sexe, la situation matrimoniale, le groupe social ... V est alors l'ensemble des modalités de la variable. On parle aussi de variables nominales. Le nombre de modalités dépend de la variable. On parle d'une variable dichotomie lorsqu'une variable a 2 modalités possibles. Exemple : sexe On dit qu'une variable est ordinale lorsqu'une relation d'ordre est introduite qui rend possible un ordre des modalités. Exemple : la satisfaction : V = {très bon, bon, moyen, mauvais, très mauvais} Les variables quantitatives Ce sont celles dont l'ensemble V est un ensemble de nombres avec une échelle numérique. On distingue 2 types de variables quantitatives :

·

Les variables discrètes :

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Exemple : le nombre d'enfants, le nombre de grands-parents vivants, ... V est composé d'un nombre limité de valeurs possibles : V = D = {0, l, 2, 3, ...} V ={A, B, ..., K} contenant un nombre fini de valeurs représentées ici par des lettres. Exemple : nombre d'enfants dans une famille, nombre d'emplois occupés. Attention : on peut représenter par une variable discrète les variables qualitatives dichotomiques par V = {0, 1}, 0 marquant l'absence et 1 la présence. Exemple : la nationalité : 1 marque la modalité français , 0 autre nationalité .Cette opération permet de rendre quantitative une variable qualitative dichotomique.

·

Les variables continues : V est composé de valeurs continues (une infinité) V = IR (ensemble des nombres réels) V = [ a, b ] ; [ a, b ] est un intervalle de IR

Exemple : le salaire, l'âge le poids, le nombre de minutes d'attente chez le dentiste, l'âge (en mois), etc.

LA PRESENTATION D'UNE

SERIE SOUS FORME D'UN TABLEAU

Les proportions sont calculées à partir des valeurs attachées à chaque individu, au total n valeurs : {xi , i variant de 1 à n}. On parle alors de série brute.

Distribution observée

Lorsqu'on effectue informatiquement un tri à plat, on obtient en général la liste des valeurs de la variable auxquelles est associé le nombre d'individus qui possèdent ces valeurs. En général, cette liste de valeurs est ordonnée. Il est évident que lorsque la variable est nominale, elle est ordonnée artificiellement par les codages numériques. La distribution observée fournit les renseignements suivants :

· X1 X 2 ·

, ... , X ,j : Les valeurs distinctes qui apparaissent dans la série brute de la variable X . Soit J est le nombre de valeurs différentes de la variable observé.

nj : Le nombre d'apparition de la valeur Xkj. Ce nombre s'appelle l'effectif de la modalité j de X

On dispose alors de la série { (Xj , nj ), j variant de 1 à J }

Autres statistiques

En général, la sortie par ordinateur, outre la série { (Xj , nj ), j variant de 1 à J }, vous donne les statistiques suivantes :

·

L'effectif cumulé Nj représente le nombre d'observations inférieures ou égales à Xkj. Ce concept n'a pas de sens pour une valeur nominale, mais a un sens pour des variables ordinales ou quantitatives.

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Nj = ni

i =1

i= j

N1 = n1

j=J

NJ = n

·

La fréquence fj représente la proportion d'individus de E qui possèdent la modalité Xj fj =

nj n

f

j =1

j

=1

avec k le nombre d'individus N ayant le caractère j pour la variable X. Que pour les individus ayant ce caractère.

·

En utilisant les coefficients de pondérations fj =

pi

i =1

i=k

La fréquence cumulée Fj représente la proportion d'individus de E dont la valeur est inférieure ou égale à Xj. Ses propriétés sont analogues à celles de Nj.. Fj = f i

i =1 i= j

F1 = f1

FJ = 1

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Exemple : A la question : "Le lycée est-il violent ?", les lycéens du LEP, Le Corbusier ont répondu :

Modalités Très Moyennement un peu Pas du tout Total Effectifs 28 67 36 9 140 Effectifs cumulés 28 95 131 140 Fréquences 20% 47,9% 25,7% 6,4% 100% Fréquences cumulées croissantes 20% 67,9% 93,6% 100%

Représentation graphique

Diagramme à bâtons Reprenons la distribution située ci-dessus, nous pouvons dessiner un diagramme à bâtons, il faut pourtant indiquer que l'axe des abscisses n'a pas de sens.

Pour le diagramme en barres, les valeurs de X sont en ordonnée et les effectifs en abscisse. La largeur des rectangles n'a pas de sens car les ordonnées peuvent être des qualités (pour le sexe par exemple). La hauteur a un sens.

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Ces représentations sont valables pour des variables qualitatives et éventuellement pour des variables quantitatives discrètes. On peut porter en ordonnées les fréquences au lieu des effectifs ce qui ne change pas les formes de graphiques. Mais si on utilise les effectifs cumulés, les diagrammes en barres changent. Représentation en secteurs ou en camembert

Histogrammes Lorsque la variable est quantitative continue, le nombre de valeurs distinctes observées est souvent trop grand pour faire les graphiques précédents. On regroupe alors les valeurs en intervalles, en classe. Cela revient à discrétiser une variable continue si la variable est quantitative continue.. Exemple (voir cours de première année) : on a interrogé 2169 enfants en dernière année de maternelle. On les a mesurés. On a donc une série de données brutes de 2169 nombres. La taille des enfants variait entre 98,5 cm et 134 cm. On a choisi de faire les regroupements suivants :

classe Ij [ 98,5 - 101,5 [ [ 101,5 - 104,5 [ [ 104,5 - 107,5 [ [ 107,5 - 110,5 [ [ 110,5 - 113,5 [ [ 113,5 - 116,5 [ [ 116,5 - 119,5 [ [ 119,5 - 122,5 [ [ 122,5 - 125,5 [ [ 125,5 - 128,5 [ [ 128,5 - 131,5 [ [ 131,5 - 134,5 [ Total effectifs nj 9 39 120 275 400 500 409 273 100 34 9 1 2169 fréquences fj 0,41 1,80 5,53 12,68 18,44 23,05 18,86 12,59 4,61 1,57 0,41 0,05 100 effectifs cumulés 9 48 168 443 843 1343 1752 2025 2125 2159 2168 2169 ­ fréquences cumulées 0.41 2.21 7.74 20,42 38,86 61,91 80,77 93,36 97,97 99,54 99,95 100,00 ­

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

x- : j + : xj c: aj : nj : fj :

la limite inférieure de la classe la limite supérieure de la classe le centre de la classe l'amplitude de la classe l'effectif de la classe la fréquence de la classe

nj

aj aj (effectifs ou fréquences corrigées). Si les classes sont d'amplitudes égales, c'est-à-dire si tous les aj sont égaux, on peut mettre les nj ou les fj en ordonnées, le dessin sera proportionnellement (visuellement) le même que si on prenait le soin de corriger les effectifs ou les proportions.

Pour construire un histogramme, en ordonnée on doit porter la valeur

ou

fj

Si une classe est le double des autres, il faudra diviser par deux son effectif pour avoir un résultat correct. On peut aussi construire le polygone des effectifs en reliant par une ligne brisée, les points d'abscisse Xj et de d'ordonnées nj (ou fj). On peut aussi effectuer un histogramme avec les fréquences cumulées ou les effectifs cumulés.

PARAMETRES DE TENDANCE CENTRALE ET DE DISPERSION

Lorsque l'on donne la distribution d'une variable, il est utile de dégager des valeurs caractéristiques qui ont pour but de résumer la série statistique observée. On parlera dans ce chapitre des paramètres de position et des paramètres de dispersion. Les paramètres de position sont destinés à définir des valeurs centrales. Les paramètres de dispersion vont caractériser la répartition des variables, soit les unes par rapport aux autres, soit autour d'une valeur centrale. Il s'agit, dans un premier temps, de calculer ces paramètres dans l'échantillon, puis, à partir de ces valeurs, de donner l'intervalle d'estimation dans lequel se situe ce paramètre inconnu dans la population.

Les paramètres de tendance centrale

II s'agit d'élaborer des valeurs centrales de la série étudiée. On peut ainsi se rendre compte que la série statistique ordonnée { 1 , 3 , 3 , 3 , 4 , 5 , 5 , 5 , 7 } se répartit autour de la valeur centrale ( 4

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

). La moyenne arithmétique Moyenne arithmétique d'une série brute De tous les paramètres destinés à définir une valeur centrale, la moyenne arithmétique est certainement la plus connue. La moyenne arithmétique d'une série statistique { 1 , 3 , 2 , 2 , 1 , 2 } (série brute) se définit comme étant égale à la somme des observations divisée par l'effectif n, et notée x .

x = 1 x i n i =1

i =n

Comme une somme de nombres ne dépend pas de l'ordre dans lequel ils se présentent on peut aussi définir x à partir de la série ordonnée { 1 , 1 , 2 , 2 , 2 , 3 }.

x = 1 + 1 + 2 + 2 + 2 + 3 = 11 = 1,833 6 6

Remarques : · La moyenne arithmétique ne se conçoit que si les valeurs observées sont numériques (quantitatives).

· Ce paramètre est unique : une série ne peut pas posséder plusieurs moyennes arithmétiques

distinctes et il se calcule facilement (âge moyen par échantillon).

· La moyenne est rarement une valeur observée (1,9 enfant par femme). · Elle est sensible aux valeurs extrêmes (aberrantes), quand

n est petit.

Propriétés :

La somme des écarts à la moyenne est nulle :

(x -x ) = 0

i =n i i =1

Moyenne arithmétique d'une distribution groupée La moyenne arithmétique de la série statistique {1 , 3 , 2 , 2 , 1 , 2} peut se calculer des 2 manières suivantes :

x = 1 + 1 + 2 + 2 + 2 + 3 = 1,833 6 x=

(2 x 1) + (3 x 2) + (1 x 3) = 1,833

6

Soit une distribution regroupée { (xj , nj) , J = 1 à J }

x = 1 n j xi n j =1

Exemple : Salaire mensuel de 8 ouvriers : En données brutes : { 830 , 1250 , 960 , 1080 , 960 , 830 , 960 , 1080 } x = 1 x i = 7950 = 993,75 8 i =1 8

i =8

j=J

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

En distribution regroupée :

xj 830 960 1080 1250 Total

j =4

nj 2 3 2 1 8

xj x nj 1660 2880 2160 1250 7950

x = 1 n j x i = 1660 + 2880 + 2160 + 1250 = 7950 = 993,75 8 8 8 j =1

Attention : Lorsque l'on dispose d'une distribution regroupée dans des intervalles de centre cj et d'effectif nj (par exemple la taille des enfants de 6 ans des enfants), on peut utiliser la même formule : Si les nj valeurs sont réparties uniformément autour de la valeur centrale, on ne risque pas de faire beaucoup d'erreur.

Exemple : Tailles des enfants de 6 ans :

· Avec la distribution regroupée : x = 114,91 cm · Alors qu'avec les données brutes : x = 114,90 cm (la vraie moyenne)

Plus on fait de classes, plus la valeur risque d'être bonne, mais le calcul n'est pas tout à fait exact.

Moyenne pondérée Exemple :

Sur 90 garçons, x 1 = 172 cm Sur 120 filles, x 2 = 168 cm Quelle est la moyenne des 210 individus ?

x=

(90 x 172) + (120 x 168) = 35 640 =168,712 cm

210 210

x = 172 + 168 = 170 cm 2

Et non pas :

En fait, on pondère la 1ère moyenne par la proportion de garçons et la 2eme moyenne par la proportion de filles.

x = pa x a + pb x b

avec pa + pb = 1

x = 0,428 x 172 + 0,572 x 168 = 169,712 cm

La moyenne, comme tous les paramètres de position, s'exprime toujours dans la même unité que la variable.

La médiane

La médiane M½ est un paramètre qui, comme la moyenne arithmétique, représente une valeur centrale d'une série statistique. Mais, contrairement à la moyenne, elle n'est pas liée à la valeur numérique des observations : c'est la position des valeurs numériques les unes par rapport aux

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

autres qui sera être prise en compte. Exemple : Les notes de 5 étudiants Série brute : {9 , 10 , 11 , 14 , 15} n = 5, n est impair M½ = la note de l'individu n + 1 , c'est-à-dire du 3e étudiant =11 2 II y a autant d'étudiants qui ont une note < 11 que d'étudiants qui ont une note > 11.

Définition : La médiane M½ est une valeur de la variable statistique qui partage en 2 effectifs égaux la série des observations préalablement ordonnées par valeur croissante ou décroissante. Exemple : Les notes de 6 étudiants

{9, 10 , 11 , 14 , 15 , 16}

n = 6, cette fois-ci n est pair.

On cherche la note de l'individu ( n ) et celle de l'individu ( n + l) et on en déduit la moyenne : 2 2 11 + 14 =12,5 M½ = 2 II y a autant d'étudiants qui ont une note < 12,5 que d'étudiants qui ont une note > 12,5.

Distribution groupée : { ( xj , nj ); j varie de 1 à J }

+ - On détermine l'intervalle ( x k , x k ) dans lequel se situe la n e observation. On peut dire que cette 2 classe est la classe Médiane. Cependant, on peut calculer la médiane par interpolation. On suppose alors que les individus dans cette classe sont répartis uniformément, n étant grand, on ne se préoccupe pas de savoir si n est pair ou impair.

Soit

Nk­1= ni

i =1

k -1

- M½ = x k +

ak n - N k -1 nk 2

Exemple : Reprenons l'exercice portant sur la taille des enfants n = 2169 =1084,5 2 2

Le 1 084,5ème enfant a une taille située dans l'intervalle [ 113,5cm ; 116,5cm ]. C'est la classe modale, calculons la médiane par interpolation en utilisant la formule précédente : Soit

Nk­1=843

M½ = xk- +

ak n - N k -1 nk 2

M½ = 113,5 + 3 (1084,5 ­ 843) = 114,95 cm 500

La médiane peut être déterminée graphiquement en construisant le polygone des fréquences cumulées et en déterminant la valeur au point d'ordonnée ( 0,5 ; n ) 2

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Remarques :

· La médiane n'a de sens que pour les variables quantitatives ou ordinales. · Elle se prête très mal aux calculs algébriques.

Le mode

Définition : Le mode d'une série statistique, noté Mo, est la valeur observée qui apparaît le plus souvent.

Le mode n'est pas obligatoirement unique : on peut alors définir des modes absolus et relatifs. Une distribution peut être bimodale :

Exemple : on relève les pointures de pied d'un échantillon composé d'hommes et de femmes : la distribution va être bimodale, car les femmes ont le plus souvent une pointure de 38 et les hommes de 42.

Lorsqu'on a 2 modes, on peut supposer que la population observée est hétérogène et composée de 2 sous-populations. Dans l'exemple précédent, les hommes et les femmes. Si l'on a regroupé les données en classes, on définira alors des classes modales :

Exemple : Tailles des enfants de 6 ans : La classe modale est [ 113,5 ; 116,5 ] puisque dans cette classe, on observe 500 enfants qui est l'effectif le plus élevé (classes d'amplitudes égales).

En faisant l'hypothèse que les effectifs sont uniformément distribués dans la classe, on peut dire que le mode est 115 cm. Graphiquement on détermine le mode par la méthode des diagonales (on trouve pratiquement la même chose). Voir le cours de première année.

Comment comparer ces 3 paramètres de positions ?

Lorsque les 3 paramètres sont sensiblement égaux, la distribution est symétrique. Lorsque la distribution n'est pas symétrique, la médiane est située entre la moyenne et le mode, la moyenne étant le paramètre le plus élevé si la distribution est plus étalée vers à droite et le moins élevé si la distribution est étalée à gauche.

Les paramètres de dispersion

L'étendue

Définition : L'étendue est égale la différence entre la plus grande et la plus petite valeur de la variable. Exemple : Les tailles des enfants de 6 ans : 134 cm - 98,5 cm = 35,5 cm

L'étendue est très sensible aux valeurs aberrantes.

L'écart-type

C'est le paramètre de dispersion le plus utilisé. Le but est de caractériser la dispersion de la série autour de la moyenne (l'écart d'une valeur donnée par rapport à la moyenne).

Ecart-type d'une série brute

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

Définissons tout d'abord la variance d'une distribution que nous notons s ² :

s ² = 1 x i -x n i =1

n

(

) =n 1

2

n

i =1

x i 2 - x²

Les valeurs ( xi ­ x ) sont soit positives soit négative. Si nous les sommons, nous obtenons la valeur 0 (propriété de la moyenne). Pour ne pas que ces valeurs s'annulent, on les élève au carré (on pourrait en prendre les valeurs absolues) et on en fait la moyenne. Cependant, ce paramètre s'exprime dans l'unité au carré de la variable étudiée, c'est pourquoi nous définissons l'écart-type comme la racine carrée de la variance. Ce paramètre s'exprime dans la même unité que la variable :

s=

s²=

1 x i -x n i =1

n

(

)

2

Si les valeurs xi de la distribution sont très homogènes, les valeurs sont proches les unes des autres et donc de la moyenne et, par conséquent, les valeurs (xi ­ x ) sont faibles et la variance sera alors faible. Par contre, plus les valeurs sont hétérogènes, plus la valeur de la variance sera grande. Remarques :

· La variance ne se calcule que si la variable est numérique. · Si toutes les valeurs sont identiques, la variance est nulle. · La variance, comme la moyenne, est sensible aux valeurs aberrantes. · On peut calculer la variance pondérée de 2 séries et elle s'exprimera ainsi :

s² = n1 s1² + n2 s 2² + n1 + n2

n1 ( x1 - x )² + n2 ( x 2 - x )² n1 + n2

Le premier terme est une moyenne pondérée des variances des deux séries et il est appelé variance dans les groupes (variance intra). Le deuxième terme peut être considéré comme la variance des deux moyennes et s'appelle variance entre les groupes (variance intergroupe). Plus la variance intra groupe est faible en comparaison de la variance intergroupe plus la situation est celle de deux populations à la fois différentes l'une de l'autre et très homogènes en leur sein. A l'inverse si la variance intra est relativement forte cela signifie que chacune ou au moins une des populations n'est pas très homogènes du point de vue du paramètre étudié. Pour juger la part de chacune des variances (inter et intra), il est courant de calculer la part (proportion en %) de chacune des variances.

Ecart-type d'une série regroupée : { ( xj , nj ) ; j varie de 1 à J } La valeur xj est prise nj fois, la formule de la variance s'écrit :

s² = 1 n j x j -x n j =1 Exemple : Salaire mensuel de 8 ouvriers : xj

830 960

J

(

1 ) =n n

2

J

j

j =1

x j 2 - x²

nj

2 3

xj x n j

1660 2880

xj² x nj

1 377 800 2 764 800

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

1080 1250 Total

2 1 8

2160 1250 7950

2 332 800 1 562 500 8 037 900

x = 7 950 = 993,75 8 s ² = 8 037 900 ­ 993,75² = 17 198,4 8 s = 17 198,4 = 131,1

Le coefficient de variation : C'est la valeur relative de la dispersion. En effet plus la moyenne est élevée, plus l'écart type aura tendance à être fort. On peut par conséquent difficilement comparer les écarts-types de deux séries univariées dont les moyennes sont très différentes. En revanche, il est possible de comparer deux Coefficient de variation (CV). Avec CV = X Autres paramètres de dispersion II existe d'autres paramètres de dispersion comme :

· Écart moyen absolu : · Écart médian absolu :

em = 1 xi -x n i =1

n

n

* em = 1 xi - M½ n i =1 Cependant, ces calculs sont peu maniables, c'est pourquoi ces paramètres sont peu utilisés.

ESTIMATION DE PARAMETRES

Estimation d'une moyenne

Supposons que l'échantillon soit issu d'une population P. Nous observons une variable quantitative X sur chaque individu de la population. Soit µ l'espérance mathématique de cette variable et son écart-type. Si la loi de X est quelconque, µ et inconnus, on peut donner un intervalle d'estimation avec une probabilité de l'espérance mathématique µ, dès que n est grand (n 30) :

s s x - t n ; x + t n

La valeur de t est donnée par la table de la Loi normale : pour = 95%, alors t = 1,96. x est la moyenne observée dans l'échantillon et s l'écart-type observé. Exemple : La taille des enfants de 6 ans La taille de l'échantillon est de 2 169, la moyenne de 114,91 cm et l'écart-type observé de 5,12 cm. Nous pouvons en déduire avec une probabilité de 95% que la taille moyenne de tous les enfants de 6 ans appartient à l'intervalle :

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

5,12 114,91 - 1,96 2 169

; 114,91 + 1,96 5,12 = [ 114,7cm ; 2 169

115,1cm ]

Cette estimation est précise car nous disposons d'un grand échantillon. Dans le cas de petits échantillons (n < 30), si est inconnu, il faut supposer la normalité de la loi de X pour pouvoir faire une estimation de µ. L'estimation de est donné par la valeur sc : sc = 1 n j x j -x n -1 j =1

J

(

)

2

La valeur ta est donnée à partir de la table de Student à n ­ 1 degré de liberté (ddl).

I = x - t s c ; x + t s c n n

Estimation d'une proportion

Supposons que l'échantillon soit issu d'une population P. Nous observons une variable qualitative X de Bernouilli de paramètre p inconnu., p est la fréquence de succès dans la population. L'estimation du paramètre p se fait à partir de la connaissance de fn qui est la fréquence de succès dans l'échantillon. Dès lors que n fn et n ( l ­ fn ) sont supérieurs à 10, on peut donner un intervalle d'estimation avec une probabilité pour la fréquence p :

fn - t

Exemple : Un exemple de sondage

fn (1- fn ) ; fn + t n

fn (1- fn ) n

En décembre 2001, un sondage effectué sur un échantillon de 1 000 votants donnait une côte de popularité à M. Jospin de 49%. Quelle est sa côte de popularité dans la population des votants en France ? Soit =95% I95% t= 1,96

0,49 (1 - 0,49) 0,49 (1 - 0,49) ; 0,49 + 1,96 = 0,49 - 1,96 1 000 1 000

= [ 0,49 ­ 0,0310 = [ 45,9% ; 52,1% ] ; 0,49 + 0,0310 ]

Nous pouvons dire avec une probabilité de 95% que la côte de popularité de M. Jospin dans la population des votants en France et en décembre 2001, était comprise entre 45,9% et 52,1%.

Exercice corrigé On a compté pour 50 commandes d'un service d'une entreprise le poids (en kg) des colis reçus. On a obtenu les résultats suivants (présentés par ordre croissant)1 :

70 77 80

1.

71 77 80

72 78 80

73 78 80

74 79 81

74 79 81

75 79 81

76 79 81

76 80 81

77 80 81

In J.-J. DROESBEKE, Éléments de statistique, Bruxelles, éditions Ellipses, 1997, page 77.

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

82 85

82 85

82 86

82 86

82 87

83 87

83 88

84 89

84 90

84 93

Calculons le mode, la médiane, la moyenne et l'écart-type :

· Il existe 2 modes : 80 kg et 81 kg puisque ces 2 poids apparaissent 6 fois chacun. · 50 est un nombre pair. Le 25 et le 26 colis pèsent les deux 81 kg. Il existe autant de colis

e e

qui pèsent moins de 81 kg que de colis qui pèsent plus de 81 kg.

x

i =1

50

i

= 4 034

x = 4 034 = 80,68 kg, 50

les colis pèsent en moyenne 80,68 kg

x ² = 326 628

i i =1

50

s=

326628 - 80,68² = 23,3 = 4,88 kg 50

Construisons une distribution groupée (6 classes de même longueur). Calculons la moyenne et l'écart-type à partir de la distribution groupée.

Histogramme :

Ij [70 ; 74[ [74 ; 78[ [78 ; 82[ [82 ; 86[ [86 ; 90[ [90 ; 94[ Total Xj 72 76 80 84 88 92 nj 4 8 18 12 6 2 50 Nj 4 12 30 42 48 50 fj 8% 16% 36% 24% 12% 4% 100% nj Xj 288 608 1 440 1 008 528 184 4 056 nj Xj² 20 736 46 208 115 200 84 672 46 464 16 928 330 208

x = 4 056 = 81,12 kg 50

s=

330 208 - 81,12² = 25,13 = 5,01 kg 50

Lorsqu'on regroupe les valeurs, la moyenne des colis ainsi que l'écart-type observé sont légèrement surévalués. On souhaite donner un intervalle d'estimation à 95% de la moyenne des colis reçus par l'entreprise :

MTSO11F, Statistiques bivariées, D. Breton 2007/2008

4,83 4,83 80,68 - 1,96 50 ; 80,68 + 1,96 50 = [ 79,34 kg ;

82,02 kg ]

L'entreprise est sûre à 95% que le poids de ses colis est compris entre 73,3 et 82 kg. L'objectif de la statistique descriptive consiste à analyser un ensemble de données, que celles-ci soient le résultat d'enquêtes quantitatives en Sociologie ou de données recueillies lors de l'élaboration de votre enquête. Il s'agit de regarder les données de votre échantillon, de les décrire et de les présenter sous une forme commode. Dans un deuxième temps, il faut utiliser les statistiques inférentielles pour donner des renseignements sur la population en utilisant soit la théorie de l'estimation, soit la théorie des tests.

Information

Statistiques bivariées - Partie I - Introduction et statistiques descriptives

28 pages

Find more like this

Report File (DMCA)

Our content is added by our users. We aim to remove reported files within 1 working day. Please use this link to notify us:

Report this file as copyright or inappropriate

1281211