Guide du Recensement de la population, 2016
Chapitre 9 – Échantillonnage et pondération pour le questionnaire détaillé

Dans le cadre du Programme du Recensement de 2016, les ménages canadiens sont dénombrés à l'aide de deux principaux types de questionnaires : le questionnaire abrégé et le questionnaire détaillé. Le questionnaire détaillé comprend toutes les questions du questionnaire abrégé ainsi qu'un ensemble de questions visant à dresser un portrait complet de la population et des ménages canadiens. Le questionnaire détaillé est distribué à un échantillon de la population.

Les estimations produites à partir de réponses à des questions communes aux deux types de questionnaires sont obtenues d'un recensement de la population. En effet, tous les ménages répondants aux deux types de questionnaires contribuent alors à un chiffre donné. C'est le cas, par exemple, du chiffre de population pour un groupe d'âge donné.

Les estimations produites à partir de réponses à au moins une question propre au questionnaire détaillé sont obtenues d'une enquête par échantillon. Dans ce cas, seuls les ménages répondants de l'échantillon du questionnaire détaillé contribuent à l'estimation, par exemple, l'estimation du taux de chômage ou celle de la population selon le plus haut niveau de scolarité atteint.

Sélection de l'échantillon du questionnaire détaillé du recensement

L'échantillon du questionnaire détaillé est sélectionné à partir de petites aires géographiques couvrant tout le Canada, appelées unités de collecte (UC). Celles-ci définissent les strates du plan d'échantillonnage. On compte cinq types d'UC : listage/livraison, envoi par la poste, logements collectifs, réserves indiennes et collecte par agent recenseur. Dans le cas des deux derniers types d'UC, des agents recenseurs font des interviews sur place. Dans chaque UC (ou strate), on établit la liste des logements et on tire un échantillon systématique de logements privés avec une fraction de sondage de un sur quatre. Les logements collectifs sont exclus de ce tirage. Il y a des exceptions quant à la fraction de sondage : tous les logements privés d'UC où l'on fait la collecte par agent recenseur sont sélectionnés dans l'échantillon du questionnaire détaillé. On demande aux ménages des logements privés sélectionnés dans l'échantillon de remplir le questionnaire détaillé du recensement. On demande aux autres ménages de remplir le questionnaire abrégé, c'est-à-dire ceux des logements privés qui ne font pas partie de l'échantillon du questionnaire détaillé ainsi que ceux des logements collectifs qui sont exclus de l'échantillonnage.

L'échantillon du questionnaire détaillé est réparti uniformément au niveau géographique afin d'assurer une bonne fiabilité des estimations pour toutes les régions du pays et d'accorder la même importance relative à toutes les unités géographiques d'une taille donnée. La fraction de sondage a été augmentée en 2016 par rapport à celle de un sur cinq du précédent questionnaire détaillé du recensement, soit celui de 2006. En 2011, le taux de réponse obtenu à l'Enquête nationale auprès des ménages (ENM), à participation volontaire, était plus faible que celui du questionnaire détaillé du Recensement de 2006. Aux fins du questionnaire détaillé du Recensement de 2016, un échantillon d'un ménage sur quatre a été sélectionné afin d'atténuer le risque d'une fraction de la population répondant au questionnaire détaillé plus faible que pour les recensements précédents.

Pondération de l'échantillon du questionnaire détaillé du recensement

Les réponses finales au questionnaire détaillé sont pondérées afin qu'elles représentent la population canadienne vivant dans les logements privés. La pondération est le processus regroupant le calcul du poids de sondage et les divers ajustements à ce poids. On compte un ajustement des poids pour la couverture des logements occupés basé sur les résultats de l'Enquête sur la classification des logements (ECL), un ajustement pour corriger la non-réponse totale des ménages échantillonnés et un calage des poids des ménages répondants à des totaux dérivés du recensement.

En premier lieu, on attribue à chaque ménage un poids de sondage égal à l'inverse de sa probabilité de sélection dans l'échantillon. Dans les UC où des agents recenseurs ont mené des interviews sur place, ce poids est égal à 1. Dans les autres UC, ce poids est en général égal à 4. Il est plus grand que 4 et au maximum 7 dans les UC de listage/livraison qui comportent un nombre de logements qui n'est pas un multiple de 4 étant donné la façon de tirer l'échantillon systématique dans ce type d'UC. Dans ces UC, l'échantillon systématique n'est pas aléatoire et les logements échantillonnés sont le 4e logement listé, le 8e, le 12e, etc. Par exemple, si l'une de ces UC comporte 7 logements, le logement échantillonné, soit le 4e listé, aura un poids de sondage de 7 afin qu'il représente tous les logements de son UC.

On distingue, dans l'échantillon sélectionné aux fins de pondération, plusieurs types de réponses au questionnaire détaillé. Il y a d'abord les ménages qui ont répondu à au moins une question du questionnaire détaillé qui ne figure pas dans le questionnaire abrégé. On définit ces ménages comme étant les « ménages répondants » au questionnaire détaillé. Il y a ensuite une fraction des ménages qui n'ont répondu qu'à des questions communes aux deux types de questionnaires ou, de façon équivalente, qu'à des questions du questionnaire abrégé. Enfin, il y a les ménages qui n'ont répondu à aucune question. Les deux derniers genres de ménages sont définis comme étant les « ménages non répondants » au questionnaire détaillé.

Dans les UC avec interviews sur place par des agents recenseurs, soit les UC de type « réserves indiennes » ou « collecte par agent recenseur », on tient compte de la non-réponse au questionnaire détaillé par imputation. Les données des ménages qui n'ont répondu à aucune question sont imputées à l'aide de celles d'un ménage répondant du même type d'UC. Les autres non-réponses sont traitées dans le cadre de l'imputation pour la non-réponse partielle. Tous les ménages privés de ces UC qui ne font pas partie de réserves indiennes et d'établissements indiens partiellement dénombrés conservent leur poids de sondage de 1 aux fins d'estimation. Les autres ménages privés et les ménages collectifs se voient attribuer un poids final nul et ne contribuent donc pas aux estimations.

Dans les autres types d'UC, on applique plusieurs ajustements au poids et on utilise une approche d'imputation différente. On décrit dans ce qui suit le traitement effectué dans ces UC. Seuls les ménages répondants au questionnaire détaillé se voient attribuer un poids non nul à la fin des étapes de pondération, ce qui signifie qu'ils sont les seuls à contribuer aux estimations du questionnaire détaillé. La non-réponse partielle pour ces ménages est compensée par imputation.

Les ménages non répondants au questionnaire détaillé sont cependant pris en compte dans les chiffres du recensement. En effet, pour tous les ménages dénombrés qui n'ont répondu à aucune question, on impute toutes les réponses aux questions communes aux deux types de questionnaires à partir des données d'un ménage ayant répondu à au moins une de ces questions. Les non-réponses restantes à ces questions de tous les ménages dénombrés sont traitées dans le cadre de l'imputation pour la non-réponse partielle.

Avant de procéder à l'imputation pour la non-réponse totale au recensement, on estime le sous-dénombrement des logements occupés au recensement à l'aide de l'ECL et on corrige ce sous-dénombrement en modifiant le statut d'occupation de certains logements. Une des sources d'erreurs de couverture du recensement est effectivement la mauvaise classification de logements le jour du recensement. Cette erreur peut se produire quand un logement occupé est classé comme étant inoccupé ou quand un logement inoccupé est classé comme étant occupé. Le but de l'ECL est de produire des estimations du nombre de ces erreurs de classification. Pour ce faire, un échantillon de logements privés pour lesquels aucun questionnaire du recensement n'a été retourné sont contactés, de l'information est recueillie sur leur statut d'occupation le jour du recensement et, si le logement était occupé, sur le nombre de résidents habituels.

Les étapes de pondération qui suivent l'attribution du poids de sondage sont effectuées une fois que l'imputation pour la non-réponse totale et que l'imputation pour la non-réponse partielle aux questions communes aux deux types de questionnaires sont réalisées. Toutes ces étapes d'ajustements des poids sont faites par calage. Le calage consiste à appliquer une modification aussi minime que possible au poids afin de faire concorder les estimations pondérées à des totaux connus. Ces totaux connus sont appelés totaux de contrôle.

À chaque étape, on divise le pays en aires géographiques et on procède à un calage dans chaque aire de manière indépendante. Quatre types d'unités géographiques peuvent entrer en jeu selon l'étape de pondération : l'aire de diffusion (AD), l'aire de diffusion agrégée (ADA), la subdivision de recensement (SDR) et la super aire de diffusion agrégéeNote 1 (SADA). L'AD est une petite région composée d'un ou de plusieurs îlots de diffusion avoisinants et regroupant de 400 à 700 personnes. L'ADA est un regroupement d'AD contiguës comportant le plus souvent entre 5 000 et 15 000 personnes. Les ADA respectent les limites provinciales et territoriales, ainsi que les limites des divisions de recensement (DR), des régions métropolitaines de recensement (RMR) et des agglomérations de recensement (AR) subdivisées en secteurs de recensement (SR) en vigueur au Recensement de 2016. Les SDR sont aussi des regroupements d'AD qui respectent les limites des DR. Elles correspondent à des municipalités ou à des territoires considérés comme étant des équivalents municipaux à des fins statistiques. La SADA est un regroupement d'ADA contiguës comportant le plus souvent entre 50 000 et 150 000 personnes. Les SADA respectent les limites provinciales et territoriales, et la plupart du temps, les limites des DR.

L'unité de mesure des totaux de contrôle peut être le ménage ou la personne. Certains totaux de contrôle sont dérivés des réponses aux questions communes aux deux types de questionnaires. Ils portent sur la géographie, l'âge, le sexe, l'état matrimonial ou l'union libre, le type logement, la taille du ménage, la structure familiale et la connaissance des langues officielles. D'autres totaux de contrôle sont dérivés de données administratives appariées aux enregistrements du recensement. Il s'agit de totaux dérivés des données sur l'impôt des particuliers, l'immigration et des données provenant du Registre des Indiens. Cependant, pour une région donnée, plusieurs totaux de contrôle sont éliminés selon certains critères afin de maximiser la qualité générale des estimations.

Le premier ajustement au poids de sondage consiste à faire concorder la couverture de l'échantillon sélectionné à celle du recensement. En effet, l'imputation pour la non-réponse totale et pour le sous-dénombrement du recensement en fonction des résultats de l'ECL ne permet pas de tenir compte du type de questionnaire distribué. Cela fait en sorte que la couverture de l'échantillon à la suite de l'imputation peut différer de celle du recensement. Pour les faire correspondre, on fait un calage du poids de sondage de tous les ménages de l'échantillon ciblés par le questionnaire détaillé, qu'ils soient répondants ou non. On fait cet ajustement de façon indépendante par SADA. Tous les totaux de contrôle sont dérivés à ce niveau, sauf pour des totaux de ménages et de personnes des ADA qui composent la SADA. Le poids des ménages qui ne sont pas ciblés par le questionnaire détaillé est mis à 0. À la suite de l'ajustement, les totaux de contrôle correspondent aux totaux pondérés de l'échantillon.

Le poids (ajusté pour la couverture) des ménages répondants est ensuite ajusté pour la non-réponse à l'aide d'un modèle de régression logistique prédisant la probabilité de réponse. Cela est fait au niveau de la SADA à l'aide d'un calage des poids de ménages répondants tenant compte du modèle. Les totaux de contrôle sont les mêmes que pour le premier ajustement, et les variables de prédiction du modèle sont les variables correspondant à ces totaux. Le poids des ménages non répondants est, quant à lui, mis à zéro. Il en résulte que les totaux de contrôle correspondent aux totaux pondérés des ménages répondants.

Le dernier ajustement consiste à caler le poids (ajusté pour la non-réponse) des ménages répondants à un plus grand nombre de totaux de contrôle afin d'assurer une certaine cohérence avec les totaux du recensement et de viser à diminuer la variabilité des estimations du questionnaire détaillé. On procède encore une fois au calage de façon indépendante par SADA. Pour cet ajustement, on choisit un nombre plus grand de totaux au niveau de l'ADA et des totaux de ménages et de personnes par croisement d'ADA et de SDR.

Des différences peuvent exister entre les estimations pondérées du questionnaire détaillé et les chiffres du recensement pour les caractéristiques communes. C'est le cas, en particulier, si l'on s'intéresse à une géographie dont les limites ne correspondent pas aux ADA et aux SADA. D'ailleurs, plus la région géographique est petite, plus grande est la probabilité que les estimations du questionnaire détaillé soient différentes des chiffres du recensement. Dans le cas où des différences existent, l'utilisateur devrait considérer les chiffres du Recensement de 2016 comme étant de meilleure qualité et les privilégier, car ils ne sont affectés ni par la variance d'échantillonnage du questionnaire détaillé, ni par l'erreur de non-réponse légèrement plus élevée du questionnaire détaillé. Les estimations pour les caractéristiques communes du questionnaire détaillé devraient être utilisées comme information contextuelle au moment de l'analyse des données propres à ce questionnaire.

Un guide technique détaillé sur l'échantillonnage et la pondération du questionnaire détaillé sera offert en 2018. Ce guide donnera de plus amples détails sur le processus de pondération et d'estimation.

Note

Date de modification :