Guide du Recensement de la population, 2016
Chapitre 10 – Évaluation de la qualité des données

Introduction

L'évaluation de la qualité des données permet d'évaluer tous les aspects de la qualité des données du recensement. Les résultats de ces évaluations servent à informer les utilisateurs de la fiabilité des données, à apporter des améliorations au prochain recensement, à ajuster les chiffres du recensement pour la non-réponse et, dans le cas de deux études sur la couverture (Contre-vérification des dossiers et Étude sur le surdénombrement du recensement), à produire les estimations démographiques officielles. Des activités d'évaluation de la qualité sont mises en œuvre tout au long du processus du recensement, lesquelles commencent avant la collecte des données et se terminent après la diffusion.

Sources des erreurs

Quel que soit le soin apporté à la conception du recensement, les données recueillies comporteront inévitablement des erreurs. Ces erreurs peuvent survenir pratiquement à tout moment du processus, depuis la préparation du matériel jusqu'à l'établissement de la liste des logements et de la collecte des données, tout comme elles peuvent se produire lors du traitement de celles-ci. Les utilisateurs de données du recensement doivent être conscients de l'existence des types d'erreurs qui peuvent survenir afin de pouvoir évaluer la pertinence des données, à savoir si elles répondent à leurs besoins.

Principaux types d'erreurs :

Les erreurs de couverture se produisent lorsque des logements et/ou des personnes sont omis, incorrectement dénombrés ou dénombrés plus d'une fois.

Les erreurs dues à la non-réponse surviennent lorsqu'une partie des renseignements ou tous les renseignements concernant des personnes, des ménages ou des logements n'ont pas été fournis.

Les erreurs de réponse se produisent lorsqu'une question est mal comprise ou lorsqu'une caractéristique est mal déclarée par le répondant, par l'agent recenseur ou par le téléphoniste de l'Assistance téléphonique du recensement.

Les erreurs de traitement peuvent se manifester à diverses étapes du traitement. Les erreurs de traitement comprennent des erreurs lors de la saisie des données pendant les opérations de codage, lorsque les réponses en toutes lettres sont converties en codes numériques et à l'imputation, lorsqu'une réponse valide (pas nécessairement exacte) est insérée dans un enregistrement pour remplacer une réponse manquante ou invalide.

Les erreurs d'échantillonnage s'appliquent uniquement lorsque les réponses aux questions sont obtenues à partir d'un échantillon. Ce type d'erreur ne s'applique qu'au questionnaire détaillé du Recensement de 2016.

Mesure de la qualité des données

Un bon nombre d'études sur la qualité des données ont été effectuées lors de recensements récents afin de permettre aux utilisateurs d'évaluer les répercussions des erreurs et d'améliorer leur propre compréhension de la façon dont les erreurs surviennent. Dans le cadre du Recensement de 2016, des études spéciales ont pour but d'examiner les erreurs de couverture et la qualité des données, c'est-à-dire la non-réponse, la réponse et le traitement.

Trois études sont menées pour évaluer les erreurs de couverture :

  1. Enquête sur la classification des logements – La classification erronée des logements constitue l'une des sources des erreurs de couverture le jour du recensement. Cette erreur peut se produire lorsqu'un logement occupé est classé dans la catégorie des logements inoccupés, ou lorsqu'un logement inoccupé est classé comme un logement occupé. L'Enquête sur la classification des logements vise à étudier ces types d'erreurs de classification et de rectifier le dénombrement, si nécessaire. On communique avec un échantillon de logements pour lesquels un questionnaire de recensement n'a pas été retourné, on détermine si le logement est occupé ou non et, s'il l'est, on recueille des renseignements sur le nombre de résidents habituels.
  2. Ces renseignements servent à ajuster les données du recensement relatives aux logements, aux ménages et aux personnes. Ceci est fait en corrigeant les erreurs de classification et en ajustant la répartition de la taille des ménages au moyen de l'imputation des données pour les logements sans questionnaire retourné. Toutes ces opérations sont effectuées à temps pour la diffusion initiale des chiffres de population.
  1. Contre-vérification des dossiers – Cette étude permet d'estimer le nombre de personnes omises dans le cadre du recensement (une fois pris en compte les ajustements décrits dans l'Enquête sur la classification des logements, ci-dessus). Des estimations sont élaborées pour chaque province et territoire ainsi que pour divers sous-groupes de la population (p. ex., les groupes définis selon l'âge et le sexe, et l'état matrimonial).
  1. Étude sur le surdénombrement du recensement – Dans le cadre des recensements de 2016 et de 2011, le dénombrement en double des personnes est détecté en cherchant des enregistrements couplés qui possèdent un haut degré de concordance quant au sexe, à la date de naissance et au nom. Les enregistrements couplés sont échantillonnés et vérifiés manuellement; les résultats sont utilisés pour estimer le surdénombrement (ou nombre de personnes en double) du recensement.

Certification

La certification consiste en plusieurs activités servant à évaluer rigoureusement la qualité des données du recensement à des niveaux géographiques précis afin d'assurer que les normes de qualité pour la diffusion au grand public soient respectées. Cette évaluation comprend la certification des chiffres de population et des logements ainsi que la certification des variables liées aux caractéristiques des logements et de la population.

Pendant la certification, les taux de réponse, les réponses invalides, les taux de rejet au contrôle ainsi que la comparaison des données avant et après l'imputation sont parmi les mesures utilisées. Les totalisations du Recensement de 2016 sont produites et comparées aux données correspondantes des recensements antérieurs, d'autres enquêtes et de sources administratives. Les tableaux croisés détaillés sont aussi vérifiés pour en assurer la cohérence et la précision.

Selon les résultats de la certification, les données du recensement peuvent être diffusées de trois façons :

Pour de plus amples détails sur les indicateurs de qualité et les résultats de la certification, se reporter aux guides de référence associés à chaque domaine d'intérêt.

Taux de réponse au Recensement de la population de 2016

Le taux de réponse est l'une des principales mesures de la qualité du Recensement de la population. Le tableau 10.1 présente les taux de réponse du Recensement de la population de 2016 à l'échelle nationale et pour chaque province et territoire. Les taux sont présentés pour l'ensemble des logements privés occupés pour lesquels on devait obtenir un questionnaire abrégé ou un questionnaire détaillé et pour le sous-ensemble des logements privés occupés pour lesquels on devait obtenir un questionnaire détaillé. Pour le questionnaire détaillé, le taux de réponse non pondéré et le taux de réponse pondéré sont présentés.

Les taux du tableau 10.1 ont été obtenus suite au traitement des données et à la vérification de la qualité des données. Ils sont calculés de la façon suivante : le nombre de logements privés pour lesquels un questionnaire a été rempli divisé par le nombre de logements privés classés comme occupés selon la base de données du recensement. La classification finale du statut d'occupation des logements est fondée sur l'analyse des données recueillies par le personnel sur le terrain, les données fournies par les répondants et les résultats d'une étude de la qualité concernant le statut d'occupation d'un échantillon de logements. Les taux de réponse du tableau 10.1 se distinguent des taux de réponse de collecte auparavant publiés en ce qu'ils tiennent compte du traitement des données et de la vérification du statut d'occupation des logements. Ces taux de réponse sont ainsi considérés comme finaux. Quant aux taux de réponse pondérés, ils sont basés sur les poids d'échantillonnage finaux du questionnaire détaillé. Les taux de réponse pondérés sont alors calculés de la façon suivante : le nombre pondéré de logements privés échantillonnés pour lesquels un questionnaire a été rempli divisé par le nombre pondéré de logements privés échantillonnés classés comme occupés.

Tableau 10.1
Recensement de la population de 2016 : taux de réponse
Sommaire du tableau
Le tableau montre les résultats de Recensement de la population de 2016 : taux de réponse. Les données sont présentées selon Province/territoire (titres de rangée) et Taux de réponse du questionnaire abrégé et questionnaire détaillé, Taux de réponse non pondéré du questionnaire détaillé seulement et Taux de réponse pondéré du questionnaire détaillé seulement, calculées selon pourcent unités de mesure (figurant comme en-tête de colonne).
Province/territoire Taux de réponse du questionnaire abrégé et questionnaire détaillé Taux de réponse non pondéré du questionnaire détaillé seulement Taux de réponse pondéré du questionnaire détaillé seulement
(%)
Canada 97,4 96,7 96,9
Terre-Neuve-et-Labrador 97,4 96,6 96,8
Île-du-Prince-Édouard 97,5 96,9 97,0
Nouvelle-Écosse 97,6 97,1 97,2
Nouveau-Brunswick 97,6 97,1 97,2
Québec 97,6 97,2 97,3
Ontario 97,6 97,0 97,2
Manitoba 97,4 96,3 96,9
Saskatchewan 96,7 96,2 96,3
Alberta 97,0 96,3 96,4
Colombie-Britannique 96,5 95,7 96,0
Yukon 95,8 93,5 95,2
Territoires du Nord-Ouest 93,9 92,8 93,1
Nunavut 92,7 92,7 92,7

Qualité des estimations du questionnaire détaillé

Les estimations produites à partir du questionnaire détaillé du recensement sont effectuées dans le cadre d'une enquête-échantillon. Dans une telle enquête, il y a deux types d'erreurs : l'erreur due à l'échantillonnage et l'erreur non due à l'échantillonnage. La première est présente lorsqu'on estime une caractéristique en mesurant seulement une partie de la population au lieu de la population au complet. La seconde inclut toutes les erreurs qui ne sont pas liées à l'échantillonnage. Ce deuxième type d'erreur est présent également dans le cas des chiffres produits dans le cadre d'un recensement, c'est-à-dire pour les chiffres produits selon les questions communes aux questionnaires abrégé et détaillé.

Erreur due à l'échantillonnage

L'erreur due à l'échantillonnage est la différence que l'on observerait entre l'estimation tirée du questionnaire détaillé et la vraie valeur de la population s'il n'y avait pas d'erreur non due à l'échantillonnage, c'est-à-dire s'il n'y avait eu ni erreur de couverture, ni erreur de réponse, ni erreur de traitement, ni non-réponse. Elle est inévitable lorsqu'on procède à une enquête-échantillon telle que celle menée au moyen du questionnaire détaillé du recensement.

Plusieurs facteurs influent sur l'erreur due à l'échantillonnage. On observera une plus petite erreur d'échantillonnage si la fraction de sondage est grande et si la taille de l'échantillon est grande. À la limite, si la fraction de sondage est de 100 %, comme dans le cas du questionnaire abrégé du recensement, alors l'erreur due à l'échantillonnage sera nulle. Elle sera également petite si la variabilité de la variable d'intérêt dans la population est faible. Cette erreur dépend aussi de l'efficacité du plan de sondage. Par exemple, elle sera plus petite si les populations des strates du plan de sondage sont plutôt homogènes, ou dans le cas d'une caractéristique mesurée au niveau de la personne si les individus des ménages sont plutôt hétérogènes. Finalement, l'erreur due à l'échantillonnage dépend des méthodes d'estimation utilisées, telles que les méthodes de pondération, car certaines sont plus efficaces que d'autres. Par exemple, lorsqu'on ajuste le poids de l'enquête afin qu'un total pondéré soit égal au total du recensement, on obtient une erreur due à l'échantillonnage de ce total pondéré qui est nulle. Il faut noter cependant qu'il est impossible d'adopter une méthode de pondération qui éliminerait les erreurs d'échantillonnage de toutes les estimations possibles pouvant être tirées du questionnaire détaillé.

On ne peut pas mesurer directement l'erreur due à l'échantillonnage. En effet, il faudrait pour ce faire connaître la vraie valeur de la variable d'intérêt dans la population pour la soustraire de l'estimation tirée du questionnaire détaillé, et cette estimation ne devrait pas comporter d'erreurs non dues à l'échantillonnage. Cependant, on peut estimer son ampleur à l'aide de mesures de variabilité telles que l'erreur-type ou le coefficient de variation.

L'annexe 1.9 présente une mesure d'erreur (l'erreur-type) due à l'échantillonnage.

Erreur non due à l'échantillonnage

Mis à part l'échantillonnage, plusieurs facteurs peuvent introduire des erreurs dans les résultats de l'enquête. Ces erreurs non dues à l'échantillonnage peuvent être de plusieurs types. On peut avoir mal dénombré des logements ou des personnes, ce qui représente une erreur de couverture. Les répondants peuvent ne pas comprendre les questions et y répondre de façon erronée, ce qui constitue une erreur de réponse. Des réponses peuvent être entrées de façon incorrecte au moment de la saisie des données ou le codage des réponses peut être erroné. Il s'agit alors d'erreurs de traitement.

L'erreur due à la non-réponse aux questions de l'enquête est également une erreur non due à l'échantillonnage. On distingue la non-réponse partielle (absence de réponse à une ou quelques questions) et la non-réponse totale (absence de réponse à l'enquête parce que le ménage n'a pu être joint ou qu'il a refusé de participer).

Les erreurs non dues à l'échantillonnage sont susceptibles de biaiser les estimations. On a tenté de les minimiser à chaque étape de la collecte et du traitement de façon à en réduire l'incidence. Par exemple, tel que décrit au chapitre 9, on a tenté de corriger les erreurs de non-réponse et de couverture en faisant de l'imputation ou en ajustant le poids. Il reste cependant une erreur résiduelle à la suite de ce traitement, sauf dans le cas où l'imputation de la valeur manquante s'avérerait exacte.

Par ailleurs, les erreurs non dues à l'échantillonnage ne sont pas aussi faciles à mesurer que les erreurs dues à l'échantillonnage. Néanmoins, les mesures de variabilité produites à partir du questionnaire détaillé estiment à la fois la variabilité due à l'échantillonnage et la variabilité engendrée par l'erreur due à la non-réponse totale sous l'hypothèse que le modèle utilisé à la pondération pour corriger cette non-réponse est correct. En effet, on mesure la variabilité due à la non-réponse totale car elle peut ne pas être négligeable dans le cadre d'une enquête avec une grande fraction de sondage.

Comparabilité des estimations du questionnaire détaillé du Recensement de 2016 avec les estimations de l'Enquête nationale auprès des ménages de 2011

Les utilisateurs doivent faire preuve de prudence lorsqu'ils comparent les estimations de deux enquêtes, car ces dernières peuvent avoir des différences importantes en ce qui a trait à la méthodologie, à la qualité ou à la population cible.

Les estimations du questionnaire détaillé du Recensement de 2016 ont été dérivées à partir d'une enquête à participation obligatoire ayant obtenu un fort taux de réponse, alors que les estimations de l'Enquête nationale auprès des ménages (ENM) de 2011 ont été dérivées à partir d'une enquête à participation volontaire. Le taux de réponse au questionnaire détaillé du Recensement de 2016 a été de 96,9 %, tandis que l'ENM de 2011 a obtenu un taux de réponse de 68,6 %. La définition de la population cible du questionnaire détaillé du Recensement de 2016 et celle de l'ENM de 2011 étaient exactement les mêmes.

Il existe un biais de non-réponse lorsque les non-répondants d'une enquête sont différents des répondants. Dans ce cas, plus la non-réponse d'une enquête est élevée, plus le risque de biais de non-réponse est élevé. La qualité des estimations peut ainsi être affectée si un tel biais est présent. Le risque de biais de non-réponse a été pris en compte dans le cas de l'ENM. En effet, Statistique Canada a réalisé plusieurs études concernant l'ENM de 2011, ainsi que diverses simulations, avant et après la collecte, afin d'évaluer le risque de biais potentiel et son ampleur. Plusieurs mesures ont été prises pour en atténuer les effets. Les estimations de l'ENM de 2011 peuvent comporter davantage d'erreurs dues à la non-réponse que les estimations dérivées à partir du questionnaire détaillé du Recensement de 2016, particulièrement pour les domaines d'intérêt plus petits.

De plus, il existe des variations importantes du taux de réponse à l'ENM de 2011 en ce qui concerne les différentes collectivités, notamment celles de petite taille. La qualité des estimations et le risque de biais peuvent donc varier de façon importante entre les différentes collectivités. Pour le Recensement de 2016, il y a moins de variation entre les taux de réponse au questionnaire détaillé des différentes collectivités. Il y a donc moins de variation dans la qualité des estimations, et le risque de biais est très négligeable. Les estimations de l'ENM de 2011 peuvent comporter des inexactitudes en raison d'un taux de réponse moins élevé par rapport au Recensement de 2016. La comparaison des estimations de l'ENM de 2011 avec celles du questionnaire détaillé du Recensement de 2016 pour une région géographique donnée doit tenir compte des différences entre les taux de réponse observés.

Parmi les questionnaires retournés, les questions non répondues sont déterminées. L'imputation remplace les éléments manquants, invalides ou non cohérents par des valeurs plausibles. Lorsqu'elle est effectuée judicieusement, l'imputation peut améliorer la qualité des données en remplaçant les non-réponses par des réponses plausibles et similaires à celles que l'on aurait obtenues si les répondants avaient répondu à ces questions. Elle offre également l'avantage de produire un ensemble complet de données. L'imputation pour la non-réponse partielle (c'est-à-dire les questions non répondues pour les questionnaires retournés) était plus importante dans le cas de l'ENM de 2011 que dans celui du questionnaire détaillé du Recensement de 2016. Ces différences sont plus grandes pour les questions de la deuxième moitié du questionnaire de l'ENM (questions sur le travail, le lieu de travail, le mode de transport, les langues au travail et le logement). Les guides de référence de 2011 et de 2016 présentent les taux d'imputation pour chaque question à l'échelle provinciale, territoriale et nationale. La comparaison des estimations de l'ENM de 2011 avec celles du questionnaire détaillé du Recensement de 2016 doit tenir compte des différences entre les taux d'imputation.

Le tableau 10.2 présente les taux d'imputation des variables de l'ENM de 2011 et du questionnaire détaillé du Recensement de 2016 à l'échelle nationale. Les taux d'imputation des questions 2 à 9 ont été calculés de façon différente entre 2011 et 2016. Ainsi, en 2011, le taux d'imputation excluait l'imputation pour la non-réponse des ménages, tandis qu'en 2016, il l'inclut. Dans le cas des autres questions, la méthode de calcul du taux d'imputation peut différer légèrement entre 2011 et 2016 pour certaines variables.

Tableau 10.2
Taux d'imputation par question, selon le Recensement de 2011, l'ENM de 2011 et le Recensement de 2016, Canada
Sommaire du tableau
Le tableau montre les résultats de Taux d'imputation par question, selon le Recensement de 2011, l'Enquête nationale auprès des ménages de 2011 et le Recensement de 2016, Canada. Les données sont présentées selon Question (titres de rangée) et Recensement de 2011 et Enquête nationale auprès des ménages de 2011 et Recensement de 2016, calculées selon pourcentage unités de mesure (figurant comme en-tête de colonne).
Question Recensement de 2011 et ENM de 2011 Recensement de 2016
(%)
Q. 2 Sexe 1,0 2,8
Q. 3 Date de naissance 1,4 3,1
Q. 4 État matrimonial 2,0 4,3
Q. 5 Union libre 5,0 5,1
Q. 6 Lien avec la Personne 1 2,4 3,2
Q. 7 Connaissance des langues 1,6 4,0
Q. 8 Langue parlée le plus souvent 1,9 3,9
Q. 9 Langue maternelle 2,3 4,3
Q. 10 Consentement 92 ans Note ...: n'ayant pas lieu de figurer Note ...: n'ayant pas lieu de figurer
Q. 11 Activités de la vie quotidienne Note ...: n'ayant pas lieu de figurer Note ...: n'ayant pas lieu de figurer
Q. 12 Lieu de naissance 2,0 1,0
Q. 13 Citoyenneté 2,3 1,3
Q. 14 Statut d'immigrant reçu 1,3 0,7
Q. 15 Année d'immigration 12,5 9,4
Q. 16 Autre(s) langue(s) parlée(s) Note ...: n'ayant pas lieu de figurer Note ...: n'ayant pas lieu de figurer
Q. 17 Origine ethnique 5,8 4,5
Q. 18 Groupe autochtone 3,7 1,1
Q. 19 Groupe de population 3,9 2,0
Q. 20 Statut d'Indien inscrit ou des traités 4,7 1,4
Q. 21 Membre d'une Première Nation ou bande indienne 3,8 1,8
Q. 22 Mobilité 1 an auparavant 4,8 1,8
Q. 23 Mobilité 5 ans auparavant 6,9 2,4
Q. 24a Lieu de naissance du père 6,0 1,6
Q. 24b Lieu de naissance de la mère 5,7 1,8
Q. 25 Diplôme d'études secondaires ou l'équivalent 4,6 1,2
Q. 26a Certificat ou diplôme d'apprenti inscrit ou d'une école de métiers 5,5 1,8
Q. 26b Certificat ou diplôme d'un collège, d'un cégep ou d'un autre établissement non universitaire 5,5 1,8
Q. 26c Certificat, diplôme ou grade universitaire 4,7 1,4
Q. 27 Principal domaine d'études 14,2 4,4
Q. 28 Lieu des études 12,1 3,1
Q. 29 Fréquentation scolaire 6,1 4,3
Q. 30 Heures travaillées 6,7 1,6
Q. 31 Mise à pied ou absence 10,5 4,5
Q. 32 Début d'un nouvel emploi 8,0 4,2
Q. 33 Recherche d'emploi 7,8 3,6
Q. 34 Raison de l'indisponibilité pour travailler 10,3 3,1
Q. 35 Date du dernier travail 8,7 6,2
Q. 36 et 37 Industrie 13,6 6,2
Q. 38 et 39 Profession 13,6 5,3
Q. 40 Catégorie de travailleur 12,2 3,7
Q. 41 Forme juridique 8,1 5,1
Q. 42 Catégorie de lieu de travail 11,3 3,7
Q. 42 Emplacement du lieu de travail 13,0 5,4
Q. 43a Mode de transport 12,1 4,3
Q. 43b Nombre de personnes dans le véhicule 13,7 3,8
Q. 44a Heure de départ pour le travail 15,5 5,0
Q. 44b Durée du trajet domicile-lieu de travail 14,8 5,3
Q. 45 Langues de travail 12,9 3,1
Q. 46 Semaines travaillées l'année dernière 15,1 2,9
Q. 47 Travail à temps plein ou à temps partiel 14,6 5,4
Q. 48 Montant payé pour des services de garde d'enfants 3,6 31,1
Q. 49 Montant payé pour une pension alimentaire 12,6 4,3
F1 Soutien du ménage 11,8 2,0
F2 Mode d'occupation 10,7 1,8
F3 Statut de condominium 9,4 1,3
F4a Pièces 12,8 3,6
F4b Chambres à coucher 11,4 1,8
F5 Période de construction 13,5 2,9
F6 État du logement 10,7 1,7
F8a Paiement — Électricité 19,5 6,8
F8b Paiement — Combustible 19,0 7,0
F8c Paiement — Eau et autres services 19,5 7,0
F9a Loyer 14,3 5,4
F9b Logement subventionné 13,9 5,1
F10a Paiement hypothécaire 18,0 5,1
F10b Impôt foncier inclus dans le paiement hypothécaire 17,2 4,1
F10c Impôt foncier 20,8 7,4
F10d Valeur du logement 21,2 7,1
F10e Frais de condominium 22,8 14,4

Lors de l'évaluation de la qualité des estimations de l'ENM, on a jugé que la qualité de ces estimations pour le Canada, les provinces et territoires, ainsi que les régions métropolitaines de recensement était, somme toute, acceptable. Les estimations de l'ENM étaient comparables aux estimations provenant d'autres sources de données pour ces mêmes niveaux géographiques. Au niveau géographique plus détaillé, il n'a pas été possible de comparer les estimations de l'ENM avec celles d'autres sources de données.

L'utilisateur est invité à utiliser le principal indicateur de qualité fourni, soit le taux global de non-réponse (TGN), pour juger de la qualité des estimations de l'ENM de 2011 et du Recensement de 2016 dans le but d'évaluer le niveau de fiabilité des comparaisons. Le TGN est une mesure importante de la qualité des estimations de l'ENM ou du questionnaire détaillé. Il combine la non-réponse des ménages et la non-réponse aux questions. Dans le cas précis de l'ENM et du questionnaire détaillé, le TGN est pondéré pour tenir compte de l'échantillonnage. Le TGN est un indicateur potentiel du biais de non-réponse. Pour chaque région faisant l'objet d'une publication de données, le TGN est disponible tant pour l'ENM de 2011 que pour le questionnaire détaillé du Recensement de 2016. À l'échelle nationale, le TGN de l'ENM de 2011 était de 26,1 %, et celui du questionnaire détaillé du Recensement de 2016, de 5,1 % (voir le chapitre 11 pour plus de détails). Il existe des variations plus importantes entre le TGN de l'ENM de 2011 et le TGN du questionnaire détaillé de 2016 pour des niveaux géographiques plus petits. Dans le cas d'écarts plus grands entre le TGN de l'ENM de 2011 et celui du questionnaire détaillé de 2016, l'utilisateur devrait faire preuve de prudence lorsqu'il établit des comparaisons. Les utilisateurs sont également invités à consulter les notes sur la qualité qui accompagnent, au besoin, les produits de diffusion.

Comparabilité des estimations du questionnaire détaillé du Recensement de 2016 avec les estimations du questionnaire détaillé du Recensement de 2006

Les estimations du questionnaire détaillé du Recensement de 2006 ont été dérivées à partir d'une enquête à participation obligatoire. Le taux de réponse au questionnaire détaillé du Recensement de 2006 était de 93.8 %. Le risque d'erreur due à la non-réponse était très faible, et ce risque est similaire entre les estimations dérivées à partir des questionnaires détaillés du Recensement de 2016 et du Recensement de 2006.

La définition de la population cible du questionnaire détaillé du Recensement de 2016 est différente de celle du questionnaire détaillé du Recensement de 2006. Le questionnaire détaillé du Recensement de 2016 vise l'ensemble de la population qui vit habituellement au Canada dans les logements privés, tant dans les provinces que dans les territoires. Sont inclus les personnes qui vivent dans les réserves indiennes et autres établissements indiens, les résidents permanents, les résidents non permanents tels que les demandeurs du statut de réfugié, les détenteurs d'un permis de travail ou d'études, ainsi que les membres de leur famille vivant avec eux.

Les résidents étrangers tels que les représentants du gouvernement d'un autre pays affectés à une ambassade, un haut-commissariat ou un autre corps diplomatique au Canada, les membres des forces armées d'un autre pays basés au Canada ou les résidents d'un autre pays qui visitent temporairement le Canada ne sont pas dénombrés dans le questionnaire détaillé du Recensement de 2016.

Le questionnaire détaillé du Recensement de 2016 exclut également les personnes vivant dans les logements collectifs institutionnels tels que les hôpitaux, les établissements de soins infirmiers ou les établissements pénitentiaires, les citoyens canadiens vivant à l'étranger et les membres à temps plein des Forces armées canadiennes qui sont en poste à l'extérieur du Canada. Enfin, le questionnaire détaillé du Recensement de 2016 exclut les personnes vivant dans les logements collectifs non institutionnels tels que les camps de travailleurs, les hôtels et motels, ainsi que les résidences pour étudiants.

Le questionnaire détaillé du Recensement de 2006 ne visait pas exactement la même population. Ainsi, par rapport au questionnaire détaillé du Recensement de 2016, celui de 2006 incluait les personnes vivant dans les logements collectifs non institutionnels tels que les camps de travailleurs, les hôtels et motels, ainsi que les résidences pour étudiants. Il visait également les résidents étrangers tels que les représentants du gouvernement d'un autre pays affectés à une ambassade, un haut-commissariat ou un autre corps diplomatique au Canada. Ces différences entre les populations cibles des questionnaires détaillés de 2016 et de 2006 sont mineures et ne visent qu'une très faible proportion de l'ensemble de la population. Les utilisateurs doivent tout de même tenir compte de ces différences lorsque les estimations de 2016 et de 2006 sont comparées.

Comparaison de la variabilité des estimations du questionnaire détaillé du Recensement de 2016 avec celle des estimations de l'ENM de 2011 et du questionnaire détaillé du Recensement de 2006

Comme il a été mentionné dans les sections précédentes, les estimations produites à partir des données d'une enquête-échantillon telles que celles du questionnaire détaillé du Recensement de 2016 comportent une erreur due à l'échantillonnage, c'est-à-dire une erreur venant du fait qu'on n'a observé qu'un échantillon de la population. On juge de l'erreur d'échantillonnage à l'aide de mesures de variabilité telles que l'erreur-type ou le coefficient de variation (c.v.). Dans l'annexe 1.9, on compare, à l'aide de l'erreur-type, la variabilité des estimations du questionnaire détaillé du Recensement de 2016 avec celle des estimations de l'ENM de 2011 et du questionnaire détaillé du Recensement de 2006.

Par ailleurs, les questionnaires détaillés du Recensement de 2016 et de 2006 ainsi que de l'ENM de 2011 avaient comme objectif de produire des estimations pour une série de questions posées pour un large éventail de régions géographiques, allant de très grandes régions (comme les provinces et les régions métropolitaines de recensement) à de très petites régions (comme les quartiers et les municipalités), et pour divers groupes de population tels que les peuples autochtones et les immigrants. Ces groupes ont également des tailles variables, notamment lorsque recoupés selon la région géographique. Ces regroupements sont généralement appelés « domaines d'intérêt ». Le but de cette section et de l'annexe 1.9 est de comparer la variabilité des estimations de 2016, 2011 et 2006, et non de comparer les estimations entre elles. On devrait cependant tenir compte de la variabilité due à l'échantillonnage si l'on fait des comparaisons entre les estimations de ces enquêtes, en particulier pour de petits « domaines d'intérêt », étant donné que les différences observées peuvent être dues à la variabilité d'échantillonnage et non à une différence réelle dans la population.

Description de l'erreur-type

« L'erreur-type » d'une estimation est une mesure numérique de la composante aléatoire de son erreur. L'erreur-type peut s'interpréter comme suit : si l'on pouvait répéter l'échantillonnage, la collecte et le traitement du questionnaire détaillé un grand nombre de fois et qu'on calculait une estimation pour une caractéristique donnée chaque fois, alors les estimations produites seraient dans environ 68 % des cas à une erreur-type près de la valeur censitaire (c.-à-d. la valeur que l'on aurait obtenue si l'on avait procédé à un recensement plutôt qu'à une enquête-échantillon). De plus, les estimations produites seraient dans environ 95 % des cas à deux erreurs-types près de la valeur censitaire. Cela signifie de manière générale que plus l'erreur-type est petite, plus l'estimation est précise. L'erreur-type est un élément clé pour dériver d'autres mesures de variabilité telles que le c.v., pour construire des intervalles de confiance ou pour faire de l'inférence statistique (par exemple, déterminer si une estimation est significativement différente d'une valeur donnée ou d'une autre estimation). Des estimations de l'erreur-type du questionnaire détaillé du Recensement de 2016 seront diffusées au début de 2018 en supplément aux profils des aires de diffusion agrégées (ADA). On y retrouvera des estimations de l'erreur-type pour les ADA, les divisions de recensement, les provinces et territoires, ainsi que le Canada.

Dérivation du coefficient de variation (c.v.)

Le c.v. d'une estimation est le ratio de l'estimation de l'erreur-type et de l'estimation, exprimé en pourcentage. Tout comme l'erreur-type, plus le c.v. est faible, plus l'estimation est précise. Le c.v. est une mesure de variabilité intéressante étant donné qu'elle ne dépend pas de l'unité de mesure de l'estimation. Cela permet de comparer la précision d'estimations qui ont des unités de mesure différentes. Cependant, comme le c.v. prend la forme d'un ratio, il a tendance à correspondre à des valeurs très grandes quand la quantité au dénominateur (c.-à-d. l'estimation d'intérêt) est très petite. Ainsi, il faut être prudent au moment de l'interprétation du c.v. d'une très petite proportion.

Distinction entre l'erreur-type, le taux de réponse et le taux global de non-réponse

L'erreur-type ne mesure pas le biais, tel que celui dû à la non-réponse. Il est d'ailleurs important de ne pas confondre l'erreur-type avec le taux de non-réponse et le taux global de non-réponse. En effet, le taux de non-réponse est un indicateur du risque associé à l'erreur de non-réponse des ménages, et le taux global de non-réponse est un indicateur du risque d'erreur due à la non-réponse des ménages et à la non-réponse aux questions. Cependant, les erreurs-types calculées à partir du questionnaire détaillé du Recensement de 2016, du questionnaire de l'ENM de 2011 et du questionnaire détaillé du Recensement de 2006 incluent, dans une certaine mesure et en plus de la variabilité d'échantillonnage, la variabilité due à la non-réponse totale des ménages.

Différences conceptuelles et méthodologiques entre les erreurs-types du questionnaire détaillé du Recensement de 2016, de l'ENM de 2011 et du questionnaire détaillé du Recensement de 2006

Plusieurs facteurs influent sur les valeurs des erreurs-types et peuvent expliquer les différences entre les cycles. D'abord, la population cible, les méthodes d'échantillonnage et les méthodes d'estimation diffèrent d'un cycle à l'autre. De plus, la variabilité mesurée n'est pas tout à fait la même tous les cycles : dans tous les cas, on estime la variabilité due à l'échantillonnage, mais la variabilité due à la non-réponse des ménages n'est pas mesurée de la même manière tous les cycles. En effet, en 2006, on ne mesurait pas la variabilité due à la non-réponse des ménages dans les unités de collecte des réserves et par agent recenseur, alors qu'en 2011 et 2016, on la mesure.

Les facteurs qui contribuent à réduire la variabilité due à l'échantillonnage sont : un échantillon de plus grande taille, une fraction de sondage plus grande, une variabilité moins importante de la caractéristique dans la population à l'étude, ainsi qu'un plan de sondage et des méthodes d'estimation plus efficaces. L'ampleur de la non-réponse, les différences et similitudes entre les caractéristiques des répondants et des non-répondants de même que les méthodes d'estimation constituent, pour leur part, les principaux facteurs qui influent sur la variabilité due à la non-réponse.

Ces facteurs et certaines différences conceptuelles et méthodologiques entre l'échantillon du questionnaire détaillé du Recensement de 2016, de l'ENM de 2011 et l'échantillon du questionnaire détaillé du Recensement de 2006 sont décrits dans les prochaines sous-sections.

Population cible

La population ciblée par chacune des trois enquêtes est différente. Le questionnaire détaillé du Recensement de 2016 ciblait la population canadienne en date du 10 mai 2016, l'ENM de 2011 ciblait la population canadienne en date du 10 mai 2011, alors que le questionnaire détaillé du Recensement de 2006 ciblait la population canadienne en date du 16 mai 2006. De plus, la population cible en 2011 et en 2016 comprenait seulement les personnes vivant dans les logements privés, alors que celle de 2006 comprenait en plus les personnes vivant dans les logements collectifs non institutionnels (environ 1 % de la population).

Plan de sondage

Le plan de sondage du questionnaire détaillé du recensement ne comprend qu'une seule phase d'échantillonnage. Celui de l'ENM de 2011 est plus complexe et comprend deux phases d'échantillonnage. Les fractions de sondage diffèrent d'ailleurs d'un cycle à l'autre. En 2016, 1 logement sur 4 a été échantillonné. En 2011, un échantillon d'en moyenne 1 logement sur 3 a d'abord été tiré. Après plusieurs semaines de collecte, c.-à-d. jusqu'au 14 juillet 2011, l'échantillon initial a été réduit : on n'a conservé que les répondants obtenus (environ deux tiers de l'échantillon initial) en plus d'un sous-échantillon de suivi d'environ un logement sur trois tiré parmi les non-répondants restants. En 2006, la fraction de sondage était de 1 sur 5.

De manière générale les erreurs-types devraient être plus faibles pour les plus grandes fractions de sondage et pour les tailles d'échantillon les plus grandes. Elles devraient également être plus petites pour les plans de sondage les plus simples et « efficaces », soient les plans de sondage à une phase de 2006 et de 2016.

Ampleur de la non-réponse des ménages

La non-réponse des ménages a pour effet de réduire le nombre de réponses observées, ce qui augmente la variabilité des estimations. Le taux de non-réponse final au questionnaire détaillé du Recensement de 2016 était de 3,1 %. En revanche, le taux de non-réponse de l'ENM de 2011 non-pondéré était de 31,4 % et le taux de non-réponse au questionnaire détaillé du Recensement de 2006 était de 6,1 %. Les estimations de l'ENM de 2011 sont donc plus affectées par l'ampleur de la non-réponse des ménages que celles des questionnaires détaillés de 2016 et de 2006.

Différences entre les caractéristiques des répondants et des non-répondants

On souhaite en général que les caractéristiques des répondants et des non-répondants de l'échantillon soient aussi similaires que possible. En effet, si elles étaient parfaitement comparables (par exemple si le fait de répondre était indépendant des caractéristiques d'intérêt) alors il n'y aurait pas de biais dû à la non-réponse. De plus, comme il n'y aurait pas de biais dû à la non-réponse, les mesures de variabilité dues à la non-réponse mesureraient l'ensemble de l'erreur due à cette non-réponse.

À l'opposé, si les caractéristiques étaient très différentes entre les répondants et les non-répondants, alors le biais de non-réponse serait grand, ce qui pourrait poser problème étant donné qu'il n'est pas tenu en compte par les mesures de variabilité. À la limite, il serait possible d'avoir une estimation de la variabilité de non-réponse nulle, mais un biais important. Plus le taux de non-réponse est élevé et plus le risque d'une telle situation est grand.

Les erreurs-types de l'ENM de 2011 pourraient être davantage tirées vers le bas que celles des questionnaires détaillés de 2006 et de 2016, et cela en raison des différences entre les caractéristiques des répondants et des non-répondants. En effet, étant donné le taux de non-réponse des ménages plus élevé de l'ENM de 2011, les caractéristiques de ses répondants ont plus tendance à être homogènes.

Méthodes d'estimation

Une façon de minimiser l'impact de la non-réponse est d'utiliser des méthodes d'estimation, entre autres des méthodes de pondération, faisant bon usage de l'information disponible. Étant donné que l'ampleur de la non-réponse a été plus importante en 2011, plus d'information a été utilisée pour réduire l'erreur due à la non-réponse qu'en 2006. En effet, en 2006 seules l'information géographique et la taille des ménages avaient été utilisées pour un ajustement pour la non-réponse, tandis qu'en 2011, l'ensemble des variables du recensement ainsi que quelques données administratives ont été utilisées. En 2016, on a continué d'utiliser davantage d'information pour corriger la non-réponse malgré le taux de réponse plus élevé qu'en 2011. Le but premier d'utiliser cette information est de réduire le biais dû à la non-réponse. On peut cependant obtenir en ce faisant une variabilité des estimations accrue, par exemple si la variabilité des poids ajustés pour la non-réponse est plus grande. Les méthodes de correction de la non-réponse de 2011 et de 2016 devraient donc augmenter la variabilité des estimations finales davantage que celles de 2006.

Du calage a été effectué à la dernière étape de pondération de chacun des cycles pour produire les estimations (totaux, proportions, moyennes, etc.). Lors du calage, on s'est assuré que certaines estimations de totaux de l'enquête correspondaient à des totaux connus. Le calage a été effectué à l'aide de totaux provenant du questionnaire détaillé du recensement ou des données administratives appariées aux enregistrements du recensement. En 2006 des totaux fondés sur les variables démographiques et géographiques. En 2011, on a ajouté des totaux de variables de famille et de langue. En 2016, on a aussi ajouté des totaux fondés sur des données administratives appariées aux enregistrements du recensement (c.-à-d. des données sur le revenu, l'immigration et provenant du Registre d'Indiens inscrits). L'effet du calage, outre permettre d'avoir une concordance avec des chiffres du recensement, est de réduire la variabilité des estimations produites à partir de variables liées aux totaux de contrôle. On pourrait donc voir une variabilité plus faible pour les variables reliées aux sujets de calage utilisés pour un cycle donné.

Par ailleurs, bien que le nombre de sujets couverts par le calage ait augmenté au fil du temps, le nombre global de contraintes utilisées lors du calage a été réduit d'un cycle à l'autre. La raison est qu'on a observé, dans le cadre de simulations lors du développement des méthodes d'estimation de 2011 et 2016, qu'un calage plus serré peut mener à des estimations de variance plus élevées pour les variables les moins liées aux sujets utilisés au calage. Ceci pourrait donc expliquer en partie les différences entre les erreurs-types des trois cycles comparés. L'annexe 1.9 présente les mesures d'erreur due à l'échantillonnage, sous forme d'erreurs-types, pour les estimations du questionnaire détaillé du Recensement de 2006, du Recensement de 2016 et de l'ENM de 2011.

Date de modification :