Guide du Recensement de la population, 2016
Annexe 1.8 ‒ Évaluation de l'impact de la mise à jour des données du Recensement de 2016 sur la langue

Après avoir été informé d'anomalies, pour certaines régions du Québec, dans les données linguistiques du Recensement de 2016 diffusées le 2 août dernier, Statistique Canada a mené une investigation approfondie afin d'identifier leurs sources.

Lors du recensement, Statistique Canada effectue un suivi auprès des ménages ayant rempli partiellement le questionnaire du recensement. Dans le cadre du Recensement de 2016, Statistique Canada a développé un programme informatique pour effectuer certaines étapes reliées à cette opération. C'est dans ce programme informatique qu'une erreur a été identifiée, affectant les questionnaires de langue française.

Les questions linguistiques du recensement sont les seules questions pour lesquelles les choix de réponse diffèrent entre les versions française et anglaise. La version française du questionnaire du recensement donne préséance au français dans le libellé des questions et dans les choix de réponse. Ceci ne touche que les questions du recensement sur la langue maternelle, sur la langue parlée à la maison et sur la connaissance des langues officielles. L'exemple qui suit illustre cette différence pour ce qui est de la langue parlée le plus souvent à la maison. C'est cette particularité qui n'a pas été prise en compte par le nouveau programme informatique utilisé dans le suivi de la non-réponse partielle en 2016.

Figure bilingue montrant la Question 8 a) du questionnaire du Recensement de la population de 2016

Description de la figure

Cette figure bilingue montre la question 8 a) du questionnaire du Recensement de la population de 2016. La partie gauche de la figure affiche la question en français qui se lit comme suit : « Quelle langue cette personne parle-t-elle le plus souvent à la maison ». Les catégories de réponses sont « Français; Anglais; Autre langue – précisez ». La partie droite de la figure affiche la question en anglais qui se lit comme suit : « What language does this person speak most often at home ». Les catégories de réponses sont « English; French; Other language – specify ».

L'erreur qui en a découlé a entraîné une attribution erronée de réponses aux questions linguistiques du recensement pour environ 61 000 personnes, principalement au Québec. Elle s'est traduite par une surestimation de la croissance de l'anglais au Québec entre 2011 et 2016, tant comme langue maternelle que comme langue d'usage à la maison.

Après avoir corrigé ces erreurs d'attribution, Statistique Canada a mené un examen approfondi afin de s'assurer qu'aucune autre question du recensement n'ait été affectée par une erreur, et que les logiciels utilisés n'affectent pas d'autres variables. De plus, Statistique Canada a révisé en profondeur les multiples étapes de vérification et de contrôle des données.

Les résultats de ces analyses et les corrections apportées sont décrits ci-dessous.

Évaluation de l'incidence de la correction de l'attribution de la variable linguistique sur les estimations du revenu tirées du Recensement de 2016

Après avoir décelé l'erreur dans l'attribution des réponses aux questions linguistiques, Statistique Canada a mené un examen exhaustif des systèmes, programmes et procédures d'estimation afin de déterminer si cette erreur avait eu une incidence négative sur la qualité des estimations du revenu. À la suite de cet examen, Statistique Canada a conclu que l'incidence de cette erreur sur les estimations du revenu était négligeable.

Pour calculer les estimations sur le revenu du Recensement de 2016, Statistique Canada a utilisé des données administratives de qualité élevée (y compris des données fiscales de l'Agence du revenu du Canada) pour environ 95 % des Canadiens âgés de 15 ans et plusNote 1. Par conséquent, l'organisme a déterminé que seules les estimations du revenu de la proportion restante de 5 % des enregistrements auraient pu avoir été touchées par l'attribution erronée de la variable linguistique et que, le cas échéant, l'incidence serait survenue dans le cadre du processus d'imputation par donneur. Dans le cadre de ce processus, lorsque la valeur du revenu n'a pu être couplée aux données fiscales du répondant (enregistrement receveur), la valeur du revenu d'un autre répondant ayant des caractéristiques semblables (enregistrement donneur) a été utilisée. L'attribution erronée de la variable linguistique peut avoir eu une incidence sur l'estimation du revenu liée à cet enregistrement de l'une ou l'autre des deux façons suivantes :

  1. Un enregistrement receveur dont la variable linguistique a été codée incorrectement a été imputé à un enregistrement donneur. Dans ce cas, il est possible qu'un autre enregistrement donneur ayant un revenu différent ait été sélectionné pour le couplage, si la variable linguistique de l'enregistrement receveur avait été codée correctement.
  2. Un enregistrement receveur dont la variable linguistique a été codée correctement a été imputé à un enregistrement donneur. Dans ce cas, il est possible que l'enregistrement donneur ait été sélectionné incorrectement, en partie en raison du fait que la variable linguistique de l'enregistrement donneur a été codée incorrectement.

Dans ce processus d'imputation par donneur, les enregistrements donneurs sont sélectionnés en fonction d'un pointage indiquant le degré de similitude entre l'enregistrement donneur et l'enregistrement receveur. Habituellement, un enregistrement donneur est sélectionné au hasard parmi plusieurs enregistrements donneurs ayant un pointage semblable. Il importe de souligner la variabilité inhérente au processus d'imputation par donneur, en raison de laquelle toute nouvelle exécution du système d'imputation par donneur pour l'imputation d'une même variable produira des estimations légèrement différentesNote 2.

Statistique Canada a mené une analyse afin de déterminer si l'erreur relative à la variable linguistique a eu une incidence sur les résultats du processus d'imputation par donneur. Tout d'abord, toute incidence possible de l'erreur sur les résultats serait atténuée selon les facteurs suivants :

  1. Une proportion très faible des enregistrements ayant fait l'objet d'une imputation sont susceptibles d'avoir été touchés par cette erreur d'attribution de la variable linguistique. Au total, Statistique Canada a dénombré seulement 5 500 cas dans lesquels un enregistrement dont la variable linguistique a été codée incorrectement a été utilisé dans le cadre du processus d'imputation du revenu, qu'il s'agisse de l'enregistrement receveur ou donneur, et ce, dans l'ensemble du Canada. Ces enregistrements étaient concentrés au Québec, où 5 100 enregistrements possiblement touchés ont été relevés, ce qui représente seulement 0,06 % de la population du Québec.
  2. Ces enregistrements ont été répartis entre de nombreuses municipalités (subdivisions de recensement ou SDR) du Québec, et non concentrés dans une municipalité précise de la province.
  3. La langue n'est que l'une des multiples variables utilisées dans le processus d'imputation par donneur, les autres variables étant l'âge, le sexe et la géographie. Les caractéristiques d'un enregistrement donneur sont couplées aux caractéristiques d'un donneur auxquelles elles correspondent le mieux pour chacune de ces variables. Puisque de multiples variables sont utilisées, l'incidence d'une erreur relative à l'une de ces variables est considérablement réduite.
  4. Les enregistrements donneurs dont les caractéristiques sont similaires comportent aussi souvent des renseignements sur le revenu semblables ou identiques, ce qui atténue l'incidence de l'utilisation d'un enregistrement donneur différent.

Dans le cadre de son analyse, Statistique Canada a exécuté de nouveau certaines étapes du processus d'imputation du revenu, en premier lieu dans le but d'évaluer le degré de variabilité des estimations inhérente au processus d'imputation, et en second lieu pour évaluer l'importance de la variation découlant de la nouvelle imputation des enregistrements touchés par l'erreur d'attribution de la variable linguistique. Si l'importance de la variation découlant de la nouvelle imputation des enregistrements touchés par l'erreur d'attribution était faible par rapport à la variabilité des estimations inhérente au processus d'imputation, cela signifierait que l'incidence de l'erreur d'attribution sur les estimations du revenu était négligeable.

Le tableau 1 illustre la variabilité causée par le système d'imputation à l'égard des estimations, de façon globaleNote 3. Le tableau met l'accent sur les résultats pour le Québec, où la plupart des cas d'anomalies ont été relevés. On y affiche les valeurs moyennes pour l'ensemble des SDR, selon la taille, pour le revenu total médian et les salaires médiansNote 4. Lorsque les données sont imputées de nouveau pour l'ensemble des SDR, les estimations de revenus peuvent augmenter ou diminuer. Par exemple, pour une SDR appartenant à la tranche de population d'entre 20 000 et 99 999 habitants, lorsque la valeur du revenu total a augmenté, elle a augmenté en moyenne de 16 $; lorsqu'elle a diminué, elle a diminué en moyenne de 15 $. Ces données illustrent la faible variabilité des estimations qui découle de l'imputation par donneur.

Le tableau 2 montre l'effet de corriger seulement les enregistrements dont l'attribution de la variable linguistique a changéNote 5. Pour les SDR de cette catégorie de taille, lorsque l'estimation de revenu a augmenté, elle a augmenté en moyenne de 3 $; lorsqu'elle a diminué, elle a diminué en moyenne de 4 $. Ainsi, la variation découlant de la correction de l'erreur d'attribution et de la nouvelle imputation des résultats est minime et dans les limites de la variabilité inhérente au processus d'imputation. Cette variation a donc une incidence négligeable sur les résultats. Il en a été de même pour les SDR de différentes catégories de taille et pour les estimations des salairesNote 6.

Conclusion

L'analyse de l'incidence possible que l'erreur survenue dans l'attribution des réponses aux questions linguistiques du Recensement de 2016 a pu avoir sur les estimations de revenus a permis de conclure que l'erreur a eu une incidence très négligeable. Ce résultat était à prévoir, compte tenu du fait que la vaste majorité (95 %) des enregistrements sont couplés aux données fiscales correspondantes et que très peu de répondants ont vu leurs estimations de revenu touchées par l'erreur d'attribution de la variable linguistique. Compte tenu de ces résultats, il n'est pas apparu statistiquement nécessaire de calculer de nouveau les estimations de revenu du Recensement de 2016.

Tableau 1
Comparaison entre les estimations du revenu et les estimations expérimentales après avoir imputé de nouveau tous les enregistrements, selon le revenu total et les salaires, subdivisions de recensement (SDR), Québec
Sommaire du tableau
Le tableau montre les résultats de Comparaison entre les estimations du revenu et les estimations expérimentales après avoir imputé de nouveau tous les enregistrements, selon le revenu total et les salaires, subdivision de recensement, Québec. Les données sont présentées selon Taille de la population de la subdivision de recensement (titres de rangée) et Valeurs originales, Valeur expérimentale (après avoir imputé de nouveau tous les enregistrements), Variation moyenne, Moyenne des variations positives et Moyenne des variations négatives, calculées selon Revenu total médian (en dollars) et Salaires et traitements médians (en dollars) unités de mesure (figurant comme en-tête de colonne).
Taille de la population de la SDR Valeurs pour une imputation Valeurs pour une autre imputation Variation moyenne due à l'imputation Moyenne des variations positives Moyenne des variations négatives
Revenu total médian ($)
250 à 9 999 30 128 30 129 −3 69 −67
10 000 à 19 999 36 958 36 952 −10 20 −22
20 000 à 99 999 36 478 36 477 −5 16 −15
100 000 et plus 34 469 34 468 2 13 −8
Salaires et traitements médians ($)
250 à 9 999 28 534 28 530 2 97 −96
10 000 à 19 999 35 725 35 722 −1 29 −32
20 000 à 99 999 35 606 35 607 −2 12 −16
100 000 et plus 33 957 33 955 1 6 −5
Tableau 2
Comparaison entre les estimations du revenu et les estimations expérimentales après avoir imputé de nouveau les enregistrements contenant des erreurs d'attribution de la variable linguistique, selon le revenu total et les salaires, subdivisions de recensement (SDR), Québec
Sommaire du tableau
Le tableau montre les résultats de Comparaison entre les estimations du revenu et les estimations expérimentales après avoir imputé de nouveau les enregistrements contenant des erreurs d'attribution de la variable linguistique, selon le revenu total et les salaires, subdivision de recensement, Québec. Les données sont présentées selon Taille de la population de la subdivision de recensement (titres de rangée) et Valeurs originales, Valeur expérimentale (après avoir imputé de nouveau les enregistrements contenant des erreurs d'attribution de la variable linguistique), Variation moyenne, Moyenne des variations positives et Moyenne des variations négatives, calculées selon Revenu total médian (en dollars) et Salaires et traitements médians (en dollars) unités de mesure (figurant comme en-tête de colonne).
Taille de la population de la SDR Valeurs espérées sans correction aux enregistrements contenant des erreurs d'attribution de la variable linguistique Valeur espérées avec correction aux enregistrements contenant des erreurs d'attribution de la variable linguistique Variation moyenne Moyenne des variations positives Moyenne des variations négatives
Revenu total médian ($)
250 à 9 999 30 133 30 129 −3 24 −31
10 000 à 19 999 36 957 36 955 −2 3 −6
20 000 à 99 999 36 477 36 477 0 3 −4
100 000 et plus 34 470 34 469 0 2 −1
Salaires et traitements médians ($)
250 à 9 999 28 535 28 536 1 44 −41
10 000 à 19 999 35 726 35 726 0 8 −8
20 000 à 99 999 35 609 35 607 −2 5 −6
100 000 et plus 33 955 33 956 0 3 −2

Notes

Date de modification :