Evaluation de la qualité des données sur les descendances

Tue, 11/11/2014 - 10:26 — Tom Moultrie

Introduction

Le premier type de question sur la fécondité posée dans les recensements concerne la descendance des femmes. Celles-ci sont interrogées sur leur nombre total de naissances vivantes. En vue de réduire la sous-déclaration des enfants décédés ou absents (qui représente généralement une proportion plus élevée des enfants nés des femmes âgées que des femmes jeunes) et d’éviter la sous déclaration des filles, l’interrogation prend souvent la forme d’une série de six questions sur le nombre de fils et de filles :

nés vivants et vivant actuellement avec la mère ;
nés vivants mais vivant actuellement ailleurs ; et
nés vivants mais aujourd’hui décédés.

Total des enfants nés et survivants

La somme des réponses aux questions sur les enfants vivants, présents et absents, donne le nombre total d’enfants nés et survivants. Quand on y ajoute les nombres déclarés d’enfants décédés, on obtient le nombre total d’enfants déjà nés de la femme. En faisant l’addition de ces réponses, on doit prendre garde à ne pas assimiler les codes des valeurs erronées ou manquantes à des réponses numériques. Par exemple, si une valeur manquante est codée « 9 », la procédure pour établir le total des enfants déjà nés, survivants et décédés doit expressément exclure ces codes.

Les tabulations des nombres d’enfants déclarés en réponse à ces six questions sont souvent tronquées au-delà d’un nombre d’enfants relativement élevé (par exemple 9 ou +). Quand c’est le cas, la seule hypothèse plausible est que les femmes dans cette catégorie ont eu un nombre d’enfants égal à la limite inférieure de l’intervalle ouvert. Les erreurs qui en résultent sont généralement faibles, même quand la fécondité est extrêmement forte, sauf si la troncature s’applique au nombre total d’enfants déjà nés, plutôt qu’aux catégories séparées de garçons et filles présents, absents et décédés.

Parités peu vraisemblables

En évaluant la qualité des données sur la descendance, l’analyste doit être attentif aux parités peu probables et peu vraisemblables compte tenu de l’âge de la mère. En particulier aux jeunes âges, un petit nombre de jeunes femmes déclarant des nombres excessivement élevés d’enfants déjà nés peut avoir un impact sur le nombre moyen estimé d’enfants déjà nés. Il peut s’agir de déclarations erronées ou d’erreurs de saisie des données, que celle-ci soit manuelle ou automatique. En pratique, il est recommandé de limiter le nombre maximum de naissances vivantes qu’une femme peut avoir eu à une naissance tous les 18 mois depuis l’âge de 12 ans, en arrondissant vers le bas au nombre entier le plus proche. Selon ce principe, au 20^ème anniversaire (une fois passé le groupe 15-19 ans), une femme ne peut avoir eu plus de 5 enfants, au 25^ème (à l’issue des 20-24 ans), 8. Si la descendance déclarée dépasse ce maximum, elle doit être recodée en ‘valeur manquante’.

Evaluation des erreurs de l’agent recenseur

Une autre erreur courante dans l’enregistrement de la descendance survient lorsque, en l’absence d’enfants, l’agent recenseur laisse en blanc l’espace de réponse sur le questionnaire de recensement au lieu d’y inscrire un ‘zéro’. On ne peut alors savoir avec certitude si le blanc signifie que l’agent recenseur a omis de poser la question ou de reporter la réponse ou s’il s’agit d’une absence d’enfants. Cette erreur est généralement plus courante dans les données des jeunes femmes, qui ont davantage de chances d’être sans enfants ou de répondre zéro aux six questions ci-dessus. L’erreur survient parfois parce que l’agent recenseur présume que la question ne s’applique pas aux jeunes femmes, ou parce qu’il est mal à l’aise pour la poser. On recommande souvent dans ce cas un ajustement spécifique des données, la correction d’el Badry. Toutefois, si dans chaque groupe d’âge le nombre de femmes qui n’ont pas déclaré de nombre d’enfants est faible (disons moins de 2 % du total), cette erreur de déclaration aura peu d’impact sur le nombre moyen et pourra être ignorée lors des calculs ultérieurs. Ceci équivaut à faire l’hypothèse explicite que les femmes n’ayant pas déclaré de parité ont le même nombre moyen d’enfants que celles qui, dans le même groupe d’âge, l’ont déclarée.

Proportions de femmes sans enfants

Les proportions de femmes sans enfants doivent être calculées par groupe d’âge de la mère. Les proportions doivent reculer fortement quand l’âge augmente. Dans la plupart des cas, environ 3 à 10 % des femmes restent sans enfants dans les groupes d’âge les plus élevés, du fait de la stérilité primaire et de l’infécondité volontaire. Dans les pays de faible fécondité, la proportion de femmes sans enfants à 45-49 ans peut même être plus élevée. Quand les proportions de femmes sans enfants dépassent 10 % aux âges élevés, des recherches complémentaires sont nécessaires, car cela peut indiquer d’importantes erreurs dans les données.

Parités moyennes

Une distribution vraisemblable des nombres moyens d’enfants vivants et décédés par groupe d’âge de la mère est une indication essentielle de la cohérence des données sur la descendance. En général, on s’attend à ce que les parités moyennes (le nombre moyen total d’enfants nés, présents, absents et décédés) s’accroissent continuellement avec l’âge des femmes. La forme de la distribution par âge doit être sigmoïde, avec des sections un peu plus plates au début et à la fin, du fait d’une moindre fécondité aux âges les plus jeunes et les plus avancés auxquels les femmes ont des enfants. D’importantes augmentations du nombre d’enfants à ces âges – c’est-à-dire de forts accroissements des parités moyennes entre groupes d’âge successifs – sont peu vraisemblables.

On peut aussi s’attendre à ce que les nombres moyens d’enfants vivants et d’enfants décédés, ainsi que la proportion d’enfants décédés augmentent avec l’âge.

Un deuxième contrôle consiste à comparer les parités observées aux résultats obtenus dans des Enquêtes Démographiques et de Santé (EDS), ou lors de recensements antérieurs ou dans d’autres enquêtes. On peut alors comparer les parités moyennes dans des générations féminines réelles. Ainsi, si deux recensements sont réalisés à 10 ans d’intervalle, les parités moyennes des femmes âgées de x à x+4 au premier recensement peuvent être comparées à celles des femmes âgées de x+10 à x+14 au second. Non seulement les nombres moyens d’enfants devraient s’accroitre continuellement avec l’âge à chaque recensement, mais il devrait aussi y avoir un accroissement raisonnable du nombre d’enfants au sein des cohortes entre deux recensements.

Si on dispose de données pour des femmes âgées de 50 ans et plus, on peut comparer directement la cohérence des nombres moyens des femmes qui ont terminé leur période féconde – par exemple en comparant les parités moyennes des femmes âgées de 45-49 ans dans un recensement avec celles des femmes âgées de 55-59 ans au second recensement dix ans plus tard. Lors de telles comparaisons, en particulier lorsqu’elles impliquent des femmes âgées, l’analyste doit être attentif à d’éventuelles différences de mortalité entre les femmes ayant eu des nombres d’enfants différents, soit du fait d’un lien direct, soit parce que forte fécondité et statut socio-économique peuvent être corrélés. Ceci peut empêcher de tirer des conclusions définitives sur les tendances de la descendance finale.

Feeney (1991) a suggéré un perfectionnement de l’analyse lorsque on dispose d’informations sur la parité moyenne de femmes ayant terminé leur vie féconde : il s’agit de situer ces moyennes approximativement dans le temps et de les représenter graphiquement. La localisation dans le temps consiste à situer les parités moyennes en un point du temps défini en retranchant le point médian de chaque groupe d’âge à la date du recensement et en supposant que toutes les naissances dans chaque génération se sont produites à l’âge moyen à la maternité, m. En supposant par exemple m = 27,5 ans, si un recensement a eu lieu en 1960, les nombres moyens des femmes âgées de 50-54 ans se rapportent (à peu près) à 1960 – 52,5 + 27,5, soit 1935.

La parité moyenne des femmes d’un âge donné x, P_x, est calculée en divisant le nombre total d’enfants déjà nés des femmes âgées de x à la date du recensement par le nombre de femmes âgées de x au recensement :

P_{x} = \frac{\sum_{j = 0}^{ω} j . N_{x, j}}{\sum_{j = 0}^{ω} N_{x, j}}

où N_x,jest le nombre de femmes âgées de x et ayant j enfants dans la population, et oméga (ω) est la limite supérieure du nombre d’enfants déclaré dans la population, après exclusion des valeurs numériques considérées comme des codes erronés dans les données. Avec des groupes groupes d’âges quinquennaux, le nombre moyen d’enfants des femmes dans chaque groupe d’âge est égal à

_{5} P_{x} = \frac{\sum_{j = 0}^{ω} j ._{5} N_{x, j}}{\sum_{j = 0}^{ω}_{5} N_{x, j}}

pour x = 15, 20, …, 45.

Pour simplifier l’exposé de nombreuses méthodes, les nombres moyens d’enfants par groupes d’âges quinquennaux, 15-19, 20-24, … sont souvent désignés par P(i), i=1, 2 …, où P(1) se réfère au groupe 15-19 ans, P(2) au groupe 20-24 ans, etc.

Comparaison avec d’autres estimations des parités moyennes

Si d’autres données sur la fécondité sont disponibles pour le même pays à peu près à la même date, il est bon de comparer les estimations. Si elles divergent significativement, l’analyste doit s’efforcer de comprendre pourquoi, mais il sera souvent impossible de conclure définitivement laquelle des deux sources est déficiente.

Comparaison avec les indices synthétiques de fécondité

Un dernier contrôle résulte de la comparaison de la parité moyenne des femmes de 45-49 ans avec une estimation de l’indice synthétique de fécondité tirée des données sur la fécondité récente. Si la fécondité est constante depuis longtemps et que les données sont déclarées précisément, les deux mesures doivent être proches l’une de l’autre puisque la fécondité du moment et celle des cohortes doivent être égales dans ces conditions. Si la fécondité a baissé, la parité moyenne des femmes âgées doit être supérieure à l’indice synthétique de fécondité. Comme la sous-déclaration de la fécondité récente réduit artificiellement l’indice synthétique, alors que l’omission des naissances par les femmes âgées réduit la parité moyenne dans ce groupe, il est important de vérifier que chacune des deux mesures est plausible. Une des méthodes pour le faire s’appuie sur le modèle relationnel de Gompertz pour étudier les distributions des fécondités et des parités et leurs relations.

Exemple : Evaluation de la qualité des données sur les descendances

L’exemple ci-dessous repose sur les données tirées du recensement de 2008 au Cambodge diffusées par IPUMS. Les données (pondérées, pour tenir compte du fait que les données d’IPUMS ne sont qu’un échantillon de l’ensemble des données) figurent au tableau 1.

Tableau 1 Nombre total d’enfants déjà nés par groupe d’âge de la mère, Cambodge, recensement de 2008

	Groupe d’âge de la mère
Parité	15-19	20-24	25-29	30-34	35-39	40-44	45-49	Total
0	743 190	426 760	191 720	58 530	46 650	36 050	28 780	1 531 680
1	29 560	167 810	142 720	44 310	34 530	25 790	21 740	466 460
2	4 240	78 410	171 450	90 990	79 080	51 980	36 680	512 830
3	1 200	16 940	82 960	84 220	98 640	67 690	48 190	399 840
4	830	4 020	26 870	48 510	79 480	70 400	56 190	286 300
5	430	1 340	6 910	21 010	49 250	56 980	51 500	187 420
6	270	630	2 150	8 710	26 020	37 070	41 420	116 270
7	120	380	630	3 410	12 530	23 730	29 680	70 480
8	80	200	400	1 000	5 450	12 180	18 320	37 630
9	60	100	120	350	2 410	6 030	10 040	19 110
10	40	120	140	190	1 090	3 120	5 660	10 360
11	50	0	70	70	360	1 420	2 010	3 980
12	20	50	20	30	170	670	1 350	2 310
13	10	10	0	10	60	270	410	770
14	0	10	10	0	10	60	190	280
15	0	0	10	0	20	90	150	270
16	0	0	0	0	0	10	30	40
17	0	0	0	0	0	10	30	40
18	0	0	0	0	0	0	20	20
19	0	0	0	0	0	0	10	10
20	0	0	0	20	0	0	0	20
Inconnue	220	380	250	290	130	210	120	1 600
TOTAL	780 320	697 160	626 430	361 650	435 880	393 760	352 520	3 647 720

Les nombres en italiques rouges correspondent à des parités peu vraisemblables selon la règle pratique exposée plus haut. Les valeurs dans ces cellules sont ajoutées aux effectifs de femmes de chaque groupe d’âge dont la parité est inconnue. Les valeurs originelles sont ensuite mises à zéro, le résultat figurant au tableau 2.

Table 2 Nombre total d’enfants déjà nés par groupe d’âge de la mère après correction pour les parités peu vraisemblables, Cambodge, recensement de 2008.

	Groupe d’âge de la mère
Parité	15-19	20-24	25-29	30-34	35-39	40-44	45-49	Total
0	743 190	426 760	191 720	58 530	46 650	36 050	28 780	1 531 680
1	29 560	167 810	142 720	44 310	34 530	25 790	21 740	466 460
2	4 240	78 410	171 450	90 990	79 080	51 980	36 680	512 830
3	1 200	16 940	82 960	84 220	98 640	67 690	48 190	399 840
4	830	4 020	26 870	48 510	79 480	70 400	56 190	286 300
5	430	1 340	6 910	21 010	49 250	56 980	51 500	187 420
6	0	630	2 150	8 710	26 020	37 070	41 420	116 000
7	0	380	630	3 410	12 530	23 730	29 680	70 360
8	0	200	400	1 000	5 450	12 180	18 320	37 550
9	0	0	120	350	2 410	6 030	10 040	18 950
10	0	0	140	190	1 090	3 120	5 660	10 200
11	0	0	70	70	360	1 420	2 010	3 930
12	0	0	20	30	170	670	1 350	2 240
13	0	0	0	10	60	270	410	750
14	0	0	0	0	10	60	190	260
15	0	0	0	0	20	90	150	260
16	0	0	0	0	0	10	30	40
17	0	0	0	0	0	10	30	40
18	0	0	0	0	0	0	20	20
19	0	0	0	0	0	0	10	10
20	0	0	0	0	0	0	0	0
Inconnue	870	670	270	310	130	210	120	2,580
TOTAL	780 320	697 160	626 430	361 650	435 880	393 760	352 520	3 647 720
Proportion manquante	0,111%	0,096%	0,043%	0,086%	0,030%	0,053%	0,034%
Proportion ss enfants	95,24%	61,21%	30,61%	16,18%	10,70%	9,16%	8,16%
Parités moyennes	0,0604	0,5833	1,4382	2,4035	3,1670	3,8126	4,3184

La proportion de femmes dont la parité est inconnue après cet ajustement figure sur l’antépénultième ligne du tableau 2. Dans chaque groupe d’âge, cette proportion est insignifiante. Elle est un peu plus élevée chez les jeunes femmes que chez les plus âgées, mais même chez les 15-19 ans seules 0,11 % des femmes ont une parité inconnue ou peu vraisemblable. Il n’est donc pas nécessaire de faire une correction d’el Badry et les cas inconnus peuvent être exclus du calcul des parités moyennes, en supposant donc implicitement que les femmes dont les données sont manquantes ou peu vraisemblables ont les mêmes parités moyennes que les autres femmes du même âge. (Les données présentées ici ont été choisies parce qu’une correction d’el Badry n’était pas nécessaire. La section du manuel traitant de la correction d’el Badry présente le cas d’un autre pays dont les données de parité ne sont pas d’aussi bonne qualité.)

La proportion de femmes sans enfants, à l’avant dernière ligne du tableau 2, recule rapidement avec l’âge ; à 40 ans, moins de 10 % des femmes n’ont pas eu d’enfants. Comme attendu, cette proportion ne diminue que lentement ensuite entre les deux derniers groupes d’âge : peu de femme débutent leur vie féconde après 40 ans. La proportion de femmes sans enfants à 45-49 ans (8,2 %) est relativement élevée. Les parités moyennes laissent penser que la fécondité des adolescentes est très faible, la descendance finale atteignant par ailleurs 4,3 enfants par femme dans le groupe 45-49 ans. La représentation graphique des parités moyennes a une forme sigmoïde, les hausses de descendance les plus fortes se produisant entre 20 et 35 ans, aux âges où la fécondité est généralement la plus élevée. (Figure 1).

Figure 1 Parités moyennes par groupe d’âge, Cambodge, recensement de 2008, EDS 2005 et EDS 2010

Sur la figure 1, on a également représenté les parités moyennes par groupe d’âge d’après les Enquêtes Démographiques et de Santé du Cambodge en 2005 et 2010 (disponibles sur le site internet des EDS www.statcompiler.com. Les parités moyennes au recensement et dans l’EDS de 2010 sont très voisines. Deux caractéristiques suggèrent cependant qu’il faut être prudent avant de conclure que ces données sont de bonne qualité. Premièrement, étant donné les dates des trois sources, les données du recensement devraient se situer à peu près à mi-chemin entre les estimations des deux EDS, ce qui n’est pas le cas. Deuxièmement, la descendance des femmes âgées de 40-44 ans à l’enquête EDS de 2005 est un peu plus élevée (de 0,2 enfant) que celle des femmes âgées de 45-49 ans à l’enquête EDS de 2010. La fécondité est faible chez les femmes à l’approche de la cinquantaine et des erreurs aléatoires ne sont pas à exclure, mais dans tous les cas ces résultats poussent à un certain scepticisme à l’égard des données. Toutefois dans l’ensemble, les parités moyennes tirées des deux EDS ne contredisent pas fondamentalement celles tirées des recensements.

Références

Feeney G. 1991. "Child survivorship estimation: Methods and data analysis", Asian and Pacific Population Forum 5(2-3):51-55, 76-87. http://hdl.handle.net/10125/3600.

Version imprimable
?
Login or register to post comments
English

HAC