Introduction à l’analyse des migrations

Auteur:

Hill K and RE Dorrington

Vue d’ensemble

La migration est le troisième phénomène (avec la fécondité et la mortalité) qui détermine l’évolution d’une population. Pour la plupart des populations nationales, sa contribution à l’évolution démographique est modeste, comparée à celles des naissances et des décès, mais, en général, plus la subdivision administrative considérée est petite, plus elle prend de l’importance. La migration diffère de la fécondité et de la mortalité, non seulement par son ampleur, mais plus fondamentalement par sa nature. Elle suppose que l’on se déplace en franchissant une frontière géographique, dans le but, atteint ou en projet, de changer de lieu de résidence habituelle. Donc si une naissance et un décès se définissent généralement sans ambiguïté, il y a ou non migration selon les unités géographiques concernées (les subdivisions administratives) et selon l’intention de l’individu ou son comportement ultérieur. Un même individu peut être un migrant aux yeux du chercheur qui étudie l’évolution de la population d’une province, et ne pas être un migrant pour un autre observateur qui analyse le mouvement démographique au niveau national. Toute étude de la migration doit donc, avant toute chose, se fixer un niveau géographique d’analyse. Il faut ensuite définir, parmi les déplacements en tout genre, ceux qui seront comptés comme migrations. Le problème est encore rendu plus compliqué par l’existence de plusieurs types de migrations. En plus du changement « classique » de résidence habituelle, il y a les flux migratoires circulaires, les navettes quotidiennes ou hebdomadaires, les migrations saisonnières et les flux de réfugiés, qui ont tous leurs caractères particuliers. Étant donné ces difficultés de définition, et le fait que la migration (contrairement à la naissance et au décès) est un phénomène véritablement réversible en termes d’effectifs de population, il n’est pas étonnant que sa mesure soit également complexe.

De plus, recueillir des données sur la migration est une entreprise particulièrement problématique. Si, souvent, les pays en développement n’ont pas de système d’enregistrement complet des naissances et des décès, il y a des progrès à cet égard, et on a mis au point des méthodes pour exploiter des données lacunaires. Cependant, les données enregistrées sur les migrants et/ou les migrations, dans la plupart des pays, ne peuvent pas servir de base à des évaluations fiables de nombres d’immigrants internationaux, et encore moins de migrants ou migrations internes. En outre, pour différentes raisons (situation irrégulière, résidence temporaire des migrants récents, crainte de la xénophobie, etc.), les migrants (et particulièrement les immigrants internationaux) sont habituellement sous-représentés dans les recensements et les enquêtes.

Les méthodes de mesure de la migration sont largement les mêmes pour la migration interne que pour la migration internationale (qu’il s’agisse d’immigration ou d’émigration), sauf sur un point particulier très important. Un recensement ou une enquête peut mesurer l’immigration internationale en identifiant les personnes nées à l’étranger, mais il est beaucoup plus difficile de saisir les émigrants, car on ne peut pas procéder au recensement ou à l’enquête dans tous les pays d’accueil. Pour évaluer l’émigration, on dispose de plusieurs approches : (i) identifier systématiquement les nationaux dans les recensements d’autres pays (UN Population Division 2011) ; (ii) interroger chaque ménage sur les membres habituels du ménage qui vivent à l’étranger (exemple : les recensements du Swaziland de 1986 et 1996) ; (iii) demander à la personne interrogée si elle a des parents proches qui vivent à l’étranger, en particulier des frères ou sœurs, ou demander à une femme si elle a des enfants à l’étranger (Zaba 1985) ; et (iv) recourir à des méthodes de comparaison intercensitaire pour estimer les nombres de résidents manquants lors d’un recensement par rapport au recensement précédent. La première approche dépend de la possibilité et de la volonté des pays d’accueil de fournir les données voulues, et elle ne permet de saisir que les migrations de citoyens natifs du pays de départ ; la deuxième repose sur le concept, plus ou moins vague, de membre d’un ménage, et elle ne permet pas d’observer l’émigration d’un ménage entier ; la troisième ne peut pas non plus constater l’absence d’une famille entière, elle ne fournit pas d’estimations de l’émigration récente et, lors de petites enquêtes expérimentales, elle ne s’est pas montrée convaincante. Seule la quatrième approche semble capable de fournir des estimations plausibles des flux récents, à condition que les deux recensements dénombrent la population avec une précision suffisante, mais elle ne donnera aucune information exploitable sur la destination des absents.

Étant donné ces limites et les difficultés qui grèvent la collecte des données, l’analyse de la migration s’est développée en grande partie indépendamment de l’analyse démographique classique, et elle s’est alors concentrée essentiellement sur les pays développés, parce que la qualité des données existantes sur la migration y est généralement bien meilleure que dans les pays en développement, et peut-être aussi parce que la migration y est souvent un sujet plus sensible sur le plan politique. Une autre conséquence de ces difficultés est le développement d’une terminologie et de techniques qui sont spécifiques à ce domaine, et souvent très éloignées de la démographie dont il est question dans le reste de ce manuel.

Définitions

Comme on l’a dit plus haut, on définit la migration comme un déplacement qui franchit une frontière géographique (généralement administrative) à laquelle s’intéresse le chercheur, et a pour effet le changement du lieu de résidence habituelle de l’individu migrant. La frontière étant supposée clairement définie, ceci soulève immédiatement deux questions : comment définit-on le lieu de résidence habituelle, et comment détermine-t-on si ce lieu de résidence a changé ? Malheureusement, aucune réponse précise ne peut être apportée à ces deux questions, ce qui entraîne une inévitable incertitude en ce qui concerne la mesure du phénomène. La définition la plus souvent retenue de la résidence habituelle invoque la durée de résidence : si un individu a l’intention de vivre, ou a vécu, dans un lieu pendant un temps déterminé (par exemple un an), ce lieu est sa résidence habituelle. Notons que la résidence habituelle n’est pas la même chose que la résidence légale. Les Principes et recommandations concernant les recensements de la population et des logements (Division de Statistique des NU, 2009, p. 111, para. 1.463) définissent comme suit la résidence habituelle :

« Il est recommandé que les pays tiennent compte d’un délai de 12 mois pour déterminer le domicile habituel selon l’un des deux critères suivants :

a) Le lieu où la personne recensée a vécu continuellement la plupart du temps au cours des 12 derniers mois (autrement dit, au moins six mois et un jour), sans compter les absences temporaires pendant des vacances ou des missions de travail, ou bien où cette personne a l’intention de vivre pendant au moins six mois;

b) Le lieu où la personne recensée a vécu continuellement au moins au cours des 12 derniers mois, sans compter les absences temporaires pendant les vacances ou des missions de travail, ou bien où cette personne a l’intention de vivre pendant au moins 12 mois. »

Mais cette définition ne règle pas le cas d’une personne qui a deux logements et passe régulièrement environ six mois dans chacun. En général, on doit accepter les déclarations des individus qui se définissent eux-mêmes comme résidents ou non, quoique certains tests soient possibles (comme demander à la personne où est immatriculée sa voiture, où elle paie ses impôts, où elle vote, où elle passe régulièrement la nuit, etc.). Dans la plupart des cas, une personne peut distinguer si elle est résident habituel ou visiteur, et cette simple distinction est suffisante.

Sources de données

La migration peut être considérée comme la « Cendrillon de la démographie », reléguée à l’arrière-plan autant que possible. Les enquêtes consacrées à la migration sont rares, très espacées et spécialisées (un excellent exemple est la description du Projet Migration au Mexique par Massey, Alarcon, Durand et al. (1987)). Dans un enquête sur la migration, on trouve généralement des histoires migratoires complètes, qui, bien que soulevant des problèmes d’analyse complexes, ne sont pas axées sur l’estimation des nombres de migrants ou de migrations. Dans cette section, nous ne traiterons pas de l’analyse de ces histoires migratoires complètes (il y a très peu de principes généraux qui seraient applicables à beaucoup d’entre elles), nous nous intéresserons plutôt aux différentes sortes de données recueillies par les recensements et les enquêtes générales sur les ménages, et parfois aussi, dans certains pays développés, par l’un ou l’autre type d’enregistrement.

Le lieu de naissance

L’information utile à l’étude de la migration la plus largement recueillie est le lieu de naissance. Quand on le compare avec le lieu de résidence à la date de l’enquête, on observe la migration sur la vie entière (parfois appelée en français « migration durée de vie »). Cette donnée ne fournit qu’une information limitée sur le calendrier de la migration, et il s’agit d’une migration « nette », en ce sens qu’elle ignore complètement les émigrations suivies d’un retour (au lieu de naissance), ainsi que toutes les migrations intermédiaires. Au moment de la collecte des données, il faut décider du niveau de détail des informations à recueillir, c’est-à-dire, pour les personnes nées à l’étranger, combien de pays différents seront distingués, et pour les personnes nées dans le pays, quel niveau de précision géographique on adoptera. Bien sûr, pour le chercheur qui analyse les données, ces décisions auront été prises lors de la conception du questionnaire, mais il peut avoir besoin d’un niveau d’agrégation plus élevé. L’analyse des données sur le lieu de naissance est présentée plus loin, mais il est utile de noter ici deux points. Premièrement, si on dispose de données sur le lieu de naissance, par sexe et âge, à deux dates, on peut estimer la migration nette (par sexe et âge) sur la période délimitée par ces deux dates. Deuxièmement, bien que le lieu de naissance ne révèle que les « migrations durée de vie », la longueur de cette « durée de vie » varie avec l’âge, et, pour peu que les données du recensement relatives aux enfants soient fiables (ce qui n’est souvent pas le cas dans bien des pays en développement), la migration des enfants de 0-4 ans peut servir d’indicateur de la migration récente de leurs parents (Raymer et Rogers 2007).

Le lieu de résidence à une date précise dans le passé

Cette information est très souvent recueillie en même temps que le lieu de naissance, dans le but explicite d’obtenir des données sur la migration récente. La date en question remonte généralement cinq ans en arrière, parfois un an seulement. Les résultats ont tendance à être meilleurs si cette date est associée à un événement marquant, tel que le recensement précédent, à condition que celui-ci ait été suffisamment complet (en sorte que les gens se souviennent d’avoir été recensés). Une période plus longue enregistre plus de migrants, mais ignore les déplacements intermédiaires, alors qu’une période plus courte est davantage exposée aux erreurs d’évaluation des durées (« j’ai déménagé il y a à peu près un an »).

Le lieu de résidence antérieure

Cette information est presque toujours envisagée comme une alternative à celle du lieu de résidence à une date précise dans le passé, et on la combine généralement avec une question complémentaire sur la durée de la résidence actuelle (ou la date du dernier déménagement). Le but, là encore, est d’obtenir des données sur la migration récente.

La durée de la résidence actuelle

Cette question porte sur la durée de résidence dans la zone géo-administrative (comme la ville ou la province) et non dans le logement individuel. Prise isolément, elle n’a pas beaucoup d’intérêt, mais, associée avec la question précédente, elle fournit un cadre temporel pour les indices estimés.

Le mouvement intercensitaire de la population

Bien qu’elle n’implique aucune question directe sur la migration, l’évaluation de la variation intercensitaire de la population, par sexe et âge, peut, si les deux dénombrements sont suffisamment précis, fournir, par différence, des estimations de la migration intercensitaire nette (Hill 1987 ; Hill et Wong 2005 ; UN Population Division 1967). On déduit du mouvement intercensitaire par sexe et âge (par cohortes ou par groupes d’âge) la part due à la fécondité et à la mortalité pour obtenir une estimation de la migration intercensitaire nette (c’est-à-dire que l’on traite la migration comme le terme résiduel de l’équation fondamentale de la dynamique démographique). La migration est généralement concentrée dans la tranche d’âge de 20 à 40 ans, âges auxquels les taux de mortalité sont relativement faibles, du moins en l’absence d’épidémie de VIH/sida, et où la natalité n’entre pas en ligne de compte. Les estimations de la migration par cette méthode ne sont donc pas affectées par les hypothèses de mortalité et de fécondité (sauf dans les populations gravement touchées par le VIH/sida, où il déconseillé d’employer ces données pour évaluer la migration). Mais elles sont extrêmement sensibles aux différences, même légères, de couverture des recensements ; les erreurs que cela entraîne peuvent se manifester sous la forme de taux élevés de migration par âge au-delà de 50 ans, alors que la migration est habituellement faible dans cette catégorie d’âge.

Les mesures de la migration

Il n’entre pas dans les objectifs de cette introduction de fournir un récapitulatif complet des définitions et mesures de la migration – nous renvoyons le lecteur intéressé au manuel des Nations Unies consacré aux migrations internes (UN Population Division 1970) – mais deux d’entre elles présentent un intérêt particulier pour les chapitres qui suivent.

La population immigrée (en anglais : migration stocks)

On appelle population immigrée le nombre de personnes (décomposé par sexe et groupe d’âge) qui ne sont pas nées dans la subdivision administrative recensée. La proportion de personnes nées ailleurs (dans le pays ou à l’étranger) donne une bonne idée générale de l’ampleur de l’immigration (interne et internationale), mais aucune indication sur l’évolution récente du phénomène. Néanmoins, la variation de la population immigrée peut servir à l’estimation de l’immigration (nette des migrations intermédiaires ou de retour des personnes nées à l’étranger).

Les taux de migration

En supposant que l’observation des migrations puisse être exhaustive et exacte, on peut calculer des taux d’émigration (interne ou internationale) exactement de la même manière que pour la mortalité, en divisant les nombres d’événements survenus au cours d’une période déterminée par la durée d’exposition au risque : des taux globaux (tous sexes et âges confondus) ou des taux par sexe et âge. Il n’en va pas de même (du moins utilement) pour l’immigration, car la population exposée au risque d’immigrer dans une subdivision administrative est l’ensemble de la population mondiale vivant hors de cette région. Les taux d’immigration se calculent toujours en divisant les nombres d’événements par la durée d’exposition de la seule population qui n’est pas exposée à ce risque, les résidents actuels de la région ; ce peut être des taux globaux (tous sexes et âges confondus) ou des taux par sexe et âge. Définir ces taux de cette manière présente l’avantage de satisfaire l’équation fondamentale de la dynamique démographique, puisque les taux d’accroissement et de diminution se rapportent à la même population. Cela entraîne un autre avantage : les taux de migration nette peuvent être déduits de l’équation fondamentale comme la variation de la population entre deux dates (par exemple deux recensements) moins les naissances et plus les décès survenus dans le même intervalle de temps. Mais cette approche présente aussi l’inconvénient de repousser les limites des taux « normaux » : par exemple, dans un cas extrême, l’immigration d’un individu dans une région précédemment inhabitée donne lieu à un taux d’immigration infini.

Description des méthodes présentées

Les chapitres de cette section sont axés sur l’évaluation et la description quantitative de l’immigration internationale et des migrations internes. Il ne s’agit pas de présenter un panorama exhaustif de toutes les mesures de la migration ; en particulier, nous ne parlerons pas du problème, important mais délicat, de la mesure de l’émigration internationale, sauf pour mentionner que la méthode d’estimation de l’immigration internationale des étrangers (nette des migrations intermédiaires et des retours) peut être appliquée aux données des principaux pays de destination des émigrants pour avoir une certaine idée de l’ampleur et de la structure par âge de l’émigration.

Le Chapitre 35 [1] porte sur les méthodes de base d’analyse des données de recensement pour estimer les nombres d’immigrants internationaux (nets des migrations intermédiaires et des retours) à partir de la variation de l’effectif des étrangers, et les nombres de migrants internes à partir de la variation d’effectif de la population en fonction du lieu de naissance et du lieu de résidence à une certaine date antérieure au recensement.

Le Chapitre 36 [2] décrit le choix et l’ajustement d’un modèle multi-exponentiel de Rogers-Castro aux probabilités (ou taux) de migration basées sur des estimations de nombres de migrants/migrations, en utilisant des procédures d’optimisation non-linéaires.

Le Chapitre 37 [3] présente les modèles multiplicatifs et log-linéaires capables de saisir, comparer et analyser la masse des flux migratoires inter-régionaux par lieu de départ et lieu d’arrivée. On y trouvera également une introduction à la « méthode des offsets » pour étendre l’utilisation de ces modèles à l’estimation des flux inter-régionaux à partir des flux marginaux (c’est-à-dire les flux totaux sortant des régions ou y entrant). Notre intention est de développer la « méthode des offsets » dans un chapitre complémentaire qui sera publié plus tard sur le site web de Tools for Demographic Estimation.

Autres lectures et références

Comme nous l’avons déjà signalé, le Manuel VI des Nations unies (UN Population Division 1970) fournit une introduction complète, quoiqu’ancienne, à la description et à la mesure de la migration interne. Nous renvoyons le chercheur intéressé par une vue d’ensemble des méthodes indirectes d’estimation de la migration à l’inventaire, toujours utile même s’il date aussi un peu, de Zaba (1987). Sur un plan plus spécifique, Hill (1987) a essayé d’appliquer la logique qui sous-tend la méthode d’estimation de la mortalité adulte dite « méthode généralisée de la balance de l’accroissement démographique » (décrite dans le Chapitre 24 [4]) à l’évaluation de la migration clandestine, et Hill et Queiroz (2010) ont cherché à estimer la migration nette parallèlement à la mortalité, dans le but d’améliorer les estimations de mortalité. Malheureusement, aucune de ces méthodes ne s’est révélée particulièrement efficace.

Les lecteurs qui souhaitent se documenter davantage sur les modèles de migration (multi-exponentiel, multiplicatif et log-linéaire) ou sur la « méthode des offsets » peuvent parcourir les travaux de Rogers, Willekens et leurs collègues (entre autres, Little et Rogers (2007), Raymer et Rogers (2007), Rogers (1980, 1986), Rogers, Little et Raymer (2010), et Willekens (1999)).

Hill K. 1987. "New approaches to the estimation of migration flows from census and administrative data sources", International Migration Review 21(4):1279-1303. http://dx.doi.org/10.2307/2546515 [5]

Hill K and B Queiroz. 2010. "Adjusting the general growth balance method for migration", Revista Brasileira de Estudos de População 27(1):7-20. doi: http://dx.doi.org/10.1590/S0102-30982010000100002 [6]

Hill K and R Wong. 2005. "Mexico–US migration: Views from both sides of the border", Population and Development Review 31(1):1-18. doi: http://dx.doi.org/10.1111/j.1728-4457.2005.00050.x [7]

Little JS and A Rogers. 2007. "What can the age composition of a population tell us about the age composition of its out-migrants?", Population, Space and Place 13(1):23-19. doi: http://dx.doi.org/10.1002/psp.440 [8]

Massey DS, R Alarcon, J Durand and H Gonzalez. 1987. Return to Aztlan: The Social Process of International Migration from Western Mexico. Berkeley and Los Angeles: University of California Press.

Raymer J and A Rogers. 2007. "Using age and spacial flow structures in the indirect estimation of migration streams", Demography 44(2):199–223. doi: http://dx.doi.org/10.1353/dem.2007.0016 [9]

Rogers A. 1980. "Introduction to multistate mathematical demography", Environment and Planning A 12:489-498. doi: http://dx.doi.org/10.1068/a120489 [10]

Rogers A. 1986. "Parameterized multistate population dynamics and projections", Journal of the American Statistical Association 81(393):48-61. doi: http://dx.doi.org/10.1080/01621459.1986.10478237 [11]

Rogers A, JS Little and J Raymer. 2010. The Indirect Estimation of Migration: Methods for Dealing with Irregular, Inadequate, and Missing Data. Dordrecht: Springer.

UN Population Division. 1967. Manual IV: Methods for Estimating Basic Demographic Measures from Incomplete Data. New York: United Nations, Department of Economic and Social Affairs, ST/SOA/Series A/42. http://www.un.org/esa/population/techcoop/DemEst/manual4/manual4.html [12]

UN Population Division. 1970. Manual VI: Methods of Measuring Internal Migration. New York: United Nations, Department of Economic and Social Affairs, ST/SOA/Series A/47. http://www.un.org/esa/population/techcoop/IntMig/manual6/manual6.html [13]

UN Population Division. 2011. International Migration Report 2009: A Global Assessment. New York: United Nations, Department of Economic and Social Affairs, ST/ESA/Series A/316. http://www.un.org/esa/population/publications/migration/WorldMigrationReport2009.pdf [14]

Division de statistique des NU. 2009. Principes et recommandations concernant les recensements de la population et des logements, Deuxième révision. New York : Nations Unies, Département des affaires économiques et sociales, ST/ESA/STAT/SER.M/67/Rev.2. http://unstats.un.org/unsd/publication/seriesM/seriesm_67Rev2f.pdf [15]

Willekens FJ. 1999. "Modeling approaches to the indirect estimation of migration flows: From entropy to EM", Mathematical Population Studies 7:239-278. doi: http://dx.doi.org/10.1080/08898489909525459 [16]

Zaba B. 1985. Measurement of Emigration Using Indirect Techniques: Manual for the Collection and Analysis of Data on Residence of Relatives. Liège: Belgium: Ordina Editions.

Zaba B. 1987. "The indirect estimation of migration: A critical review", International Migration Review 21(4):1395–1445. doi: http://dx.doi.org/10.2307/2546519 [17]

[15]

Estimation de la migration à partir de données de recensement

Auteur:

RE Dorrington

Description des méthodes

Mesurer la migration à partir de données de recensement n’est pas techniquement compliqué. Pourvu que le(s) recensement(s) recueille(nt) les informations nécessaires et soi(en)t suffisamment fiables, on peut parvenir à des estimations de l’immigration internationale nette (c’est-à-dire les immigrations moins les émigrations) de la population née à l’étranger (hors d’un pays déterminé) et des migrations internes (entrées et sorties) entre les régions d’un pays au cours d’une période intercensitaire.

Pour mesurer l’immigration internationale nette de personnes nées à l’étranger, il suffit de retrancher du nombre de personnes recensées nées à l’étranger le nombre des étrangers qui étaient déjà présents lors du recensement précédent et sont supposés avoir survécu depuis lors.

De même, si les recensements enregistrent la région de naissance des individus, on peut mesurer l’immigration interne nette (c’est-à-dire l’immigration interne nette des personnes nées hors de la région considérée, moins l’émigration interne nette des personnes natives de la région) entre les régions du pays. Mais, si on demande aux personnes recensées où elles vivaient à une certaine date antérieure, par exemple au moment du recensement précédent, on peut évaluer directement le nombre de migrants survivants (c’est-à-dire les migrants encore envie au moment du recensement le plus récent) en provenance et à destination de chaque région du pays depuis cette date antérieure.

Pour mesurer le nombre de migrants à partir du nombre de migrants survivants au moment du second recensement, on doit ajouter à ce dernier chiffre une estimation du nombre de migrants que l’on suppose décédés entre leur migration et le second recensement.

Si le dernier recensement a enregistré d’autres données, comme l’année d’arrivée du migrant à l’endroit où il a été recensé, on peut également évaluer la tendance de la migration au cours du temps.

La migration se différencie de la fécondité et de la mortalité, à la fois parce qu’elle n’est pas un aboutissement au sens où le sont une naissance ou un décès, et par le fait que nous devons nous intéresser non seulement à la population d’origine, que le migrant a quittée (qui correspond à la population soumise au risque, sur la base de laquelle peuvent être calculés des taux analogues aux taux de fécondité et de mortalité), mais aussi à la population de destination, celle que le migrant a rejointe. De plus, pour analyser la migration, on a souvent besoin de distinguer divers types de déplacements (temporaires ou permanents, circulaires ou non, etc.). C’est pourquoi l’éventail des définitions et des outils de mesure associés à la migration est beaucoup plus large que dans le cas de la fécondité ou de la mortalité. Il n’entre pas dans les objectifs de ce chapitre de traiter cette problématique, nous renvoyons donc le lecteur intéressé aux textes classiques sur le sujet, tels que le Manuel VI des Nations Unies (UN Population Division, 1970), Shryock et Siegel (1976), Siegel et Swanson (2004).

Données requises et hypothèses

Tabulations nécessaires

Pour mesurer l’immigration nette de personnes nées à l’étranger :
- Les nombres d’hommes et de femmes nés à l’étranger, par groupes quinquennaux d’âge et pour un groupe d’âge ouvert A+, à deux moments du temps, habituellement deux recensements.
- Pour les décès : soit une table-type de mortalité adéquate, soit les nombres d’hommes et de femmes nés dans le pays étudié, par groupes quinquennaux d’âge et pour un groupe d’âge ouvert A+, à deux moments du temps, habituellement deux recensements. À défaut, le taux brut de mortalité de cette population.
Pour mesurer l’immigration interne nette (entre régions d’un même pays) à partir des données sur le lieu de naissance :
- Les nombres d’hommes et de femmes par région de résidence et région de naissance, par groupes quinquennaux d’âge et pour un groupe d’âge ouvert A+, à deux moments du temps, habituellement deux recensements.
- Pour les décès : soit une table-type de mortalité adéquate, soit les nombres d’hommes et de femmes nés dans la région considérée, par groupes quinquennaux d’âge et pour un groupe d’âge ouvert A+, à deux moments du temps, habituellement deux recensements, soit les nombres de décès par région d’après les registres d’état civil. À défaut, le taux brut de mortalité de cette population.
Pour mesurer les migrations internes entre régions à partir des données sur le lieu de résidence au recensement précédent :
- Les nombres d’hommes et de femmes par région de résidence actuelle et région de résidence à une date antérieure, habituellement lors du recensement précédent, par groupes quinquennaux d’âge et pour un groupe d’âge ouvert A+.
Si on ne dispose pas d’effectifs par groupes d’âge, les données agrégées restent utiles pour estimer la migration totale, tous âges confondus.

Hypothèses importantes

Pour la mesure de l’immigration nette d’étrangers :

Les recensements dénombrent avec exactitude toutes les personnes nées à l’étranger.

On peut évaluer avec précision la mortalité de la population née à l’étranger (soit que l’on dispose d’une table de mortalité adéquate, soit que cette population ait la même mortalité que celle de la population autochtone du pays telle qu’estimée à partir des recensements).

Il n’y a pas de migration de retour des émigrés natifs du pays recensé.

Pour la mesure de l’immigration interne nette à partir de données sur le lieu de naissance :

Les recensements dénombrent avec exactitude la population des régions et enregistrent avec précision la région de naissance des individus.

On peut évaluer correctement la mortalité des personnes qui migrent d’une région à une autre (soit que l’on dispose d’une table de mortalité adéquate, soit que cette population ait la même mortalité que celle de la population autochtone du pays telle qu’estimée à partir des recensements).

Pour la mesure de la migration interne entre régions à partir de données sur le lieu de résidence au recensement précédent :

Le dernier recensement identifie bien toutes les personnes qui ont migré d’une région à une autre depuis la date de référence antérieure (par exemple depuis le recensement précédent).

On peut évaluer correctement la mortalité des personnes qui migrent d’une région à une autre (soit que l’on dispose d’une table de mortalité adéquate, soit que cette population ait la même mortalité que celle de la population autochtone du pays telle qu’estimée à partir des recensements). Puisque l’on mesure l’immigration et l’émigration internes séparément (et pas seulement la migration interne nette), cette hypothèse est de moindre importance.

Travaux préparatoires et recherches préliminaires

Avant toute utilisation de la méthode, on doit s’assurer de la qualité des données, au moins sur deux aspects :

la structure par âge de la population (le cas échéant par région) ; et
le taux de couverture des recensements (le cas échéant au niveau régional).

Mise en garde

Mesurer la migration à partir des données de deux recensements sur le lieu de naissance nécessite, dans les deux opérations, non seulement que le dénombrement de la population soit suffisamment complet, mais aussi que le lieu de naissance soit enregistré avec exactitude. Or ce n’est pas toujours le cas, en particulier quand on veut mesurer l’immigration internationale dans un contexte où les immigrants préfèrent cacher leur statut d’étranger, et également, pour la mesure des migrations internes, en cas d’éventuelles modifications de frontières ou quand la personne qui répond ignore le lieu de naissance de la personne dont il s’agit.

Mesurer les migrations en interrogeant les migrants dépend de la capacité du recensement à identifier correctement toutes les personnes qui ont immigré, ainsi que le lieu exact d’où elles proviennent. Dans la mesure où, au moment du recensement, les immigrés récents ne sont pas encore définitivement installés comme résidents dans la région d’arrivée, ils peuvent échapper au dénombrement.

La migration nette, par définition, sous-estime les flux de migrants à l’entrée comme à la sortie d’une région ou d’un pays. Ainsi, par exemple, des personnes qui, au cours de la période considérée, ont immigré dans une région et en sont reparties ne sont pas comptabilisées dans l’immigration nette, alors qu’elles ont effectué deux migrations.

Application de la méthode

A) Mesure de l’immigration internationale nette de personnes nées à l’étranger à partir des données sur le lieu de naissance

Cette méthode permet de mesurer l’immigration internationale nette d’étrangers à partir des données sur le lieu de naissance. Il est important de souligner qu’elle ignore et ne mesure donc pas l’immigration de personnes autochtones qui ont quitté le pays avant le premier recensement et y sont revenues avant le second. Elle est donc déconseillée en cas de nombreux retours de personnes autochtones (par exemple après un temps d’exil ou une migration forcée de réfugiés).

Étape 1 : Choisir les coefficients de survie

Si les effectifs de personnes nées à l’étranger par groupes d’âge sont disponibles pour chaque recensement, on doit évaluer les coefficients de survie à appliquer à ceux du premier recensement pour estimer l’effectif des survivants au moment du second recensement. On peut choisir soit des coefficients basés sur les nombres d’années vécues dans chaque groupe quinquennal d’âge (₅L_x) d’après le modèle général des tables-types de mortalité des Nations Unies ou l’une des quatre familles de tables-types de Princeton, soit des coefficients provenant d’une table-type de mortalité propre à une population touchée par une épidémie de sida (Timæus, 2004), que l’on trouvera dans le tableur « Models » du manuel d’exercices en ligne associé. Ce tableur permet également d’utiliser les nombres d’années vécues dans les groupes quinquennaux d’âge d’une autre table de mortalité si on a des raisons de penser que celle-ci correspond à un schéma de mortalité similaire à celui de la population étudiée ; à défaut, on peut déterminer les coefficients de survie à partir des proportions de survivants de chaque groupe quinquennal d’âge entre un recensement et le suivant (supposés espacés de n années, n étant multiple de 5) parmi la population autochtone. Ainsi, ₅S_x_,n, _∞S_A–n_,net S_B_,n, respectivement le coefficient de survie sur n années des personnes âgées de x à x + 5 lors du premier recensement, celui des personnes âgées de A - n et plus lors du premier recensement, et celui des enfants nés entre les deux recensements, se calculent comme suit :

\begin{array}{l} ​_{5} S_{x, n} = \frac{_{5} L_{x + n}}{_{5} L_{x}} ou \frac{​_{5} N_{x + n}^{n b} (t + n)}{​_{5} N_{x}^{n b} (t)}, \\ ​_{\infty} S_{A - n, n} = \frac{T_{A}}{T_{A - n}} ou \frac{​_{\infty} N_{A}^{n b} (t + n)}{​_{\infty} N_{A - n}^{n b} (t)}, \\ et ​ S_{B, n} = \frac{_{n} L_{0}}{n l_{0}} ou \frac{​_{n} N_{0}^{n b} (t + n)}{​ B^{n b}}, \end{array}

l’exposant nb signifiant ‘autochtone’ (en anglais : native-born),

​_{5} N_{x}^{n b} (t)

représentant la population autochtone recensée au temps t, et Bⁿ^b représentant le nombre de naissances autochtones entre t et t + n.

Si les données ne sont pas disponibles par groupes quinquennaux d’âge, on peut toutefois évaluer le nombre total net d’immigrants, si on connaît le taux brut de mortalité de la population (qui, sauf indices contraires, peut être supposé identique à celui de la population autochtone).

Étape 2 : Évaluer le nombre de décès d’immigrés

Si on dispose des effectifs de personnes nées à l’étranger par groupes d’âge dans deux recensements (espacés de n années), on doit évaluer les nombres de décès de ces personnes (signalées par l’exposant F) âgées de x à x + 5,

​_{5} D_{x}^{F} ​

, et de A - n ou plus,

​_{\infty} D_{A - n}^{F} ​

, au temps t (premier recensement), ainsi que des enfants nés entre les deux recensements,

​ D_{B}^{F} ​

:

\begin{array}{l} ​_{5} D_{x}^{F} = \frac{1}{2} (​_{5} N_{x}^{F} (t) \cdot ​_{5} S_{x, n} + ​_{5} N_{x + n}^{F} (t + n)) (\frac{1}{​_{5} S_{x, n}} - 1), \\ ​_{\infty} D_{A - n}^{F} = \frac{1}{2} ​ (_{\infty} N_{A - n}^{F} (t) \cdot ​_{\infty} S_{A - n, n} + ​_{\infty} N_{A}^{F} (t + n)) (\frac{1}{​_{\infty} S_{A - n, n}} - 1), \\ et ​ D_{B}^{F} = \frac{1}{2} ​ (_{n} N_{0}^{F} (t + n)) (\frac{1}{​ S_{B, n}} - 1), \end{array}

et

_{5} N_{x}^{F} (t)

représentant l’effectif des personnes nées à l’étranger âgées de x à x + 5 au temps t (premier recensement).

Si les effectifs et/ou les coefficients de survie ne sont pas disponibles par groupes d’âge, on peut évaluer comme suit le nombre total des décès de personnes nées à l’étranger :

​_{\infty} D_{0}^{F} = \frac{n}{2} ​ (_{\infty} N_{0}^{F} (t) + ​_{\infty} N_{0}^{F} (t + n))_{\infty} m_{0}

_∞m₀ étant une estimation du taux brut de mortalité de la population du pays recensé. Mais, si la structure par âge de la population née à l’étranger est nettement différente de celle de la population totale du pays, on risque d’obtenir une mauvaise approximation du véritable nombre de décès.

Étape 3 : Évaluer le nombre net d’immigrants étrangers

Si on dispose de données par groupe d’âge pour chaque recensement, on peut évaluer l’immigration nette par âge :

Net ​_{5} M_{x}^{F} = ​_{5} N_{x + n}^{F} (t + n) - ​_{\infty} N_{x}^{F} (t) + ​_{5} D_{x}^{F}

pour x = 0, 5, …, A – 5 – n

Net ​_{5} M_{x}^{F}

représentant le nombre net d’immigrants entre t et t + n qui étaient âgés de x à x + 5 au temps t. Pour x > A – 5 – n :

Net ​_{\infty} M_{A - n}^{F} = ​_{\infty} N_{A}^{F} (t + n) - ​_{\infty} N_{A - n}^{F} (t) + ​_{\infty} D_{A - n}^{F} .

Le nombre net d’immigrants parmi les enfants nés entre t et t + n est :

Net ​ M_{B}^{F} = ​_{n} N_{0}^{F} (t + n) + ​ D_{B}^{F} .

Si les effectifs et/ou les coefficients de survie ne sont pas disponibles par groupes d’âge, on évalue comme suit le nombre total net d’immigrants :

Net ​_{\infty} M_{0}^{F} = ​_{\infty} N_{0}^{F} (t + n) - ​_{\infty} N_{0}^{F} (t) + ​_{\infty} D_{0}^{F} .

B) Mesure de la migration inter-régionale nette à partir de données sur le lieu de naissance

On peut mesurer l’immigration interne nette vers une région déterminée au départ des autres régions du même pays exactement de la même manière que l’immigration internationale, décrite plus haut, en remplaçant la population née à l’étranger par la population née hors de la région considérée.

En outre, en appliquant la même méthode aux données sur l’évolution des nombres de personnes nées dans la région étudiée (plutôt qu’en dehors) et vivant à l’extérieur, on peut évaluer l’émigration interne nette des personnes nées dans la région vers les autres régions du pays. En soustrayant cet effectif de l’immigration interne nette de personnes nées en dehors de la région étudiée, on obtient une évaluation de l’immigration interne nette totale dans cette région.

Si on a des raisons de penser que les immigrants nés à l’extérieur de la région considérée et les émigrants natifs de cette région ont des schémas de mortalité différents, et si on dispose des coefficients de survie nécessaires, on peut appliquer des coefficients de survie différents à ces deux sous-populations pour évaluer le nombre net de migrants. Cependant, en pratique, il est probable que l’imprécision des données censitaires sur le lieu de naissance lors du recensement précédent l’emportera sur le gain de précision dû à l’utilisation de schémas de mortalité différents.

C) Mesure de la migration interne entre régions d’un même pays à partir des données sur le lieu de résidence lors de l’enquête précédente

On mesure la migration inter-régionale nette directement à partir des nombres de résidents recensés de chaque région qui ont migré depuis le recensement précédent, en fonction de leur lieu (région) de résidence à une date antérieure déterminée (par exemple, lors du précédent recensement). En limitant le calcul aux flux inter-régionaux, la somme des nombres d’immigrants inter-régionaux devrait être égale à la somme des nombres d’émigrants inter-régionaux ; si les immigrants en provenance de l’étranger sont compris dans ces données, on peut élargir l’évaluation de l’immigration interne pour y inclure l’immigration internationale dans chaque région.

Puisque l’un des principaux centres d’intérêt est l’ampleur des flux migratoires inter-régionaux, on accorde autant d’attention aux effectifs totaux de migrants entre régions qu’à la structure par âge des différents flux.

On détermine le nombre des migrants à partir des nombres d’immigrants et d’émigrants internes survivants de la manière suivante :

_{5} M_{x} = (​_{5} I^{'}_{x} - ​_{5} O^{'}_{x} + {(​_{5} I^{'}_{x} - ​_{5} O^{'}_{x})}_{x} / ​_{5} S_{x}) / 2,

l’apostrophe (’) indiquant les nombres de survivants et ₅I'_x et ₅O'_x représentant respectivement les nombres d’immigrants internes survivants et d’émigrants internes survivants d’une région donnée à la date du second recensement, qui étaient âgés de x à x + 5 à cette date.

Exemple

Dans cet exemple, nous exploiterons les effectifs masculins du recensement sud-africain de 2001 et de l’« enquête tenant lieu de recensement » dite Community Survey de 2007. (Bien que l’enquête ait été effectuée environ 5,35 ans après la nuit du recensement de 2001, nous supposerons, pour les besoins de notre exposé, qu’elle a eu lieu exactement 5 ans après le recensement.) On trouvera ces exemples dans le fichier Migration_South Africa_males.xlsx du manuel d’exercices en ligne (voir le site web).

A) Mesure de l’immigration internationale nette d’étrangers à partir des données sur le lieu de naissance

Étape 1 : Choisir les coefficients de survie

Les coefficients de survie apparaissent dans la cinquième colonne du tableau 1. Leurs valeurs ont été calculées à partir (des années vécues dans chaque groupe d’âge) de la table de mortalité alternative du tableur Models, au moyen des formules suivantes, respectivement pour les personnes âgées de 20 à 24 ans en années révolues et de 80 ans et plus au premier recensement, et pour les enfants nés entre les deux recensements :

\begin{array}{l} ​_{5} S_{20,5} = \frac{_{5} L_{25}}{_{5} L_{20}} = \frac{4, 3382}{4, 4975} = 0,96458 \\ ​_{\infty} S_{80,5} = \frac{T_{85}}{T_{80}} = \frac{0, 75180}{1, 19603} = 0,40912 \\ et ​ S_{B,5} = \frac{_{5} L_{0}}{5 l_{0}} = \frac{4, 707549}{5} = 0,94151. \end{array}

Tableau 1 Estimation du nombre de décès de personnes nées à l’étranger et du nombre net d’immigrants internationaux par groupe d’âge, Afrique du Sud, 2001-2006

Âge	2001	2006	x	₅S_x	Âge au 2^e recensement	*D_F*	M net
			B	0,94151
0-4	8 963	12 577	0	0,97896	0-4	391	12 968
5-9	10 390	13 724	5	0,99547	5-9	242	5 003
10-14	13 508	13 998	10	0,99427	10-14	55	3 664
15-19	27 835	27 943	15	0,98602	15-19	119	14 555
20-24	69 787	59 493	20	0,96458	20-24	616	32 275
25-29	87 381	95 763	25	0,93161	25-29	2 994	28 970
30-34	73 338	100 450	30	0,90960	30-34	6 675	19 743
35-39	66 663	85 490	35	0,89780	35-39	7 563	19 715
40-44	59 152	75 684	40	0,89092	40-44	7 701	16 721
45-49	45 184	66 113	45	0,88633	45-49	7 274	14 234
50-54	40 398	55 913	50	0,87224	50-54	6 154	16 883
55-59	30 640	42 833	55	0,84731	55-59	5 717	8 153
60-64	24 376	34 433	60	0,80885	60-64	5 442	9 234
65-69	17 895	25 588	65	0,75468	65-69	5 353	6 564
70-74	13 561	18 989	70	0,66991	70-74	5 281	6 375
75-79	10 238	12 850	75	0,56388	75-79	5 404	4 693
80-84	7 658	7 461	80+	0,40912	80-84	5 118	2 341
85+	4 455	5 305			85+	7 410	602
Total	611 423	754 608			Total	79 509	222 693

Étape 2 : Évaluer le nombre de décès

Comme chaque recensement nous donne les nombres de personnes nées à l’étranger par groupe d’âge, nous pouvons évaluer les nombres de décès de personnes nées à l’étranger survenus entre les deux recensements par groupe d’âge, en utilisant les effectifs d’étrangers de chaque recensement, qui figurent dans les deuxième et troisième colonnes du tableau 1. Pour les personnes de 20-24 ans et de 80 ans et plus à la date du premier recensement, et pour les enfants nés entre les deux recensements, les calculs sont les suivants :

\begin{array}{l} ​_{5} D_{20}^{F} = \frac{1}{2} ​ (_{5} N_{20}^{F} (2001) \cdot ​_{5} S_{20,5} + ​_{5} N_{25}^{F} (2006)) (\frac{1}{​_{5} S_{20,5}} - 1) \\ = (69 787 \cdot 0,96458 + 95 763) (\frac{1}{0,96458} - 1) = 2 994 \\ ​_{\infty} D_{80}^{F} = \frac{1}{2} ​ (_{\infty} N_{80}^{F} (2001) \cdot ​_{\infty} S_{80,5} + ​_{\infty} N_{85}^{F} (2006)) (\frac{1}{​_{\infty} S_{80,5}} - 1) \\ = ((7 658 + 4 455) \cdot ​ ​ 0,40912 + 5 305) (\frac{1}{0,40912} - 1) = 7 410 \\ et ​ D_{B}^{F} = \frac{1}{2} ​ (_{5} N_{0}^{F} (2006)) (\frac{1}{​ S_{B,5}} - 1) = 12 577 (\frac{1}{0,94151} - 1) = 391 . \end{array}

Si les effectifs et/ou les coefficients de survie n’étaient pas disponibles par groupes d’âge, on pourrait évaluer comme suit le nombre total des décès de personnes nées à l’étranger, sachant que le taux brut de mortalité de la population vaut 14 pour 1 000 :

​_{\infty} D_{0}^{F} = \frac{5}{2} ​ (_{\infty} N_{0}^{F} (2001) + ​_{\infty} N_{0}^{F} (2006))_{\infty} m_{0} = \frac{5}{2} (611 423 + 754 608) \frac{14}{1 000} = 47 811 .

Étape 3 : Évaluer le nombre net d’immigrants étrangers

Puisque nous disposons de données par groupe d’âge pour chaque recensement, l’immigration nette par âge des personnes nées à l’étranger peut être calculée de la manière suivante :

\begin{array}{l} Net ​_{5} M_{20}^{F} = ​_{5} N_{25}^{F} (2006) - ​_{\infty} N_{20}^{F} (2001) + ​_{5} D_{20}^{F} = 95 763 - 69 787 + 2 994 = 28 970 \\ Net ​_{\infty} M_{80}^{F} = ​_{\infty} N_{85}^{F} (2006) - ​_{\infty} N_{80}^{F} (2001) + ​_{\infty} D_{80}^{F} = 5 305 - (7 658 + 4 455) + 7 410 = 602 \\ Net ​ M_{B}^{F} = ​_{5} N_{0}^{F} (2006) + ​ D_{B}^{F} = 12 577 + 391 = 12 968 . \end{array}

Si les effectifs et/ou les coefficients de survie n’étaient pas disponibles par groupe d’âge, on pourrait évaluer comme suit le nombre total net d’immigrants :

Net ​_{\infty} M_{0}^{F} = ​_{\infty} N_{0}^{F} (2006) - ​_{\infty} N_{0}^{F} (2001) + ​_{\infty} D_{0}^{F} = 754 608 - 611 423 + 47 811 = 190 996 .

B) Mesure de l’immigration inter-régionale nette à partir des données sur le lieu de naissance

Les deuxième et troisième colonnes du tableau 2 présentent les nombres de personnes vivant dans la province de Western Cape, en Afrique du Sud, et nées à l’extérieur de la province, dénombrées respectivement par le recensement de 2001 et la Community Survey de 2007. Bien que l’on ait utilisé les mêmes coefficients de survie (colonne 5) que dans l’exemple A, il conviendrait de procéder autrement si on devait supposer que les autochtones et les immigrés avaient des schémas de mortalité très différents. La dernière colonne du tableau 2 présente, par groupe d’âge, les nombres nets d’immigrants dans la province de Western Cape nés dans une autre province. Au total, 213 911 personnes nées hors de la province y ont immigré (déduction faite de celles d’entre elles qui l’ont quittée).

Tableau 2 Estimation du nombre net d’immigrants internes parmi les personnes nées à l’extérieur de la province de Western Cape, Afrique du Sud, par groupe d’âge, 2001-2006

Âge	2001	2006	x	₅S_x	Âge au 2^e recensement	*D_O*	M net (nés à l’extérieur)
			B	0,94151
0-4	16 443	19 012	0	0,97896	0-4	591	19 602
5-9	24 406	28 743	5	0,99547	5-9	482	12 782
10-14	31 134	30 792	10	0,99427	10-14	125	6 511
15-19	44 478	53 933	15	0,98602	15-19	245	23 043
20-24	74 011	82 526	20	0,96458	20-24	896	38 944
25-29	80 187	89 522	25	0,93161	25-29	2 954	18 466
30-34	65 833	90 783	30	0,90960	30-34	6 074	16 670
35-39	56 393	76 475	35	0,89780	35-39	6 776	17 417
40-44	44 420	59 692	40	0,89092	40-44	6 268	9 567
45-49	32 862	47 612	45	0,88633	45-49	5 338	8 529
50-54	28 178	37 969	50	0,87224	50-54	4 303	9 409
55-59	19 983	30 205	55	0,84731	55-59	4 012	6 039
60-64	17 569	25 593	60	0,80885	60-64	3 832	9 442
65-69	11 216	20 802	65	0,75468	65-69	4 137	7 371
70-74	8 365	12 612	70	0,66991	70-74	3 426	4 822
75-79	5 919	8 434	75	0,56388	75-79	3 458	3 528
80-84	4 063	5 061	80+	0,40912	80-84	3 248	2 390
85+	2 152	2 183			85+	3 413	-620
Total	567 613	721 949			Total	59 576	213 911

Les deuxième et troisième colonnes du tableau 3 présentent les nombres de personnes nées dans la province de Western Cape et résidant dans une autre province, selon le recensement de 2001 et l’enquête de 2007. Le nombre net d’émigrants internes natifs du Western Cape (c’est-à-dire le nombre de personnes qui sont nées dans cette province et l’ont quittée, moins celles d’entre elles qui y sont revenues) figure dans la huitième colonne. Un nombre négatif signifie que le nombre de natifs du Western Cape qui sont partis vivre dans une autre province pendant la période considérée est inférieur au nombre de natifs de la province qui, vivant ailleurs, y sont revenus. Le total de -19 017 indique donc que le nombre de personnes qui sont nées au Western Cape, ont vécu ailleurs jusqu’en 2001 et y sont revenues pendant la période étudiée excède de 19 017 celui des personnes qui sont nées au Western Cape et l’ont quitté pour une autre province pendant la période étudiée.

Ces estimations ont été calculées au moyen des mêmes coefficients de survie que ceux qui ont été utilisés pour les personnes qui sont nées hors de la province de Western Cape et y ont immigré, mais si on avait quelque raison de penser que ces deux catégories de migrants avaient des schémas de mortalité différents, il faudrait recourir à deux séries différentes de coefficients de survie pour évaluer la migration totale nette des natifs de la province.

L’immigration interne nette totale de la province figure dans la dernière colonne du tableau 3. Donc, globalement, le nombre d’immigrants vers la province de Western Cape excède de 232 928 unités celui des émigrants qui ont quitté cette province pour une autre.

Dans cet exemple, les personnes nées hors de la province comprennent celles qui sont nées à l’étranger, et donc la migration nette inclut les immigrants internationaux qui sont venus s’établir dans la province. En retranchant du tableau 2 les personnes nées à l’étranger, on obtiendrait, pour chaque région, le nombre des immigrants internes net des émigrants internes, et la somme de ces effectifs pour toutes les provinces serait nulle.

Tableau 3 Estimation du nombre net d’émigrants internes parmi les personnes nées dans la province de Western Cape, par groupe d’âge, 2001-2006

Âge	2001	2006	x	₅*S_x*	Âge au 2^e recensement	*D_I*	M net (nés dans la province)	M net total
			B	0,94151
0-4	22 055	11 747	0	0,97896	0-4	365	12 112	7 490
5-9	21 895	12 509	5	0,99547	5-9	367	-9 180	21 962
10-14	21 382	11 593	10	0,99427	10-14	76	-10 226	16 737
15-19	18 265	13 455	15	0,98602	15-19	100	-7 827	30 870
20-24	14 645	10 477	20	0,96458	20-24	202	-7 587	46 531
25-29	13 501	9 534	25	0,93161	25-29	434	-4 676	23 142
30-34	13 118	11 047	30	0,90960	30-34	867	-1 587	18 257
35-39	12 121	14 614	35	0,89780	35-39	1 319	2 815	14 602
40-44	11 725	12 195	40	0,89092	40-44	1 311	1 384	8 183
45-49	10 335	10 538	45	0,88633	45-49	1 285	98	8 431
50-54	9 211	9 881	50	0,87224	50-54	1 221	768	8 642
55-59	7 264	10 568	55	0,84731	55-59	1 362	2 720	3 319
60-64	6 691	7 723	60	0,80885	60-64	1 250	1 710	7 732
65-69	4 643	5 297	65	0,75468	65-69	1 265	-128	7 499
70-74	3 954	3 766	70	0,66991	70-74	1 182	304	4 517
75-79	2 331	2 384	75	0,56388	75-79	1 240	-330	3 858
80-84	1 402	2 140	80+	0,40912	80-84	1 336	1 145	1 244
85+	707	555			85+	1 024	-531	-89
Total	195 246	160 023			Total	16 206	-19 017	232 928

C) Mesure de la migration interne entre régions d’un même pays à partir des données sur le lieu de résidence lors du recensement précédent

Le tableau 4 présente le résultat des réponses à la question, posée aux habitants des provinces lors de la Community Survey de 2007, sur leur lieu (ici la province) de résidence à l’époque du recensement de 2001. En réalité, il était demandé à chaque personne si elle habitait au même endroit que lors du dernier recensement, et, si la réponse était négative, quelle était sa dernière résidence. Cependant, une étude de Dorrington et Moultrie (2009) incite à penser qu’il était assez raisonnable de supposer que les gens n’avaient pas migré plus d’une fois au cours des cinq années suivant le dernier recensement.

Mais le plus grand nombre de migrants est, de loin, celui des personnes qui ont déménagé à l’intérieur d’une même province. Nous les avons exclues du tableau 4, car on s’intéresse généralement plus aux migrations interprovinciales qu’aux migrations intra-provinciales.

Tableau 4 Migrations interprovinciales, Afrique du Sud, 2001-2006

Résidence précédente (origine)	Province de résidence (destination)
Résidence précédente (origine)	WC	EC	NC	FS	KZ	NW	GT	MP	LM	Total
WC		12 173	4 060	1 745	3 221	2 113	16 400	1 405	874	41 992
EC	52 239		1 120	7 187	25 209	14 430	28 633	4 693	2 116	135 626
NC	4 813	1 942		3 480	908	3 728	4 956	1 062	357	21 246
FS	2 943	3 145	2 546		2 352	12 733	19 920	4 293	1 963	49 896
KZ	6 762	7 015	631	2 358		3 573	50 980	8 886	1 194	81 399
NW	1 478	907	9 811	5 555	2 329		47 633	3 090	4 337	75 140
GT	24 891	12 948	3 962	11 437	18 145	32 433		18 598	15 133	137 547
MP	2 134	1 317	280	1 724	4 546	5 767	42 941		8 628	67 338
LM	2 754	1 583	255	1 709	2 209	9 773	81 394	24 211		123 889
HAS	21 221	5 467	1 209	9 584	10 933	11 437	51 873	8 335	9 286	129 346
INC	500	3	15	124	132	78	228	89	0	1 170
NR	1 058	1 029	107	208	875	508	3 558	408	633	8 384
Total	120 794	47 528	23 996	45 111	70 860	96 573	348 516	75 070	44 524	872 973
WC = Western Cape, EC = Eastern Cape, NC = Northern Cape, FS = Free State, KZN = KwaZulu-Natal, NW = North West, GT = Gauteng, MP = Mpumalanga, LM = Limpopo, HAS = Hors d’Afrique du Sud, INC = Inconnu, NR = Non-réponse.

En plus des effectifs tous âges confondus du tableau 4 (en fait, comme c’est souvent le cas, les migrations des enfants nés entre le recensement et l’enquête ont été exclus), on peut également obtenir les nombres d’immigrants et émigrants internes par groupes d’âge, comme on le voit dans le tableau 5. Pour l'exhaustivité, ces chiffres incluent des estimations du nombre de migrants qui sont nés depuis le recensement précédent. Cependant, comparés aux chiffres des autres groupes d’âge, ces nombres paraissent exagérément élevés, nous en examinerons la raison plus loin.

Le nombre net de migrants se calcule, par exemple pour les personnes âgées de 25 à 29 ans au moment de la Community Survey (qui avaient donc de 20 à 24 ans lors du recensement de 2001), de la manière suivante :

_{5} M_{x} = (20 675 - ​ 5 649 + (​ 20 675 - ​ 5 649) / ​ 0,96458 / 2) = 15 301 .

Tableau 5 Estimation du nombre net d’immigrants internes par groupes d’âge,
Western Cape, Afrique du Sud, 2001-2006

Âge	Immigrants survivants (I’)	Émigrants survivants (O’)	x	₅*S_x*	Immigrants internes nets
0-4	20 846	11 747	B	0,94151	9 381
5-9	6 586	3 554	0	0,97896	3 065
10-14	6 685	2 882	5	0,99547	3 812
15-19	10 402	3 967	10	0,99427	6 454
20-24	21 266	4 488	15	0,98602	16 897
25-29	20 675	5 649	20	0,96458	15 301
30-34	15 584	6 008	25	0,93161	9 928
35-39	10 584	5 098	30	0,90960	5 758
40-44	7 264	3 045	35	0,89780	4 458
45-49	4 648	2 714	40	0,89092	2 053
50-54	3 095	1 500	45	0,88633	1 698
55-59	3 940	935	50	0,87224	3 225
60-64	3 776	527	55	0,84731	3 541
65-69	3 127	818	60	0,80885	2 582
70-74	1 540	437	65	0,75468	1 282
75-79	561	206	70	0,66991	442
80-84	797	116	75	0,56388	944
85+	264	47	80+	0,40912	374
Total	141 640	53 739			91 194

Diagnostics, analyse et interprétation

Contrôles et validation

Le contrôle peut-être le plus simple, sur l’allure ‘acceptable’ de la distribution des effectifs (c’est-à-dire leur structure par âge), mais pas sur leur niveau, consiste à regarder si elle s’apparente au profil standard (ou à une de ses variantes). Rogers et Castro (1981a, 1981b) signalent que la distribution des effectifs (ou des taux) d’immigrants et émigrants internes est généralement conforme au standard, avec un pic chez les jeunes adultes (habituellement en lien avec la recherche d’un emploi) et un pic, moins marqué, pour les très jeunes enfants, suivi d’un creux chez les adolescents (son ampleur variant selon que, parmi les adultes jeunes ou d’âge moyen, il s’agit surtout de migrations familiales ou plutôt de migrations individuelles). Il y a aussi parfois une bosse (ou un creux) vers la fin de la vie active, s’il existe un flux important de personnes qui immigrent (ou émigrent) quand elles prennent leur retraite.

Ces schémas (pas nécessairement identiques) s’appliquent séparément aux flux d’immigration et d’émigration internes, mais pas automatiquement à la migration nette (la différence entre les deux flux), à moins que l’un de ces flux soit beaucoup plus important que l’autre.

C’est ce qu’illustre la figure 1, en utilisant certains des résultats calculés plus haut, sous forme de proportions par rapport au total (pour qu’ils puissent tenir sur une seule figure). On peut y constater que, grosso modo (à l’exception de certains cas où la proportion de migrants aux très jeunes âges semble exagérément élevée), les flux ont le profil attendu.

Les émigrants internes nets nés au Western Cape (non présentés sur la figure pour qu’elle reste lisible) s’écartent d’un schéma standard de migration, ce qui pourrait signifier que ces chiffres ne sont pas très sûrs, mais ils sont peu nombreux en regard des immigrants internes nés hors de la province, et on peut donc tolérer cette distorsion. De plus, deux autres caractéristiques de la figure 1 méritent d’être soulignées. Premièrement, l’émigration interne du Western Cape, telle qu’elle a été évaluée à partir de données sur le lieu de résidence au recensement précédent, indique que le pic des émigrants adultes se situe à un âge un peu plus avancé (et qu’il s’agit peut-être de migrations familiales plutôt qu’individuelles). Deuxièmement, l’immigration internationale nette se conforme au profil standard, ce qui signifie que le flux d’immigration vers le pays est beaucoup plus important que le flux de retour de ces immigrés.

Figure 1 Structure par âge de quelques flux migratoires, Afrique du Sud, sexe masculin, 2001-2006 [18]

Si, lors du recensement, on a demandé le lieu de naissance et le lieu de résidence au recensement précédent, on peut comparer les deux évaluations de l’immigration interne nette d’une région donnée. Si elles coïncident, cela inspire une certaine confiance dans les résultats. Dans le cas des données sur le lieu de naissance en Afrique du Sud, le nombre net d’immigrants internes au Western Cape est de 232 928 (tableau 3), tandis que l’estimation à partir du lieu de résidence au recensement précédent n’est que de 92 194 (tableau 4), ce qui incite à penser que l’une au moins de ces deux séries de données est suspecte.

Le contrôle le plus élémentaire que l’on puisse faire sur les estimations de la migration consiste à projeter la population (du pays ou de la province) du premier recensement jusqu’à la date du second, en utilisant les estimations de nombres de migrants, et de comparer les résultats obtenus avec les chiffres du second recensement pour voir dans quelle mesure ils concordent, surtout dans les tranches d’âge où se concentre le phénomène migratoire. Dans le cas de l’immigration interne nette au Western Cape, projeter la population de 2001 en utilisant les estimations déduites de la variation des effectifs par lieu de naissance a abouti à une concordance nettement meilleure dans la tranche d’âge de 20 à 29 ans, ce qui veut dire que les données sur le lieu de naissance sont sans doute plus complètes que les données sur le lieu de résidence au recensement précédent. C’est ce que confirme, dans une certaine mesure, la comparaison de la variation intercensitaire du nombre de résidents du pays nés à l’étranger, 222 693 (tableau 1), avec le total des résidents qui ont déclaré avoir migré de l’étranger vers l’une des provinces sud-africaines depuis le recensement précédent, 129 346 (tableau 4).

Idéalement, si on disposait d’estimations indépendantes des nombres de migrants, on pourrait les comparer avec les estimations obtenues par les méthodes exposées ci-dessus. Malheureusement, les estimations indépendantes fiables sont rares. Bien que la plupart des pays essaient d’enregistrer les émigrants et les immigrants, ces données ne sont généralement pas fiables, surtout dans les pays en développement aux frontières relativement poreuses. À moins que le pays dispose de réglementations extrêmement strictes et tienne un registre exact et complet de sa population, la seule manière alternative de mesurer la migration interne consiste à réaliser des enquêtes spécifiquement consacrées aux migrations, qui s’avèrent beaucoup plus utiles pour analyser les types de migrations (permanentes, temporaires, circulaires, etc.) que pour fournir de bonnes estimations des nombres de migrants, étant donné la situation souvent assez floue dans laquelle vivent les immigrés (surtout les immigrés récents) et leur réticence compréhensible à s’identifier comme migrants.

Interprétation

Si on considère les nombres de migrants évalués à partir des données sur le lieu de résidence au recensement précédent, qui figurent dans le tableau 4 (sans oublier qu’ils sous-estiment probablement le volume réel des migrations), de 2 à 4 % de la population ont migré d’une province à l’autre au cours des 5 ans qui séparent le recensement de 2001 de la Community Survey. En comptant aussi les personnes qui ont déménagé sans changer de province, ce sont de 7 à 15 % des habitants qui ont changé de résidence dans cette période de 5 ans.

Les principales provinces de destination sont celles de Gauteng (largement en tête) et de Western Cape, qui sont essentiellement urbaines et les plus riches du pays. Les principales provinces d’origine sont celles de Gauteng (l’examen de la répartition par âge des migrants montrerait qu’il s’agit essentiellement de migrations de retour de travailleurs qui prennent leur retraite), d’Eastern Cape et de Limpopo, ces deux dernières étant des provinces pauvres et principalement rurales, que l’on quitte pour aller chercher de l’emploi dans les régions urbaines.

Il semble que les migrations soient majoritairement individuelles (recherche d’emploi) plutôt que familiales.

Problèmes d’interprétation propres a la méthode

Erreurs de scanner

À en croire les données basées sur la province de naissance, il y aurait un nombre relativement élevé d’enfants nés après le premier recensement qui auraient migré vers une autre province. Selon toute probabilité, il s’agit d’un effet fortuit du procédé de saisie des données, qui a consisté à scanner les questionnaires remplis manuellement. Dans un petit nombre de cas, le scanner a pu avoir du mal à distinguer le code du Western Cape, « 1 », de celui de Gauteng, « 7 ». Il en est résulté, par exemple, que certains enfants étaient enregistrés comme nés hors de la province où ils étaient recensés, et donc considérés comme migrants, alors qu’ils ne l’étaient probablement pas. Même si cette erreur de scanner ne touche qu’une très petite proportion des naissances, celles-ci peuvent être beaucoup plus nombreuses que les migrants, et cela peut entraîner une quantité non négligeable de données erronées. Comme de plus en plus de pays en développement saisissent les données par scanner, ce genre de problème pourrait être assez répandu.

Quand des erreurs de scanner ou autres empêchent d’obtenir des estimations fiables des nombres de migrants parmi les enfants nés depuis le recensement précédent, on peut recourir aux ratios enfants/femmes (en anglais : CWR) du second recensement :

{Net}_{5} M_{0} = \frac{1}{4} C W R_{0} \cdot Net ​_{30} M_{15}^{f}

pour les enfants nés au cours des 5 dernières années, et

{Net}_{5} M_{5} = \frac{3}{4} C W R_{5} \cdot Net ​_{30} M_{20}^{f}

pour ceux qui sont nés au cours des 5 années précédant celles-ci si les recensements sont espacés de 10 ans, CWR_x représentant le rapport du nombre d’enfants âgés de x à x + 5 au nombre de femmes âgées de 15 + x à 45 + x (dans la population du pays ou de la province) au moment du second recensement, et

​_{30} M_{x}^{f} ​

représentant le nombre de femmes migrantes âgées de x à x + 30.

L’application aux données du Western Cape indique que le nombre de migrants nés depuis le premier recensement devrait être inférieur à la moitié de l’estimation obtenue à partir des données sur le lieu de naissance.

Description détaillée de la méthode

Présentation mathématique

L’estimation indirecte de la migration se déduit de l’équation qui relie deux recensements espacés de n années :

\begin{array}{l} _{5} N_{x + n} (t + n) = ​_{5} N_{x} (t) - ​_{5} D_{x} + ​_{5} I^{'}_{x} - ​_{5} O^{'}_{x} \\ = ​_{5} N_{x}^{} (t) - ​_{5} D_{x}^{} + ​_{5} M^{'}_{x} \end{array}

où

_{5} M^{'}_{x} = ​ ​_{5} I^{'}_{x} - ​_{5} O^{'}_{x}

est le nombre net d’immigrants internes (les entrants moins les sortants) âgés de x à x + 5 à la date du premier recensement et toujours en vie au second recensement, et ₅D_x, ₅I'_x et ₅O'_x sont respectivement les nombres de décédés, d’immigrés survivants et d’émigrés survivants âgés de x à x + 5 lors du premier recensement, qui sont morts ou ont migré entre les deux recensements.

Pour les enfants nés après le premier recensement, l’équation devient :

_{n} N_{0}^{} (t + n) = ​ B - ​ D_{B}^{} + ​ M^{'}_{B}

et pour l’intervalle d’âge ouvert :

_{\infty} N_{A}^{} (t + n) = ​_{\infty} N_{A - n}^{} (t) - ​_{\infty} D_{A - n}^{} + ​_{\infty} M^{'}_{A - n}

où B représente le nombre de naissances enregistrées entre les deux recensements, D_B le nombre de décès survenus parmi ces enfants entre les deux recensements, M'_B le nombre net d’immigrants survivants nés à l’étranger entre les deux recensements, _∞D_A–n le nombre de personnes âgées de A – n et plus à l’époque du premier recensement et qui sont décédées pendant la période intercensitaire, et _∞M'_A–n le nombre net d’immigrants qui étaient âgés de A – n et plus lors du premier recensement. Ainsi,

\begin{array}{l} _{5} M^{'}_{x} = ​_{5} N_{x + n}^{} (t + n) - ​_{5} N_{x}^{} (t) + ​_{5} D_{x}^{} ​ \\ M^{'}_{B} = ​_{n} N_{0}^{} (t + n) - ​ B + ​ D_{B}^{} \\ _{\infty} M^{'}_{A - n} = ​_{\infty} N_{A}^{} (t + n) - ​_{\infty} N_{A - n}^{} (t) + ​_{\infty} D_{A - n}^{} ​ \end{array}

ou encore

\begin{array}{l} _{5} M^{'}_{x} = ​_{5} N_{x + n}^{} (t + n) - ​_{5} N_{x}^{} (t) ​_{5} S_{x} ​ \\ M^{'}_{B} = ​_{n} N_{0}^{} (t + n) - ​ B S_{B} \\ _{\infty} M^{'}_{A - n} = ​_{\infty} N_{A}^{} (t + n) - ​_{\infty} N_{A - n}^{} (t) ​_{\infty} S_{A - n} ​ \end{array}

où ₅S_x, S_B et _∞S_A–n représentent respectivement les proportions de survivants au second recensement parmi la population âgée de x à x +5 au premier recensement, parmi les enfants nés pendant la période intercensitaire et parmi les personnes âgées de A – n et plus au moment du premier recensement.

On peut alors évaluer le nombre net d’immigrants à partir du nombre net de survivants au second recensement :

\begin{array}{l} _{5} M_{x} = ​ (_{5} M^{'}_{x} + ​_{5} M^{'}_{x} / ​_{5} S_{x}) / 2 =_{5} M^{'}_{x} \frac{​ (_{5} S_{x} + 1)}{2 ​_{5} S_{x}} \\ M_{B} = M^{'}_{B} \frac{​ (S_{B} + 1)}{2 ​ S_{B}} \\ _{\infty} M_{A - n} =_{\infty} M^{'}_{A - n} \frac{​ (_{\infty} S_{A - n} + 1)}{2 ​_{\infty} S_{A - n}} . \end{array}

Malheureusement, comme le nombre net d’immigrants est généralement faible par rapport au volume de la population, les erreurs d’âge ou de dénombrement, dans l’un des recensements ou dans les deux, peuvent conduire à des estimations très douteuses. On peut obtenir de meilleures estimations du nombre net d’immigrants dans un pays en limitant l’analyse à la population d’origine étrangère (définie comme l’ensemble des personnes nées à l’étranger) et en posant l’hypothèse que les retours d’autochtones émigrés sont négligeables. On remplace alors les symboles des équations ci-dessus par leurs équivalents en termes de population née à l’étranger. Comme on ne disposera probablement pas d’un compte précis des décès de personnes nées à l’étranger, on devra l’estimer de l’une ou l’autre des manières suivantes :

Option 1 (probabilités de survie de la table de mortalité) : en appliquant les probabilités d’une table-type de mortalité appropriée,

_{5} S_{x} = \frac{_{5} L_{x + n}}{_{5} L_{x}}, S_{B} = \frac{_{n} L_{0}}{n \cdot l_{0}} et_{\infty} S_{A - n} = \frac{T_{A}}{T_{A - n}} .

Option 2 (probabilités de survie intercensitaires) : en supposant que l’émigration d’autochtones est négligeable et que les proportions de survivants sont les mêmes chez les étrangers que chez les autochtone

_{5} S_{x} = \frac{_{5} N_{x + n}^{n b} (t + n)}{_{5} N_{x}^{n b} (t)}, S_{B} = \frac{_{n} N_{0}^{n b}}{B^{n b}} {et}_{\infty} S_{A - n} = \frac{_{\infty} N_{A}^{n b} (t + n)}{_{\infty} N_{A - n}^{n b} (t)},

l’exposant nb identifiant les autochtones.

Option 3 (données d’état civil) : si on dispose des nombres de naissances et de décès provenant d’une autre source, comme l’état civil (sans doute la seule possibilité quand il s’agit de migration interne), on peut travailler directement avec les nombres de naissances et de décès correspondant à la population migrante, plutôt qu’avec des probabilités de survie, pour estimer le nombre net d’immigrés internes survivants. Le nombre net d’immigrants peut également être calculé comme ci-dessus en posant :

_{5} S_{x} = 1 - \frac{_{5} D_{x}}{_{5} N_{x} (t)}, S_{B} = \frac{D_{B}}{B} et_{\infty} S_{A - n} = \frac{D_{A - n}}{​_{\infty} N_{A - n} (t)}

où les nombres de naissances et de décès proviennent de l’état civil.

Mais dans la plupart des pays en développement, et surtout les pays africains, les systèmes d’état civil sont trop incomplets pour être utilisés de cette manière.

La migration interne

Pour ce qui est de la migration interne, on peut évaluer, pour chaque région, l’immigration interne nette de personnes nées hors de la région (c’est-à-dire le nombre de ces personnes qui y ont immigré, moins le nombre de celles d’entre elles qui en sont reparties) en exploitant les données sur le lieu de naissance pour évaluer la variation du nombre de personnes nées ailleurs, de la même façon que ci-dessus. Mais, comme nous connaissons aussi le lieu de résidence des personnes qui sont nées dans la région et ont migré vers une autre région (mais pas vers l’étranger), nous pouvons évaluer l’émigration interne nette des natifs de la région (soit le nombre de natifs de la région qui l’ont quittée pour une autre, moins le nombre de ceux-ci qui y sont revenus) en appliquant la méthode décrite plus haut à la seule population née dans la région considérée.

Pour l’évaluation de la survie des personnes natives des différentes régions, les probabilités de survie intercensitaires pourraient prendre l’avantage sur celles de la table de mortalité, car toute erreur de dénombrement, en plus ou en moins, de la population des régions peut être compensée par une erreur du même type au niveau de la population du pays et, par suite, les probabilités de survie donneraient une meilleure estimation des nombres de migrants que celles d’une table de mortalité.

En plus de leur lieu de naissance, le recensement peut demander aux personnes qui ont migré depuis le recensement précédent (ou depuis une autre date) où elles résidaient à ce moment-là, ce qui permet de calculer l’émigration interne et aussi l’immigration interne (brute) séparément pour chaque région du pays.

Si le recensement demande l’année de la migration (ou depuis combien de temps la personne réside à l’endroit où elle est recensée), on peut avoir une idée du calendrier de la migration et évaluer des taux annuels de migration. C’est un processus complexe, et nous ne le traiterons pas ici, mais nous renvoyons le lecteur intéressé à l’article de Dorrington et Moultrie (2009).

Travailler avec les seuls effectifs totaux

Si on ne dispose pas des effectifs par âge, ou si la distribution par âge est considérée comme douteuse, on peut encore obtenir des mesures par âge en évaluant le nombre total de migrants comme on l’a décrit plus haut et en répartissant ensuite ce total par groupes d’âge en appliquant soit la structure par âge de la même population à un autre moment (étant donné que la structure par âge des flux migratoires est généralement stable dans le temps) ou (de préférence) une structure-type appropriée, telle que celle présentée par Rogers et Castro (1981a, 1981b). Par conséquent,

Net ​_{\infty} M_{0}^{F} = ​_{\infty} N_{0}^{F} (t + n) - ​_{\infty} N_{0}^{F} (t) + ​_{\infty} D_{0}^{F}

où $_{\infty} D_{0}^{F} = \frac{n}{2} (_{\infty} N_{0}^{F} (t) + _{\infty} N_{0}^{F} (t + n))_{\infty} m_{0}$

et _∞m₀ est une estimation du taux brut de mortalité de la population du pays recensé.

Limites

Le principal problème associé à l’utilisation des recensements pour évaluer l’immigration internationale et l’immigration interne nette est la qualité des dénombrements, en particulier l’ampleur des éventuels sous-dénombrements, surtout si elle varie d’un recensement à l’autre. Mais, même si le sous-dénombrement est faible, le recensement peut ne pas saisir tous les migrants. Souvent, les immigrés récents ne sont pas facilement identifiés par un recensement, parce que leur installation n’est pas définitive. De plus, les immigrants peuvent ne pas être enclins à s’identifier comme tels et préférer se soustraire au recensement ou cacher leur origine étrangère.

Ensuite, dans le cas des migrants internes, la déclaration du lieu de naissance et/ou de résidence au recensement précédent pourrait être erronée du fait de modifications de limites administratives ou à cause de l’ignorance (éventuellement le biais) de la personne interrogée.

Le troisième inconvénient du recensement est qu’il ne permet pas de mesurer l’émigration vers l’étranger. Ce phénomène est particulièrement difficile à évaluer dans la plupart des pays, mais une possibilité consiste à appliquer la méthode d’estimation de l’immigration internationale nette d’étrangers, décrite plus haut, aux recensements des principaux pays de destination des émigrants pour évaluer l’évolution des effectifs de migrants vers ces pays. Bien sûr, ce procédé n’est réellement utile que si les recensements de ces divers pays mesurent avec une précision suffisante les nombres de personnes nées à l’étrangers (migrants) par pays de naissance.

En général, les statistiques sur les immigrants, et plus encore celles sur les émigrants, qui sont recueillies aux postes-frontières donnent de mauvaises évaluations des effectifs réels, à moins que les frontières du pays ne soient quasi impénétrables et qu’il n’y ait qu’un petit nombre de points d’entrée parfaitement contrôlés. Même dans ce cas, il peut toujours y avoir un certain nombre de « visiteurs » qui finissent par rester dans le pays.

Une dernière difficulté apparaît quand on travaille sur des données agrégées sans distinction des âges. En général, il faut alors utiliser le taux brut de mortalité de la population du pays recensé pour estimer le nombre de décès de migrants. Cependant, la structure par âge des migrants pouvant être très différente de celle de la population totale, le nombre de décès de migrants calculé peut s’avérer tout à fait faux.

Extensions de la méthode

Certains recensements posent des questions supplémentaires qui peuvent aider à comprendre la migration, sinon à améliorer l’évaluation de son niveau. La plus fréquente, sans doute, porte sur la date de la migration. Ces données permettent d’évaluer des taux annuels de migration, mais il se peut que les personnes interrogées aient tendance à déclarer des dates de migration plus récentes que ce n’est le cas en réalité (Dorrington et Moultrie, 2009).

Quand le recensement demande, comme l’ont fait les derniers recensements sud-africains, aux personnes qui ont immigré depuis le recensement précédent de quand date leur dernière migration et d’où elles venaient, et non où elles résidaient à la date du recensement précédent, on peut rétroprojeter les effectifs de migrants en appliquant les taux annuels de migration entre régions pour en évaluer le nombre par région au moment du recensement précédent (Dorrington et Moultrie, 2009). Mais, au moins dans le cas de l’Afrique du Sud, l’hypothèse que la plupart des migrants n’ont fait qu’une migration au cours des cinq dernières années, et donc que le lieu de résidence avant la dernière migration coïncide avec le lieu de résidence au moment du recensement précédent, paraît tout à fait raisonnable (Dorrington et Moultrie, 2009).

Si on dispose à la fois de données sur la région de naissance et la région de résidence lors du recensement précédent, on peut croiser ces deux variables et donc classer les migrants récents selon qu’ils sont migrants primaires, migrants secondaires ou migrants de retour.

Autres lectures et références

Pour un aperçu général de la problématique des migrations, la définition des termes et des détails sur l’analyse et l’interprétation des données sur les migrations internes, nous renvoyons le lecteur intéressé à l’excellent Manuel VI des Nations Unies (UN Population Division, 1970). Le manuel de Shryock et Siegel (1976) ou sa version moderne due à Siegel et Swanson (2004) donnent également une introduction générale à l’étude des migrations et couvrent, en particulier, l’évaluation des migrations internationales.

Aux personnes intéressées par l’évaluation des taux annuels de migration et la rétroprojection des migrants pour en évaluer les effectifs par région de résidence au moment du recensement précédent, à partir des données sur le lieu de résidence avant la dernière migration et la date de celle-ci, nous recommandons la lecture de l’article de Dorrington et Moultrie (2009).

Dorrington RE and TA Moultrie. 2009. "Making use of the consistency of patterns to estimate age-specific rates of interprovincial migration in South Africa," Paper presented at Annual conference of the Population Association of America. Detroit, US, 30 April - 2 May.

Rogers A and LJ Castro. 1981a. "Age patterns of migration: Cause-specific profiles," in Rogers, A (ed). Advances in Multiregional Demography (RR-81-006). Laxenburg, Austria: International Institute for Applied Systems Analysis, pp. 125-159. http://webarchive.iiasa.ac.at/Admin/PUB/Documents/RR-81-006.pdf [19]

Rogers A and LJ Castro. 1981b. Model Migration Schedules (RR-81-030). Laxenburg, Austria: International Institute for Applied Systems Analysis. http://webarchive.iiasa.ac.at/Admin/PUB/Documents/RR-81-030.pdf [20]

Shryock HS and JS Siegel. 1976. The Methods and Materials of Demography (Condensed Edition). San Diego: Academic Press.

Siegel JS and D Swanson. 2004. The Methods and Materials of Demography. Amsterdam: Elsevier.

Timæus IM. 2004. "Impact of HIV on mortality in Southern Africa: Evidence from demographic surveillance," Paper presented at Seminar of the IUSSP Committee "Emerging Health Threats" HIV, Resurgent Infections and Population Change in Africa. Ougadougou, 12-14 February.

UN Population Division. 1970. Manual VI: Methods of Measuring Internal Migration. New York: United Nations, Department of Economic and Social Affairs, ST/SOA/Series A/47. http://www.un.org/esa/population/techcoop/IntMig/manual6/manual6.html [13]

Le modèle multi-exponentiel de migration

Auteur:

Little J and RE Dorrington

Description de la méthode

Ce chapitre explique comment ajuster un modèle multi-exponentiel de migration à des données observées sur les migrations.

Depuis une trentaine d’années, ce modèle, conçu par Rogers et Castro (1981), s’est révélé remarquablement efficace pour la représentation des structures par âge typiques des migrations. En général, on observe les mêmes structures par âge, qu’il s’agisse des migrations internationales et interrégionales dans leur ensemble ou des migrations relatives à une région particulière. La fonction multi-exponentielle a été élaborée pour exprimer la relation entre la migration et l’âge, et elle le fait au travers d’une série additive de composantes exponentielles à 7, 9, 11 ou 13 paramètres, selon le degré de complexité du schéma de migration et de l’aptitude des données à supporter une paramétrisation croissante.

Appliqué à une série de taux de migration par année d’âge, le modèle de Rogers-Castro fournit une expression optimale et nuancée de la structure par âge de la migration, qui peut servir à lisser une série de taux de migration observés et que l’on peut utiliser directement pour améliorer la compréhension de la dynamique des migrations. Ce résultat peut trouver de nombreuses autres applications, par exemple dans la mise au point de schémas de migration utilisables dans des projections de population multirégionales. Dans l’idéal, on disposera d’indices de migration par année de calendrier et année d’âge, auxquels on ajustera le modèle de Rogers-Castro. Mais, si – comme c’est souvent le cas dans les pays en développement, où la piètre qualité des données de base peut faire obstacle au développement de calculs aussi minutieux – les données ne sont disponibles que par groupes quinquennaux d’âge, on doit estimer par interpolation des taux par année d’âge au moyen de l’une des méthodes décrites ci-après, avant de tenter l’ajustement par un modèle de Rogers-Castro.

Données requises et hypothèses

Tabulations nécessaires

Probabilités ou taux de migration par année d’âge (ou, si ce n’est pas possible, par groupes quinquennaux d’âge) de 0 à un âge supérieur à 65 ans.

Idéalement, les données devraient se présenter sous forme de taux par année d’âge. Quand elles sont réparties en groupes quinquennaux d’âge, il faut estimer leurs valeurs par année d’âge au moyen d’une interpolation, avant de tenter l’ajustement par une fonction multi-exponentielle. Le choix de l’âge maximum est quelque peu arbitraire, mais la borne supérieure des données utilisées pour l’ajustement d’un modèle devrait, au moins, être supérieure à l’âge modal de la retraite.

Hypothèses importantes

Le recensement national le plus récent dénombre avec exactitude la population par région de résidence et par lieu de naissance, et identifie les personnes qui ont migré d’une région à l’autre depuis une certaine date antérieure (par exemple le recensement précédent).

Travaux préparatoires et recherches préliminaires

Avant de mettre en œuvre cette méthode, il faut examiner la qualité des données sur au moins deux aspects :

la structure par âge de la population (éventuellement par région) ; et
le degré de couverture des recensements (éventuellement par région).

Mise en garde

La méthode ne doit être appliquée aux données de migration nette qu’avec précaution, car la distribution multi-exponentielle des taux par âge modélise les flux migratoires bruts (c’est-à-dire les entrées ou les sorties), mais pas automatiquement les migrations nettes, à moins que l’un des deux flux ne soit nettement plus important que l’autre à tous les âges.

Présentation générale du modèle multi-exponentiel de migration

La fonction multi-exponentielle a été élaborée par Rogers et Castro (1981) pour exprimer le lien entre la migration et l’âge. La migration est généralement forte au cours de la première année de vie ; elle chute jusqu’à un minimum au début de l’adolescence, pour augmenter rapidement jusqu’à son maximum au début de l’âge adulte, après quoi elle diminue, sauf un éventuel sursaut autour de l’âge de la retraite, suivi d’une reprise de la baisse. Dans certains cas, on peut observer une dernière remontée aux âges les plus avancés (Rogers et Castro 1981 ; Rogers et Watkins 1987).

Depuis une trentaine d’années, le système de modélisation de la migration de Rogers-Castro s’est révélé remarquablement efficace pour la représentation des structures par âge des migrations (Little et Rogers 2007 ; Raymer et Rogers 2008 ; Rogers et Castro 1981 ; Rogers et Castro 1986 ; Rogers et Little 1994 ; Rogers, Little et Raymer 2010 ; Rogers et Raymer 1999 ; Rogers et Watkins 1987). Les mêmes structures par âge des migrations ont été observées pour des régions de taille différente et pour des sous-populations distinguées selon le sexe et le groupe ethnique (Rogers et Castro 1981). On les a observées tant dans le cas des migrations interrégionales dans leur ensemble que pour les migrations relatives à une région particulière. Un flux migratoire unidirectionnel (de la région i vers la région j) présente également la même structure. Par exemple, le modèle de Rogers-Castro a été appliqué avec succès aux flux migratoires intercommunaux (entre local authorities) en Angleterre (Bates et Bracken 1982 ; 1987), entre zones métropolitaines et non-métropolitaines au Canada (Liaw et Nagnur 1985), entre régions au Japon, en Corée et en Thaïlande (Kawabe 1990), et au niveau national en Afrique du Sud et en Pologne (Hofmeyr 1988 ; Potrykowska 1988).

Appliqué à une série de taux de migration par année d’âge, le modèle de Rogers-Castro fournit une expression optimale et nuancée de la structure par âge de la migration, qui peut être caractérisée par 7, 9, 11 ou 13 paramètres, selon le degré de complexité de cette structure et la robustesse des données. De plus, les fluctuations aléatoires, souvent associées à l’imprécision des taux par âge observés, sont aplanies.

Des modèles de Rogers-Castro ont été utilisés pour réaliser des projections de population au Canada (George 1994), et appliqués à des périodes, des régions ou des sous-populations dont les données migratoires étaient insuffisantes ou inexistantes (Rogers, Little et Raymer 2010).

Dans sa forme la plus complète et la plus complexe, le modèle multi-exponentiel compte 13 paramètres. Si on appelle M(x) le taux de migration à l’âge x, le modèle complet est défini par :

\begin{matrix} M (x) = a_{1} \exp (- α_{1} x) \\ + a_{2} \exp {- α_{2} (x - μ_{2}) - \exp [- λ_{2} (x - μ_{2})]} \\ + a_{3} \exp {- α_{3} (x - μ_{3}) - \exp [- λ_{3} (x - μ_{3})]} \\ + a_{4} \exp (λ_{4} x) \\ + c . \end{matrix}

Il comporte cinq composantes additives. La première,

a_{1} \exp (- α_{1} x)

, est une fonction exponentielle négative représentant le schéma de migration aux âges qui précèdent l’entrée sur le marché du travail. La deuxième,

a_{2} \exp {- α_{2} (x - μ_{2}) - \exp [- λ_{2} (x - μ_{2})]}

, est une fonction unimodale asymétrique à gauche qui décrit le schéma de migration par âge des personnes d’âge actif. La troisième,

a_{3} \exp {- α_{3} (x - μ_{3}) - \exp [- λ_{3} (x - μ_{3})]}

, est presque une courbe en cloche représentant la fonction de migration par âge après la retraite, quand les migrations augmentent brusquement au moment de la retraite avant de décliner à nouveau. Associée à celle-ci, la quatrième composante,

a_{4} \exp (λ_{4} x)

, est une fonction exponentielle positive qui concerne la migration par âge après la retraite dans les quelques cas où l’on constate une hausse générale de la migration à cette époque de la vie. On peut observer ce phénomène, par exemple, aux États-Unis, avec les personnes âgées du Nord-Est qui migrent vers les États de la sunbelt du Sud-Est et du Sud-Ouest. La dernière composante est un terme constant, c, qui représente les migrations « résiduelles ».

Les recherches effectuées jusqu’à présent ont identifié quatre familles de modèles multi-exponentiels (Rogers, Little et Raymer 2010) ; une seule d’entre elles, qui présente à la fois un pic au moment de la retraite et une augmentation des migrations par la suite, utilise les 13 paramètres et les 5 composantes. Décrite dans des études sur la migration des personnes âgées (Rogers et Watkins 1987), elle est illustrée dans le cadre inférieur droit de la figure 1.

Figure 1 Les quatre grandes familles de modèles de migration à composantes additives de Rogers-Castro [21]

Source : D’après Raymer et Rogers (2008).

Note. Les courbes présentent, en séquence, (1) le schéma de migration par âge des jeunes qui ne sont pas encore sur le marché du travail ; (2) celui des personnes d’âge actif ; (3) celui des personnes retraitées, avec une hausse suivie d’une diminution ; et (4) celui des personnes retraitées avec hausse généralisée aux âges élevés.

Les autres familles de modèles sont des formes restreintes du modèle complet, ce qui signifie qu’au moins une composante en est absente. Par exemple, le schéma le plus courant identifié par Rogers, Little et Raymer (2010) utilise sept paramètres et comporte les deux premières composantes et le terme constant. On l’appelle le schéma standard : son profil est présenté dans le cadre supérieur gauche de la figure 1.

De nombreux schémas de migration présentent le profil standard plus un pic autour de l’âge de la retraite (Rogers et Castro 1981 ; 1986), ce qui équivaut au modèle à 11 paramètres, qui comprend les composantes 1, 2, 3 et 5 (cadre inférieur gauche de la figure 1). Dans les populations qui comptent de nombreux travailleurs migrants, surtout dans les pays en développement, la troisième composante peut donner lieu à un creux au lieu d’un pic, puisque ces immigrés rentrent chez eux au moment de la retraite.

On emploie le modèle à 9 paramètres quand on observe le schéma standard pour les jeunes et les actifs et un redressement de la courbe au-delà de l’âge de la retraite (cadre supérieur droit de la figure 1). Ce cas a été observé dans diverses régions des Pays-Bas en 1974 par Rogers et Castro (1981).

Comme cela devrait être clair d’après ce qui précède, tous les paramètres sont interprétables et peuvent servir à caractériser le modèle auquel ils appartiennent.

Dans la version originale à 11 paramètres du modèle multi-exponentiel de migration, Rogers et Castro (1981) ont illustré leur modèle en l’appliquant aux taux d’émigration interne masculine de Stockholm de 1974. La figure 2 présente les données originales (la courbe irrégulière) et la courbe lisse ajustée à 11 paramètres correspondante.

Cinq des onze paramètres (α₁, α₂, α₃, λ₂ and λ₃) correspondent aux pentes croissantes ou décroissantes des divers segments de la courbe modélisée, tandis que les paramètres de niveau (a₁, a₂, a₃ et c) correspondent aux extremums de la courbe : a₁ pour le pic de la première année de vie, a₂ pour celui des migrations de main-d’œuvre, a₃ pour celui des migrations au moment de la retraite, c étant le taux de migration résiduelle. Les paramètres μ₂ et μ₃ indiquent les âges auxquels interviennent respectivement les pics de migration de main-d’œuvre et de migration de retraités.

Figure 2 Le modèle migratoire à 11 paramètres de Rogers-Castro appliqué aux taux d’émigration interne des hommes vivant dans la région de Stockholm, 1974 [22]

Source : Rogers et Castro (1981). Reproduction autorisée par l’International Institute for Applied Systems Analysis (IIASA).

On peut utiliser divers indices pour décrire soit le schéma observé soit le schéma modélisé. Par exemple, x_l est l’âge auquel la migration est la plus faible avant l’entrée sur le marché du travail, x_h est l’âge auquel elle est la plus forte chez les personnes d’âge actif, et x_r est l’âge du pic de migration au moment de la retraite. On appelle l’écart entre x_l et x_h « labour force shift », X, et la hausse du taux de migration entre x_l et x_h « jump », B. Le « parental shift », A, décrit l’écart d’âge moyen entre la migration des parents et la migration correspondante des enfants. Le taux brut de « migraproduction » (TBM) est le total des taux à tous les âges (c’est-à-dire la surface sous la courbe), et il mesure le niveau global d’émigration interne d’une région, ou le niveau global d’un flux unidirectionnel (d’une région i vers une région j) (Rogers et Castro 1981).

Application de la méthode

L’application de la méthode comporte les étapes suivantes.

Étape 1 : Préparer une série de taux observés

La première étape du calcul d’un modèle de migration consiste à préparer les données. Le choix des indices de migration à utiliser dépend des sources de données disponibles (registre, recensement ou enquête) et de l’objectif de la recherche. Par exemple, dans une étude comparative de schémas migratoires, n’importe quel indice pourrait convenir pourvu qu’il ait été élaboré de la même manière dans les différents contextes à comparer. Par ailleurs, si les modèles doivent servir au calcul de projections de population par année d’âge, le schéma ajusté devrait représenter des taux de migration par année d’âge et année de calendrier. Mais si on ne dispose pas d’observations par année d’âge et année de calendrier qui évoluent de façon relativement lisse en fonction de l’âge, on doit avant tout convertir les données en indices par année d’âge et année de calendrier. Voici plusieurs situations couramment rencontrées.

a. Données de recensement, taux annuels de migration, période quinquennale d’observation

Quand un recensement fournit les nombres de migrants survivants au terme d’une période rétrospective de cinq ans ainsi que l’année de la dernière migration, on peut calculer des taux de migration par année de calendrier et année d’âge au moyen d’une procédure, conceptuellement simple mais algébriquement complexe, de rétroprojection décrite par Dorrington et Moultrie (2009). Leur méthode intègre l’effet de la mortalité en appliquant aux migrants le régime de mortalité de la population générale, et l’effet de la migration interrégionale en appliquant les taux annuels de migration de la dernière année pour évaluer la population des régions un an avant le recensement, puis en utilisant ces estimations pour évaluer les taux de migration deux ans avant le recensement et en appliquant ceux-ci pour évaluer la population des régions deux ans avant le recensement, etc. Cela nécessite des données complémentaires sur la région de naissance des enfants de moins de 5 ans et des estimations annuelles de la population des régions par année d’âge. Les schémas de migration ainsi obtenus peuvent être ajustés et lissés par un modèle de Rogers-Castro et être utilisés dans des projections de population année par année.

b. Interpolation de probabilités annuelles à partir de probabilités quinquennales

Quelle que soit la période d’observation des migrations, et que l’on utilise des données de recensement ou de registre, les probabilités de migration sont plus fiables quand elles sont évaluées par groupes quinquennaux que par année d’âge (Rogers, Little et Raymer 2010). En outre, les effectifs de migrants par tranches d’âge d’un an ne sont habituellement disponibles que dans les enquêtes par sondage, car les services statistiques nationaux publient généralement les effectifs de migrants interrégionaux par groupes quinquennaux d’âge.

Pour appliquer le modèle multi-exponentiel quand les indices de migration disponibles se présentent par groupes quinquennaux d’âge, on a besoin d’un procédé de conversion des taux quinquennaux en taux annuels. L’interpolation par spline cubique (McNeil, Trussell et Turner 1977) est l’une de ces techniques, qui fournit une structure par année d’âge lisse. Rogers et Castro (1981) ont utilisé des taux suédois disponibles par année d’âge et par groupes quinquennaux pour tester la précision de cette méthode, et ils ont obtenu des résultats généralement satisfaisants.

Pour obtenir des courbes lisses de migration par année d’âge, les indices de migration observés par groupes quinquennaux d’âge sont attribués à l’âge central de chaque groupe, soit 2 ans, 7 ans, 12 ans, 17 ans, …, 72 ans, 77 ans, etc. (ou 2,5 ans, 7,5 ans, 12,5 ans, …, etc., si on travaille avec des taux plutôt qu’avec des probabilités). À partir de cette série de valeurs, on calcule une série continue de probabilités d’émigration internationale par âge au moyen d’une interpolation par spline cubique qui engendre des polynômes du troisième degré passant par la série des points de contrôle prédéfinis (appelés nœuds). On peut aussi utiliser des extensions, payantes ou libres, de Microsoft Excel, comme XlXtrFun [23], pour appliquer l’interpolation par spline cubique.

Une approche alternative consiste en une adaptation de la procédure d’interpolation à 6 paramètres de Beers (1945) pour interpoler les taux, des groupes les plus jeunes aux groupes les plus âgés, y compris l’extrapolation à 0 an et 1 an (ou 0,5 an et 1,5 an). Pour cette extrapolation, on suppose que l’écart entre les indices de migration à 1 et 2 ans est le même qu’entre 2 et 3 ans, et que l’écart entre les indices à 0 et 1 an est le même qu’entre 3 et 4 ans.

Donc, quelle que soit l’approche retenue, on a besoin d’une série de taux de migration par groupes quinquennaux d’âge, de 0-4 ans à 65-69 ans au moins.

Étape 2 : Choisir le type de modèle multi-exponentiel

Une fois que la série d’indices observés est prête, on doit choisir le type de modèle multi-exponentiel à adopter. Le système de modèles multi-exponentiels de migration présenté plus haut décrit les caractéristiques des modèles à 7, 9, 11 et 13 paramètres. Ce choix doit se fonder sur un examen visuel de la courbe, en gardant à l’esprit que le modèle est supposé représenter le profil réel de la courbe de migration. Parfois, une fois tracée la représentation graphique, on ne voit pas clairement comment modéliser au mieux la partie correspondant à l’époque de la retraite et aux grands âges. Par exemple, il se peut qu’un modèle classique à 7 ou un modèle à 9 paramètres (migration en hausse aux âges élevés) convienne. Dans une telle situation, le choix en faveur du modèle à 9 paramètres pourrait se fonder sur la perspective théorique d’une hausse de la migration dans les dernières années de la vie. D’un autre côté, le modèle à 9 paramètres pourrait être écarté sur la base des indices de qualité d’ajustement, comme étant insuffisamment économe s’il ne donne pas un meilleur ajustement que le modèle à 7 paramètres. Pour bien choisir le type de modèle, il est recommandé de comparer la qualité d’ajustement d’un modèle simple à celle d’un modèle plus complexe (par exemple, comparer l’ajustement d’un modèle à 7 paramètres à celui d’un modèle à 11 paramètres). En règle générale, et sans perdre de vue la robustesse présumée des données de base, il faut une amélioration sensible de l’ajustement pour justifier le choix d’un modèle plus complexe.

Dans la plupart des pays en développement, en particulier quand l’âge de la « retraite » n’est pas concentré entre 60 et 65 ans et qu’il existe une tendance à exagérer les âges élevés, les données ne sont sans doute pas assez sûres pour s’adapter à un modèle plus complexe que la version à 7 paramètres.

Étape 3 : Ajustement du modèle au moyen du Solveur

Étant donné le nombre de paramètres (entre 7 et 13) des modèles multi-exponentiels de migration, il n’est pas conseillé de déterminer l’ajustement optimal ab initio, par essais et erreurs. Il vaut mieux utiliser des algorithmes analytiques. La procédure que nous présentons ci-dessous utilise un algorithme, Solver, présent dans le logiciel Microsoft Excel. Solver n’est pas toujours fourni dans les configurations habituelles de Microsoft Excel. Pour l’activer, il faut cliquer sur « Fichier→ Options → Compléments → Gérer Compléments Excel → Atteindre … » et s’assurer que la case « Complément solver » est cochée.

Les caractéristiques de la fonction Solver et les conditions et contraintes qu’il faut accepter pour l’employer ont été sélectionnées dans le manuel d’exercices en ligne associé à ce chapitre. Pour appliquer le programme à une feuille de calcul, cliquer sur « Données → Solveur → Résoudre ».

Le modèle ajusté dans le manuel d’exercices en ligne est organisé de manière à permettre à l’utilisateur de décider si la « cible » à minimiser sera la somme des carrés des écarts entre taux observés et taux ajustés ou le chi-carré.

Par défaut, Solver est prévu pour utiliser tous les paramètres. Si on souhaite ajuster une courbe avec seulement quelques-uns des paramètres, on doit le spécifier dans la fenêtre « Cellules variables » et attribuer aux autres paramètres des valeurs fixes pertinentes (qui peuvent être ou non égales à zéro, selon les exigences de la procédure d’ajustement). Nous présentons ci-dessous un exemple dans lequel une telle optimisation sous contrainte peut être nécessaire.

La somme des carrés des écarts se calcule ainsi :

\frac{1}{n} \sum_{i = 1}^{n} {(O_{i} - F_{i})}^{2}

où O_i représente le taux observé à l’âge i, F_i la valeur ajustée à l’âge i et n le nombre de groupes d’âge.

Le chi-carré se calcule ainsi :

\frac{1}{n} \sum_{i = 1}^{n} \frac{{(O_{i} - F_{i})}^{2}}{F_{i}} .

Le chi-carré est plus sensible aux mauvais ajustements aux âges où les taux sont faibles (ce qui engendre une erreur proportionnellement plus importante), et il constitue donc un meilleur indicateur de la qualité d’ajustement quand on tente d’ajuster la « bosse de la retraite » (la troisième composante).

Le choix des valeurs initiales de la procédure d’ajustement

Le choix des valeurs de départ est la principale difficulté dans l’estimation de paramètres non-linéaires. Dans l’idéal, à partir d’un ensemble de valeurs initiales, l’algorithme procède par itérations et débouche sur une série corrigée de valeurs « optimales ». Mais cet optimum peut n’être qu’un optimum local et non général. Un meilleur choix des valeurs des paramètres de départ peut entraîner une qualité d’ajustement améliorée et aboutir à une série différente de valeurs finales. Un choix moins pertinent de valeurs initiales peut empêcher toute convergence, même vers un optimum local.

Gardant ceci à l’esprit, la méthode la plus efficace pour s’assurer que les résultats d’une procédure d’ajustement seront réellement « optimaux » est de choisir des valeurs des paramètres utilisées antérieurement pour une courbe « similaire ». À cet effet, on peut commencer avec les valeurs déjà introduites dans le manuel d’exercices en ligne, qui ont servi à ajuster les courbes dans les exemples développés ci-dessous.

La convergence peut être plus difficile à atteindre avec les modèles à 11 et 13 paramètres. Quand le recours à ces modèles plus lourds est justifié, on peut essayer d’ajuster d’abord aux données un modèle classique à 7 paramètres (ce qui assure déjà l’ajustement pour le pic de la courbe et pour les âges de la première moitié de la vie). Puis on peut figer ces 7 paramètres à la valeur obtenue lors de cette première étape (et donc les traiter à partir de là comme des constantes) et ensuite évaluer les paramètres restants. Une autre procédure efficace consiste à appliquer d’abord une méthode d’estimation linéaire, qui ne comporte pas d’algorithme itératif. Cette méthode a été décrite pour la première fois par Rogers et Castro (1981) et incluse ensuite dans la série de techniques alternatives présentée par Rogers, Castro et Lea (2005).

La recherche d’une solution optimale comporte un autre défi : le choix d’un critère d’arrêt de l’algorithme itératif. Quand la procédure itérative converge vers une solution, le chi-carré, qui mesure les écarts entre valeurs observées et valeurs estimées, diminue. On a atteint une solution acceptable quand le chi-carré ne diminue plus que d’une quantité négligeable entre une itération et la suivante. La valeur de cette faible variation, appelée « seuil de tolérance », est définie par l’utilisateur. On peut être tenté de la fixer à un niveau très bas, donc très proche de zéro, pour aller jusqu’à une valeur véritablement minimale du chi-carré. Mais le risque de cette attitude est qu’un seuil de tolérance aussi bas ne soit jamais atteint, même quand une solution a été obtenue. Press, Flannery, Teukolsky et al. (1986) proposent 0,001 comme valeur raisonnable du seuil de tolérance. Si le programme ne converge pas, on peut alléger les critères de convergence, en relevant le seuil de tolérance ou en essayant une nouvelle série de valeurs de départ.

Pour le choix des valeurs de départ, une autre méthode, procédant par essais et erreurs, s’appuie sur les graphiques du manuel d’exercices Excel associé à ce chapitre (en ligne). En introduisant votre propre série de données observées dans l’une des feuilles de calcul, vous pouvez formuler des « hypothèses initiales » sur les valeurs des paramètres et les introduire dans les cellules destinées à leurs valeurs finales. Ensuite, après examen visuel de l’ajustement obtenu et identification des paramètres les moins satisfaisants, relancez la procédure avec de nouvelles valeurs de ceux-ci. Continuez ainsi jusqu’à ce que la courbe ajustée soit raisonnablement proche de la courbe observée. Vous aurez alors en main des valeurs initiales acceptables à introduire dans la procédure d’estimation non-linéaire par les moindres carrés.

Étape 4 : Évaluer la qualité d’ajustement du modèle

On évalue la qualité d’ajustement du modèle en calculant l’écart absolu moyen en pourcentage (EAMP ; en anglais : mean absolute percent error) :

E A M P = 100 \frac{1}{n} \sum_{i = 1}^{n} [\frac{| F_{i} - O_{i} |}{O_{i}}] .

L’EAMP a tendance à exagérer les erreurs, surtout quand les données observées comportent de nombreuses valeurs proches de zéro (Morrison, Bryan et Swanson 2004).

En plus de l’EAMP, on calcule également le R², le carré du coefficient de corrélation entre les valeurs des O_i et celles des F_i. À titre heuristique, on considère couramment qu’un ajustement raisonnable est atteint avec un EAMP inférieur ou égal à 15 % et un R² sensiblement supérieur à 90 %.

Par ailleurs, puisque la méthode suppose que le modèle de Rogers-Castro calculé représente l’allure réelle de la courbe de migration, il devrait représenter la structure sous-jacente des données observées.

Étape 5 : Interprétation des résultats de l’ajustement

Si l’objectif est de décrire le schéma de migration et si on a pu ajuster un modèle multi-exponentiel aux données, on peut utiliser n’importe quel indice résumé (par exemple le taux brut de migration, X, B ou A), ainsi que les estimations des paramètres, pour caractériser la série. Les indices résumés et les interprétations des paramètres sont donnés dans la présentation générale, plus haut dans ce chapitre.

Exemples

Dans les exemples développés ci-dessous, on applique des modèles multi-exponentiels de migration à diverses séries de données, de qualité et de complexité variable, provenant de différentes sources. Tous ces exemples sont fournis dans le manuel d’exercices en ligne sur le site web Tools for Demographic Estimation.

C’est parce qu’on doit recourir à des méthodes itératives pour ajuster une table-type de mortalité aux probabilités conditionnelles de survie aux âges adultes que les exemples ne sont pas développés en détail dans le texte. Nous renvoyons le lecteur à l’explication, fournie dans la section précédente, de l’utilisation de Solver, dans Microsoft Excel, pour déterminer les ajustements optimaux. Le manuel d’exercices est prêt à employer Solver pour le calcul des résultats présentés.

Données de recensement, migrations sur une période d’un an

La figure 3 présente un exemple basé sur des probabilités de migration par année d’âge sur une période d’un an, à partir des données d’un recensement. Les données proviennent de l’American Community Survey (ACS) de 2005, une enquête nationale réalisée chaque année par le US Census Bureau. Même dans le cas de la Californie, un État fortement peuplé, les probabilités de migration par année d’âge sur une période d’un an sont très instables. L’EAMP est égal à 17 % et le R² à 0,92.

Il faut être prudent quand on utilise des probabilités de migration par année d’âge sur des périodes d’un an. Pour chaque année d’âge, les effectifs soumis au risque de migration et les effectifs de migrants peuvent être faibles, et cela engendre des probabilités irrégulières et instables. Il peut être préférable de calculer des probabilités par groupes quinquennaux d’âge, qui s’avèrent plus fiables que les probabilités par année d’âge (Rogers, Little et Raymer 2010), et calculer ensuite par interpolation les probabilités par année d’âge, soit par spline cubique, soit par la formule de Beer, comme on l’a vu dans la section consacrée à l’application de la méthode.

Figure 3 Émigration interne sur une période d’un an, de 2004 à 2005, et ajustement du modèle à 11 paramètres, Californie, ACS 2005 [24]

Données de recensement, migrations sur une période de cinq ans

L’exemple de la figure 4 utilise des données de recensement relatives à l’État du New Hampshire. L’échantillon public de données individuelles (PUMS) à 1 % du US Bureau of Census est un échantillon relativement petit extrait du recensement, et le New Hampshire est l’un des États les moins peuplés. Les probabilités de migration par année d’âge sont très instables, leurs fluctuations sont énormes, mais le modèle donne une estimation lissée du véritable profil de la courbe. L’EAMP est égal à 52 % et R² à 0,68.

Figure 4 Émigration interne par âge sur une période de 5 ans, de 1995 à 2000, et ajustement d’un modèle à 7 paramètres, New Hampshire, échantillon PUMS à 1 % du recensement de 2000 [25]

La figure 5 présente l’application de la méthode d’interpolation des splines cubiques aux probabilités de migration par groupes quinquennaux d’âge du New Hampshire, calculées à partir des données de l’échantillon public à 1 % du recensement de 2000. La courbe des valeurs interpolées à partir des taux quinquennaux est nettement plus lisse et donne des estimations plus fiables que la courbe des valeurs observées par année d’âge de la figure 4, elle constitue donc une meilleure série d’estimations à comparer avec la courbe ajustée multi-exponentielle. L’EAMP, qui valait 52 % avec les probabilités par année d’âge, tombe à 15 % avec les valeurs interpolées à partir des probabilités par groupes quinquennaux d’âge, et R² passe de 0,68 à 0,94.

Plusieurs facteurs expliquent pourquoi les niveaux des probabilités de migration sont nettement plus élevés au New Hampshire (figure 5) qu’en Californie (figure 3). L’exemple californien présente les migrations sur une période d’un an et l’exemple du New Hampshire porte sur une période de cinq ans. De plus, le territoire du New Hampshire est beaucoup plus petit que celui de la Californie, et on s’attend généralement à ce que la migration soit d’autant plus intense que la zone géographique est plus petite.

Figure 5 Émigration interne par âge sur une période de 5 ans, de 1995 à 2000, et ajustement d’un modèle à 7 paramètres, New Hampshire, échantillon PUMS à 1 % du recensement de 2000 - interpolations annuelles* [26] * Interpolations annuelles à partir des taux de migration par groupes quinquennaux d’âge.

Diagnostics, analyse et interprétation

Contrôles et validation

Il est important de vérifier par examen visuel si les taux de migration par âge ont un profil compatible avec les modèles de Rogers-Castro. Si ce n’est pas le cas, il est probable que ces modèles ne donneront pas un ajustement satisfaisant. De même, il vaut la peine de contrôler l’existence de valeurs extrêmes, en particulier pour les âges élevés, ce qui pourrait fausser le choix des paramètres ou même le choix du nombre de paramètres à prendre en compte pour l’ajustement. Si les données observées sont particulièrement erratiques, il est bon de les regrouper par classes quinquennales d’âge et de calculer ensuite une distribution lissée en utilisant soit l’interpolation à 6 paramètres de Beer soit une courbe spline.

Remarques sur l’application de la méthode

La théorie du modèle multi-exponentiel a été présentée plus haut dans ce chapitre, nous ne la répéterons pas ici. Dans cette section, nous développerons en détail certains éléments à examiner attentivement avant toute mise en application de la méthode.

Préparation des données

Le modèle multi-exponentiel s’applique à des séries de taux de migration par année d’âge, généralement de 0 an jusqu’à 65 ans, voire au-delà de 65 ans pour couvrir pleinement le schéma de migration des personnes âgées. Les données de migration par âge peuvent concerner un flux unidirectionnel (c’est-à-dire d’une région i vers une région j) ou l’émigration interne totale (c’est-à-dire d’une région i vers toutes les autres régions), ou l’ensemble des migrations interrégionales sans distinction d’origine ou de destination. Habituellement, les données sur les migrations proviennent des recensements nationaux (ou, dans les pays développés, des registres de population). Le modèle multi-exponentiel peut s’appliquer à divers indices de migration par année d’âge calculés à partir de l’une quelconque de ces sources.

Quand il est calculé à partir des données d’un registre national, le taux de migration des personnes qui avaient l’âge x au début d’une période déterminée est le rapport du nombre de migrations observées au cours de cette période au nombre moyen de personnes-années exposées au risque de migration. Certaines personnes peuvent migrer plus d’une fois en cours de période. Ce sont des taux du type événements/exposition au risque, bien que les migrations de personnes qui n’ont pas survécu jusqu’à la fin de la période puissent ne pas figurer au numérateur (Rogers et Castro 1981).

Les données de la courbe de migration de la figure 2, sur l’émigration masculine de Stockholm sur une période d’un an, provenaient du registre national suédois. Par contre, la figure 6 présente les séries observée et estimée par le modèle de l’ensemble des migrations masculines intercommunales suédoises sur une période de cinq ans. Comme il fallait s’y attendre, les niveaux sont beaucoup plus élevés sur la figure 6, du fait que les migrations sont plus intenses quand toutes les régions sont envisagées que quand il s’agit seulement de la région de Stockholm. On s’attend également à observer davantage de migrations sur une période de cinq ans que sur une seule année. Rees (1977) a constaté que les probabilités de migration sur cinq ans sont généralement moins que cinq fois (entre trois et cinq fois) supérieurs à la probabilité sur un an. La courbe des taux observés est aussi plus lisse et plus proche de celle du modèle sur la figure 6, ce qui signifie que les taux par année d’âge sont plus fiables quand ils sont mesurés sur une longue période.

Figure 6 Migrations intercommunales masculines sur la période de 5 ans de 1968 à 1973 en Suède, et ajustement d’un modèle à 11 paramètres [27]

D’un autre côté, les recensements dénombrent les migrants survivants (et non les migrations). Les migrants sont les personnes qui déclarent résider dans une région au début de la période rétrospective considérée et dans une autre région au moment du recensement. Une personne qui a fait plusieurs migrations, consignées dans le registre national, peut être considérée comme non-migrante lors du recensement si elle est revenue à son point de départ. En général, les effectifs de migrants dénombrés par un recensement sont inférieurs aux nombres de migrations, surtout quand la période d’observation est longue et permet donc qu’il y ait de nombreux retours et de nombreux migrants décédés. C’est pourquoi une série de mesures de la migration fondée sur le registre de population n’est pas directement comparable à une série basée sur un recensement (Rogers et Castro 1986).

Habituellement, les recensements enregistrent la résidence actuelle de chaque individu et lui demandent où il résidait un an ou cinq ans auparavant. Avec ces données et l’âge des individus au moment du recensement, on établit les nombres de migrants survivants et de survivants qui étaient exposés au risque de migration. Le rapport du nombre de migrants survivants au nombre de survivants exposés au risque de migrer est parfois qualifié de « conditionnel », parce que tant les migrants que les personnes exposées au risque de migration doivent avoir survécu jusqu’à la fin de la période rétrospective considérée pour être comptabilisés par le recensement (Rogers, Little et Raymer 2010). Comme ce n’est pas un taux du type événements/exposition au risque, nous parlerons plutôt ici de probabilité de migrer.

Données de recensement, migrations sur une période d’un an

Pour calculer des probabilités de migration par année d’âge quand le recensement demande à chaque personne où elle vivait un an auparavant, toutes les personnes sont « renvoyées » à la région où elles habitaient un an plus tôt quand elles avaient un an de moins, ce qui nous donne le nombre de personnes soumises au risque de migrer au départ de cette région. Par exemple, un enfant d’1 an au recensement de 2010 avait 0 an en 2009. Si les âges en 2010 vont de 1 à 85 ans, ceux de 2009 vont de 0 à 84 ans. (Note : seules les personnes âgées d’1 an et plus auront déclaré un lieu de résidence un an auparavant.) Revenir un an en arrière donne le nombre de personnes qui, ayant survécu jusqu’au recensement de 2010, étaient exposées au risque d’émigrer de la région i en 2009. Le nombre d’émigrants est celui des personnes qui ont déclaré habiter la région i en 2009 et ont été recensées dans une autre région en 2010. Pour chaque année d’âge, le rapport du nombre de migrants au nombre de personnes exposées au risque de migrer donne la probabilité d’émigration interne par âge sur l’année précédant le recensement. Quand le numérateur est un nombre de migrants unidirectionnels, c’est-à-dire de personnes qui ont migré de la région i vers la région j, ce rapport constitue la probabilité de migrer de la région i vers la région j, par âge.

Il faut être prudent quand on utilise des probabilités de migration par année d’âge sur une période d’un an. Pour chaque année d’âge, les effectifs soumis au risque de migration et les effectifs de migrants peuvent être faibles, et cela engendre des probabilités irrégulières et instables. Il peut être préférable de calculer des probabilités par groupes quinquennaux d’âge, qui s’avèrent plus fiables que les probabilités par année d’âge (Rogers, Little et Raymer 2010), et calculer ensuite par interpolation les probabilités par année d’âge.

Données de recensement, migrations sur une période de cinq ans

Si le recensement demande à chaque individu où il habitait cinq ans auparavant, on peut calculer des probabilités de migrer par année d’âge sur la période de cinq ans tant que l’âge de chacun est connu. Pour ce faire, on « renvoie » tous les individus à la région où ils vivaient cinq ans avant, quand ils avaient cinq ans de moins. Les enfants âgés de 5 ans lors d’un recensement effectué en 2000, par exemple, avaient 0 an en 1995. Si les âges en 2000 vont de 5 à 85 ans, ceux de 1995 vont de 0 à 80 ans. Le nombre d’émigrants est celui des personnes qui ont déclaré habiter la région i en 1995 et ont été recensées dans une autre région en 2000. Pour chaque année d’âge, le rapport du nombre de migrants au nombre de personnes exposées au risque de migrer donne la probabilité d’émigration interne par âge sur les cinq années précédant le recensement.

Données de recensement, taux annuels de migration sur une période de cinq ans

Quand le recensement donne les nombres de migrants qui ont survécu jusqu’au terme d’une période de cinq ans, on peut calculer des taux de migration par année d’âge et année de calendrier au moyen d’une procédure de rétroprojection décrite par Dorrington et Moultrie (2009). Cette méthode intègre l’effet de la mortalité en appliquant aux migrants le régime de mortalité de la population générale, et l’effet des migrations répétées en appliquant les taux annuels de migration de la dernière année pour évaluer la population des régions un an avant le recensement, puis en utilisant ces estimations pour évaluer les taux de migration deux ans avant le recensement et en appliquant ceux-ci pour évaluer la population des régions deux ans avant le recensement, etc. Cela nécessite des données complémentaires sur la région de naissance des enfants de moins de 5 ans et des estimations annuelles de la population des régions par année d’âge. Les schémas de migration ainsi obtenus peuvent être ajustés et lissés par un modèle de Rogers-Castro et être utilisés dans des projections de population année par année.

Limites

À moins que l’on ait des données exactes ne présentant aucune irrégularité, le modèle multi-exponentiel ne fournit pas d’ajustement très précis et peut donc être surparamétré, en ce sens que plusieurs séries différentes de paramètres peuvent s’ajuster aussi bien les unes que les autres aux données observées. En pareil cas, il pourrait être utile de donner une valeur constante à un ou deux paramètres et de procéder à l’ajustement avec les autres ; nous recommandons donc une certaine modération quant au nombre de paramètres.

Extensions de la méthode

L’application du modèle multi-exponentiel ne se limite pas aux séries de taux ou probabilités de migration. Plusieurs études ont montré que les structures par âge de migrants (et de migrations si on dispose de données de registre) ont souvent une forme multi-exponentielle et peuvent être fidèlement représentées par un modèle de Rogers-Castro (Little et Rogers 2007 ; Rogers, Little et Raymer 2010).

On peut déterminer les nombres de migrants ou de migrations par année d’âge en utilisant l’une ou l’autre des sources de données et des méthodes présentées plus haut, car ce sont simplement les numérateurs des taux ou probabilités de migration. Les données observées ajustées par les modèles sont les rapports des nombres de migrants ou de migrations par année d’âge à leurs totaux respectifs. (Note : si les effectifs de migrants sont distribués par classes quinquennales d’âge, l’un ou l’autre type d’interpolation sera nécessaire ; si on utilise l’interpolation par spline cubique, l’effectif associé à chaque centre de classe doit être l’effectif de la classe quinquennale divisé par cinq.)

Par exemple, la figure 7 présente la distribution de fréquences des migrations suédoises par âge. Elle se révèle très lisse et fiable, à l’exception des âges les plus élevés. Un modèle à 7 paramètres donne un très bon ajustement, avec un R² de 0,99 et un EAMP de 29 %. Mais cet exemple montre comment l’EAMP peut exagérer l’imperfection du modèle, car il « gonfle » excessivement en présence d’une série de petites variations dans les données observées.

Figure 7 Structure par âge des migrations intercommunales en Suède, de 1968 à 1973, et ajustement d’un modèle à 7 paramètres [28]

Il existe deux autres logiciels qui permettent d’ajuster la courbe multi-exponentielle en Excel dans le manuel d’exercices. Ce sont : (1) Data Master 2003 [29], un programme gratuit d’ajustement de courbes qui applique l’algorithme de Levenberg-Marquardt ; et (2) R [30] (R Development Core Team 2012), un environnement logiciel, gratuit également, destiné aux calculs statistiques et représentations graphiques en tous genres, et qui demande donc un temps d’apprentissage assez long avant de pouvoir être utilisé en toute sécurité. L’Appendice à ce chapitre, sur le site web Tools for Demographic Estimation, fournit des instructions élémentaires pour la définition des fonctions de R nécessaires au calcul des modèles à 7 et 11 paramètres en utilisant l’algorithme de Gauss-Newton.

Références

Bates J and I Bracken. 1982. "Estimation of migration profiles in England and Wales", Environment and Planning A 14(7):889-900. doi: http://dx.doi.org/10.1068/a140889 [31]

Bates J and I Bracken. 1987. "Migration age profiles for local-authority areas in England, 1971-1981", Environment and Planning A 19(4):521-535. doi: http://dx.doi.org/10.1068/a190521 [32]

Beers H. 1945. "Six-term formulas for routine actuarial interpolation", The Record of the American Institute of Actuaries 33(2):245-260.

Dorrington R and TA Moultrie. 2009. "Making use of the consistency of patterns to estimate age-specific rates of interprovincial migration in South Africa," Paper presented at Annual Meeting of the Population Association of America. Detroit, Michigan, 29 April - 2 May 2009.

George MV. 1994. Population projections for Canada, provinces and territories, 1993-2016. Ottawa: Statistics Canada, Demography Division, Population Projections Section.

Hofmeyr BE. 1988. "Application of a mathematical model to South African migration data, 1975–1980", Southern African Journal of Demography 2(1):24–28.

Kawabe H. 1990. Migration rates by age group and migration patterns: Application of Rogers' migration schedule model to Japan, The Republic of Korea, and Thailand. Tokyo: Institute of Developing Economies.

Liaw K-L and DN Nagnur. 1985. "Characterization of metropolitan and nonmetropolitan outmigration schedules of the Canadian population system, 1971-1976", Canadian Studies in Population 12(1):81-102.

Little JS and A Rogers. 2007. "What can the age composition of a population tell us about the age composition of its out-migrants?", Population, Space and Place 13(1):23-19. doi: http://dx.doi.org/10.1002/psp.440 [8]

McNeil DR, TJ Trussell and JC Turner. 1977. "Spline interpolation of demographic data", Demography 14(2):245-252. doi: http://dx.doi.org/10.2307/2060581 [33]

Morrison PA, TM Bryan and DA Swanson. 2004. "Internal migration and short-distance mobility," in Siegel, JS and DA Swanson (eds). The Methods and Materials of Demography. San Diego: Elsevier pp. 493-521.

Potrykowska A. 1988. "Age patterns and model migration schedules in Poland", Geographia Polonica 54:63-80.

Press WH, BP Flannery, SA Teukolsky and WT Vetterling. 1986. Numerical Recipes: The Art of Scientific Computing. Cambridge: Cambridge University Press.

R Development Core Team. 2012. R: A language and environment for statistical computing: Reference Index. Vienna, Austria: R Foundation for Statistical Computing. http://www.mendeley.com/research/r-language-environment-statistical-computing-13/ [34]

Raymer J and A Rogers. 2008. "Applying model migration schedules to represent age-specific migration flows," in Raymer, J and F Willekens (eds). International Migration in Europe: Data, Models and Estimates. Chichester: Wiley, pp. 175-192.

Rees PH. 1977. "The measurement of migration, from census data and other sources", Environment and Planning A 9(3):247-272. doi: http://dx.doi.org/10.1068/a090247 [35]

Rogers A and LJ Castro. 1981. Model Migration Schedules. Laxenburg, Austria: International Institute for Applied Systems Analysis. http://webarchive.iiasa.ac.at/Admin/PUB/Documents/RR-81-030.pdf [20]

Rogers A and LJ Castro. 1986. "Migration," in Rogers, A and F Willekens (eds). Migration and Settlement: A Multiregional Comparative Study. Dordrecht: D. Reidel, pp. 157-208.

Rogers A, LJ Castro and M Lea. 2005. "Model migration schedules: Three alternative linear parameter estimation methods", Mathematical Population Studies 12(1):17-38. doi: http://dx.doi.org/10.1080/08898480590902145 [36]

Rogers A and JS Little. 1994. "Parameterizing age patterns of demographic rates with the multiexponential model schedule", Mathematical Population Studies 4(3):175-195. doi: http://dx.doi.org/10.1080/08898489409525372 [37]

Rogers A, JS Little and J Raymer. 2010. The Indirect Estimation of Migration: Methods for Dealing with Irregular, Inadequate, and Missing Data. Dordrecht: Springer.

Rogers A and J Raymer. 1999. "Estimating the regional migration patterns of the foreign-born population in the United States: 1950-1990", Mathematical Population Studies 7(3):181-216. doi: http://dx.doi.org/10.1080/08898489909525457 [38]

Rogers A and J Watkins. 1987. "General versus elderly interstate migration and population redistribution in the United States", Research on Aging 9(4):483-529. doi: http://dx.doi.org/10.1177/0164027587094002 [39]

Les modèles log-linéaires de flux migratoires

Auteur:

JS Little and J Raymer

Introduction aux applications des modèles

Le système de modèles log-linéaires offre plusieurs techniques intéressantes pour l’étude et l’estimation des flux migratoires dans le cadre d’un ensemble de régions. Jusqu’à présent, ces méthodes ont été le plus souvent appliquées à l’étude des migrations internes dans des groupes de régions définies comme unités administratives infranationales. Mais elles ne se limitent pas aux migrations internes, et on peut les appliquer également aux migrations internationales (Raymer 2007).

On définit un flux migratoire comme le nombre de migrations d’une région vers une autre observées sur une période déterminée. Il existe diverses manières de comptabiliser les migrations, et elles peuvent donner des résultats différents. Par exemple, Rees et Willekens (1986) font une distinction entre les registres de population, qui dénombrent les changements de résidence interrégionaux sur une période donnée, et les recensements, qui comptent les individus qui, à la date du recensement, vivent en un lieu différent de l’endroit où ils résidaient au début de la période d’observation.

Quelle que soit la méthode de mesure des flux migratoires, il est de tradition de les présenter sous forme de tableaux de contingence. Ce sont des tableaux carrés où sont consignés les nombres de déplacements entre régions d’origine et régions de destination. Les flux d’une telle matrice de migrations peuvent être parfaitement reproduits par le modèle à composantes multiplicatives, qui est un modèle log-linéaire saturé (c’est-à-dire où il y a autant de paramètres estimés que de points de données). Il a été utilisé par Willekens (1983), Rogers, Willekens, Little et al. (2002) et Rogers, Little et Raymer (2010) pour représenter la matrice des flux entre régions, et par Raymer et Rogers (2007), Raymer, Bonaguidi et Valentini (2006) et Rogers, Little et Raymer (2010) pour modéliser la structure des flux interrégionaux par groupes d’âge. Les composantes multiplicatives sont susceptibles d’interprétation et facilement utilisables pour décrire le régime des migrations entre les régions étudiées (Rogers, Willekens, Little et al. 2002). Si on les a calculées pour plusieurs séries de flux interrégionaux, relatives, par exemple, à des périodes différentes ou à des sous-populations différentes définies par l’âge, le sexe ou la race, les composantes multiplicatives peuvent servir à comparer les régimes de migration de ces diverses populations.

On peut utiliser les méthodes log-linéaires pour justifier des représentations simplifiées des régimes de migration, qui sont moins lourdes que le modèle saturé. La pertinence d’un modèle restreint est déterminée par l’adéquation entre les flux calculés et les flux observés et par le recours aux méthodes statistiques d’évaluation de la qualité d’ajustement. Si le modèle restreint convient, c’est-à-dire s’il s’ajuste bien aux données, on peut l’utiliser pour une estimation indirecte des flux. Le modèle d’indépendance, par exemple, repose sur l’hypothèse que les flux interrégionaux sont distribués conformément à la répartition qui aurait pu être prédite sur la base des distributions marginales des flux par régions d’origine et de destination. Si le modèle d’indépendance est validé, on peut prédire les flux interrégionaux et les estimer indirectement, mais avec précision, si les flux totaux d’entrée et de sortie de chacune des régions sont connus.

Parfois, on fait l’hypothèse que la structure des migrations est invariante par rapport aux facteurs tels que le temps, l’âge, le sexe et la race. Ces hypothèses peuvent être traduites et testées par des modèles log-linéaires. Portant sur des niveaux de migration différents, plusieurs recherches ont montré la remarquable stabilité des régimes de migration, en particulier les taux par âge, en fonction du temps (Mueser 1989 ; Nair 1985 ; Snickars et Weibull 1977). D’autres travaux ont montré la cohérence des structures par âge des migrations interrégionales au cours du temps (Raymer et Rogers 2007). En outre, la courbe de migration par âge des groupes les plus jeunes, que l’on peut élaborer à partir des effectifs par lieu de naissance, s’est révélée, dans certains cas, être un « proxy » du niveau de migration et a permis d’évaluer la migration des groupes les plus âgés (Raymer et Rogers 2007 ; Rogers, Little et Raymer 2010).

Tous ces travaux ont préparé le terrain pour l’élaboration de la méthode des offsets en tant qu’excellent outil d’estimation indirecte des flux migratoires. C’est une application particulière de la modélisation log-linéaire, qui plaque une structure de migration connue sur une série de flux migratoires interrégionaux qui peut comporter des lacunes ou des valeurs douteuses. Avec cette méthode, le schéma de migration connu d’une certaine période peut être adapté de celui d’une autre période. De plus, quand les flux sont répartis par âge, on peut appliquer la structure des flux interrégionaux par âge d’une période à une autre période. Enfin, Raymer et Rogers (2007) ont montré que le niveau de la migration des petits enfants peut être utilisé, avec la méthode des offsets, pour évaluer indirectement les flux migratoires des personnes âgées.

Diverses applications des modèles log-linéaires, avec les hypothèses correspondantes, sont détaillées dans les sections qui suivent, en commençant par le cas à deux variables, c’est-à-dire l’analyse des flux par origine et destination. Dans cette section, ayant défini le modèle log-linéaire dans le cadre de matrices de flux à deux dimensions, nous calculerons et nous interpréterons les formes multiplicative et additive du modèle saturé. Le modèle log-linéaire d’indépendance et le modèle de quasi-indépendance « limité aux migrants » seront exposés, avec quelques illustrations et une brève description des méthodes d’évaluation de la qualité d’ajustement.

Cette section s’achèvera sur une illustration de l’emploi de la méthode des offsets pour estimer indirectement les flux interrégionaux d’une période à partir de la structure de ceux d’une autre période. Si on dispose des flux migratoires de deux périodes différentes, on peut tester l’hypothèse d’invariance par rapport au temps avec un modèle log-linéaire et la méthode des offsets. Nous examinerons les modèles qui répartissent les flux d’origine et de destination par groupes d’âge. Nous terminerons par une illustration de la manière dont le modèle multiplicatif prenant en compte l’âge peut, en association avec la méthode des offsets, servir à l’estimation indirecte des flux interrégionaux par âge d’une autre période.

Applications du modèle à deux variables

Pour illustrer le modèle log-linéaire à deux variables, nous considérons les migrations, observées en 1973 et en 1976, entre communes néerlandaises groupées en six catégories selon leur degré d’urbanisation. Les données, publiées par Willekens (1983), sont présentées dans le tableau 1. Dans cet exemple, il y a deux variables, la région d’origine (O) et la région de destination (D). Aucune d’elles n’est désignée comme la variable dépendante. Le résultat peut prendre la forme des flux migratoires interrégionaux, notés n_ij, dans la variante multiplicative du modèle, ou celle des logarithmes naturels des flux, notés ln(n_ij), dans la variante additive.

Les décompositions du modèle saturé, reproduisant chacune parfaitement les données observées, sont décrites dans les sous-sections présentant le modèle à composantes multiplicatives et le modèle additif linéaire, et trois techniques d’estimation indirecte sont illustrées dans les trois sous-sections suivantes, consacrées au modèle d’indépendance, au modèle de quasi-indépendance et à la méthode des offsets.

Tableau 1 Migrations entre communes selon le degré d’urbanisation*, Pays-Bas, 1973 et 1976

A. Migrations 1973
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	50 498	23 829	8 566	21 846	16 264	18 856	139 859
2	25 005	27 536	6 953	14 326	16 212	18 282	108 314
3	15 675	10 710	13 874	6 266	9 819	19 701	76 045
4	23 457	14 169	4 431	10 209	9 386	10 973	72 625
5	29 548	25 267	11 802	13 160	15 979	20 406	116 162
6	46 815	39 123	42 399	25 012	26 830	23 304	203 483
Total	190 998	140 634	88 025	90 819	94 490	111 522	716 488

B. Migrations 1976
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	14 473	14 327	6 077	11 689	10 618	9 897	67 081
2	14 833	36 258	13 289	17 391	20 899	21 869	124 539
3	8 330	17 764	25 113	10 489	18 171	29 220	109 087
4	11 315	16 498	8 935	10 537	10 762	12 519	70 566
5	11 875	24 370	19 151	12 312	16 724	22 591	107 023
6	16 582	32 336	52 415	22 264	28 182	27 810	179 589
Total	77 408	141 553	124 980	84 682	105 356	123 906	657 885
*1 : communes purement rurales 2 : communes rurales industrielles 3 : communes de résidence des navetteurs 4 : villes à caractère rural et petites villes 5 : villes moyennes 6 : grandes villes (plus de 100 000 habitants) Source : Bureau central des statistiques, La Haye.

Application 1 : Le modèle à composantes multiplicatives

La forme multiplicative du modèle log-linéaire saturé, dite modèle à composantes multiplicatives, reproduit les éléments de la matrice des flux de la manière suivante :

n_{i j} = (T) (O_{i}) (D_{j}) (O D_{i j}) .

Equation 1

Comme tous les modèles saturés, ce n’est pas, à proprement parler, un modèle, mais une manière de représenter les données. n_ij est le flux observé de la région i vers la région j, et les paramètres mesurant l’effet des facteurs intervenants sont T, O_i, D_j et OD_ij. Ainsi, chaque flux de i vers j, occupant une cellule dans les matrice 6 × 6 du tableau 1 (hors marges), peut être représenté par une équation de la même forme que l’équation 1, avec la série de paramètres correspondante. T représente l’effet global de l’ensemble des facteurs intervenants, O_i l’effet de la région d’origine, D_j celui de la région de destination, et OD_ij l’effet de l’interaction entre O_i et D_j. Pris tous ensemble, les paramètres du modèle saturé représentent la structure spatiale de la migration (Rogers, Willekens, Little et al. 2002).

Deux séries différentes de paramètres satisfaisant le modèle à composantes multiplicatives ont été utilisées dans les recherches sur la migration. Nous les présentons toutes les deux ici. Chacune offre une manière différente de représenter et d’interpréter le régime de migration. On appelle la première « calcul des effets des facteurs sur la base de la moyenne géométrique » (en anglais : geometric mean effect coding) (Knoke et Burke 1980 ; Willekens 1983), et la seconde « calcul des effets des facteurs sur la base du total général » (en anglais : total sum reference coding) (Raymer et Rogers 2007 ; Rogers, Little et Raymer 2010). Un troisième modèle à composantes multiplicatives est développé dans la sous-section consacrée au modèle log-linéaire additif.

Application 2 : Calcul des effets des facteurs sur la base de la moyenne géométrique

Le calcul des effets des facteurs sur la base de la moyenne géométrique a été la première décomposition de l’équation 1 utilisée dans l’analyse des migrations. Proposé par Birch (1963), il est, par sa forme, équivalent au modèle de gravitation (Willekens 1983). Le tableau 2 présente les composantes multiplicatives résultant de l’application du calcul des effets des facteurs sur la base de la moyenne géométrique aux données néerlandaises du tableau 1. Notons que la composante globale (T) se trouve dans les totaux généraux du tableau, les composantes de la région d’origine (O_i) dans les totaux de lignes, les composantes de la région de destination (D_j) dans les totaux de colonnes, et les composantes de l’interaction origine-destination (OD_ij) dans les cellules intérieures des deux matrices (hors marges).

Tableau 2 Composantes multiplicatives obtenues par application du calcul des effets des facteurs sur la base de la moyenne géométrique

A. Migrations 1973
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	1,457	0,940	0,656	1,352	0,933	0,882	1,180
2	0,885	1,332	0,653	1,087	1,140	1,048	0,962
3	0,771	0,720	1,811	0,661	0,959	1,570	0,692
4	1,275	1,052	0,639	1,190	1,014	0,966	0,627
5	0,943	1,102	1,000	0,901	1,013	1,055	1,067
6	0,838	0,957	2,015	0,960	0,954	0,676	1,903
Total	1,711	1,252	0,644	0,798	0,861	1,056	17 168,003

B. Migrations 1976
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	1,753	0,984	0,571	1,317	0,979	0,787	0,656
2	0,986	1,366	0,686	1,075	1,057	0,954	1,195
3	0,655	0,792	1,533	0,767	1,088	1,508	1,010
4	1,277	1,055	0,783	1,106	0,925	0,927	0,704
5	0,900	1,047	1,127	0,868	0,965	1,124	1,048
6	0,769	0,850	1,888	0,960	0,995	0,847	1,712
Total	0,768	1,354	0,989	0,825	1,008	1,169	16 401,919

L’effet global, T, est décrit comme la constante de proportionnalité ou l’effet principal de la taille (Willekens 1983). C’est la moyenne géométrique de tous les flux interrégionaux :

T = {[\underset{i j}{\prod^{​}} n {}_{i j}]}^{(\frac{1}{m \times m})},

où m est le nombre de régions d’origine (lignes), égal au nombre de régions de destination (colonnes). T est égal à 17 168,003 en 1973 et à 16 401,919 en 1976.

Pour une région déterminée i, l’effet principal de cette région d’origine est le rapport de la moyenne géométrique des flux partant de i à la moyenne géométrique générale.

O_{i} = \frac{1}{T} {[\underset{j}{\prod^{​}} n {}_{i j}]}^{\frac{1}{m}} .

L’effet principal O_i mesure l’importance relative de la région i comme source de migrations (Alonso 1986). Par exemple, selon les données de 1973, l’effet de région d’origine des communes de la 4^e catégorie est égal à :

O_{4} = \frac{1}{17 168, 003} {[23 457 \times 14 169 \times 4 431 \times 10 209 \times 9 386 \times 10 973]}^{\frac{1}{6}} = 0, 627 .

C’est le plus faible des effets de région d’origine (lignes), ce qui signifie que la 4^e catégorie était la moins importante des sources de migrations en 1973.

De même, l’effet principal de la région de destination, D_j, mesure l’importance relative de la région j comme destination des migrants. C’est le rapport de la moyenne géométrique de la colonne j à la moyenne géométrique générale, et sa formule est :

​ D_{j} = \frac{1}{T} {[\prod_{i} n {}_{i j}]}^{\frac{1}{m}} ​ .

Par exemple, pour les communes de la 4^e catégorie, l’effet de région de destination en 1973 est égal à :

D_{4} = \frac{1}{17 168, 003} {[21 846 \times 14 326 \times 6 266 \times 10 209 \times 13 160 \times 25 012]}^{\frac{1}{6}} = 0, 798 .

Tous les autres effets, en ligne comme en colonne, se calculent de la même manière. Chaque effet est égal au rapport de la moyenne géométrique des éléments d’une ligne (ou d’une colonne) à la moyenne géométrique générale. Ils sont l’équivalent des facteurs d’équilibre du modèle de gravitation (Willekens 1983).

On peut comparer ces effets entre régions et entre périodes. Par exemple, la 6^e catégorie était la plus importante source de migrations en 1973 (1,903 est supérieur à tous les autres effets de région d’origine) et en 1976 (1,712 est supérieur à tous les autres effets de région d’origine). La 1^re catégorie était moins importante comme destination des migrations en 1976 qu’en 1973 (0,768 est inférieur à 1,711), et, en 1973, elle était moins importante comme origine que comme destination (1,180 est inférieur à 1,711).

Les cadres A et B du tableau 2 sont parfois appelés matrices d’interaction spatiale. Ils contiennent les effets d’interaction OD_ij de l’équation 1, et chaque effet est égal au rapport du flux observé entre i et j au flux calculé, qui est le produit des trois autres paramètres. La formule est :

O D_{i j} = \frac{n_{i j}}{(T) (O_{i}) (D_{j})} .

Chaque OD_ij exprime l’écart entre le flux observé, n_ij, et le flux calculé sous l’hypothèse d’indépendance entre région de destination j et région d’origine i, c’est-à-dire (T)(O_i)(D_j). On interprète ces coefficients comme des indicateurs d’accessibilité, ou de facilité d’interaction ou d’attractivité entre deux régions (Rogers, Willekens, Little et al. 2002).

Des valeurs égales à 1,0 signifient l’indépendance, c’est-à-dire l’absence d’association entre origine et destination. Selon l’équation 1, si un coefficient OD_ij vaut 1,0, n_ij est déterminé uniquement par les valeurs de T, O_i et D_j. Un écart par rapport 1,0 dans n’importe quel sens est le signe d’une association entre origine et destination. Des valeurs supérieures à 1,0 représentent des niveaux d’accessibilité/attractivité supérieurs aux attentes, et des valeurs inférieures à 1,0 représentent des niveaux d’accessibilité/attractivité inférieurs aux attentes.

Comme les effets de la diagonale de 1973 sont généralement supérieurs à 1,0, il semble que, de manière imprévue, les migrants aient été attirés par des destinations appartenant à la même catégorie que leurs communes d’origine. La 6^e catégorie fait exception : les migrants originaires de grandes villes de plus de 100 000 habitants étaient plus attirés par des communes de navetteurs (3^e catégorie) que par d’autres grandes villes (2,015 est supérieur à 0,676).

Le tableau 2 présente tous les paramètres dont on a besoin pour reproduire les flux de 1973 et de 1976. Pour vérifier que n’importe quel flux du tableau 1 peut être reproduit par les composantes multiplicatives, prenons, par exemple, le flux de la 2^e catégorie vers la 3^e en 1973 :

n_{2, 3} = 6 953 = 17 168, 003 \times 0, 962 \times 0, 644 \times 0, 653 .

Les valeurs des paramètres ne sont pas toutes indépendantes les unes des autres. En d’autres termes, les valeurs de certains paramètres peuvent être déduites de celles des autres. Pour une année d’observation et pour toutes les combinaisons de i et de j, il y a 36 effets d’interaction, 6 effets principaux de la région d’origine et 6 de la région de destination, ainsi qu’un effet général, comme on le voit dans le tableau 2. Mais ces 49 paramètres, pour chaque année, ont été établis à partir de 36 flux observés seulement, ce qui veut dire que 13 paramètres sont redondants. Autrement dit, 13 des 49 paramètres peuvent être déduits des 36 autres, et la relation entre les paramètres est déterminée par les contraintes suivantes associées au calcul des effets des facteurs sur la base de la moyenne géométrique. La première série de contraintes oblige les produits des effets principaux de la région d’origine (et ceux de la région de destination) à être égaux à 1. Ce qui s’écrit :

​ \prod_{i} O {}_{i}= 1 ​ et ​ \prod_{j} D {}_{j}= 1 ​ .

La deuxième série de contraintes concerne les éléments d’interaction de chaque ligne et de chaque colonne : les produits des éléments intérieurs de chaque ligne (et de chaque colonne) doivent être égaux à 1. En d’autres termes, si cinq des effets d’interaction associés à une région d’origine (ou de destination) sont connus, le sixième s’en déduit automatiquement. Ceci s’écrit :

​ \prod_{i} O {}_{i j}= 1 ​ et ​ \prod_{j} D {}_{i j}= 1 ​ .

En général, s’il y a m régions, il y a m² paramètres linéairement indépendants et 1+m+m+(m×m) composantes multiplicatives. Pour l’ensemble des calculs des effets des facteurs sur la base de la moyenne géométrique, voir le tableau 2 de la feuille de calcul Multiplicative Components du manuel d’exercices en ligne.

Application 3 : Calcul des effets des facteurs sur la base du total général

Le calcul des effets des facteurs sur la base de la moyenne géométrique, qui utilise la moyenne géométrique comme valeur de référence, est le plus ancien mode de décomposition employé pour décrire la migration (Rogers, Willekens, Little et al. 2002 ; Willekens 1983). Mais récemment, le calcul des effets des facteurs sur la base du total général est devenu plus populaire (Raymer et Rogers 2007 ; Rogers, Little et Raymer 2010). Les deux types de décomposition satisfont l’équation 1, mais le calcul des effets des facteurs sur la base du total général est plus transparent. Par exemple, l’effet global T est maintenant le nombre total de migrants, noté n₊₊, O_i est la proportion de l’ensemble des migrants qui sortent de la région i (soit n_i+/n₊₊), et D_j est la proportion de tous les migrants qui entrent dans la région j (soit n_+j/n₊₊). La composante d’interaction, OD_ij, est maintenant définie comme n_ij/[(T)(O_i)(D_j)], soit le rapport du nombre observé de migrants, n_ij, au nombre calculé, (T)(O_i)(D_j). Tous ces effets pris ensemble constituent une autre manière de représenter la structure spatiale des migrations.

Les composantes multiplicatives obtenues par le calcul des effets des facteurs sur la base du total général sont présentées dans le tableau 3. Considérons, par exemple, la décomposition des 8 566 migrations des communes de la 1^re catégorie vers celles de la 3^e en 1973 selon les quatre composantes multiplicatives :

\begin{array}{l} n_{13} = (T) (O_{1}) (D_{3}) (O D_{13}) \\ = n_{+ +} (\frac{n_{1 +}}{n_{+ +}}) (\frac{n_{+ 3}}{n_{+ +}}) [\frac{n_{13}}{(n_{+ +}) (\frac{n_{1 +}}{n_{+ +}}) (\frac{n_{+ 3}}{n_{+ +}})}] \\ = (716 488) (\frac{139 859}{716 488}) (\frac{88 025}{716 488}) (\frac{8 566}{17 183}) \\ = 716 488 (0, 102) (0, 190) (0, 477) \\ = 8 566 . \end{array}

Les interprétations de ces composantes sont relativement évidentes. La composante globale est le nombre total de migrations constatées en 1973, soit 716 488. La composante de la région d’origine représente la proportion du total des migrants sortant de chaque région (par exemple, 10 % de toutes les migrations sont des sorties de communes de la 1^re catégorie). La composante de la région de destination représente la proportion du total des migrants entrant dans chaque région (par exemple, 19 % de toutes les migrations sont des entrées dans des communes de la 3^e catégorie). Finalement, la composante d’interaction représente le rapport du nombre de migrants observés au nombre de migrants attendus ; il y a eu ainsi, en gros, 48 migrations observées entre les régions 1 et 3 pour 100 attendues. Le flux attendu est basé sur le total marginal, (T)(O₁)(D₃).

Tableau 3 Composantes multiplicatives obtenues par application du calcul des effets des facteurs sur la base du total général

A. Migrations 1973
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	1,354	0,868	0,499	1,232	0,882	0,866	0,195
2	0,866	1,295	0,523	1,043	1,135	1,084	0,151
3	0,773	0,718	1,485	0,650	0,979	1,664	0,106
4	1,212	0,994	0,497	1,109	0,980	0,971	0,101
5	0,954	1,108	0,827	0,894	1,043	1,129	0,162
6	0,863	0,980	1,696	0,970	1,000	0,736	0,284
Total	0,267	0,196	0,123	0,127	0,132	0,156	716 488

B. Migrations 1976
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	1,834	0,993	0,477	1,354	0,988	0,783	0,102
2	1,012	1,353	0,562	1,085	1,048	0,932	0,189
3	0,649	0,757	1,212	0,747	1,040	1,422	0,166
4	1,363	1,087	0,667	1,160	0,952	0,942	0,107
5	0,943	1,058	0,942	0,894	0,976	1,121	0,163
6	0,785	0,837	1,536	0,963	0,980	0,822	0,273
Total	0,118	0,215	0,190	0,129	0,160	0,188	657 885

Comme dans le cas du calcul des effets des facteurs sur la base de la moyenne géométrique, la décomposition obtenue par le calcul des effets des facteurs sur la base du total général donne plus de paramètres que de points de données originaux. Les contraintes qui définissent les relations entre les paramètres, et ainsi permettent le calcul des paramètres redondants, sont les suivantes :

\begin{array}{l} ​ \sum_{i} O_{i} = 1 ​; ​ \sum_{j} D_{j} = 1 ​; ​ \\ \frac{\sum_{i} O_{i} \sum_{j} O D_{i j}^{}}{m} = 1 ​, et \\ ​ \frac{\sum_{j} O_{i} \sum_{i} O D_{i j}^{}}{m} = 1 ​ . \end{array}

où m est le nombre de régions (Raymer, Bonaguidi et Valentini 2006).

Pour l’ensemble des calculs des effets des facteurs sur la base du total général, voir le tableau 3 de la feuille de calcul Multiplicative Components du manuel d’exercices en ligne.

Comparaison des deux modèles à composantes multiplicatives

Si on applique le même mode de décomposition à deux séries de flux migratoires dans un ensemble de régions, tous les paramètres sauf T sont des nombres sans dimension. Cela signifie que mesurer le rapport entre deux séries de composantes fournit une méthode simple d’évaluation de la stabilité du régime de migration indépendamment de l’élévation ou de la diminution du niveau général de la migration (Rogers, Willekens, Little et al. 2002). Le tableau 4 présente les rapports des composantes de 1976 à celles de 1973. Plusieurs s’écartent sensiblement de 1, ce qui indique que le régime de migration a changé en trois ans, de 1973 à 1976. Par exemple, le rapport des composantes pour OD₁₁ est égal à 1,354, ce qui signifie que la migration entre communes de la 1^re catégorie était plus attractive en 1976 qu’en 1973. Par contre, le rapport des composantes pour OD₃₃ est égal à 0,816, c’est-à-dire que la migration entre communes de la 3^e catégorie était moins attractive en 1976 qu’en 1973.

Tableau 4 Rapports entre les composantes multiplicatives de 1976 et celles de 1973

Origine	Destination
Origine	1	2	3	4	5	6	Total
1	1,354	1,144	0,957	1,099	1,121	0,904	0,522
2	1,169	1,045	1,075	1,040	0,923	0,860	1,252
3	0,839	1,055	0,816	1,149	1,062	0,854	1,562
4	1,125	1,093	1,342	1,046	0,972	0,970	1,058
5	0,988	0,955	1,139	1,000	0,936	0,993	1,003
6	0,909	0,854	0,906	0,993	0,980	1,117	0,961
Total	0,441	1,096	1,546	1,015	1,214	1,210	0,918

Application 4 : Le modèle log-linéaire additif

À côté du modèle à composantes multiplicatives, une forme alternative du modèle log-linéaire saturé est le modèle linéaire additif. Que l’on utilise la forme additive ou la forme multiplicative, les paramètres représentent la structure spatiale de la migration (Rogers, Willekens, Little et al. 2002), et la valeur de chaque flux peut être parfaitement reproduite par ces paramètres.

Étant donné que le modèle multiplicatif est, dans la forme, équivalent au modèle de gravitation (Willekens 1983), on le considère comme plus adéquat que le modèle linéaire additif pour la représentation des structures spatiales de la migration. D’un autre côté, la forme linéaire additive est beaucoup utilisée en statistique, et quand on emploie un logiciel statistique classique (par exemple SPSS, Stata, R) pour calculer un modèle log-linéaire, on obtient toujours les paramètres de la forme linéaire additive. C’est pourquoi nous présentons dans cette sous-section les calculs et interprétations habituels des paramètres du modèle linéaire additif.

Le modèle additif est une combinaison linéaire de logarithmes, ce qui justifie son appellation de modèle log-linéaire (Knoke et Burke 1980). Mathématiquement équivalent au modèle à composantes multiplicatives, il consiste à prendre les logarithmes des deux membres de l’équation 1 :

\ln (n_{i j}) = \ln (T) + \ln (O_{i}) + \ln (D_{j}) + \ln (O D_{i j})

ou, sous une forme plus condensée :

\ln (n_{i j}) = λ + λ_{i}^{O} + λ_{j}^{D} + λ_{i j}^{O D} .

Equation 2

Les

λ

sont simplement les logarithmes naturels des paramètres de l’équation 1. Les lettres O, D et OD servent à distinguer les paramètres (ce ne sont pas des exposants), et les indices i et j renvoient respectivement aux catégories des régions d’origine et de destination.

En prenant les logarithmes naturels des paramètres des tableaux 2 et 3, on obtiendrait les séries correspondantes de paramètres du modèle linéaire additif. Mais, tout comme il y a au moins deux décompositions du modèle à composantes multiplicatives, le calcul des effets des facteurs sur la base de la moyenne géométrique et le calcul des effets des facteurs sur la base du total général, il y a plusieurs stratégies pour parvenir à des séries de paramètres qui satisfont le modèle linéaire additif (Powers et Xie 2008), et les approches retenues par les logiciels statistiques classiques ne sont pas simplement les transformations logarithmiques des composantes multiplicatives calculées précédemment.

Rappelons-nous qu’un système de migration à m régions a m×m paramètres linéairement indépendants. Les modèles à composantes multiplicatives décrits plus haut donnent des valeurs interprétables de 1+m+m+(m×m) paramètres, mais qui ne sont pas tous linéairement indépendants les uns des autres. Par ailleurs, les procédures statistiques de SPSS, Stata et R calculent uniquement des paramètres linéairement indépendants, soit 1 valeur pour

​ λ_{}^{T} ​

, m–1 valeurs pour

​ λ_{i}^{O} ​

, m-1 valeurs pour

​ λ_{j}^{D} ​

, et
(m-1) ×(m-1) valeurs pour

​ λ_{i j}^{O D} ​ .

La série de valeurs calculées des paramètres dépend du mode de codage de contraste (en anglais : contrast coding) utilisé par le logiciel. Le codage de contraste fige une région en donnant à tous ses paramètres linéaires additifs la valeur 0. SPSS, par exemple, annule les paramètres de la dernière région, numérotée m, ici :

​ λ_{m}^{O} = λ_{m}^{D} = λ_{m j}^{O D} = λ_{i m}^{O D} = 0 ​ .

Les paramètres obtenus par SPSS à partir des données néerlandaises sont détaillés dans le tableau 5. Les instructions de SPSS qui conduisent à ces résultats pour la matrice de migrations de 1973, ainsi que la sortie SPSS, sont présentées dans l’Appendice 1 (en ligne sur le site web de Tools for Demographic Estimation). Le tableau 5 et les formules Excel de calcul des paramètres sont disponibles sur la feuille de calcul Contrast coding du manuel d’exercices en ligne.

Tableau 5 Paramètres linéaires additifs obtenus par codage de contraste de la « dernière région »

A. Migrations 1973
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	0,288	-0,284	-1,388	0,076	-0,289	0,000	-0,212
2	-0,384	-0,109	-1,565	-0,315	-0,261	0,000	-0,243
3	-0,926	-1,128	-0,949	-1,216	-0,837	0,000	-0,168
4	0,062	-0,262	-1,505	-0,143	-0,297	0,000	-0,753
5	-0,327	-0,304	-1,146	-0,509	-0,385	0,000	-0,133
6	0,000	0,000	0,000	0,000	0,000	0,000	0,000
Total	0,698	0,518	0,598	0,071	0,141	0,000	10,056

B. Migrations 1976
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	0,897	0,219	-1,122	0,389	0,057	0,000	-1,033
2	0,129	0,355	-1,132	-0,007	-0,059	0,000	-0,240
3	-0,738	-0,648	-0,785	-0,802	-0,488	0,000	0,049
4	0,416	0,125	-0,971	0,050	-0,165	0,000	-0,798
5	-0,126	-0,075	-0,799	-0,385	-0,314	0,000	-0,208
6	0,000	0,000	0,000	0,000	0,000	0,000	0,000
Total	-0,517	0,151	0,634	-0,222	0,013	0,000	10,233

Les paramètres de la dernière région sont tous égaux à 0, et donc n’apportent rien à l’équation 2. L’interprétation des paramètres du tableau 5 est un peu compliquée, car ils sont exprimés en logarithmes. Les retransformer en composantes multiplicatives par exponentiation donne une nouvelle série de composantes multiplicatives qui satisfont l’équation 1. Ces composantes multiplicatives associées au codage de contraste de la « dernière région » figurent dans le tableau 6. En général, elles ne servent pas à décrire la structure spatiale des migrations, mais elles ont leur utilité pour la description des systèmes de migration, car les paramètres d’interaction, OD_ij, sont assimilables à des odds ratios.

Tableau 6 Composantes multiplicatives obtenues par codage de contraste de la « dernière région »

A. Migrations 1973
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	1,333	0,753	0,250	1,079	0,749	1,000	0,809
2	0,681	0,897	0,209	0,730	0,770	1,000	0,785
3	0,396	0,324	0,387	0,296	0,433	1,000	0,845
4	1,064	0,769	0,222	0,867	0,743	1,000	0,471
5	0,721	0,738	0,318	0,601	0,680	1,000	0,876
6	1,000	1,000	1,000	1,000	1,000	1,000	1,000
Total	2,009	1,678	1,819	1,073	1,151	1,000	23 304

B. Migrations 1976
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	2,453	1,245	0,326	1,475	1,059	1,000	0,356
2	1,138	1,426	0,322	0,993	0,943	1,000	0,786
3	0,478	0,523	0,456	0,448	0,614	1,000	1,051
4	1,516	1,133	0,379	1,051	0,848	1,000	0,450
5	0,882	0,928	0,450	0,681	0,731	1,000	0,812
6	1,000	1,000	1,000	1,000	1,000	1,000	1,000
Total	0,596	1,163	1,885	0,801	1,013	1,000	27 810

Par exemple, le paramètre global

​ λ_{}^{T} ​

pour les migrations de 1973 du tableau 5 donne le logarithme naturel des migrations observées de la région de référence :

ln(n₆₆) = 10,056, et à partir du tableau 6, le paramètre correspondant T donne le flux migratoire n₆₆ :
- n₆₆ = exp(10,056) = 23 304.

Un autre exemple concernant les migrations de 1973 du tableau 5 montre comment les effets principaux des régions d’origine,

​ λ_{i}^{O} ​

, s’ajoutent au paramètre global pour reproduire les migrations des communes de 1^re catégorie vers celles de la catégorie de référence, la 6^e, du tableau 1. Par exemple :

ln(n₁₆) = 10,056 – 0,212 = 9,845, et la composante multiplicative correspondante, O₁ multipliée par le T du tableau 6 donne :
- n₁₆ = 27 810 × 0,356 = 18 856.

Avec la même approche, on peut reproduire les logarithmes de tous les flux migratoires en appliquant l’équation 1, avec les paramètres appropriés du tableau 6, ou reproduire les flux observés en appliquant l’équation 2 avec les paramètres du tableau 5.

Les paramètres d’interaction du modèle linéaire,

​ λ_{i j}^{O D} ​

, sont des logarithmes d’odds ratios (LOR) : un LOR est le logarithme du rapport de deux cotes (odds) : (1) la cote de la migration vers la région j par rapport à la migration vers la région de référence, sous la condition que la région d’origine soit la région i, et (2) la cote de la migration vers la région j par rapport à la migration vers la région de référence, sous la condition que la région d’origine soit la région de référence. Par exemple, à partir de la matrice de 1973 du tableau 5,

​ λ_{23}^{O D} ​

= –1,565, calculé ainsi :

λ_{23}^{O D} = \ln [\frac{\frac{n_{23}}{n_{26}}}{\frac{n_{63}}{n_{66}}}] = \ln [\frac{\frac{6 953}{18 282}}{\frac{42 399}{23 304}}] = - 1, 565 .

Pour le dire avec des mots, ce paramètre est le logarithme du rapport entre la cote de la migration vers une commune de la 3^e catégorie plutôt que de la 6^e, pour un migrant sortant d’une commune de 2^e catégorie et cette même cote pour un migrant sortant d’une commune de la 6^e catégorie.

Les odds ratios mesurent la probabilité d’un événement comparativement à celle d’un autre événement. Comme ils sont plus classiques que les LOR, il peut être plus facile de passer à l’exponentielle des LOR et d’interpréter les paramètres d’interaction du tableau 6 comme des odds ratios. Par exemple, le paramètre OD₂₃, dans le cas des données de 1973, se calcule ainsi :

O D_{23} = \exp (- 1, 565) = [\frac{\frac{n_{23}}{n_{26}}}{\frac{n_{63}}{n_{66}}}] = 0, 209 .

En une phrase, les chances qu’un migrant sortant d’une commune de 2^e catégorie entre dans une commune de 3^e catégorie plutôt que dans une commune de 6^e catégorie valent approximativement 1/5 des chances qu’un migrant sortant d’une commune de 6^e catégorie opte pour une commune de 3^e catégorie plutôt que pour une commune de 6^e catégorie. Les odds ratios sont toujours positifs et dépendent toujours du choix de la catégorie de référence. Un odds ratio égal à 1 signifie l’absence de toute relation, c’est-à-dire l’indépendance statistique. Une valeur supérieure à 1 indique une association positive, et une valeur inférieure à 1 indique une association négative.

Stata et R utilisent le codage de contraste de la « première région », alors que SPSS emploie le codage de contraste de la « dernière région ». Dans ces deux logiciels, on donne la valeur 0 aux paramètres de la première région, celle à qui est affectée la première modalité, soit

​ λ_{1}^{O} = λ_{1}^{D} = λ_{1 j}^{O D} = λ_{i 1}^{O D} = 0 ​ .

Les instructions de Stata et de R pour le calcul des paramètres linéaires additifs, ainsi que les résultats correspondants, sur l’exemple des flux migratoires de 1973, peuvent être téléchargés à partir de l’Appendice 1 associé à ce chapitre (en ligne sur le site web de Tools for Demographic Estimation).

Toutes les variantes du modèle saturé et toutes les méthodes statistiques d’estimation des paramètres d’interaction sont concordantes, et leurs résultats sont très largement similaires. Les formules de calcul des paramètres sont disponibles dans la feuille de calcul Linear Additive Parameters du manuel d’exercices en ligne. De plus, SPSS et Stata vérifient automatiquement que chaque paramètre d’interaction linéaire additif est égal à 0. On trouvera ces résultats dans l’Appendice 1 associé à ce chapitre (en ligne sur le site web de Tools for Demographic Estimation), et ils montrent que chaque paramètre d’interaction non redondant est statistiquement significatif. Pour les variances des estimations, voir Agresti et Finlay (2009) et Powers et Xie (2008).

Application 5 : Le modèle d’indépendance

Tous les modèles vus jusqu’à présent sont des modèles saturés, et par conséquent, ils représentent parfaitement les flux observés. En général, les paramètres les plus intéressants sont les paramètres d’interaction, parce qu’ils indiquent les associations entre paires de régions. Le modèle d’indépendance, quant à lui, repose sur l’hypothèse que les paramètres d’interaction sont sans intérêt et superflus, parce que tous les paramètres d’interaction multiplicatifs, OD_ij, sont égaux à 1, ou, ce qui revient au même, tous les paramètres d’interaction additifs,

​ λ_{i j}^{O D} ​

, sont égaux à 0. Le modèle d’indépendance implique que les termes d’interaction doivent sortir du modèle, ce qui réduit celui-ci à la forme plus modeste d’un modèle à deux variables, soit

​ n_{i j} = (T) (O_{i}) (D_{j}) ​

ou

​ \ln (n_{i j}) = λ + λ_{i}^{O} + λ_{j}^{D} ​ .

L'examen visuel des paramètres d’interaction du modèle log-linéaire saturé est un moyen de tester l’hypothèse d’indépendance. Une autre méthode consiste à calculer les distributions conditionnelles de ligne ou de colonne. Si les distributions conditionnelles des lignes (origine) sont identiques, il y a indépendance entre régions d’origine et de destination. En outre, l’indépendance étant une propriété symétrique, si les distributions conditionnelles des lignes (origines) sont identiques, celles des colonnes (destinations) le sont également (Agresti et Finlay, 2009 ; Powers et Xie, 2008). Sur la feuille de calcul Independence du manuel d’exercices en ligne, on a calculé la répartition en pourcentage des migrations néerlandaises dans chaque colonne (destinations). Ces pourcentages de colonne sont très variés, et cela signifie, comme l’indiquent aussi les paramètres d’interaction, que l’indépendance statistique n’est pas vérifiée dans ce cas.

L’hypothèse d’indépendance implique que chaque flux interrégional puisse être déterminé à partir du volume des flux marginaux. Soit N_ij le flux attendu entre les régions i et j si l’hypothèse d’indépendance est vérifiée. N_ij est alors égal au total des flux du système de migration, n₊₊, multiplié par la proportion de l’ensemble des migrants qui sortent de la région i, n_i+/n₊₊, et par la proportion de l’ensemble des migrants qui entrent dans la région j, n_+j/n₊₊, soit N_ij = n₊₊(n_i+/n₊₊)(n_+j/n₊₊). Si on peut soutenir l’hypothèse d’indépendance, N_ij est une bonne estimation d’un flux interrégional, et le problème de l’estimation des flux migratoires interrégionaux s’en trouve réellement simplifié.

Les différences entre flux observés, n_ij, et flux attendus, N_ij, sont à la base de l’évaluation de la qualité d’ajustement et du chi-carré de Pearson,

χ^{2}

, largement utilisé pour résumer ces différences. Il se calcule par la formule :

χ^{2} = \sum^{​} \frac{{(n_{i j} - N_{i j})}^{2}}{N_{i j}} ​,

où la sommation porte sur toutes les cellules intérieures de la matrice de migration. Quand les flux observés et les flux attendus concordent parfaitement, dans toutes les cellules du tableau, le

χ^{2}

est égal à 0, ce qui signifie que le modèle d’indépendance s’ajuste parfaitement aux données observées. Plus l’écart entre n_ij et N_ij est important, plus la valeur du

χ^{2}

est élevée, et plus il est clair que le modèle d’indépendance ne convient pas. De manière générale, les faibles valeurs indiquent un bon ajustement et les valeurs élevées un ajustement médiocre.

Si l’hypothèse d’indépendance est vérifiée, le

χ^{2}

est déterminé par la distribution de probabilités du

χ^{2}

à (m–1)×(m–1) degrés de liberté. C’est sur la base de cette distribution que l’on teste la significativité du

χ^{2}

(Agresti 2007 ; Agresti et Finlay 2009). Si le

χ^{2}

se situe vers l’extrémité droite de sa distribution, cela signifie qu’il y a peu de chances (par exemple p < 0,05) que l’hypothèse d’indépendance soit vérifiée, et le modèle est alors rejeté. Les valeurs du

χ^{2}

associées au modèle d’indépendance appliqué aux données néerlandaises du tableau 1 ont été calculées dans la feuille de calcul Independence du manuel d’exercices en ligne. Pour les instructions SPSS, Stata et R permettant de tester le modèle d’indépendance avec les données de 1973, voir l’Appendice 2 (disponible sur le site web de Tools for Demographic Estimation).

La valeur du

χ^{2}

associée aux données de 1973 de notre exemple est 47 623, avec 25 degrés de liberté (df). La valeur de p correspondante est inférieure à 0,000, et l’hypothèse d’indépendance est rejetée. (Cependant, on trouvera plus loin des commentaires sur les limites de ce test quand on a affaire à un grand échantillon.) Cela ne doit pas surprendre, vu les trois décompositions multiplicatives des données néerlandaises présentées dans les tableaux 2, 3 et 6. Les données montrent de façon constante de fortes associations entre régions, et beaucoup de paramètres d’interaction multiplicatifs sont très différents de 1. De plus, les variances fournies par SPSS et Stata, présentées dans l’Appendice 1 (disponible sur le site web de Tools for Demographic Estimation), indiquent que les paramètres d’interaction linéaires additifs sont nettement différents de 0.

Une alternative au

χ^{2}

est le rapport de vraisemblance, ou déviation, ou coefficient G². Ce sont des appellations différentes du même test, et le choix de l’une ou l’autre dépend des préférences des auteurs de manuels et des concepteurs de logiciels. Par simplicité, nous emploierons ici G². Le G² est similaire au

χ^{2}

en ce que des valeurs proches de zéro indiquent un bon ajustement du modèle, et des valeurs élevées un ajustement médiocre. Si l’hypothèse du modèle d’indépendance est valable, le G² a une distribution du type de celle du

χ^{2}

.

L’utilité du G² dépasse largement le test du modèle d’indépendance dans une analyse log-linéaire. Il sert souvent à comparer un modèle simple à un modèle plus complexe. Il se calcule à partir du rapport entre deux probabilités : (1) la probabilité que le modèle contraint (ici le modèle d’indépendance) s’ajuste bien aux données, et (2) la probabilité que le modèle non contraint (ici le modèle saturé) s’ajuste bien aux données. Si ce rapport est proche de 1, on préférera le modèle contraint, plus simple et plus parcimonieux, car il représente les données aussi bien que le modèle plus complexe.

Le rapport de ces deux probabilités n’a pas de distribution de type

χ^{2}

. Mais, si le rapport est transformé en logarithme naturel et multiplié par -2, il devient G², variable qui a une distribution de type

χ^{2}

avec (m–1)×(m–1) degrés de liberté. Si on appelle L_c la probabilité associée au modèle contraint (le modèle d’indépendance) et L_u la probabilité associée au modèle non contraint (le modèle saturé), G² se calcule comme suit :

​ G^{2} = - 2 \ln (\frac{L_{c}}{L_{u}}) = - 2 \ln L_{c} + 2 \ln L_{u} ​ .

Puisque le modèle saturé s’ajuste parfaitement aux données (c’est-à-dire que L_u = 1), G²= –2ln L_c. Ses valeurs, selon l’exemple traité et le logiciel choisi, se trouvent dans l’Appendice 2 (voir le site web). Pour SPSS et Stata, il s’appelle « Deviance » et vaut 46 477,63 ; pour R, il s’appelle « Residual Deviance » et est arrondi à 46 480. Avec 25 degrés de liberté, la probabilité que le modèle d’indépendance convienne est bien égale à 0.

Les paramètres

χ^{2}

et G² sont asymptotiquement équivalents (Powers et Xie 2008) et constituent, respectivement, les bases du test du chi-carré de Pearson et du test du rapport de vraisemblance. Comme pour tous les tests inférentiels, l’utilisateur doit être attentif aux hypothèses sous-jacentes et aux limites. Ces deux tests reposent sur l’hypothèse que chaque flux interrégional de la matrice de migrations suit une distribution de Poisson propre (Powers et Xie 2008), et ils ont tous les deux des limites importantes liées à la taille de l’échantillon. Le

χ^{2}

est artificiellement « gonflé » quand l’échantillon est grand. Le chi-carré de Pearson n’est donc pas indiqué en présence de gros échantillons. Le G² et le test du rapport de vraisemblance sont préférables en pareil cas (Powers et Xie 2008). On opte plutôt pour le test du chi-carré de Pearson quand les effectifs attendus sont, en moyenne, compris entre 1 et 10, mais aucun test n’est vraiment satisfaisant quand la plupart des effectifs attendus sont inférieurs à 5 (Agresti et Finlay 2009 ; Powers et Xie 2008).

On a également mis en doute l’efficacité du G² dans le cas de grands échantillons (Raftery 1986, 1995), et on s’accorde de plus en plus à estimer que des mesures d’information doivent être envisagées parallèlement aux tests de significativité traditionnels pour évaluer la qualité d’ajustement d’un modèle. Le critère d’information bayésien (en anglais : Bayesian Information Criterion, BIC) est étroitement relié à G², et il se calcule en Stata par la formule :

​ B I C = G^{2} - d f \ln (m \times m) ​,

et en SPSS par la formule :

​ B I C = - 2 \ln L_{c} + p \ln (m \times m) ​,

où p est le nombre de paramètres estimés par le modèle d’indépendance, soit 2m–1. Une valeur faible incite à préférer le modèle d’indépendance au modèle saturé (Powers et Xie 2008).

Le critère d’information d’Akaike (en anglais : Akaike’s Information Criterion, AIC) est un outil alternatif qui accepte les valeurs faibles afin d’apprécier l’ajustement des meilleurs modèles, car il évalue la proximité entre valeurs ajustées et valeurs attendues (Agresti 2007). En SPSS et en R, il se calcule ainsi :

​ A I C = - 2 (\ln L_{c} - p) ​,

où p est le nombre de paramètres estimés dans le modèle d’indépendance, soit 2m–1. En Stata, la formule est :

A I C = \frac{- 2 (\ln L_{c} - p)}{m \times m} .

On peut constater dans l’Appendice 2 (disponible sur le site web de Tools for Demographic Estimation) que SPSS et Stata calculent le BIC et l’AIC, tandis que R ne donne qu’une valeur arrondie de l’AIC. Comme on l’a déjà signalé, les formules utilisées présentent des différences. La valeur du BIC est 46 934,237 selon SPSS et 46 388,04 selon Stata. L’AIC, seul fourni par R, vaut 46 920, sa valeur arrondie étant 46 916,818 selon SPSS. Stata en donne une estimation beaucoup plus faible : 1 303,245. Toutes les valeurs du BIC et de l’AIC sont grandes, et renforcent l’idée que le modèle d’indépendance ne convient pas à cet exemple.

Le modèle de quasi-indépendance

Le modèle d’indépendance s’ajuste rarement bien à des données migratoires. Cela est dû en partie à la très forte tendance des gens à rester dans la région où ils vivent. Le modèle de quasi-indépendance permet d’éliminer ces « effets d’immobilité » (Powers et Xie 2008), et cela a souvent comme résultat d’améliorer l’estimation des flux interrégionaux attendus. Ce modèle a été appliqué avec succès à des données migratoires provenant de recensements nationaux (Agresti 1990 ; Rogers, Little et Raymer 2010 ; Rogers, Willekens, Little et al. 2002), les personnes qui ont déclaré habiter la même région qu’au début de la période de référence figurant dans la diagonale de la matrice de migrations.

À titre d’illustration, le cadre A du tableau 7 présente les migrations effectuées aux États-Unis entre 1985 et 1990 par des Américains de naissance. Manifestement, les effectifs des quatre cases de la diagonale de la matrice (hors marges) sont nettement supérieurs à ceux des autres cases, ce qui signifie que la propension à rester dans la région où l’on vit est beaucoup plus répandue que la migration d’une région à l’autre.

Cette concentration des effectifs le long de la diagonale est largement responsable du mauvais ajustement du modèle d’indépendance, et le poids écrasant des personnes qui ne quittent pas leur région d’origine a incité les chercheurs à les retirer du modèle. Les migrants étant définis comme les personnes qui changent de région de résidence, ce type de matrice des flux est parfois appelé « matrice limitée aux migrants ». Elle est particulièrement utile pour l’étude de la structure de la migration, puisqu’elle écarte les personnes qui n’ont pas migré ou qui ont déménagé sans changer de région. Le tableau 7 présente, dans le cadre B, la matrice des flux où les éléments de la diagonale ont été annulés et les totaux marginaux adaptés en conséquence.

Tableau 7 Flux migratoires des personnes nées aux États-Unis, 1985-1990

A. Matrice des migrations complète
Origine	Destination
Origine	Nord-Est	Midwest	Sud	Ouest	Total
Nord-Est	40 262 319	336 091	1 645 843	479 819	42 724 072
Midwest	351 029	50 677 007	1 692 687	958 696	53 679 419
Sud	778 868	1 197 134	69 563 871	1 150 649	72 690 522
Ouest	348 892	668 979	1 082 104	37 872 893	39 972 868
Total	41 741 108	52 879 211	73 984 505	40 462 057	209 066 881

B. Matrice des migrations limitée aux migrants
Origine	Destination
Origine	Nord-Est	Midwest	Sud	Ouest	Total
Nord-Est	0	336 091	1 645 843	479 819	2 461 753
Midwest	351 029	0	1 692 687	958 696	3 002 412
Sud	778 868	1 197 134	0	1 150 649	3 126 651
Ouest	348 892	668 979	1 082 104	0	2 099 975
Total	1 478 789	2 202 204	4 420 634	2 589 164	10 690 791

Les composantes multiplicatives, avec calcul des effets des facteurs sur la base du total général, fournies par ces deux types de matrices sont présentées dans le tableau 8. Les valeurs des paramètres du modèle à composantes multiplicatives basées sur la matrice complète s’éloignent manifestement de celles que l’on attendait sous l’hypothèse d’indépendance. Elles sont largement supérieures à 1,0 dans la diagonale, et très nettement inférieures à 1,0 en dehors. Par comparaison, quand on donne aux composantes multiplicatives basées sur la matrice limitée aux migrants la valeur 0 pour reproduire les 0 structurels de la diagonale, les composantes hors de la diagonale sont plus proches de 1,0.

Tableau 8 Composantes multiplicatives des flux migratoires des personnes nées aux États-Unis, 1985-1990

A. Matrice des migrations complète
Origine	Destination
Origine	Nord-Est	Midwest	Sud	Ouest	Total
Nord-Est	4,720	0,031	0,109	0,058	0,204
Midwest	0,033	3,733	0,089	0,092	0,257
Sud	0,054	0,065	2,704	0,082	0,348
Ouest	0,044	0,066	0,076	4,896	0,191
Total	0,200	0,253	0,354	0,194	209 066 881

B. Matrice des migrations limitée aux migrants
Origine	Destination
Origine	Nord-Est	Midwest	Sud	Ouest	Total
Nord-Est	0,000	0,663	1,617	0,805	0,230
Midwest	0,845	0,000	1,363	1,318	0,281
Sud	1,801	1,859	0,000	1,520	0,292
Ouest	1,201	1,547	1,246	0,000	0,196
Total	0,138	0,206	0,413	0,242	10 690 791

Le modèle de quasi-indépendance exige que seules les migrations d’une région à l’autre satisfassent l’hypothèse d’indépendance. On s’en assure par deux voies différentes mais équivalentes. Dans la première méthode, on considère la matrice complète (cadre A du tableau 7) et on donne la valeur 0 aux pondérations des effets d’interaction, OD_ij, quand la région de destination est identique à la région d’origine : n_ij = 0 si i=j. On parle alors de zéros structurels. Quand les régions d’origine et de destination sont différentes (i ≠ j), les effets d’interaction reçoivent la valeur 1,0, ce qui rejoint le modèle d’indépendance que nous connaissons et donne les flux hors diagonale attendus sous l’hypothèse de quasi-indépendance. L’Appendice 3 (disponible sur le site web de Tools for Demographic Estimation) présente l’application de cette méthode en SPSS, Stata et R.

La deuxième méthode s’appuie sur la matrice limitée aux migrants (cadre B du tableau 7). Elle se présente de préférence sous la forme additive :

​ \ln (n_{i j}) = λ + λ_{i}^{O} + λ_{j}^{D} + δ_{i} I ​

, où I est une variable dichotomique qui prend la valeur 1 pour les flux de la diagonale, donc quand i=j, et la valeur 0 pour les flux hors diagonale, donc quand i ≠ j (Agresti 2002). Un paramètre supplémentaire,

​ δ_{i} ​

, est donc nécessaire pour estimer chaque flux de la diagonale ; pour les autres flux interrégionaux, le terme

​ δ_{i} I ​

disparaît, et le modèle de quasi-indépendance se ramène alors au modèle d’indépendance. Par conséquent, exactement comme dans le modèle d’indépendance, les termes d’interaction hors diagonale sont nécessairement égaux à 0 dans la forme additive du modèle (et à 1 dans la forme multiplicative). L’Appendice 3 présente l’application de cette méthode en Stata (sur le site web de Tools for Demographic Estimation).

Dans la première méthode, le modèle de quasi-indépendance assigne la valeur 0 aux m paramètres OD_ii pour i=1 à m. Dans la seconde méthode, m paramètres supplémentaires, les

​ δ_{i}

, sont estimés et leurs exponentielles sont très proches de 0. Quelle que soit la méthode utilisée, le modèle de quasi-indépendance a m paramètres de plus que le modèle d’indépendance, et m degrés de liberté de moins.

L’Appendice 3 montre comment calculer le modèle de quasi-indépendance à l’aide des logiciels statistiques SPSS, Stata et R, en utilisant les données de migration aux États-Unis entre 1985 et 1990 des Américains de naissance. Quand le modèle d’indépendance exploite la totalité des données, tous les indices de qualité de l’ajustement sont, comme prévu, extrêmement élevés :

χ^{2}

= 544 479 395 (df=9) ; G² = 461 411 576 (df=9) ; dans Stata, les valeurs du BIC et de l’AIC sont respectivement 461 000 000 et 28 800 000. Quand on calcule le modèle de quasi-indépendance, toutes ces valeurs sont considérablement réduites :

χ^{2}

= 327 233 (df=5) ; G² = 330 220 (df=5) ; dans Stata, les valeurs du BIC et de l’AIC sont respectivement 330 207 et 27 535.

Les tests inférentiels restent significatifs, et le modèle de quasi-indépendance ne peut pas être accepté comme véritable modèle de migration. Il ne faut pas comparer inférentiellement les modèles d’indépendance et de quasi-indépendance avec le test du rapport de vraisemblance, car ce ne sont pas des modèles emboîtés. Cependant, les mesures d’information sont directement comparables. Tant le BIC que l’AIC sont nettement réduits, ce qui avantage le modèle de quasi-indépendance par rapport au modèle d’indépendance.

Par ailleurs, le tableau 9 met en parallèle les flux attendus du modèle d’indépendance et ceux du modèle de quasi-indépendance. La comparaison visuelle des flux attendus du tableau 9 avec les données observées du tableau 7 montre combien le modèle de quasi-indépendance est plus proche des données. Deux indices résumés supplémentaires sont présentés : R² et l’EAMP (écart absolu moyen en pourcentage). La comparaison des R² montre que le modèle d’indépendance explique 10 % de la variation des données observées, tandis que le modèle de quasi-indépendance en explique 95 %. De plus, l’EAMP du modèle de quasi-indépendance, égal à 28, est considérablement plus faible que celui du modèle d’indépendance, qui vaut 2 492.

Comme l’ajustement du modèle de quasi-indépendance aux données observées n’est pas suffisamment précis, on ne peut pas considérer celui-ci comme le « vrai » modèle. Mais, en l’absence de données migratoires observées, le modèle de quasi-indépendance peut toujours constituer une solution de secours raisonnable pour estimer les flux interrégionaux.

Tableau 9 Flux migratoires attendus des Américains de naissance, sous les hypothèses d’indépendance et de quasi-indépendance, 1985-1990

A. Indépendance
Origine	Destination
Origine	1	2	3	4
1	8 530 046	10 806 184	15 119 178	8 268 664
2	10 717 328	13 577 116	18 996 052	10 388 923
3	14 512 977	18 385 588	25 723 693	14 068 264
4	7 980 756	10 110 323	14 145 583	7 736 206
		R²=0,104		EAMP=2 492,322

B. Quasi-indépendance
Origine	Destination
Origine	1	2	3	4
1	0	535 839	1 349 561	576 353
2	442 768	0	1 793 640	766 005
3	720 681	1 159 163	0	1 246 806
4	315 340	507 201	1 277 434	0
		R²=0,945		EAMP=27,575

Application 6 : La méthode des offsets

On peut évaluer la validité des modèles d’indépendance et de quasi-indépendance à l’aide des tests inférentiels associés aux résultats du modèle log-linéaire, et, même quand les modèles ne sont pas étayés par des tests de significativité, on peut les utiliser dans certains contextes pour obtenir des estimations valables des flux migratoires. La méthode des offsets suppose que les données auxiliaires ont une structure implicite des relations interrégionales similaire à la structure des migrations que l’on cherche à déterminer. Cette méthode emprunte la structure des données auxiliaires pour en déduire des estimations des flux migratoires inconnus.

Dans les recherches réalisées jusqu’à présent, c’est généralement une matrice de flux migratoires d’une autre période qui sert d’information auxiliaire (Rogers, Little et Raymer 2010 ; Rogers, Willekens, Little et al. 2002 ; Rogers, Willekens et Raymer 2003 ; Willekens 1983), mais elle pourrait concerner une autre catégorie d’âge (Raymer et Rogers 2007), de sexe ou de race. Il pourrait aussi bien s’agir de données provenant d’une autre source, comme les déclarations d’impôt ou les registres d’immatriculation des véhicules à moteur.

Les flux auxiliaires étant notés

​ n_{i j}^{*} ​

, le modèle log-linéaire avec offset prend la forme :

​ \ln ({\hat{n}}_{i j}) = λ + λ_{i}^{O} + λ_{j}^{D} + \ln (n_{i j}^{*}) .

Il permet d’estimer des flux

​ {\hat{n}}_{i j} ​

dont la structure est aussi proche que possible de celle des flux auxiliaires, et, en même temps, ces flux estimés sont ajustés de manière à ce que leur somme corresponde aux totaux marginaux préalablement fixés par le chercheur. De cette manière, la méthode des offsets est similaire aux modèles d’indépendance et de quasi-indépendance en ce sens qu’elle fournit une distribution attendue des flux telle que les totaux marginaux de ligne et de colonne soient égaux aux estimations a priori.

Pour illustrer le fonctionnement de la méthode des offsets, prenons la matrice des flux migratoires aux Pays-Bas en 1976 (tableau 1). Supposons que nous voulons conserver les totaux marginaux, mais en même temps remplacer les effets d’interaction observés pendant cette année par ceux de 1973, en utilisant la méthode des offsets. Quelle serait la série correspondante de paramètres log-linéaires ? Le cadre A du tableau 10 présente la matrice des flux attendus obtenue par la méthode des offsets, et le cadre B, les composantes multiplicatives correspondantes avec calcul des effets des facteurs sur la base du total général. Notons que les valeurs de T, O_i et D_j de la matrice des flux attendus, c’est-à-dire le cadre B du tableau 10, sont identiques à celles de la matrice des flux observés de 1976 (cadre B du tableau 3). Mais les autres termes (les effets d’interaction OD_ij) reflètent l’influence de la structure des données observées de 1973 (cadre A du tableau 3), ainsi que les totaux marginaux des données de 1976. La méthode des substitutions applique la structure des données auxiliaires, celles de 1973 dans ce cas-ci, aux flux des cellules intérieures de la matrice tout en conservant le volume total des flux observés en 1976.

Tableau 10 Flux migratoires interrégionaux aux Pays-Bas (1976), calculés par la méthode des offsets à partir des totaux marginaux de 1976 et des flux de 1973

Cadre A. Calcul par la méthode des substitutions
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	12 344	13 769	6 890	12 199	10 361	11 518	67 081
2	13 329	34 695	12 195	17 445	22 522	24 353	124 539
3	9 728	15 711	28 330	8 883	15 881	30 553	109 087
4	11 281	16 107	7 011	11 216	11 764	13 187	70 566
5	12 609	25 486	16 570	12 828	17 770	21 760	107 023
6	18 116	35 786	53 984	22 110	27 058	22 535	179 589
Total	77 408	141 553	124 980	84 682	105 356	123 906	657 885
					R² = 0,966		EAMP = 8,364

Cadre B. Composantes multiplicatives avec calcul des effets des facteurs sur la base du total général
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	1,564	0,954	0,541	1,413	0,964	0,912	0,102
2	0,910	1,295	0,515	1,088	1,129	1,038	0,189
3	0,758	0,669	1,367	0,633	0,909	1,487	0,166
4	1,359	1,061	0,523	1,235	1,041	0,992	0,107
5	1,001	1,107	0,815	0,931	1,037	1,080	0,163
6	0,857	0,926	1,582	0,956	0,941	0,666	0,273
Total	0,118	0,215	0,190	0,129	0,160	0,188	657 885

Les valeurs attendues qui figurent au cadre A du tableau 10 ont été empruntées aux résultats des programmes SPSS, Stata et R de mise en œuvre de la méthode des offsets (Appendice 4, sur le site web de Tools for Demographic Estimation). D’autres exemples de calculs sont disponibles sur la feuille Excel Method of offsets du manuel d’exercices en ligne.

Étant donné que les flux ont été observés directement en 1976, nous avons plusieurs moyens d’évaluer la capacité de la méthode des offsets à reproduire les données. Une méthode simple consiste à examiner visuellement les rapports des composantes multiplicatives d’interaction, comme le montre le tableau 4. Une autre méthode s’appuie sur les tests inférentiels et les mesures d’information des procédures log-linéaires. Il s’agit de tester l’hypothèse que la structure des flux migratoires, c’est-à-dire les paramètres d’interaction, n’a pas changé entre 1973 et 1976. Dans l’exemple du tableau 10, le G² correspondant est égal à 5 914 (df=25), et l’hypothèse que les données auxiliaires représentent le même régime de migration que celui des données observées doit donc être rejetée. Une dernière méthode proposée ici utilise R² et l’EAMP pour évaluer l’adéquation entre flux attendus et flux observés. Ces deux paramètres, présentés au cadre A du tableau 10, valent respectivement 0,97 et 8,36. Avec les rapports du tableau 4, ces valeurs indiquent que cette application de la méthode des offsets donne une série d’estimations des flux migratoires de 1976 qui peut être tout à fait satisfaisante.

L’importance accordée aux indices de qualité de l’ajustement dépend de la qualité des flux observés introduits dans l’application de la méthode des offsets. Si la méthode doit être utile dans des cas pratiques, elle doit être applicable quand les flux interrégionaux n’ont pas été observés directement. En l’absence de données sur les flux, la méthode nécessite toujours des estimations préalables des totaux marginaux. D’ailleurs, si on applique la méthode comme le montre l’Appendice 4 (disponible sur le site web de Tools for Demographic Estimation), on doit introduire des estimations initiales des flux interrégionaux. Les estimations provisoires des totaux marginaux doivent donc être distribuées dans les cellules intérieures des lignes et colonnes correspondantes de la matrice des flux. Le cadre A du tableau 11 présente un scénario classique, quoiqu’il utilise toujours les totaux marginaux des données néerlandaises de 1976, qui sont des données observées. Une solution simple consiste à distribuer les flux conformément au modèle d’indépendance, c’est-à-dire

​ {\hat{n}}_{i j} = (T) (O_{i}) (D_{j}) ​

, ce qui donne les estimations initiales des flux qui figurent au cadre B du tableau 11.

Tant que les flux interrégionaux initiaux ont pour sommes les totaux marginaux, les flux attendus ne sont pas affectés par la méthode de répartition des flux dans les cellules intérieures de la matrice, car, en fin de compte, les flux attendus auront été calculés à partir des données auxiliaires par la méthode des offsets, en utilisant l’algorithme itératif d’ajustement proportionnel (Agresti 1990 ; Deming et Stephan 1940). En d’autres termes, les estimations initiales des flux néerlandais de 1976, introduites dans le modèle log-linéaire avec offsets, pourraient être les valeurs des cellules internes du cadre B du tableau 1, ou celles du cadre B du tableau 11. L’une et l’autre séries d’estimations initiales donnera les flux attendus qui figurent au cadre A du tableau 10.

D’autre part, il est important de noter que les tests inférentiels et les mesures d’information qui accompagnent la méthode des offsets doivent être interprétés en référence aux estimations initiales des flux. Par exemple, si les flux initiaux sont ceux du cadre B du tableau 11, les paramètres

χ^{2}

et G² correspondants testent l’hypothèse que les valeurs attendues sont distribuées d’une manière compatible avec le modèle d’indépendance.

Tableau 11 Inputs de la méthode des offsets en l’absence de flux observés

Cadre A. Totaux marginaux pré-estimés, Pays-Bas, 1976
Origine	Destination
Origine	1	2	3	4	5	6	Total
1							67 081
2							124 539
3							109 087
4							70 566
5							107 023
6							179 589
Total	77 408	141 553	124 980	84 682	105 356	123 906	657 885

Cadre B. Distribution des estimations initiales des flux selon le modèle d’indépendance
Origine	Destination
Origine	1	2	3	4	5	6	Total
1	7 893	14 433	12 744	8 635	10 743	12 634	67 081
2	14 654	26 796	23 659	16 030	19 944	23 456	124 539
3	12 835	23 472	20 724	14 042	17 470	20 545	109 087
4	8 303	15 183	13 406	9 083	11 301	13 290	70 566
5	12 593	23 027	20 331	13 776	17 139	20 157	107 023
6	21 131	38 641	34 117	23 116	28 760	33 824	179 589
Total	77 408	141 553	124 980	84 682	105 356	123 906	657 885

Il n’est pas difficile d’aménager la méthode des substitutions pour l’appliquer au calcul des valeurs attendues d’une matrice limitée aux migrants. Les programmes SPSS, Stata et R ne demandent que de légères modifications, détaillées dans les commentaires de l’Appendice 4 (en ligne sur le site web de Tools for Demographic Estimation). Un exemple est traité dans la feuille de calcul Method of offsets, migrants only du manuel d’exercices en ligne (voir le site web). Il se base sur les flux observés aux États-Unis entre 1985 et 1990, pour estimer rétrospectivement les flux de migrants de la période 1975-1980 publiés par Rogers, Willekens, Little et al. (2002).

Référencés

Agresti A. 1990. Categorical Data Analysis. New York: Wiley.

Agresti A. 2002. Categorical Data Analysis. New York: Wiley-Interscience.

Agresti A. 2007. An Introduction to Categorical Data Analysis. Hoboken, NJ: Wiley-Interscience.

Agresti A and B Finlay. 2009. Statistical Methods for the Social Sciences. Upper Saddle River, NJ: Pearson Prentice Hall.

Alonso W. 1986. Systemic and log-linear models: From here to there, then to now, and this to that. Discussion paper 86-10. Cambridge, MA: Harvard University, Center for Population Studies.

Birch MW. 1963. "Maximum likelihood in three-way contingency tables", Journal of the Royal Statistical Society Series B-Statistical Methodology 25(1):220-233.

Deming WE and FF Stephan. 1940. "On a least squares adjustment of a sampled frequency table when the expected marginal totals are known", Annals of Mathematical Statistics 11(4):427-444. doi: http://dx.doi.org/10.1214/aoms/1177731829 [40]

Knoke D and PJ Burke. 1980. Log-linear Models. Beverly Hills, CA: Sage Publications.

Mueser P. 1989. "The spatial structure of migration: An analysis of flows between states in the USA over three decades", Regional Studies 23(3):185-200. doi: http://dx.doi.org/10.1080/00343408912331345412 [41]

Nair PS. 1985. "Estimation of period-specific gross migration flows from limited data: Bi-proportional adjustment approach", Demography 22(1):133-142. doi: http://dx.doi.org/10.2307/2060992 [42]

Powers DA and Y Xie. 2008. Statistical Methods for Categorical Data Analysis. Bingley, UK: Emerald.

Raftery AE. 1986. "Choosing models for cross-classifications", American Sociological Review 51(1):145-146. doi: http://dx.doi.org/10.2307/2095483 [43]

Raftery AE. 1995. "Bayesian model selection in social research", Sociological Methodology 25(1):111-163. doi: http://dx.doi.org/10.2307/271063 [44]

Raymer J. 2007. "The estimation of international migration flows: A general technique focused on the origin-destination association structure", Environment and Planning A 39(4):985-995. doi: http://dx.doi.org/10.1068/a38264 [45]

Raymer J, A Bonaguidi and A Valentini. 2006. "Describing and projecting the age and spatial structures of interregional migration in Italy", Population, Space and Place 12(5):371-388. doi: http://dx.doi.org/10.1002/psp.414 [46]

Raymer J and A Rogers. 2007. "Using age and spacial flow structures in the indirect estimation of migration streams", Demography 44(2):199–223. doi: http://dx.doi.org/10.1353/dem.2007.0016 [47]

Rees P and FJ Willekens. 1986. "Data and accounts," in Rogers, A and FJ Willekens (eds). Migration and Settlement: A Multiregional Comparative Study. Dordrecht: D. Reidel, pp. 19-58.

Rogers A, JS Little and J Raymer. 2010. The Indirect Estimation of Migration: Methods for Dealing with Irregular, Inadequate, and Missing Data. Dordrecht: Springer.

Rogers A, F Willekens, JS Little and J Raymer. 2002. "Describing migration spatial stucture", Papers in Regional Science 81(1):29-48.

Rogers A, FJ Willekens and J Raymer. 2003. "Imposing age and spatial structures on inadequate migration-flow datasets", The Professional Geographer 55(1):56-69.

Snickars F and JW Weibull. 1977. "A minimum information principle: Theory and practice", Regional Science and Urban Economics 7(1-2):137-168. doi: http://dx.doi.org/10.1016/0166-0462(77)90021-7 [48]

Willekens F. 1983. "Log-linear modeling of spatial interaction", Papers of the Regional Science Association 52:187-205. doi: http://dx.doi.org/10.1007/BF01944102 [49]

Downloads

Appendices 1-4.pdf (16/09/2013) [50]

MI_LLM_appendices.pdf 373.46 Ko