Skąd są twoi znajomi?
Czyli to już nudne, ale granice zaborów dalej zdają się wpływać na nasze więzi społeczne ponad 100 lat po odzyskaniu przez Polskę niepodległości.
Ten wpis jest pierwszą częścią trzyczęściowego cyklu. Cykl będzie publikowany zgodnie z tym, jak powstawał: od hipotezy o zaborach ciągle dzielących Polaków społecznie, przez migracje wewnątrz kraju, aż po migracje zagraniczne. Zapraszam do czytania i zapisania się do newslettera na dole wpisu, żeby nie przegapić części drugiej i trzeciej, które planuję opublikować w najbliższych 2-3 tygodniach!
Wiele lat temu przeczytałem na jednym z blogów (niestety nie pamiętam nazwy, ale jeśli dobrze pamiętam autor był socjologiem i wydawał się wiarygodny), że linie zaborcze ciągle widać w danych o małżeństwach: według autora bloga, w powiatach wzdłuż granic zaborczych, nowożeńcy poślubiający kogoś spoza własnego powiatu znacznie częściej robią to z mieszkańcami powiatów po “swojej” stronie dawnej granicy niż po tej drugiej stronie (czyli np. mieszkańcy “austro-węgierskiego” powiatu lubaczowskiego częściej żenią się z mieszkankami powiatów jarosławskiego, przemyskiego czy leżajskiego niż mieszkankami położonych w danym zaborze rosyjskim powiatów biłgorajskiego czy tomaszowskiego).
Oczywiście sam nie miałem ani nie mam dostępu do takich danych, ale ta myśl została ze mną. Nietrudno zgadnąć więc, że kiedy zobaczyłem, że zespół Data for Good Mety udostępnia wskaźnik więzi społecznych, mocno mnie to zaciekawiło. Ten wskaźnik to relatywne prawdopodobieństwo tego, że osoba z regionu X ma wśród znajomych na Facebooku mieszkańca regionu Y. Matematycznie zapis wygląda następująco:
i przyjmuje znormalizowane wartości od 1 do 1 miliarda. Dane pochodzą z 2021 roku.
Niestety, dane z Mety są dostępne tylko na poziomie podregionów (NUTS-3 w nomenklaturze Eurostatu), a niektóre z tych podregionów przekraczają rozbiorowe granice. Z kolei inne oprócz granicy z 1914 pokrywają się też z granicą z 1939, więc potencjalnie słabsze relacje między podregionami po dwóch stronach granicy mogą wynikać z powojennych przesiedleń. Ale mamy kilka miejsc, gdzie możemy przetestować naszą teorię. To podregiony inowrocławski i włocławski, sandomiersko-jędrzejowski wraz z tarnowskim i tarnobrzeskim (ten ostatni też z puławskim), przemyski i chełmsko-zamojski oraz podregiony na pograniczu Śląska i Małopolski.

Zacznijmy od podregionów w Polsce centralnej i południowo-wschodniej. Podregion inowrocławski i włocławski mają najszersze relacje społeczne z podregionem bydgosko-toruńskim, ale poza tym są na dość podobnym poziomie relacji w porównaniu do pozostałych swoich sąsiadów (włocławski jest na czwartym miejscu dla inowrocławskiego, vice versa to pozycja trzecia). Tak więc przynajmniej na tym obszarze granicy między dawnym zaborem rosyjskim i pruskim wydaje się, że granica nie dzieli już stosunków społecznych.
Inaczej wygląda sprawa na granicy dawnego zaboru austriackiego i rosyjskiego. Zacznijmy od mieszkańców podregionu tarnowskiego, który graniczy z krakowskim, nowosądeckim, tarnobrzeskim i sandomiersko-jędrzejowskim (a także na malutkim fragmencie z krośnieńskim). Tarnowianie najwięcej znajomych mają w okolicach Nowego Sącza, potem o 1/3 mniej w podregionach: tarnobrzeskim, Krakowie i krakowskim. Następnie, o ponad połowę mniej (relatywnie) znajomych niż w Krakowie mają w podregionie krośnieńskim, a dopiero potem pojawia się graniczny z nimi podregion sandomiersko-jędrzejowski.
Ich sąsiedzi, mieszkańcy tarnobrzeskiego, najchętniej przyjaźnią się z rzeszowianami. Ale już podregion sandomiersko-jędrzejowski jest drugi, choć wyraźnie niżej (prawie dwukrotnie mniejsze prawdopodobieństwo znajomości) i niemal na równi z trzecim podregionem — tarnowskim. W drugą stronę, mieszkańcy podregionu sandomiersko-jędrzejowskiego mają najsilniejsze więzi z Kielcami. O grubo ponad połowę rzadziej z mieszkańcami podregionu tarnobrzeskiego, potem jest Kraków i podregiony krakowski i sosnowiecki, a dopiero potem tarnowski.
Idąc nieco dalej na wschód dobijamy do pary podregionów: przemyski oraz chełmsko-zamojski. Dla mieszkańców tego pierwszego nie ma lepszego znajomego nad rzeszowiaka — szanse na znajomość z takowym są ponad trzy razy wyższe niż z drugim w kolejności podregionem krośnieńskim i cztery razy wyższe niż z krośnieńskim. Chełmsko-zamojski jest kolejny, ale daleko z tyłu, na poziomie niewiele wyższym niż Kraków. W drugą stronę działa to podobnie — mieszkańcy Chełmu i Zamościa mają czterokrotnie wyższe prawdopodobieństwo znajomości z kimś z Lublina niż z okolic Przemyśla.
Widzimy więc, że sytuacja jest nieco skomplikowana. Generalnie, więzi społeczne z podregionami “po drugiej stronie granicy” są faktycznie słabsze, często nawet dość znacznie, ale ten efekt jest dużo mocniejszy na pograniczu zaboru austriackiego i rosyjskiego niż rosyjskiego i pruskiego. Być może wpływ na to ma także efekt granicy województwa i bariery naturalne — Wisła i San. Ale z drugiej strony granica województwa nie przeszkadza w integracji na pograniczu Śląska i Małopolski, za to granica zaborów już tak. Weźmy podregion oświęcimski w małopolskim — najsilniejsze związki z krakowskim, ale potem z bielskim, tyskim i sosnowieckim. Inaczej w częstochowskim w śląskim — silne związki z sosnowieckim, ale potem sieradzki i piotrkowski w łódzkim są na równi z bytomskim w śląskim.
Szukałem więc lepszego sposobu odpowiedzi na pytanie “czy granice dawnych zaborów widać na dzisiejszych mapach więzi społecznych” niż tylko przeglądanie pojedynczych podregionów jeden po drugim. Z pomocą przychodzi tutaj matematyka, a konkretnie metoda nazwana z angielska hierarchical agglomerative linkage clustering. W tej metodzie grupujemy podregiony na podstawie tego, jak są do siebie podobne pod kątem powiązań z innymi regionami. Jeśli narysujemy wykres podobieństwa podregionów i ich zgrupowania wedle tego podobieństwa to wygląda on mniej więcej jak poniżej:

Na podstawie tego dendrogramu możemy teraz wyznaczyć, ile klastrów znajomości jest w Polsce. Zacznijmy dla zabawy od podzielenia Polski na dwie części — byłby to podział między dawną Galicją i wschodnim Górnym Śląskiem (oraz podregionem sosnowieckim) a resztą kraju. To nie powinno być wielkim zaskoczeniem, bo wymiana ludności między górnośląskim okręgiem przemysłowym a Galicją jest silna już od co najmniej stulecia.
Ale widzimy też na dendrogramie, że podział na dwa klastry nie jest najbardziej naturalny. Lepszy byłby podział kraju na trzy części i to właśnie zrobiłem na mapie po prawej. W takim wypadku południowa Polska pozostaje jednym klastrem, a północ dzieli się mniej więcej południkowo, na szerokości Konina czy Kalisza.
Idźmy jednak o krok dalej. Inne naturalne miejsca podziału na dendrogramie to podział na cztery i dziewięć klastrów. Ten pierwszy to stosunkowo mała zmiana — ze wschodniej Polski wydziela Warszawę i jej najbliższe okolice.
Ten drugi to już większe przetasowanie na mapie: z Polski Południowej wydziela się wschodni Górny Śląsk, Polska Zachodnia dzieli się na Pomorze zachodnie (bez Koszalina), Wielkopolskę (idealnie w granicach województwa) oraz resztę Śląska wraz z resztą województwa lubuskiego. W Polsce Wschodniej z kolei wydziela się Pomorze wraz z Krajną, Ziemią Chełmińską i skrawkiem Kujaw oraz obszar województwa łódzkiego wraz z Częstochową.
Wreszcie, czysto dla zabawy, sprawdźmy, jak wyglądałaby mapa Polski, gdybyśmy chcieli stworzyć 17 województw, ale ustalić ich granice według więzi społecznych. Jeśli przyjmiemy takie kryterium, to granice opolskiego, wielkopolskiego, świętokrzyskiego, podkarpackiego i lubelskiego w ogóle się nie zmieniają. Inne województwa notują małe korekty granic: na Pomorzu z zachodniopomorskiego do pomorskiego przechodzi podregion koszaliński, z kujawsko-pomorskiego “wypada” włocławski, warmińsko-mazurskie oddaje podregion ełcki podlaskiemu, a małopolskie zyskuje bielski kosztem śląskiego. Ze śląskiego odchodzi też podregion częstochowski i wraz z piotrkowskim i sieradzkim tworzą nowe województwo, kiedy w łódzkim zostają tylko najbliższe okolice Łodzi i Skierniewic. Na zachodzie, województwo lubuskie rośnie kosztem dolnośląskiego o podregiony jeleniogórski i legnicko-głogowski, zaś w środku kraju powstaje województwo stołeczne, które oprócz okolic Warszawy obejmuje też Siedlce i Żyrardów. Pozostaje najciekawszy region: województwo warmińsko-mazursko-mazowiecko-radomskie, którego ostatni tytularny region jest odłączony od reszty “korytarzem warszawskim”.
A co z początkową tezą tego artykułu? Werdykt jest mieszany, ze wskazaniem na prawdziwość. Wspomniane podregiony inowrocławski i włocławski koniec końców okazują się być jednak zorientowane bardziej na “wnętrze” swoich zaborów niż na siebie samych. Granica zaborcza trzyma się też dobrze na południu kraju, z wyjątkiem podregionu sosnowieckiego. Z drugiej strony, na północy, obszar województwa warmińsko-mazurskiego okazuje się być mocniej związany z dawnym zaborem rosyjskim niż nawet z Gdańskiem. Ten region to dla mnie największe zaskoczenie, bo tam granica przecież trwała aż do 1945 roku. Choć z drugiej strony, może nie powinienem być taki zdziwiony — wszakże zdecydowana większość mieszkańców warmińsko-mazurskiego pochodzi z Polski centralnej, a nie Kresów.
Nie wydaje się by ta mapa była skonstruowana poprawnie i nie nadaje się do wyciągania ani ogólnych ani tym bardziej szczegółowych wniosków. Użyta metodologia jest wątpliwa i nie mierzy ona powiązań między regionami. Bo przykładowo dlaczego mieszkańcy Koszalina mieliby być silniej związani z regionem na wschód niż z regionem, w którym znajdują się w obecnych granicach? Mieszkańcy Koszalina mają mieć więcej znajomych w Gdańsku czy w Słupsku niż we własnym mieście Koszalinie i miejscowościach sąsiednich (region NUTS-3 zbiorczo nazwany jako koszaliński), Świnoujściu czy w Szczecinie? No skoro do kosza wyrzucane jest podobieństwo z własnym regionem, to nie wyjdą z tego prawidłowe wyniki. Nie została opisana dokładnie metodologia jak to jest liczone i jakie uzyskano szczegółowe wartości liczbowe między wszystkimi regionami a nie tylko tymi najbardziej podobnymi. Zresztą w ogóle błędem jest zero-jedynkowe określanie podobieństwa, gdy przecież liczbowe wartości dla sąsiadujących regionów mogą być sobie bardzo bliskie i żaden z nich może nie być dominującym. W rzeczywistości to wszystko jest bardziej rozmyte i nie można arbitralnie stwierdzać, że skoro region x ma 28% powiązań z regionem y, to automatycznie 72% powiązań jest do śmieci, zwłaszcza że np. z kolejnym regionem tych powiązań może być np. 26%, czyli niewiele mniej. A często sama różnica w liczbie mieszkańców regionu siłą rzeczy decyduje o liczbie powiązań, bo przecież oczywistym jest że region 2x mniej liczny nie jest w stanie mieć tylu powiązań od regionu bardziej zaludnionego. A z drugiej strony im bardziej rozległy region (np. region szczecinecko-pyrzycki) tym trudniej jest obliczyć względne podobieństwo, skoro jego mieszkańcy rozrzuceni są na obszarze 150km-200km i oczywistym jest, że ci przy granicy regionu będą silniej związani z sąsiednim regionem, niż ci 150km-200km dalej. Inny region może wykazać wyższe podobieństwo tylko dlatego, że jest bardziej zwarty w granicach. Więc tak liczone podobieństwo jest de facto bezwartościowe. Wątpliwe też jest wyznaczanie samych granic nowych regionów (klastrów), w oparciu o ww. ułomne podobieństwa oraz o hierarchię podobieństw gdy decydujące jest nie podobieństwo regionu do województwa tylko podobieństwo małego regionu do innego małego regionu, podobieństwo 2 tych regionów do innych 2 regionów itd. wzwyż. generalnie ta mapa w dużej części przedstawia artefakty, wynikające z dużych wad przyjętej metodologii, granic regionów, ich ludności, rozciągłości niż rzeczywiście mierzy powiązania między regionami. Dużo lepiej byłoby po prostu narysować jakąś rozmytą formę mapy niż opierać to na zero-jedynkowych klastrach i nienaturalnych hierarchiach z błędami metodologicznymi i interpretacyjnymi jak opisałem powyżej. Edit. Teraz zwróciłem uwagę na to, że region Radomski powiązany jest z Olsztynem!... To jest właśnie najdobitniejszy dowód że nie są to rzeczywiste powiązania między regionami, tylko efekt istnienia tych artefaktów, które zostały tu powiązane i błędnie są interpretowane jako powiązania między regionami (co wynika ze źle przyjętego modelu i z błędnych założeń).
Bardzo interesujące, ale mam kłopot ze zrozumieniem, w tekście i we wzorze jest o prawdopodobieństwie, na mapach są tysiące. Znaczy się, że to na 1 milion potencjalnych znajomości?
Jaką metodę łączenia klastrów zastosowano? Przykład z radomskim na końcu pokazuje, że nie najlepszą. Niemniej poproszę o podpisany dendrogram.
"Wspomniane podregiony inowrocławski i włocławski koniec końców okazują się być jednak zorientowane bardziej na “wnętrze” swoich zaborów niż na siebie samych. Granica zaborcza trzyma się też dobrze na południu kraju, z wyjątkiem podregionu sosnowieckiego"
W przypadku włocławskiego dodając strzałki rejony pruskie mają takie same jeśli nie większą szerokość. Inowrocławski ma stosunkowo krótką granicę z Kongresówką, jest głębiej w Prusach, więc naturalnie, że ma większe więzi z ludźmi mieszkającymi bliżej, podobnie w większości przypadków.
Jeśli strzałki są dwukierunkowe, to nie ma potrzeby rysowania grotów. Powinny być też bardziej przezroczyste, bo słabo wyróżniają się przypadki pokrywania się strzałek.