← Eksperyment

Publiczne objaśnienie na podstawie P1_RC_GGL: rygorystyczny test domknięcia dynamiki galaktyk i słabego soczewkowania (v1.1)

Oryginalny raport: Guanglin Tu | Podstawa wersji: P1 v1.1 | Charakter tekstu: objaśnienie publiczne / nie jest artykułem recenzowanym
Powiązane archiwa: DOI raportu 10.5281/zenodo.18526334 | DOI pakietu reprodukowalności 10.5281/zenodo.18526286

Uwagi do lektury

To jest tekst objaśniający, nie kolejny raport akademicki. Opiera się na oryginalnym raporcie P1, zachowuje kluczowe rysunki i tabele oraz dodaje publiczne wyjaśnienia „co to znaczy” na każdym kluczowym etapie.

Artykuł wyjaśnia wyłącznie wnioski, do których P1 dochodzi w ramach określonych zbiorów danych, rejestru parametrów i protokołu statystycznego: w teście łącznym krzywych rotacji galaktyk (RC) i słabego soczewkowania galaktyka–galaktyka (GGL) model średniej odpowiedzi grawitacyjnej EFT wyraźnie wyprzedza minimalną bazę DM_RAZOR testowaną tutaj.

Artykuł nie odczytuje P1 jako wniosku, że „ciemna materia została obalona”. P1 jest tylko pierwszym krokiem eksperymentów serii P. Testuje jedną obserwowalną warstwę wewnątrz EFT — „średni poziom bazowy grawitacji” — a nie całą teorię EFT.

0 | Zrozumieć P1 w pięć minut: co właściwie testuje to badanie?

P1 można czytać jako eksperyment walidacji między sondami obserwacyjnymi. Nie pyta on jedynie, czy model potrafi dopasować jeden zbiór danych; stawia na tym samym stole audytowym dwa bardzo różne odczyty grawitacji: krzywe rotacji (RC) odczytują dynamikę wewnątrz dysków galaktycznych, a słabe soczewkowanie galaktyka–galaktyka (GGL) odczytuje rzutowaną odpowiedź grawitacyjną w większych skalach.

Kluczowy wniosek P1

P1 podnosi próg porównania z „czy dobrze pasuje do jednej sondy?” do „czy domyka się między sondami?”. Dobra wydajność przy poprawnym mapowaniu, po której następuje załamanie sygnału po przetasowaniu mapowania, sugeruje, że model mógł uchwycić strukturę grawitacyjną wspólną dla RC i GGL.

Tabela 0 | Kluczowe liczby P1 i sposób ich odczytu

Metryka

Jak czyta ją P1 / P1A

Odczyt prostym językiem

Wspólne dopasowanie ΔlogL_total

Porównanie tekstu głównego: EFT jest 1155–1337 powyżej DM_RAZOR

Łączna różnica punktacji w dwóch zbiorach danych; im większa, tym lepsze ogólne wyjaśnienie.

Siła domknięcia ΔlogL_closure

Porównanie tekstu głównego: EFT wynosi 172–281, podczas gdy DM_RAZOR wynosi 127

Zdolność przewidywania GGL po wnioskowaniu tylko z RC; im większa, tym większa samospójność między sondami.

Shuffle kontroli negatywnej

Po przetasowaniu RC-bin→GGL-bin sygnał domknięcia EFT spada do 6–23

Jeśli poprawna odpowiedniość zostanie przerwana, przewaga powinna zniknąć; im bardziej znika, tym więcej sygnałów pozornych zostaje wykluczonych.

Wielomodelowy test obciążeniowy DM w P1A

DM 7+1 + DM_STD, z EFT_BIN zachowanym jako model porównawczy

P1A nie patrzy tylko na minimalny DM_RAZOR; umieszcza wiele niskowymiarowych, audytowalnych gałęzi wzmocnienia DM w tym samym protokole domknięcia.


1 | Dlaczego P1 było potrzebne: gdzie kosmologia w skali galaktyk się zacina

Problem skali galaktycznej pozostaje trudny, ponieważ potrzeba „dodatkowej grawitacji/masy” nie jest wyłącznie zjawiskiem krzywych rotacji. Liczne obserwacje pokazują ścisły związek między widzialną materią barionową w galaktykach a rzeczywistymi odczytami dynamicznymi i soczewkowymi. Dla ścieżki ciemnej materii oznacza to konieczność bardzo precyzyjnego uzgodnienia ciemnych halo, sprzężenia zwrotnego barionów, historii powstawania galaktyk oraz systematyk obserwacyjnych. Dla ścieżek grawitacji bez DM oznacza to, że model nie może tylko dobrze wyglądać na RC; musi też wytrzymać słabe soczewkowanie, relacje skalowania populacji i kontrole negatywne.

To właśnie motywuje P1. Badanie nie zaczyna od tezy, że „ciemna materia jest błędna” albo że „EFT musi mieć rację”. Wystawia na próbę jedno testowalne twierdzenie: czy średnia odpowiedź grawitacyjna EFT może pozostawić reprodukowalny i przenoszalny sygnał w domknięciu między sondami RC→GGL?

Kontekst literatury zewnętrznej: dlaczego okno RC+GGL ma znaczenie

McGaugh, Lelli i Schombert (2016) zaproponowali relację przyspieszenia radialnego (RAR), pokazując ścisłą relację o małym rozrzucie między obserwowanym przyspieszeniem śledzonym przez krzywe rotacji a przyspieszeniem przewidywanym z materii barionowej. Czyni to sprzężenie barionów z odpowiedzią grawitacyjną nieuniknionym problemem dla teorii w skali galaktyk.

Brouwer et al. (2021) wykorzystali słabe soczewkowanie KiDS-1000, aby rozszerzyć RAR na niższe przyspieszenia i większe promienie, porównując MOND, emergent gravity Verlindego i modele LambdaCDM. Zauważyli też, że różnice między galaktykami wczesnego i późnego typu, gazowe halo oraz połączenia galaktyka–halo pozostają kluczowymi problemami wyjaśniającymi.

Mistele et al. (2024) wykorzystali dalej słabe soczewkowanie do wnioskowania krzywych prędkości kołowej dla galaktyk izolowanych i zgłosili brak wyraźnego spadku do setek kpc, a nawet około 1 Mpc, zgodnie z BTFR. Pokazuje to, że słabe soczewkowanie staje się ważnym zewnętrznym odczytem odpowiedzi grawitacyjnej w skali galaktyk.

Wartość P1 nie polega więc na tym, że jako pierwsze omawia RC i GGL razem. Polega na umieszczeniu ich w audytowalnym protokole zbudowanym ze stałego mapowania, rejestru parametrów, domknięcia RC-only→GGL, kontroli negatywnych typu shuffle oraz wielomodelowych testów obciążeniowych DM w P1A.


2 | Co oznacza EFT w P1? To nie jest efektywna teoria pola

Tutaj EFT oznacza Teorię Włókna Energii (Energy Filament Theory), a nie znaną w fizyce efektywną teorię pola (Effective Field Theory). W raporcie technicznym P1 EFT jest używana bardzo powściągliwie: nie startuje jako kompletna teoria finalna, lecz najpierw zostaje ściśnięta do obserwowalnej, gotowej do dopasowania i falsyfikowalnej parametryzacji „średniej odpowiedzi grawitacyjnej”.

Mówiąc prościej, P1 nie próbuje omawiać wszystkich mikroskopowych źródeł dodatkowej grawitacji ani dowodzić całych ram EFT jednym krokiem. Stawia węższe i twardsze pytanie: jeżeli w skali galaktyk istnieje pewien rodzaj średniej dodatkowej odpowiedzi grawitacyjnej, czy może ona najpierw wyjaśnić RC, a potem przenieść się na predykcję GGL?

Jaką część EFT testuje P1?

P1 testuje „średni poziom bazowy grawitacji”: statystycznie stabilny, przenoszalny wkład średni.

P1 nie zajmuje się jeszcze „stochastic / noise floor”: składnikami losowymi, różnicami między obiektami ani dodatkowym rozrzutem, które mogą wynikać z bardziej mikroskopowych procesów fluktuacyjnych.

P1 nie omawia też pełnego mechanizmu mikroskopowego, obfitości, czasów życia ani globalnych ograniczeń kosmologicznych. Jest pierwszym krokiem eksperymentów serii P, nie ostatecznym werdyktem.


3 | Plan serii P: dlaczego zacząć od „średniego poziomu bazowego”?

Serię P można rozumieć jako obserwacyjny program odzyskiwania sygnału EFT. Nie wykłada ona wszystkich twierdzeń naraz. Najpierw izoluje ten element, który najłatwiej przetestować na danych publicznych. P1 zaczyna od składnika średniego: jeżeli średnia odpowiedź grawitacyjna nie potrafi domknąć się z RC do GGL, nie ma solidnego punktu wejścia do omawiania bardziej złożonych składników szumowych ani mikroskopowych mechanizmów.

Tabela 1 | Warstwowe umiejscowienie serii P

Warstwa

Pytanie

Miejsce w P1

P1

Czy średnia odpowiedź grawitacyjna może domknąć się z RC do GGL?

Główne pytanie obecnego raportu

P1A

Jeśli strona DM zostanie wzmocniona, czy wniosek pozostaje stabilny?

Dodatek B: test obciążeniowy DM 7+1 + DM_STD

Przyszła praca serii P

Czy można to rozszerzyć na więcej danych, więcej sond i bardziej złożone systematyki?

Kierunek dalszych prac

Głębsze problemy

Jak łączą się składnik średni, składnik szumowy i mechanizmy mikroskopowe?

Poza zakresem wniosków P1


4 | Jakie są dane? Co mówią osobno RC i GGL?


4.1 Krzywe rotacji (RC): linijka prędkości wewnątrz dysków galaktycznych

Krzywe rotacji zapisują, jak szybko gaz i gwiazdy krążą na różnych promieniach od centrum galaktyki. Wyższe prędkości orbitalne oznaczają potrzebę silniejszej siły dośrodkowej, a więc silniejszej efektywnej odpowiedzi grawitacyjnej. P1 korzysta z bazy SPARC; po przetworzeniu wstępnym obejmuje 104 galaktyki, 2295 punktów prędkości i 20 binów RC.


4.2 Słabe soczewkowanie (GGL): wielkoskalowa „waga grawitacyjna”

Słabe soczewkowanie galaktyka–galaktyka mierzy, jak galaktyki pierwszego planu lekko uginają światło galaktyk tła. Odpowiada ono większoskalowej, halowej, rzutowanej odpowiedzi grawitacyjnej i nie zależy od szczegółów dynamiki gazu w dyskach galaktycznych. P1 korzysta z publicznych danych GGL z KiDS-1000 / Brouwer et al. (2021): cztery biny masy gwiazdowej, po 15 punktów radialnych na bin, łącznie 60 punktów danych, z pełną kowariancją.


4.3 Stałe mapowanie: dlaczego 20 binów RC → 4 biny GGL ma znaczenie

P1 łączy 20 binów RC z 4 binami GGL według stałej reguły: każdy bin GGL odpowiada pięciu binom RC, uśrednianym z wagami zależnymi od liczby galaktyk. To mapowanie pozostaje stałe dla każdego modelu. Jest twardym ograniczeniem testu domknięcia i uczciwego porównania.

Dlaczego nie dostroić mapowania po fakcie?

Gdyby po fakcie wolno było wybierać, które biny RC odpowiadają którym binom GGL, model mógłby wytworzyć domknięcie przez przestawienie odpowiedniości. P1 z góry blokuje mapowanie 20→4 i celowo rozbija je kontrolą negatywną shuffle, aby sprawdzić, czy sygnał domknięcia naprawdę zależy od fizycznie sensownej odpowiedniości.


5 | Modele i metody: co właściwie porównuje P1?


5.1 Strona EFT: niskowymiarowa średnia odpowiedź grawitacyjna

Po stronie EFT niskowymiarowy dodatkowy składnik prędkości opisuje średnią odpowiedź grawitacyjną. Kształt tego dodatkowego składnika kontroluje bezwymiarowa funkcja jądra f(r/ℓ), gdzie ℓ jest skalą globalną, a amplitudy przypisywane są według binu RC. Różne jądra kodują różne początkowe nachylenia, zachowanie przejścia i dalekozasięgowe ogony, służąc jako testy odporności.


5.2 Strona DM: porównanie w tekście głównym i dodatek P1A trzeba czytać oddzielnie

W porównaniu tekstu głównego DM_RAZOR jest zminimalizowaną, audytowalną bazą NFW: relacja c–M jest ustalona, bez rozrzutu halo-do-halo, adiabatycznej kontrakcji, rdzenia od sprzężenia zwrotnego, niesferyczności ani składnika środowiskowego. Zaletą takiego projektu są kontrolowane stopnie swobody i łatwa reprodukowalność; ograniczeniem jest to, że nie reprezentuje on każdego modelu LambdaCDM ani każdego modelu halo ciemnej materii.

Dlatego dodatek B (P1A) przekształca stronę DM w ustandaryzowany test obciążeniowy. Bez zmiany wspólnego mapowania ani protokołu domknięcia P1A stopniowo dodaje niskowymiarowe gałęzie wzmocnienia, takie jak SCAT, AC, FB, HIER_CMSCAT, CORE1P, soczewkowanie m oraz złożoną bazę DM_STD, zachowując EFT_BIN jako model porównawczy. Dobra lektura P1A jest taka: nie porównuje ono EFT tylko z jedną minimalną bazą DM, lecz wkłada zestaw typowych, audytowalnych mechanizmów DM według tego samego kryterium domknięcia.

Precyzyjna konkluzja użyta tutaj

Tekst główny: rodzina EFT znacząco przewyższa minimalny DM_RAZOR w porównaniu głównym.

Dodatek B / P1A: przy wielu niskowymiarowych, audytowalnych gałęziach wzmocnienia DM i teście obciążeniowym DM_STD część wspólnych dopasowań DM się poprawia, ale siła domknięcia nie kasuje przewagi EFT_BIN.

Najbezpieczniejsze sformułowanie brzmi więc: w zakresie danych, mapowania, rejestru parametrów i protokołu domknięcia P1/P1A średnia odpowiedź grawitacyjna EFT wykazuje silniejszą spójność między danymi. Nie oznacza to wykluczenia wszystkich modeli ciemnej materii.


5.3 Test domknięcia: najważniejsza logika eksperymentalna P1

1. Dopasuj tylko RC i uzyskaj zbiór próbek rozkładu a posteriori RC-only.

2. Nie dostrajaj ponownie na GGL; użyj rozkładu a posteriori RC bezpośrednio do predykcji GGL.

3. Użyj pełnej kowariancji, aby obliczyć wynik predykcji GGL logL_true przy poprawnym mapowaniu.

4. Losowo przetasuj odpowiedniość RC-bin→GGL-bin i oblicz wynik kontroli negatywnej logL_perm.

5. Odejmij te dwie wartości, aby otrzymać siłę domknięcia: ΔlogL_closure = <logL_true> − <logL_perm>.

Analogią prostym językiem

Test domknięcia przypomina powtórkę egzaminu w innym pokoju: model najpierw uczy się reguły w sali RC, a potem odpowiada w sali GGL. Jeśli nauczył się wspólnej reguły, a nie lokalnej sztuczki, powinien nadal dobrze wypaść w drugim pokoju; jeśli odpowiedniość sal zostanie celowo przetasowana, przewaga powinna zniknąć.


5.4 Zanim zaczniesz czytać tabele techniczne: cztery punkty wejścia

Tabela 5.4 | Jak czytać następny zestaw szerokich tabel technicznych

Punkt wejścia

Na co patrzeć

Dlaczego to ważne

Tabela S1a

Łączny wynik wspólnego dopasowania RC+GGL

Odpowiada: „czyje ogólne wyjaśnienie jest silniejsze w obu zbiorach danych?”

Tabela S1b

Siła domknięcia, shuffle, skany odporności

Odpowiada: „czy to, czego nauczono się z RC, przenosi się na GGL?”

Tabela B0

Definicje wielu gałęzi wzmocnienia DM w P1A

Chroni P1 przed redukcją do „porównano tylko z minimalnym DM_RAZOR”.

Tabela B1

Domknięcie i wspólna tablica wyników P1A

Sprawdza, czy wzmocniona DM kasuje przewagę domknięcia.

Uwaga o układzie

Następna strona przechodzi do orientacji poziomej, aby zachować szerokie tabele z raportu oryginalnego bez usuwania kolumn lub kompresji do nieczytelności. Tekst główny podał już odczyt prostym językiem; poziome tabele techniczne są dla czytelników, którzy muszą sprawdzić liczby i gałęzie modeli.

Rysunek 0.1 | Przepływ pracy testu domknięcia P1 w skrócie

Uwaga: górny łańcuch to „test domknięcia” (dopasuj tylko RC → użyj rozkładu a posteriori RC do predykcji GGL); dolny łańcuch to „wspólne dopasowanie” (wspólne punktowanie RC+GGL). Prawa strona porównuje prawdziwe mapowanie z mapowaniami przetasowanymi, aby uzyskać siłę domknięcia ΔlogL.


6 | Kluczowe tabele techniczne: tabele raportu głównego i tabele P1A

Tabela S1a | Główne metryki porównania wspólnego dopasowania (RC+GGL, Strict; zachowane z raportu oryginalnego)

Model (obszar roboczy)

Jądro W

k

Wspólny logL_total (najlepszy)

ΔlogL_total vs DM

AICc

BIC

DM_RAZOR

brak

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

brak

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

wykładnicze

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

Yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

powerlaw_tail

21

-15633.321

1294.442

31309.038

31429.692

Tabela S1b | Metryki domknięcia i odporności (Strict; zachowane z raportu oryginalnego)

Model (obszar roboczy)

Domknięcie ΔlogL (true-perm)

ΔlogL po shuffle kontroli negatywnej

Zakres ΔlogL przy skanie σ_int

Zakres ΔlogL przy skanie R_min

Zakres ΔlogL przy skanie cov-shrink

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308

Tabela B0 | Definicje gałęzi wzmocnienia DM w P1A (zachowane z dodatku B raportu oryginalnego)

Obszar roboczy

dm_model

Nowe parametry (≤1)

Motywacja fizyczna (rdzeń)

Reguła implementacji (audytowalna)

DM_RAZOR

NFW (ustalona relacja c–M, bez rozrzutu)

Minimalna, audytowalna baza halo LambdaCDM; używana jako ścisły komparator dla EFT

Wspólne mapowanie ustalone; ścisły rejestr parametrów; jako baza używana tylko do porównania względnego

DM_RAZOR_SCAT

NFW + rozrzut c–M (starsza gałąź)

σ_logc

Relacja c–M ma rozrzut; przybliżona jednoparametrowym rozrzutem log-normalnym

≤1 nowy parametr; nadal używa wspólnego mapowania; zysk domknięcia jest kryterium akceptacji

DM_RAZOR_AC

NFW + kontrakcja adiabatyczna (starsza gałąź)

α_AC

Napotk barionów może wywołać adiabatyczną kontrakcję halo; przybliżone jednym parametrem siły

≤1 nowy parametr; mapowanie bez zmian; raportuje zmiany AICc/BIC i zysk domknięcia

DM_RAZOR_FB

NFW + rdzeń od sprzężenia zwrotnego (starsza gałąź)

log r_core

Sprzężenie zwrotne może utworzyć rdzeń w regionie wewnętrznym; przybliżone jednym parametrem skali rdzenia

≤1 nowy parametr; ten sam protokół domknięcia/kontroli negatywnej; poprawa RC-only nie jest jedynym celem

DM_HIER_CMSCAT

Hierarchiczny rozrzut c–M + prior

σ_logc (hier)

Bardziej standardowe hierarchiczne c_i∼logN(c(M_i), σ_logc); wpływa jednocześnie na wspólny posterior RC i GGL

Jawny prior; latentne c_i marginalizowane; pozostaje niskowymiarowe i audytowalne

DM_CORE1P

Jednoparametrowy proxy rdzenia (inspirowany coreNFW/DC14)

log r_core

Używa jednoparametrowego proxy rdzenia dla głównego efektu sprzężenia zwrotnego barionów, unikając wysokowymiarowych szczegółów historii formowania gwiazd

Odwołuje się do literatury standardowej; ≤1 nowy parametr; powiązane z testem domknięcia

DM_RAZOR_M

NFW + parametr zakłócający kalibracji ścinania soczewkowego

m_shear (GGL)

Pochłania kluczową systematykę po stronie słabego soczewkowania jako parametr efektywny, zmniejszając ryzyko odczytania systematyk jako fizyki

Parametr zakłócający jest jawnie uwzględniony; nie może wracać do RC; wyniki oceniane głównie przez odporność domknięcia

DM_STD

Ustandaryzowana baza DM (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

Łączy trzy typowe klasy zarzutów w nadal niskowymiarową, ustandaryzowaną bazę

Raportuje razem rejestr parametrów i kryteria informacyjne; domknięcie jest główną metryką; używany jako najsilniejszy komparator obrony DM

Tabela B1 | Tablica wyników P1A (im więcej, tym lepiej; zachowana z dodatku B raportu oryginalnego)

Gałąź modelu (obszar roboczy)

Δk

Najlepszy logL_RC tylko RC (Δ)

Siła domknięcia ΔlogL_closure (Δ)

Najlepszy wspólny logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

Jak czytać tabelę B1 (tablicę wyników P1A)

• Δk: dodane stopnie swobody (większe oznacza model bardziej złożony; bardziej złożony nie znaczy lepszy).

• Skup się na dwóch kolumnach: siła domknięcia ΔlogL_closure(Δ) (większa oznacza większą samospójność transferu) oraz najlepszy łączny logL_total(Δ) (łączny wynik wspólnego dopasowania).

• (Δ) w nawiasie to różnica względem DM_RAZOR, co ułatwia bezpośrednie porównanie.

• Główne pytanie tej tabeli brzmi: jeśli baza DM zostanie „rozsądnie wzmocniony”, czy przewaga domknięcia znika?

• Uwaga do lektury: DM_STD znacznie poprawia wspólny wynik, ale siła domknięcia faktycznie spada; EFT_BIN nadal utrzymuje wyższą siłę domknięcia.

Podsumowanie w jednym zdaniu: w tym niskowymiarowym, audytowalnym zakresie wzmocnień DM poprawa wspólnego dopasowania nie daje automatycznie silniejszego domknięcia; domknięcie (przenoszalność) pozostaje kluczowym kryterium.


7 | Jak czytać główne wyniki?

7.1 Wspólne dopasowanie: przy dwóch zbiorach danych porównanie główne EFT osiąga wyższy wynik

Tabela S1a i rysunek S4 pokazują, że przy tych samych danych, tym samym wspólnym mapowaniu i niemal tej samej skali parametrów rodzina EFT ma wspólne ΔlogL_total równe 1155–1337 względem DM_RAZOR. Dla czytelników ogólnych oznacza to, że w jednej regule punktowania łączącej RC i GGL modele głównego porównania EFT otrzymują wyższy wynik łączny.


7.2 Test domknięcia: główny nacisk P1 pada na przenoszalność

Wysoka siła domknięcia oznacza, że model potrafi wywnioskować parametry tylko z RC i, bez ponownego oglądania GGL, lepiej przewidzieć GGL. W raporcie P1 EFT ma ΔlogL_closure = 172–281, a DM_RAZOR ma 127. To ważniejsze niż stwierdzenie, że „każde dopasowanie wygląda dobrze”, ponieważ ogranicza swobodę modelu na drugim zbiorze danych.


7.3 Kontrola negatywna: dlaczego „załamanie sygnału” jest dobrą wiadomością?

Po losowym przetasowaniu w P1 odpowiedniości grup RC-bin→GGL-bin sygnał domknięcia EFT spada do zakresu 6–23. Dla ogólnego czytelnika jest to krok antyoszustwa: gdyby przewaga domknięcia wynikała tylko z kodu, jednostek, wyboru kowariancji lub przypadku dopasowania, przetasowane odpowiedniości mogłyby nadal pokazywać przewagę. Zamiast tego przewaga się załamuje, pokazując zależność od poprawnego mapowania.

Rysunek S3 | Siła domknięcia (im większa, tym lepiej): średnia przewaga log-prawdopodobieństwa dla predykcji RC-only → GGL.

Jak czytać ten rysunek

Ten rysunek jest rdzeniem P1. Im wyższy słupek, tym lepiej informacja nauczona przez model z RC przenosi się na GGL.

Rodzina EFT jako całość stoi powyżej DM_RAZOR, wskazując na silniejsze domknięcie między sondami w eksperymencie „najpierw naucz się RC, potem przewiduj GGL”.

Rysunek S4 | Przewaga wspólnego dopasowania (im większa, tym lepiej): najlepsze logL_total RC+GGL względem DM_RAZOR.

Jak czytać ten rysunek

Ten rysunek pokazuje łączny wynik po połączeniu RC i GGL.

Wszystkie warianty EFT leżą wyraźnie powyżej 0, pokazując, że przewaga EFT w porównaniu głównym nie jest lokalnym efektem jednego punktu, lecz ogólnym zachowaniem analizy łącznej.

Rysunek R1 | Kontrola negatywna: sygnał domknięcia gwałtownie spada po przetasowaniu grupowania.

Jak czytać ten rysunek

Ten rysunek pokazuje, że po przetasowaniu poprawnej relacji binowania RC↔GGL sygnał domknięcia gwałtownie spada.

Dzięki temu wynik P1 wygląda bardziej jak rzeczywista spójność w mapowaniu między danymi niż jak numeryczny przypadek możliwy do uzyskania przy dowolnych mapowaniach.


8 | Odporność i kontrole: jak P1 unika zarzutu „po prostu lepiej dopasowuje”?

Raport techniczny najłatwiej zakwestionować podejrzeniem, że przewaga pochodzi z konkretnego ustawienia szumu, wyboru danych z regionu centralnego, obsługi kowariancji albo nadmiernego dopasowania. P1 odpowiada na ten problem wieloma testami obciążeniowymi.

Tabela 2 | Jak czytać testy odporności P1 i kontrole negatywne

Test

Wątpliwość, którą test próbuje wykluczyć

Jak to czytać

Skan σ_int

Jeśli RC zawiera dodatkowy nieznany rozrzut, czy wniosek pozostaje stabilny?

Po poluzowaniu błędów RC ranking EFT i skala przewagi pozostają stabilne.

Skan R_min

Jeśli centralny region galaktyki nie jest w pełni zaufany, czy wniosek pozostaje stabilny?

Po przycięciu regionu centralnego EFT nadal zachowuje dodatnią przewagę.

Skan cov-shrink

Jeśli oszacowanie kowariancji GGL jest niepewne, czy wniosek pozostaje stabilny?

Po ściągnięciu kowariancji w stronę macierzy diagonalnej przewaga nie jest wrażliwa.

Drabina ablacji

Czy EFT wymusza dopasowanie przez zbędną złożoność?

Pełny EFT_BIN jest konieczny według kryteriów informacyjnych.

Predykcja LOO z wyłączonymi danymi

Czy model wyjaśnia tylko dane, które już widział?

Po wyłączeniu jednego binu GGL model nadal pokazuje silną generalizację.

Shuffle binów RC

Czy domknięcie pochodzi z rzeczywistego mapowania?

Domknięcie spada po przetasowaniu grupowania, wspierając zależność od mapowania.

Rysunek R2 | Zakres ΔlogL_total przy skanie σ_int (im większe, tym lepiej).

Jak czytać ten rysunek

Testuje, czy przewaga EFT pozostaje po zmianach ustawienia wewnętrznego rozrzutu RC.

Rysunek R3 | Zakres ΔlogL_total przy skanie R_min (im większe, tym lepiej).

Jak czytać ten rysunek

Testuje, czy przewaga EFT pozostaje stabilna po przycięciu złożonego regionu centralnego.

Rysunek R4 | Zakres ΔlogL_total przy skanie cov-shrink (im większe, tym lepiej).

Jak czytać ten rysunek

Testuje, czy ranking jest wrażliwy na zmiany obsługi kowariancji słabego soczewkowania.

Rysunek R5 | Drabina ablacji dla EFT_BIN (AICc; im mniejsze, tym lepiej).

Jak czytać ten rysunek

Testuje, czy pełny EFT_BIN jest potrzebny do wyjaśnienia danych, a nie tylko dodaje parametry.

Rysunek R6 | LOO: rozkład logarytmu prawdopodobieństwa dla binów wyłączonych z dopasowania.

Jak czytać ten rysunek

Testuje, czy model nadal dobrze przewiduje na niewidzianym binie GGL.

Rysunek R7 | Kontrola negatywna: przetasowane mapowanie powoduje wyraźny spadek średniego logL_true.

Jak czytać ten rysunek

Dalej pokazuje, z perspektywy średniego logL_true, że domknięcie zależy od poprawnego mapowania między danymi.


9 | P1A: dlaczego wiele modeli DM w dodatku ma znaczenie

Ta sekcja nie pyta: „Czy EFT pokonała tylko jeden minimalny DM_RAZOR?”. Pyta, czy wnioski z testu domknięcia i wspólnego dopasowania zmieniają się, gdy baza DM zostaje wzmocniona w ramach niskowymiarowego, reprodukowalnego i jasno rozliczonego rejestru parametrów (P1A). Innymi słowy, P1A ma osłabić zarzut, że porównanie użyło zbyt słabej bazy DM, i przesunąć dyskusję ku pytaniu, czy wydajność domknięcia nadal różni się pod zestawem audytowalnych wzmocnień DM.

P1A nie próbuje wyczerpać wszystkich możliwych opcji modelowania halo w LambdaCDM ani zamieniać strony DM w wysokowymiarową, nieaudytowalną maszynę dopasowującą. Wybiera niskowymiarowe, reprodukowalne i jasno rozliczone wzmocnienia: rozrzut koncentracji, adiabatyczną kontrakcję, rdzeń od sprzężenia zwrotnego, hierarchiczny prior rozrzutu c–M, jednoparametrowy proxy rdzenia, parametr zakłócający kalibracji ścinania w słabym soczewkowaniu oraz połączoną bazę DM_STD.

Główna lektura P1A

Spośród trzech starszych gałęzi tylko feedback/rdzeń daje niewielki netto zysk siły domknięcia; SCAT i AC nie przynoszą netto zysku domknięcia.

DM_HIER_CMSCAT, DM_RAZOR_M i DM_CORE1P mają niewielki wpływ na siłę domknięcia albo nie pokazują istotnego netto zysku.

DM_STD może znacząco poprawić wspólny logL, ale siła domknięcia spada, sugerując, że głównie zwiększa elastyczność wspólnego dopasowania, a nie moc predykcji transferu RC→GGL.

W tabeli B1 P1A EFT_BIN nadal utrzymuje wyższą siłę domknięcia i przewagę wspólnego dopasowania. Głównego twierdzenia P1 nie należy więc upraszczać do „pokonało tylko minimalny DM_RAZOR”.

Rysunek B1 | Tablica wyników P1A: domknięcie i wspólne ΔlogL względem bazy (im więcej, tym lepiej).

Jak czytać ten rysunek

Ten rysunek pokazuje, jak wiele gałęzi wzmocnienia DM wypada względem bazy.

Jego sens nie brzmi „cała DM jest wykluczona”. Pokazuje, że w niskowymiarowym, audytowalnym zakresie wzmocnień DM wybranym w P1A wzmocniona DM nie usuwa przewagi domknięcia EFT_BIN.


10 | Dlaczego eksperyment P1 ma znaczenie

10.1 Znaczenie metodologiczne: postaw domknięcie między sondami wyżej niż dopasowanie jednej sondy

Teoria w skali galaktyk często grzęźnie w sporach o to, czy model potrafi dopasować jeden zestaw krzywych rotacji. P1 podnosi poprzeczkę: czy parametry nauczone z RC potrafią przewidzieć słabe soczewkowanie bez ponownego dostrajania na GGL? To zmienia P1 z konkursu dopasowań w test predykcji przenoszonej.


10.2 Znaczenie przejrzystości: uczynić łańcuch reprodukowalności częścią wyniku

Ważnym wkładem P1 jest wspólne opublikowanie danych, tabel i rysunków, etykiet uruchomień, kontroli negatywnych, pakietu reprodukowalności oraz śladu audytu. Ma to znaczenie zarówno dla zwolenników, jak i krytyków: dyskusja może wracać do tych samych publicznych danych, tego samego mapowania, tych samych skryptów i tych samych metryk, zamiast porównywać hasła.


10.3 Znaczenie fizyczne: silny test obciążeniowy dla grawitacji bez DM

W kierunkach grawitacji bez DM wiele modeli potrafi wyjaśnić część fenomenologii krzywych rotacji albo RAR. Trudniejszym zadaniem jest jednocześnie przejść odczyty słabego soczewkowania i pokazać w kontrolach negatywnych, że sygnał zależy od poprawnego mapowania. Znaczenie P1 polega na tym, że umieszcza średnią odpowiedź grawitacyjną EFT w protokole przypominającym egzamin zewnętrzny: RC jest polem treningowym, GGL polem transferu, a shuffle polem antyoszustwa.


10.4 Czy to ważny eksperyment dla obszaru grawitacji bez DM?

Ostrożnie mówiąc: jeżeli przetwarzanie danych P1, pakiet reprodukowalności i protokół domknięcia utrzymają się przy zewnętrznej replikacji, eksperyment można uznać za test domknięcia RC+GGL wart poważnej uwagi w badaniach nad grawitacją bez DM / grawitacją modyfikowaną. Jego znaczenie nie leży w zdaniu „ciemna materia została obalona”, lecz w tym, że dostarcza kryterium między sondami, które można skopiować, zakwestionować i rozszerzyć.

Czy istnieją już porównywalnie silne ramy domknięcia predykcji RC+GGL?

Istnieją już istotne ramy i tradycje obserwacyjne: MOND/RAR bardzo dobrze porządkuje dużą część zjawisk krzywych rotacji; praca KiDS-1000 nad RAR ze słabego soczewkowania porównywała także MOND, emergent gravity Verlindego i modele LambdaCDM; LambdaCDM potrafi też wyjaśniać część zjawisk słabego soczewkowania/dynamiki przez połączenia galaktyka–halo, gazowe halo i modelowanie sprzężenia zwrotnego.

Ale precyzyjne twierdzenie P1 nie brzmi: „żadne inne ramy na świecie nie mogą wyjaśnić RC+GGL”. Brzmi ono tak: w ramach własnego publicznego protokołu P1 — stałego mapowania, domknięcia RC-only→GGL, kontroli negatywnej shuffle, rejestru parametrów i wielomodelowych testów obciążeniowych DM w P1A — EFT raportuje silniejszą wydajność domknięcia.

Innymi słowy, częścią P1 najbardziej wartą zewnętrznego testowania jest konkretny i reprodukowalny protokół porównania, który proponuje. To, czy MOND/RAR, LambdaCDM/HOD, symulacje hydrodynamiczne lub inne ramy grawitacji modyfikowanej mogą osiągnąć ten sam albo wyższy wynik domknięcia pod tym samym protokołem, jest bardzo wartościowym następnym krokiem.


11 | Co P1 może wnioskować? Czego nie może wnioskować?

Tabela 3 | Granice wniosków P1

Można wnioskować

W danych RC+GGL P1, przy stałym mapowaniu i protokole porównania głównego, rodzina EFT ma wyższą siłę wspólnego dopasowania i domknięcia niż minimalny DM_RAZOR.

Można wnioskować

W niskowymiarowym, audytowalnym zakresie wzmocnień DM P1A wiele wzmocnień DM nie usuwa przewagi domknięcia EFT_BIN.

Można wnioskować

Kontrola negatywna shuffle pokazuje, że sygnał domknięcia zależy od poprawnego mapowania między danymi, a nie od dowolnych mapowań.

Nie można wnioskować

Nie można wnioskować, że P1 obaliło wszystkie modele ciemnej materii. P1A nadal nie wyczerpuje niesferyczności, zależności środowiskowej, złożonych połączeń galaktyka–halo, wysokowymiarowego sprzężenia zwrotnego ani pełnych symulacji kosmologicznych.

Nie można wnioskować

Nie można wnioskować, że pełna teoria EFT została dowiedziona z pierwszych zasad. P1 testuje tylko fenomenologiczną warstwę średniej odpowiedzi grawitacyjnej.

Nie można wnioskować

Nie można wnioskować, że wszystkie systematyki zostały wykluczone. P1 dostarcza dowodów odporności tylko w zakresie wymienionych testów obciążeniowych i audytu.


12 | Najczęściej zadawane pytania

Pyt. 1: Czy to znaczy, że „ciemna materia nie istnieje”?

Nie. Wniosek P1 musi być ograniczony do danych, protokołu i modeli porównawczych użytych w tym artykule. P1A wychodzi poza minimalną bazę DM_RAZOR, ale nadal nie reprezentuje każdego możliwego modelu ciemnej materii.

Pyt. 2: Czy to znaczy, że „EFT została już udowodniona”?

Również nie. P1 testuje EFT jako sparametryzowaną średnią odpowiedź grawitacyjną i pokazuje silniejszą wydajność w domknięciu RC→GGL; mikroskopowe mechanizmy i pełna teoria nie są wnioskami P1.

Pyt. 3: Dlaczego nie podać bezpośrednio istotności w σ?

P1 używa zunifikowanego wyniku wiarygodności, kryteriów informacyjnych i różnic domknięcia. ΔlogL jest przewagą względną przy tej samej regule punktowania; nie jest tym samym co pojedyncza wartość σ.

Pyt. 4: Dlaczego przetasowywać RC-bin→GGL-bin?

To kontrola negatywna. Rzeczywisty sygnał między sondami powinien zależeć od poprawnego mapowania. Gdyby przypadek przetasowany pozostał równie silny, sugerowałoby to raczej błąd implementacji albo statystyczny sygnał pozorny.

Pyt. 5: Co powinien zrobić P1 dalej?

Rozszerzyć ten sam protokół na więcej danych, więcej kontroli DM, bardziej złożone systematyki i więcej ram grawitacji modyfikowanej — zwłaszcza w sposób, który pozwoli zewnętrznym zespołom odtworzyć tę samą metrykę domknięcia.


13 | Mini-słownik

Tabela 4 | Mini-słownik

Termin

Wyjaśnienie w jednym zdaniu

Krzywa rotacji (RC)

Relacja promień–prędkość w dysku galaktycznym, używana do wnioskowania efektywnej grawitacji w dysku.

Słabe soczewkowanie (GGL)

Mierzy średni rozkład grawitacji/masy wokół galaktyk pierwszego planu przez statystyczne zniekształcenie kształtów galaktyk tła.

Test domknięcia

Używa rozkładu a posteriori RC do predykcji GGL i porównuje ją z kontrolą negatywną opartą na przetasowanym mapowaniu.

Kontrola negatywna

Celowo rozbija kluczową strukturę, aby sprawdzić, czy sygnał znika; służy do wykluczania sygnałów pozornych.

Halo NFW

Profil gęstości halo ciemnej materii powszechnie używany w modelach zimnej ciemnej materii.

Relacja c–M

Relacja między koncentracją c halo ciemnej materii a jego masą M; dopuszczenie rozrzutu zmienia elastyczność modelu.

DM_STD

W P1A: ustandaryzowana gałąź testu obciążeniowego DM, łącząca wiele niskowymiarowych wzmocnień DM i parametr zakłócający soczewkowania.

ΔlogL

Różnica logarytmu wiarygodności między dwoma modelami przy tej samej regule punktowania; wartości dodatnie oznaczają, że pierwszy model wypada lepiej.

Kowariancja

Macierzowy opis korelacji między punktami danych; dane słabego soczewkowania zwykle wymagają pełnej kowariancji.


14 | Sugerowana ścieżka lektury i punkty wejścia do cytowania

1. Najpierw przeczytaj sekcje 0–2, aby uchwycić pytanie P1 i powściągliwą rolę przypisaną EFT w P1.

2. Następnie obejrzyj rysunki S3 i S4 oraz tabele S1a/S1b, aby zrozumieć siłę domknięcia, wspólne dopasowanie i kontrole negatywne.

3. Jeśli obawiasz się, że baza DM jest zbyt słaba, przejdź bezpośrednio do sekcji 9 oraz tabeli B1 / rysunku B1.

4. W celu technicznej replikacji wróć do raportu technicznego P1 v1.1, dodatku Tables & Figures Supplement oraz full_fit_runpack.

Główne punkty wejścia do archiwów

Raport techniczny P1 (jakość publikacyjna, Concept DOI): 10.5281/zenodo.18526334

Pełny pakiet reprodukowalności P1 (Concept DOI): 10.5281/zenodo.18526286

Ustrukturyzowana baza wiedzy EFT (opcjonalnie, Concept DOI): 10.5281/zenodo.18853200

Uwaga licencyjna: raport techniczny używa CC BY-NC-ND 4.0; pełny pakiet reprodukowalności używa CC BY 4.0 (zgodnie z raportem technicznym i rekordami archiwum Zenodo).


15 | Bibliografia i kontekst zewnętrzny

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.