fredag 18 november 2016

Mer skåpmat i åldersbedömningsdebatten

Häromdagen dök en ny aktör upp i åldersbedömningsdebatten. Ett antal arkeologer/osteologer dammade av snart sagt alla de argument mot åldersbedömning som redan hörts ad nauseam.

"Det går inte att exakt bestämma ålder" - Tack, vi vet.

"Nutrition och etnicitet..." - Tack, vi vet. Alla vet. Eller i alla fall borde veta.

Varför har det blivit så här? Varför återkommer dessa debattinlägg med exakt samma invalida argument, som vore de tagna ur ett manus?

Det som förundrar mig är att vetenskapligt skolade, högt kompetenta personer ägnar sig åt detta. Varför har de inte bemödat sig om att ens försöka sätta sig in i debattens elementa? Varför dagtingar de med sin trovärdighet på det här sättet? Vad är det som gör det så viktigt för osteologerna att uttala sig tvärsäkert om röntgenbaserade metoder som de överhuvudtaget inte är insatta i? Varför misstror de alla experter i så hög grad att de söker sig till SvD:s debattsida istället för att fråga expertisen direkt om hur dessa undersökningar går till?

Jag vet inte hur rättsmedicinare och -odontologer normalt arbetar, men jag föreställer mig att det hör till ovanligheterna att de skriver debattinlägg i DN och SvD där de basunerar ut för hela Sverige att det är meningslöst att gräva ut Pompeji.

Även om arkeologerna högg i sten förde det det goda med sig att ortopeden och handkirurgen Nenad Zeba, expert på medicinsk åldersbedömning, föranleddes att sätta ner foten ordentligt. Det var inte en dag för tidigt.
måndag 24 oktober 2016

SVT gör ett magplask om åldersbedömningarna

SVT håller igång debatten om medicinska åldersbedömningar (MÅB) med artikeln "Åldersbedömningar är ovetenskapliga", som aptitretare inför ett reportage som kommer i veckan. På sätt och vis borde man vara tacksam - debatten varken är eller ska vara över.

Problemet med SVT:s artikel är att den uppvisar en viktig brist som nyhet betraktad - det är inget nytt i den. Professorerna Cole och Cameron, vars utsagor är artikelns fundament, är kända MÅB-kritiker. Hela artikeln är i princip en uppradning av samma gamla missförstånd som jag och många andra bemött tidigare: "Man kan inte bedöma ålder exakt" (Nej, det har ingen påstått.); "Felmarginalerna är för stora" (Felmarginalerna är ointressanta eftersom syftet inte är att bestämma exakt ålder utan sannolikheten att den undersökte är över 18); "Mognaden påverkas av kost, trauma etc" (Ja, men alla dessa faktorer försenar mognaden, vilket gynnar den undersökte). Et cetera. Inget nytt för den som följt med i debatten.

Den främste MÅB-kritikern (kanske i världen), Cole, är statistiker och har gedigen forskningsbakgrund på området. Hans tes är att metoderna är för osäkra för att användas, rent statistiskt, eftersom de "klassar fel" så ofta, uppemot 30% av fallen eller mer. I artikeln säger han att det är många som är över 18 som inte har nått sista stadiet i visdomstandutvecklingen, och det gör att många klassas fel. Det har han en poäng i.

Men det är en konsekvens av att man till varje pris vill undvika att klassa barn som vuxna! Höjer man kraven för vad man betraktar som "säkert över 18" betyder det ofrånkomligen att man tvingas acceptera att förhållandevis många vuxna klassas som barn. Av de 30% som klassas fel är kanske 3-5%-enheter barn som klassas som vuxna, och 25-27%-enheter är vuxna som klassas som barn. Det går utmärkt att minska andelen vuxna som klassas som barn och därmed klassa fler "rätt" totalt sett, men det sker då till priset av att fler barn klassas som vuxna, och det vill vi undvika eftersom osäkerhet ska gynna (inte drabba) den enskilde.

Notera att resonemanget gäller enskilda metoder. Olika metoder ska, som jag har påpekat tidigare, kombineras för att nå ännu högre säkerhet!

Dessutom vore det intressant att se om Cole har ändrat hållning till tandröntgens vetenskaplighet. Så sent som 2015, i en artikel i Annals of Human Biology, skrev han nämligen så här om tandröntgen (Demirjian):


Så vad är det ovetenskapliga? Det vore förstås ovetenskapligt att bedöma någon i stadium F som "säkert över 18", men det är mig veterligen ingen som gör det, så det är oklart vad problemet egentligen är.

Eftersom det är stadium H som används som indikator för uppnådd myndighetsålder förefaller Cole alltså vara rörande överens med internationell rättsmedicinsk expertis om att det är "very likely" att en person som nått stadium H är minst 18 år.

Det är märkligt att SVT kör ut gammal skåpmat på det här sättet, och det bådar förstås inte gott inför reportaget som helhet.

tisdag 30 augusti 2016

Flodmarks rapport leder Socialstyrelsen ut på ett gungfly

Den som följt mitt bloggande om medicinsk åldersbedömning minns att jag ”förutspådde” resultatet av Flodmarks genomgång av metoder för radiologisk åldersbedömning. Nu, några månader senare, har jag haft tid att sätta mig in i rapporten lite mer noggrant. Det har varit mycket lärorikt.

Jag har funnit inte färre än 10 punkter där Flodmarkrapporten är behäftad med allvarliga brister. Varje enskild brist är så pass allvarlig att den väcker viktiga frågor om rapportens vederhäftighet. Samtliga brister och fel ”drar åt samma håll", vilket bidrar till att Flodmark i rapporten underkänner samtliga internationellt vedertagna metoder för åldersbedömning och rekommenderar att man genomför tidsödande och osäkra pilotstudier av ny teknologi. Som vi ska se är slutsatserna och rekommendationerna mycket tveksamma.

Bristerna sammanfattas nedan, med detaljerad förklaring längre ner i texten:
  1.         Man har inte involverat relevant expertis under arbetets gång
  2.         Man har använt tveksamma kriterier för vad som är en lämplig metod
  3.         Man har missförstått samstämmighetsbegreppet
  4.         Man har använt ett irrelevant mått på samstämmighet
  5.         Man har utvärderat traditionella röntgenmetoder på ett icke-rättvisande sätt
  6.         Man har ignorerat en stor del av den tillgängliga forskningen
  7.         Man har ignorerat en standardmetod enligt internationella riktlinjer
  8.         Man har använt en icke-validerad metod för metaanalys
  9.         Man har överskattat effekten av MR-baserade metoder
  10.        Man ger långsökta rekommendationer om pilotstudier


Brist 1: Man har inte involverat relevant expertis under arbetets gång

Rapporten är enligt introduktionen en systematisk översikt enligt GRADE-metoden. GRADE är ett försök att systematisera litteraturöversikter, och en av förutsättningarna för att man ska kunna genomföra en systematisk litteraturöversikt är att arbetet koordineras av en multidisciplinär arbetsgrupp bestående  av sakkunniga. Dessvärre har ingen av de personer som ingår i den här rapportens arbetsgrupp några forskningsmeriter inom radiologisk åldersbedömning (åtminstone hade de inte det när rapporten färdigställdes). Ingen svensk eller internationell expert på radiologisk åldersbedömning förefaller heller ha haft inflytande på arbetet, även om flera internationella forskningsgrupper kontaktades avseende litteratursökningen. 

Man har inte motiverat beslutet att författa en vetenskaplig översikt utan att involvera de experter på området som ändå finns i Sverige. Flodmark själv är docent med barnfetma som forskningsområde. Han är till yttermera visso miljöpartist och före detta ledamot i Barnläkarföreningens styrelse, den organisation som allra mest högljutt motsatt sig alla försök att införa radiologiskt baserad åldersbedömning i Sverige.

Flodmarks renommé som barnläkare och forskare ifrågasätter jag inte, men som ledare för ett projekt på detta politiskt känsliga område borde man måhända ha vinnlagt sig om att hitta någon med färre potentiella jävsförhållanden, eller åtminstone ha säkerställt att relevant expertis var representerad i arbetsgruppen.


Brist 2: Man har använt tveksamma kriterier för vad som är en lämplig metod

Själva rapporten inleds med att Flodmark presenterar en rad kriterier för vad som bedöms vara en godtagbar metod. ”Samstämmigheten” ska vara 80%, risken för att barn felaktigt ska klassas som vuxna ska vara mindre än 10%, och 90% ska klassas ”rätt”, dvs som vuxna om de är vuxna respektive som barn om de är barn. De här kriterierna är minst sagt diskutabla.

För det första finns det inget skäl att a priori definiera kriterier för vad som är en ”tillräckligt bra” metod om man gör en neutral vetenskaplig översikt. Det är rimligen en fråga som rymmer andra aspekter än de rent medicinska (etiska, juridiska, politiska etc). För det andra är kriterierna helt godtyckliga (ingen referens anges) och högst kontroversiella. Är det verkligen acceptabelt med 90% säkerhet att ett barn inte felaktigt klassas som vuxen? Vissa skulle säkert kunna argumentera för att man ska uppnå 95% säkerhet. Och varför ska 90% av alla undersökta klassas ”rätt” (som varande under eller över 18)? Det viktiga är väl trots allt att barn inte klassas som vuxna? Om vuxna klassas som barn är det långt mindre allvarligt, eftersom det inte medför någon nackdel för den enskilde. En metod som klassar 80% rätt totalt med 2% av undersökta barn felklassade som vuxna förefaller mer attraktiv än en metod som klassar 92% rätt i hela gruppen men klassar 10% av undersökta barn som vuxna – etc. De kriterier som Flodmark slår fast i början av rapporten motiveras inte på något sätt.

Intrycket att kriterierna är helt godtyckliga och dessutom tveksamma förstärks av att Flodmark själv, pikant nog, redan har hunnit ändra sig sedan rapporten publicerades i april! Tre månader senare, i en intervju med Ekot 11/7, uppgav han nämligen att Socialstyrelsen vill ha 95% säkerhet – trots att han själv i rapporten ”bara” kräver 90%!


Brist 3: Man har missförstått samstämmighetsbegreppet

Samstämmighet är i det här fallet ett mått på i hur hög grad två olika radiologer (till exempel) bedömer samma bild likadant. Om två radiologer bedömer samma bild ska de naturligtvis helst ge bilden samma ”poäng” eller stadium på skalan. Flodmark säger sig kräva 80% samstämmighet för att en metod ska vara acceptabel. Men ingenstans preciserar han vilken samstämmighet det rör sig om, och det är av stor betydelse.

Den mest använda skalan för bedömning av tandröntgenbilder är Demirjian. Demirjianskalan har åtta steg: A-H. Betyder ”samstämmighet” att 80% av alla bilder ska få exakt samma klassificering av två olika bedömare? I så fall har Flodmark hämtat fel data från de artiklar som ingår i översikten, för där redovisas inte denna typ av samstämmighet utan ett mer vedertaget mått: ”kappa” (bokstaven ’k’ i det grekiska alfabetet, förenklat (och med reservation för att jag inte är statistiker) är detta ett sätt att korrigera för slumpmässig överensstämmelse). När Flodmark kräver ”80% samstämmighet” har han alltså ingen möjlighet att utvärdera detta med den data han har samlat in, för de publikationer han refererar anger bara kappakoefficienterna. Flodmark har av misstag översatt kappakoefficienterna rakt av till procentuell samstämmighet, vilket är helt fel.

Ett möjligt försvar mot denna invändning är att man hela tiden menade ”kappa minst 0,80” och inte ”minst 80% samstämmighet” men valde att förenkla för en mindre tekniskt bevandrad publik. Det här håller inte heller som ursäkt, eftersom ett kappavärde på 0,70 inte på något sätt utesluter en samstämmighet på 80% - det beror på hur stor den slumpmässiga överensstämmelsen mellan bedömarna är. Att ställa upp ett absolut krav på att en metod ska uppnå en viss kappakoefficient är således inte särskilt meningsfullt (mer om det senare).


Brist 4: Man har använt ett irrelevant mått på samstämmighet

En än viktigare brist är att Flodmarks mått på samstämmighet (oavsett om det är procent eller kappa) egentligen inte har någonting med undersökningarnas pålitlighet att göra, åtminstone inte som de ska användas i det här sammanhanget. Samstämmigheten i publikationerna ("kappakoefficienterna") bedöms nämligen utifrån hur väl bedömarnas bedömning är samstämmig över hela skalans spektrum (exempelvis A-A, C-C, F-F etc), men när det gäller att bedöma 18-årsgränsen är det bara stadium H och möjligtvis G som är av intresse (när det gäller den mest använda Demirjianmetoden).

Det är alltså strängt taget fullständigt ointressant om två olika bedömare har svårt att enas kring huruvida en viss röntgenplåt motsvarar stadium B, C eller D, då samtliga dessa stadier är förenliga med att den undersökte är under 18 (eller rättare, att inget av dessa stadier är förenliga med slutsatsen att den undersökte sannolikt är över 18).

Eftersom extremerna på en sådan här skala oftast eller alltid är lättare att enas kring än intermediärstadierna finns det goda skäl att anta att samstämmigheten gällande ”stadium H eller ej” är väsentligt högre än för skalan som helhet från A till H. Det finns i alla händelser inget som helst skäl att bedöma en metod som otillförlitlig avseende 18-årsgränsen utan att man har bedömt samstämmigheten för det stadium som är relevant för just 18-årsgränsen. Även detta är en helt fundamental brist.

Jag har frågat rapportförfattarna om de känner till någon studie där samstämmigheten för tandröntgen avseende 18-årsgränsen (alltså den bedömning de anser att tandröntgen inte har tillräckligt god samstämmighet för) har prövats, men de har inte gett mig några sådana exempel. Jag har emellertid hittat två sådana studier: Galic, 2015 och Cameriere, 2014. Här har samstämmighet för 18-årsgränsen bedömts med tandröntgen (”Maturity Index”, mer om detta senare) och i en av studierna är samstämmigheten avseende 18-årsgränsen helt perfekt (kappakoefficient 1,0) och i den andra är den extremt hög (0,89).

Det finns alltså inget som helst stöd för Flodmarks slutsats att tandröntgen inte kan användas för att bedöma 18-årsgränsen på grund av bristande samstämmighet mellan olika bedömare. De studier han åberopar har inte studerat frågan, och de studier som har studerat frågan visar i princip perfekt samstämmighet.

                                                                                                                                           
Brist 5: Man har utvärderat traditionella röntgenmetoder på ett icke-rättvisande sätt

Flodmark avfärdar sedan åldersbedömning med tandröntgen på grund av att ”samstämmigheten” är så låg som 60-85% (i själva verket kappakoefficient 0,60-0,85). Notera att jag i detta kapitel bemöter Flodmarks kritik mot tandröntgenmetodernas samstämmighet som om den vore relevant – det är den alltså inte, vilket framgick ovan. Jag går honom till mötes för att det är ett så utmärkt exempel på hur data konsekvent tolkas till de traditionella, internationellt accepterade, metodernas nackdel.

Granskar man rapportens bilaga 7 (nedan) framgår tydligt att de flesta studier har mycket god samstämmighet för tandröntgen! Det är bara Scheurerstudien som faller ur ramen med ett kappavärde på 0,58-0,60. Alla andra ligger väsentligt högre. När så många studier som utvärderar och dokumenterar en metod har genomförts är det fullständigt orimligt att avfärda metoden utifrån vad den absolut sämsta studien visar. Om två forskargrupper, X och Y, med två radiologer i varje, använder samma metod och grupp X får klart sämre resultat än grupp Y, så är den mest närliggande slutsatsen inte att metoden är opålitlig. Eftersom grupp Y uppenbarligen kan uppnå goda resultat med samma metod är den mest rimliga slutsatsen att grupp X har minst en radiolog som behöver mer träning!

Dessutom har Scheurerstudien en helt annan ålderssammansättning än de övriga. Man undersökte nämligen uteslutande ungdomar i åldern 17,5-18,5. Med ett så snävt spann kommer även tandmognaden att vara mer samlad runt ett färre antal stadier än om man inkluderat 12- och 25-åringar, varför också siffrorna för samstämmighet kommer att vara sämre.

Att av denna enda studie dra slutsatsen att samstämmigheten är dålig för tandröntgen (när det finns ett stort antal studier med en mer relevant population som har mycket bättre samstämmighet) är alltså direkt orimligt. 

Det är också värt att notera att ett kappavärde i intervallet 0,6-0,8 normalt anses klart godkänt (”substantial agreement”). Det är oklart varför Flodmark redan innan rapporten skrevs bestämde sig för att kräva 0,80.

Inte bara när det gäller samstämmigheten missgynnar rapporten de internationellt accepterade röntgenmetoderna. Även resultaten från studier som undersöker dessa metoder framställs som sämre än de är, eller misstolkas på ett sätt som får dem att framstå som sämre än de är. Ett flagrant exempel på detta är resultaten för tandröntgen i figur 3, sidan 14. Där står att tandröntgen medför 12% risk att barn klassas som vuxna. Denna siffra gäller dock endast Kullmanmetoden. Som framgår av sidan 13 (nedan) visar Flodmarks egen metaanalys att risken för att barn klassas som vuxna med (den mer vedertagna) Demirjianmetoden är 5%! Så varför presenteras inte dessa resultat i figuren? Varför presenteras bara Kullmanresultaten i figuren och i sammanfattningen (sidan 7)? 

Där står inte ett ord om att Demirjianmetoden har mycket bättre resultat än Kullmanmetoden, fullt jämförbara med de resultat som presenteras för MR!

Ett mer utstuderat exempel återfinns i samma stycke ovan. Det står ”När det gäller andelen barn som klassats som barn ligger risken att klassificera rätt ofta under 90% enligt den vanligaste metoden Demirjian [26, 29, 35, 39, 40].” Detta skapar naturligtvis ett intryck av att de fem studier som refereras efter påståendet visar att Demirjians metod klassar barn som barn i mindre än 90% av fallen. (Jag antar här att Flodmark egentligen menar ”Sannolikheten att en undersökt som klassas som vuxen faktiskt är vuxen", eftersom det är den andelen han presenterar för övriga metoder i rapporten. Andelen barn som klassas som barn är faktiskt något annat (positivt prediktivt värde vs sensitivitet), även om andelen i de flesta fall kommer att vara snarlik.)

Referens nr 26 är Babburi et al. I tabell 3 i denna studie framgår att 10:e percentilen för stadium H är 18,78 år för pojkar, 17,84 för flickor. För pojkar är sannolikheten att den undersökte är 18 år fyllda alltså över 90% om stadium H har nåtts.

Referens nr 29 är Cameriere et al 2008. Här anges sannolikheten att den undersökte är 18 vid stadium H till 96 resp 98% (män/kvinnor). (Tabell 5)

Referens 35 är Liversidge et al 2010. Här är sannolikheten 95,1% vid stadium H. (Tabell 6)

Referens 39 är Scheurer et al 2011, dvs studien där man bara undersökte personer mellan 17,5 och 18,5 års ålder. Den återger vad jag kan se inga sådana siffror, och är hur som helst direkt olämplig att jämföra med studier med bredare intervall (vanligen studeras personer i åldersspannet 15-25 – att fler blir felklassificerade när man bara inkluderar personer som ligger inom sex månader från 18-årsgränsen är självklart!).

Referens 40 är Streckbein et al, 2014. Varför man refererar denna studie är oklart, eftersom man där undersökt sannolikheten för att en individ är över 18 om alla fyra visdomständerna är fullt utvecklade, och finner att den är över 99%.

Till Flodmarks försvar ska det nämnas att det finns ett antal studier som visar <90% (Kasper, Garamendi, möjligen fler), men ingen av dessa studier refereras av Flodmark. Majoriteten av studierna visar omkring 95% eller mer, liksom Socialstyrelsens egen metaanalys. Och om man ändå tänker basera sin bedömning av metoden utifrån de absolut sämsta resultat som någonsin uppnåtts, varför då göra en metaanalys?

Notera taktiken, liksom i fallet för samstämmighet ovan, att gå igenom ett antal studier och sedan diskvalificera metoden på grundval av vad de sämsta studierna visar, snarare än bevisningen som helhet.

Flodmark nämner sedan att en modifierad metod (”Maturity Index”) har utvecklats av en italiensk grupp, och tillstår att denna metod förefaller vara bättre. Han underkänner emellertid även Maturity Index, av det enkla skälet att man endast bedömt samstämmighet på en delmängd av det totala materialet (Cameriere, 2008). Men detta är närmast standardförfarande på det här området, och flera andra publikationer bekräftar att samstämmigheten är utmärkt! Åtminstone två av dessa publikationer (Galic 2015 och Cameriere 2014) är emellertid inte inkluderade i Flodmarkrapporten, trots att de registrerades i Medline före Deitos-studien (som inkluderades). Det finns säkert en bra förklaring på det, men det är inte tydligt utifrån de sökkriterier som använts.

Galicstudien visar för övrigt att Maturity Index som enda studerade metod uppfyller samtliga de krav Flodmark ställer upp, då kappakoefficienten/samstämmigheten var 0,90, över 90% klassades rätt och mer än 95% av alla som hade ett "positivt" test var över 18 år. Liknande resultat sågs i Cameriere 2014 (92,5% resp 94,4% (pojkar)). Det finns alltså ett antal publikationer som visar både utmärkt samstämmighet och övertygande resultat för Maturity Index, men ändå avfärdas metoden med hänvisning till en ren teknikalitet.


Brist 6: Man har ignorerat en stor del av den tillgängliga forskningen

När det gäller skelettröntgen är Flodmark om möjligt ännu mer orättvis mot materialet. För handledsröntgen väljer han att bara inkludera studier där man automatiserat bildtolkningen, och bortser därmed helt sonika från det enorma forskningsmaterial som utgörs av studier där man använt sig av manuell tolkning av bilder! Betänk nu att röntgen av handled och tänder är huvudmetoderna i radiologisk åldersbedömning. Hur kan man kalla rapporten en litteraturöversikt när man bara gjort halva jobbet? Motiveringen, att tiden inte räckte till, är inte imponerande. Man kan alltså inte påstå att Flodmark underkänner dokumentationen bakom radiologisk åldersbedömning, det vore mer korrekt att säga att han konstaterar att han inte har haft tid att lösa uppgiften!

I princip kokar Flodmarks granskning av hundratals studier av skelettröntgen ner till en enda studie; Thodbergstudien. Som framgår av publikationen är resultaten för Thodbergs metod inte särskilt långt från kraven som ställs upp av Flodmark i början av rapporten (87,5% vs 90% (testet anger vuxen och den undersökte är vuxen), 79,6% rätt klassificerade mot 90%). Samstämmigheten är 100% eftersom tolkningen är automatiserad. Snubblande nära, således, men Thodbergmetoden avfärdas ändå utan vidare spisning.


Brist 7: Man har helt ignorerat en standardmetod enligt internationella riktlinjer

Tandröntgen och handledsröntgen är alltså de två viktigaste undersökningsmetoderna enligt internationell praxis och riktlinjer. Den tredje mest relevanta metoden, datortomografi av nyckelben, tas överhuvudtaget inte upp av Flodmark, trots att detta alltså är en metod som rekommenderas av internationella riktlinjer! Motiveringen till detta (enligt en debattartikel i Läkartidningen) är att undersökning av nyckelben med MR (MR, nota bene!) är behäftad med rörelseartefakter som försvårar tolkningen! Datortomografi är dock en helt annan metod, där bildhämtningen går betydligt snabbare och rörelseartefakterna följaktligen är mycket mindre. 

Det är därför de främsta internationella riktlinjerna rekommenderar datortomografi av nyckelben som tredjehandsundersökning, och det är därför mycket märkligt att Flodmark inte med ett ord tar upp denna metod i sin rapport.

(Kommentar: Ser i efterhand att metoden faktiskt nämns, på sidan 11:


Detta är bara ett problem med detta. Flodmark har läst fel i publikationen han hänvisar till. Vieth, som han hänvisar till, skriver nämligen 

"A total of 304 medial clavicular epiphyses were evaluated in 152 test persons. An ossification stage was determined in 225 clavicles. 79 clavicles were not evaluable due to norm variants (61 cases) or movement artefacts (18 cases). "

Det är alltså inte 61 av 152 individer som inte kan värderas, det är 61+18 nyckelben. Men eftersom de flesta individer har två nyckelben kunde ändå 127 av 152 individer åldersbedömas i denna studie.)


Brist 8: Man har använt en icke-validerad metod för metaanalys - och tillmäter denna analys större betydelse än de faktiska studieresultaten

MR-metoderna har i Flodmarkrapporten analyserats och jämförts med tandröntgenmetoderna med hjälp av metaanalys. Metaanalys innebär att man lägger ihop data från olika studier för att få ett större material. Detta kan i sin tur göras på olika sätt.

Flodmark har valt att beräkna genomsnittsålder och standardavvikelse för varje ben- eller tandmognadsstadium och utifrån detta uppskatta andelen fel- respektive rättklassade. Man har alltså inte utgått från vad de enskilda studierna visar, utan modellerat resultaten. Problemet med denna metod är att den förutsätter att åldersfördelningen inom varje mognadsstadium är normalfördelad utan skevhet. Det är inte visat att det är så, och sannolikt är fördelningen ordentligt positivt skev, åtminstone för tandröntgen (baserat på data från den omfattande Streckbeinstudien). Det tandstadium som är mest relevant för 18-årsgränsen, Demirjians stadium H, är ett ändstadium och ålderssammansättningen i det mognadsstadiumet är definitivt inte normalfördelad.

En annan sak som skaver är att denna metod för att bedöma metodernas tillförlitlighet är helt ovaliderad, och ändå tillmäts de modellerade resultaten större betydelse än studiernas faktiska resultat. Ett exempel på detta är Streckbeinstudien. Streckbeinstudien visar att av 2360 undersökta hade 870 personer samtliga fyra visdomständer i Demirjianstadium H, och inte en enda var under 18 år gammal.Men i Flodmarks metaanalys med modellerade (dvs antagna) resultat utifrån medelvärde och standardavvikelse finns det ändå en inte obetydlig andel som enligt modellen felklassas som vuxna fast de är under 18 (till vänster om gröna strecket nedan) – tvärtemot vad studien faktiskt visar!Detta borde förstås ha väckt frågan om Flodmarks metod var rimlig.

Lustigt nog hade det hade varit fullt möjligt - och extremt enkelt - att validera Flodmarkmetoden, exempelvis med data från Cameriere, 2008 (för tandröntgen). Här presenteras nämligen genomsnittsålder och standardavvikelse för varje stadium, och hur många som klassas rätt respektive fel om man bedömer ålder utifrån Demirjians stadium H. Här hade man snabbt kunnat se om Flodmarks "medelvärde-standardavvikelse"-metod gav tillförlitliga resultat (liknande övning hade kunnat göras med Dedouits data för MR). Hade Flodmark testat sin modell med denna data hade man omedelbart kunnat utvärdera om den var tillförlitlig. Jag antar att man hade funnit att den inte var tillförlitlig, just eftersom ålderssammansättningen i de olika mognadsstadierna inte är perfekt normalfördelade.

Det är oklart varför man inte ens tycks ha reflekterat över varför de modellerade resultaten avviker från de faktiska – och varför man ändå valde att tro på modellen istället för verkligheten.


Brist 9: Man har överskattat effekten av MR-baserade metoder

I metaanalysen har Flodmark alltså modellerat en ålderssammansättning för varje mognadsstadium utifrån ett antagande om normalfördelning. Sedan har han (rimligt nog) begränsat resultaten för en tänkt grupp i åldern 16-22. Det är denna figur som visas på rapportens sida 14.Men om man tittar på kurvorna och lägger ihop procentsiffrorna för varje ålder ser man att 16- och 17-åringar är kraftigt överrepresenterade jämfört med undersökta i åldersspannet 18-22. Spelar det någon roll? Ja, det gör det, eftersom 16- och 17-åringar nästan alltid klassas rätt som varande ”under 18”. 18-22-åringar står för den absolut största delen av felklassificeringarna totalt sett (det är mycket vanligare att 18-19-åringar klassas som under 18 än att 16-17-åringar klassas som över 18, oavsett metod). 

I Thodbergstudien och de två ingående tandröntgenstudierna är åldersfördelningen helt jämn (Thodberg) eller väldigt jämn (tandröntgenstudierna). Detta gör att de metodernas resultat på intet sätt kan jämföras med MR-studiernas, så som görs i figur 3.

När Flodmark hävdar att MR knäled klassar 3% resp 7% av pojkar/flickor som vuxna och 29% av vuxna som barn gör han det alltså utifrån en tänkt grupp undersökta, inte utifrån vad studierna faktiskt visar. Resultaten kan därför inte alls jämföras med de andra metodernas resultat eftersom (den tänkta) MR-gruppens ålderssammansättning är helt olik de övriga gruppernas.

Ett annat exempel på hur Flodmark föredrar modellerade resultat framför faktiska finns på sidan 10-11:


Det stämmer förvisso att de aktuella knäledsstudierna inte direkt återger andelen som klassats rätt med MR knäled - "Andelen är inte uppmätt", som Flodmark korrekt noterar. Men en av de tre studierna (Dedouit) presenterar faktiskt mognadsstadium för varje ålder i det relevanta intervallet (15-21 eller 16-22), så andelen rätt klassificerade kan mycket enkelt beräknas (istället för att modelleras)! 

Om man utgår från dessa faktiska resultat (istället för Flodmarks antagna) ser man att risken för att en undersökt som klassats som vuxen i själva verket är barn (dvs falskt positiva) är 17% eller 14% med MR knäled (beroende på om man inkluderar spannet 15-21 som i Thodberg eller spannet 16-22 som Flodmark gjort i sin rapport)! Detta är alltså sämre än Thodberg (12,5%) och mycket sämre än tandundersökning enligt Demirjian (runt 5%). Med MR knäled klassas bara 66% av alla undersökta i relevant åldersspann rätt (inte ens nära de 90% som Flodmark själv kräver och alltså sämre än Thodbergmetodens 80%). Samtliga siffror för MR är väsentligt sämre än de publicerade resultaten för tandröntgen med bedömning av Maturity Index ad modum Cameriere.

De modellerade resultaten för MR är alltså skapliga, om än inte särskilt mycket bättre än resultaten för skelettröntgen eller tandröntgen. Men de resultat som MR-metoden faktiskt visat stöder knappast hypotesen att MR knäled är mer lovande än de övriga metoderna. De faktiska resultaten för MR är klart sämre än för de traditionella metoderna.

Varför Flodmark endast presenterar modellerade resultat och förbigår de faktiska resultaten med tystnad är ytterst oklart.

Brist 10: Man ger långsökta rekommendationer om pilotstudier

Vad mynnar då Flodmarks rapport ut i? Givet litteraturstudiens resultat hade man kunnat föreställa sig en rekommendation att undersöka hur man kan kombinera exempelvis Thodbergmetoden och tandröntgen för att nå bättre resultat, eller en rekommendation att studera samstämmigheten i bedömningen av slutstadierna för olika metoder för bedömning av tandröntgen (Demirjian och Maturity Index). 

Märkligt nog rekommenderar Flodmark istället att man helt sonika skrotar alla de traditionella metoder som används i snart sagt hela världen och istället studerar MR av fyra olika kroppsdelar i en (sannolikt) flerårig pilotstudie inkluderande invandrare i första, andra och tredje generationen med flera studiegrupper baserade på självrapporterad etnicitet.

Angående Thodbergmetoden nämns bara i förbigående att man kan överväga att studera denna vidare, men först efter det att MR-studierna är genomförda. Man ställer sig frågan varför en studie av Thodbergmetoden inte kan inledas innan MR-studien är färdig. Thodbergmetoden är ju väl så bra som MR när studiepopulationerna är jämförbara, och kan införas direkt. Metoden finns och är av allt att döma kommersiellt tillgänglig. 

Som invändning mot Maturity Index anförs endast att samstämmigheten är otillräckligt undersökt. Förutom att det inte stämmer, vilket jag visat ovan, hade det varit en smal sak att göra en studie där två rättsodontologer fick bedöma några hundra röntgenbilder vardera. Då skulle man få en god bild av huruvida olika bedömare kan uppnå samstämmighet inom ett par veckor – varför rekommenderas inte en sådan studie? Resultaten för Maturity Index uppfyller ju till och med Flodmarks alla kriterier, något MR knäled inte är i närheten av att göra om ålderssammansättningen av de undersökta är någorlunda rimlig. Varför föreslås inte ens en studie där man undersöker om den goda samstämmigheten för Maturity Index kan bekräftas?


Socialstyrelsens tidigare riktlinjer (från 2012) rekommenderar både tand- och handledsröntgen. Att kombinera metoder är standardförfarande även enligt internationella riktlinjer. Varför ignorerar Flodmark detta? Varför ska det inte ens undersökas?

Det är sammantaget en fullständig gåta att MR bedöms som så pass mycket mer lovande än traditionell tand- och skelettröntgen att man rekommenderar att de sistnämnda inte ska göras överhuvudtaget och att MR ska undersökas i ett ambitiöst studieprogram. Ingenting tyder ju på att MR kan något de andra metoderna inte kan! Kostnaderna, förseningen och osäkerheten är alla betydande.Sammanfattning
Samtliga dessa 10 brister är så pass allvarliga att de sammantaget gör att rapportens slutsatser och rekommendationer måste ifrågasättas i grunden. Tyvärr används rapporten ändå helt okritiskt i debatten, och – vad värre är – den har åberopats i aktuella rättsfall!

Detta är i sanning anmärkningsvärt. Om Flodmarkrapporten med alla dessa brister används som ursäkt för att försena införandet av medicinsk åldersbedömning i asylärenden är det diskutabelt i sig, men om den även används för att skapa osäkerhet om medicinsk åldersbedömning i rättsprocesser kan konsekvenserna bli förödande. Alla misstänkta brottslingar med oklart födelsedatum kan då åberopa lägre ålder än den verkliga, och på detta sätt i värsta fall slippa rättslig påföljd helt. Strategin har redan använts, bland annat i det uppmärksammade Fåfänganmålet. Hade rätten lyssnat på Flodmarkrapportens slutsatser i det här fallet hade alltså en vuxen man som deltagit i en gruppvåldtäkt fått en mycket lindrigare påföljd – eller kanske helt sluppit straff. Även om HD inte gick på den linjen i det här fallet, med de omständigheter som rådde just här, kan liknande frågor mycket väl dyka upp i rättssalarna igen.

Oavsett vilken åsikt man har i migrationsdebatten och huruvida det är lämpligt att bedöma åldern på ensamkommande med radiologiska metoder torde det vara ytterligt svårt att acceptera att våldtäktsmän och mördare ges möjligheten att undvika straff genom att ljuga om sin ålder. 

Därför borde det ligga i allas intresse att Flodmarkrapporten i bästa fall dras tillbaka, men som ett absolut minimum får genomgå en oberoende granskning av internationella experter.Ändringar efter publicering: Tillägg om Streckbeinstudien, 870 med Demirjian stadium H. Infogat kommentar om nyckelbensstudien. Rättat "positivt prediktivt värde" till "falskt positiva" i punkt 9.

Referenser
Babburi, S., Nelakurthi, H., Aparna, V., Soujanya, P., Kotti, A. B., & Ganipineni, K. (2015). Radiographic Estimation of Chronological Age using Mineralization of Third Molars in Coastal Andhra, India. Journal of international oral health: JIOH, 7(5), 49.

Cameriere, R., Ferrante, L., De Angelis, D., Scarpino, F., & Galli, F. (2008). The comparison between measurement of open apices of third molars and Demirjian stages to test chronological age of over 18 year olds in living subjects. International journal of legal medicine, 122(6), 493-497.

Cameriere, R., Santoro, V., Roca, R., Lozito, P., Introna, F., Cingolani, M., ... & Ferrante, L. (2014). Assessment of legal adult age of 18 by measurement of open apices of the third molars: study on the Albanian sample. Forensic science international, 245, 205-e1.

Dedouit, F., Auriol, J., Rousseau, H., Rougé, D., Crubézy, E., & Telmon, N. (2012). Age assessment by magnetic resonance imaging of the knee: a preliminary study. Forensic science international, 217(1), 232-e1.

Deitos, A. R., Costa, C., Michel-Crosato, E., Galić, I., Cameriere, R., & Biazevic, M. G. H. (2015). Age estimation among Brazilians: Younger or older than 18?. Journal of forensic and legal medicine, 33, 111-115.

Galić, I., Lauc, T., Brkić, H., Vodanović, M., Galić, E., Biazevic, M. G. H., ... & Cameriere, R. (2015). Cameriere's third molar maturity index in assessing age of majority. Forensic science international, 252, 191-e1. 


Garamendi PM, Landa MI, Ballesteros J, Solano MA. Reliability of the methods applied to assess age minority in living subjects around 18 years old. A survey on a Moroccan origin population. Forensic Sci Int. 2005 Nov 10;154(1):3-12. 

Kasper et al. Reliability of Third Molar Development for Age Estimation in a Texas Hispanic Population: A Comparison Study. J Forensic Sci. 2009 May;54(3):651-7.

Krämer, J. A., Schmidt, S., Jürgens, K. U., Lentschig, M., Schmeling, A., & Vieth, V. (2014). Forensic age estimation in living individuals using 3.0 T MRI of the distal femur. International journal of legal medicine, 128(3), 509-514.

Liversidge, H. M., & Marsden, P. H. (2010). Estimating age and the likelihood of having attained 18 years of age using mandibular third molars. British dental journal, 209(8), E13-E13.

Saint-Martin, P., Rérolle, C., Pucheux, J., Dedouit, F., & Telmon, N. (2015). Contribution of distal femur MRI to the determination of the 18-year limit in forensic age estimation. International journal of legal medicine, 129(3), 619.

Scheurer, E., Quehenberger, F., Mund, M. T., Merkens, H., & Yen, K. (2011). Validation of reference data on wisdom tooth mineralization and eruption for forensic age estimation in living persons. International journal of legal medicine, 125(5), 707-715.

Streckbein, P., Reichert, I., Verhoff, M. A., Bödeker, R. H., Kähling, C., Wilbrand, J. F., ... & May, A. (2014). Estimation of legal age using calcification stages of third molars in living individuals. Science & Justice, 54(6), 447-450.

fredag 1 juli 2016

Saklig diskussion efterlyses

Jag har i en serie blogginlägg försökt bidra till minskad förvirring i debatten om medicinsk åldersbedömning (MÅB). Många tycker, med all rätt, att det är märkligt att läkarkåren tycks ha så motstridiga åsikter i denna fråga. Men läkarkåren består förstås av människor med olika etiska och politiska hållningar, och även om man tycker och tror att detta inte ska påverka synen på vetenskap ser vi om och om igen tecken på motsatsen.

Texten "Beröringsträck" på en blogg av läkaren Per Köhler är mycket kritisk mot MÅB och dess förespråkare. Texten är förvisso ett år gammal, men jag har inte sett någon annan bemöta den kritik han framför, så jag tillåter mig granska den i alla fall.

Köhler kritiserar bland annat ett debattinlägg av Merit Wager, som skriver att mer än hälften av ensamkommande som undersöktes vid ett danskt center visade sig vara över 18. Köhler avfärdar detta med att det är fråga om "selection bias". Mycket riktigt kan man inte extrapolera/generalisera sådana här undersökningsresultat till hela populationen ensamkommande, eftersom man rimligen tenderar att ålderstesta främst när det finns misstanke om att personen är över 18. Alltså finns det en massa otestade barn, som inte testats just för att det bedömts som sannolikt att de är under 18, och de ska förstås räknas in i nämnaren om man vill kunna uttala sig om hur stor andel som är över 18 i hela populationen av ensamkommande. Att bara räkna utifrån testresultat (andelen "positiva" av det totala antalet utförda tester) skulle mycket riktigt leda till ett felslut på grund av selection bias. Så långt OK.

Men.

I det danska materialet har man inte gjort så som Köhler antyder. 

den artikel i Metro Xpress som det hänvisas till är andelen, precis som Wager skriver, 51% när de icke-ålderstestade från 2011 och 2012 räknas in i nämnaren! 


282+355 = 637 barn totalt, varav 188+139 visade sig vara över 18 = 327. 327/637 = 51%

Det är alltså inte ett selekterat urval. Artikelns slutsats, att 51% av alla som kom till detta asylcentrum under åren 2011-2012 visade sig vara över 18, är helt korrekt återgiven av Wager. Detta säger naturligtvis ingenting om hur det ser ut i resten av Danmark eller Sverige. (Wager nämner förvisso även siffrorna från 2013, som vi inte kan uttala oss lika säkert om eftersom vi inte vet hur många som kom då. Möjligen kan man förlåta en icke-vetenskapare en sådan fadäs, men varför har Köhler läst så slarvigt?)

Därefter kommer ett uppskattande omnämnande av Gregor Nolls debatterande i ämnet (vilket jag har kommenterat tidigare).

Sedan börjar det bli spännande på riktigt. Köhler presenterar en tabell som enligt hans förmenande visar att det råder stora etniska skillnader mellan engelsmän och pakistanier när det gäller skelettmognad. Och det visar tabellen mycket riktigt. Men bara om man jämför engelsmän från 1929 (röd markering) och pakistanier från 2008 (grön markering). Jämför man med serier från 60-talet med engelska (gul) eller amerikanska (blå) pojkar och flickor är skillnaderna mycket mindre, drygt ett år som mest. Jämför man sedan med den andra presenterade serien med pakistanska data (Rikhasor/Qureshi, nästa sista raden) finns överhuvudtaget inga meningsfulla skillnader mellan pakistanier och amerikaner/engelsmän. 

Sedan presenteras en figur från en studie av åldersbedömning av marockanska gatubarn i Spanien, och här blir det lite mer komplicerat. Studien refereras av Köhler för att bevisa att Greulich-Pyle-metoden (en metod för åldersbedömning med hjälp av handledsröntgen) inte kan användas för att bedöma ålder på ett tillförlitligt sätt. Som argument anförs spridningen av resultat i nedanstående histogram:(Låt oss här bortse från omständigheten att Köhler tvärsäkert påstår att alla metoder tenderar att överskatta ålder två rader under en figur som visar en metod som tenderar att underskatta ålder. Alla kan läsa fel. EDIT: Köhler påpekar i en tweet att han erkänt detta misstag, och det står mycket riktigt i kommentarsfältet på hans blogg - det ska han ha cred för och jag borde kanske ha påpekat det i den här texten. Rätt ska vara rätt.) 

Resultaten övertygar förstås inte, rent visuellt. Som framgår underskattas åldern i enstaka fall med så mycket som sju år! Är det inte anmärkningsvärt? Faktiskt inte, eftersom skelettmognaden i handleden är radiologiskt fullbordad i 18/19-årsåldern. (I alla fall som den bedöms enligt Greulich-Pyle.) I den här studien ingick ungdomar upp till 25 års ålder. Eftersom den högsta ålder en bedömning ad modum Greulich-Pyle kan indikera är 18/19 år och de undersökta var upp till 25 år gamla, är det ofrånkomligt att metoden i vissa fall i detta material "underskattar" åldern med sju år. För att förtydliga min poäng: Hade 40-åringar ingått i studien hade en bedömning enligt Greulich-Pyle också indikerat en skelettålder på 18/19 år, och underskattningen hade då varit mer än 20 år. Det säger naturligtvis ingenting om metodens tillförlitlighet om den används på rätt sätt! Detta förklaras för övrigt, klart och tydligt, i "Discussion"-avsnittet.

Men visst har Köhler en poäng i sitt resonemang. Det finns ingen enskild radiologisk metod som kan stå på egna ben (no pun intended) - de måste kompletteras med annan röntgen (exempelvis tandröntgen), fysikalisk undersökning, medicinsk anamnes etc.

Men det är inget nytt! Det är ju just därför man enligt internationella riktlinjer ska göra handledsröntgen, tandröntgen och (om nödvändigt) datortomografi av nyckelbenet för att möjliggöra en säkrare bedömning (som dessutom ska innefatta icke-radiologiska parametrar som sjukhistoria, fysikalisk undersökning, sexuell mognad mm). Det är också så, som jag skrivit i tidigare inlägg, att man inte i första hand har som mål att bedöma patientens faktiska ålder, bara sannolikheten att patienten är över 18 år gammal.

Men är det verkligen enklare att bedöma sannolikheten att patienten är över 18 än att bedöma rätt ålder? Och ger en kombination av tand- och handledsröntgen bättre resultat än endera undersökning isolerat? Finns det data på det?

Lustigt nog är det inte särskilt svårt att hitta, för i samma artikel och på samma sida, lite högre upp, presenteras resultaten av just en sådan analys:

Alltså: Endast 1 av 38 minderåriga klassades som över 18 i denna studie - och läser man noggrant i "Discussion"-delen av artikeln misstänker författarna dessutom att just denna ungdom hade felaktigt rapporterad födelsedata! Vill man tillåta sig att vara lite sarkastisk kan man alltså konstatera att Köhler hade kunnat stilla sin oro över att barn löper stor risk att klassas som vuxna om han bara hade läst hela sidan han citerar från.

Det kommer mer: Om ni har hängt med i debatten minns ni att ett av de mer sofistikerade argumenten mot medicinsk åldersbedömning av ensamkommande asylsökande är att specifika referensdata saknas för de länder och etniciteter man oftast är intresserad av. Detta gäller även för Marocko. Men studien ger alltså inget som helst stöd för att en kombination av handleds- och tandröntgen - utan specifika referensdata - tenderar att felklassificera minderåriga som över 18. Andra vanliga invändningar om osäkerhetsfaktorer som dålig kost, socioekonomisk status, psykosocial stress etc torde vara ytterst aktuella för marockanska gatubarn i Spanien.

Den här studien, om man läser hela och inte bara väljer ut en enskild figur (som man dessutom feltolkar), är således fullständigt förödande för den som försöker bevisa att avsaknad av etniskt/geografiskt relevant referensgrupp skapar oacceptabel osäkerhet som riskerar att drabba minderåriga genom att de felaktigt bedöms vara vuxna!

Men visst, vem har inte missat saker i en artikel? Ofta läser man bara abstractet, och det kan vara lätt att miss... Oh.Dags för några brasklappar:

Brasklapp 1: Naturligtvis utgör denna mycket lilla studie inte på något sätt ett bevis för de radiologiska metodernas användbarhet (bland annat är andelen identifierade >18 år väldigt låg, vilket man kan föra en intressant diskussion om), men mitt syfte är heller inte, i detta inlägg, att argumentera för deras vetenskaplighet. För det ändamålet finns större och bättre studier. Syftet är att undersöka argumenten mot dessa undersökningar. Liksom i fallet med Gregor Nolls text förefaller Köhlers vetenskapliga argumentation i stor utsträckning bygga på missförstånd och slarv.

Brasklapp 2: Jag vet inte hur pålitliga marockanska födelsedata är (författarna diskuterar detta i den läsvärda artikeln). Låt oss anta att allt är fel och att den här studien mot alla odds skulle dras tillbaka i morgon. Det mest anmärkningsvärda kvarstår (här får jag på förhand be om ursäkt om jag uppfattas som oförskämd), och det är hur ytterligt svårt det är att frigöra sig från intrycket att Köhler har valt att presentera en enskild figur från en artikel som för en oinsatt läsare tycks stödja tesen om den radiologiska åldersbedömningens otillförlitlighet, när artikeln i sin helhet i själva verket direkt motsäger de viktigaste argumenten om referensgrupper, etnisk variation och risken för att barn klassas som vuxna.

Brasklapp 3: Jag är inte på något sätt expert på det här området. Det är fullt möjligt att jag (också) har feltolkat saker. Men jag har åtminstone gjort ärliga försök att sätta mig in i området. Jag har inte finkammat informationen för att välja ut brottstycken som bekräftar en förutfattad åsikt när denna åsikt direkt undermineras av en kompakt helhet.

Jag har inte skrivit detta inlägg för att hacka på Köhler, som säkert är en alldeles förträfflig yrkesperson och människa. Jag vill bara höja ett varningens finger för en obehaglig tendens jag sett komma till sitt allra tydligaste uttryck i samband med MÅB-debatten, nämligen att politiska övertygelser får otillbörligt inflytande på rent medicinska frågor, såsom huruvida den vetenskapliga kritik som framförs mot MÅB är saklig eller inte. När det gäller saklig kritik mot den vetenskap som MÅB bygger på tillåter jag mig påstå att Köhler kammar noll.

Som jag skrivit tidigare: Det är fullt möjligt för oss att välja att inte åldersbedöma även om vi kommer överens om att metoderna fungerar bra. Det är fullt möjligt för oss att besluta oss för att vi inte kan acceptera ens den minsta risk att minderåriga klassas som vuxna. Låt oss ta den diskussionen, för all del. Det vi absolut inte ska göra är att avfärda medicinsk åldersbedömning på grund av att vi missförstått den bakomliggande vetenskapen.

Avslutningsvis: Köhler avrundar sitt inlägg med en onödig eftersläng om att meningsmotståndarna är "så förtvivlat korkade". Det är förstås fullt möjligt att det är så utomordentligt enkelt att andra sidan i debatten bara är korkad, men låt mig då påpeka att intelligens i många fall faktiskt är mindre viktigt än intellektuell hederlighet.