Åsiktsfacit: Flodmarks rapport leder Socialstyrelsen ut på ett gungfly

Den som följt mitt bloggande om medicinsk åldersbedömning minns att jag ”förutspådde” resultatet av Flodmarks genomgång av metoder för radiologisk åldersbedömning. Nu, några månader senare, har jag haft tid att sätta mig in i rapporten lite mer noggrant. Det har varit mycket lärorikt.

Jag har funnit inte färre än 10 punkter där Flodmarkrapporten är behäftad med allvarliga brister. Varje enskild brist är så pass allvarlig att den väcker viktiga frågor om rapportens vederhäftighet. Samtliga brister och fel ”drar åt samma håll", vilket bidrar till att Flodmark i rapporten underkänner samtliga internationellt vedertagna metoder för åldersbedömning och rekommenderar att man genomför tidsödande och osäkra pilotstudier av ny teknologi. Som vi ska se är slutsatserna och rekommendationerna mycket tveksamma.

Bristerna sammanfattas nedan, med detaljerad förklaring längre ner i texten:

Man har inte involverat relevant expertis under arbetets gång

Man har använt tveksamma kriterier för vad som är en lämplig metod

Man har missförstått samstämmighetsbegreppet

Man har använt ett irrelevant mått på samstämmighet

Man har utvärderat traditionella röntgenmetoder på ett icke-rättvisande sätt

Man har ignorerat en stor del av den tillgängliga forskningen

Man har ignorerat en standardmetod enligt internationella riktlinjer

Man har använt en icke-validerad metod för metaanalys

Man har överskattat effekten av MR-baserade metoder

Man ger långsökta rekommendationer om pilotstudier

Brist 1: Man har inte involverat relevant expertis under arbetets gång

Rapporten är enligt introduktionen en systematisk översikt enligt GRADE-metoden. GRADE är ett försök att systematisera litteraturöversikter, och en av förutsättningarna för att man ska kunna genomföra en systematisk litteraturöversikt är att arbetet koordineras av en multidisciplinär arbetsgrupp bestående av sakkunniga. Dessvärre har ingen av de personer som ingår i den här rapportens arbetsgrupp några forskningsmeriter inom radiologisk åldersbedömning (åtminstone hade de inte det när rapporten färdigställdes). Ingen svensk eller internationell expert på radiologisk åldersbedömning förefaller heller ha haft inflytande på arbetet, även om flera internationella forskningsgrupper kontaktades avseende litteratursökningen.

Man har inte motiverat beslutet att författa en vetenskaplig översikt utan att involvera de experter på området som ändå finns i Sverige. Flodmark själv är docent med barnfetma som forskningsområde. Han är till yttermera visso miljöpartist och före detta ledamot i Barnläkarföreningens styrelse, den organisation som allra mest högljutt motsatt sig alla försök att införa radiologiskt baserad åldersbedömning i Sverige.

Flodmarks renommé som barnläkare och forskare ifrågasätter jag inte, men som ledare för ett projekt på detta politiskt känsliga område borde man måhända ha vinnlagt sig om att hitta någon med färre potentiella jävsförhållanden, eller åtminstone ha säkerställt att relevant expertis var representerad i arbetsgruppen.

Brist 2: Man har använt tveksamma kriterier för vad som är en lämplig metod

Själva rapporten inleds med att Flodmark presenterar en rad kriterier för vad som bedöms vara en godtagbar metod. ”Samstämmigheten” ska vara 80%, risken för att barn felaktigt ska klassas som vuxna ska vara mindre än 10%, och 90% ska klassas ”rätt”, dvs som vuxna om de är vuxna respektive som barn om de är barn. De här kriterierna är minst sagt diskutabla.

För det första finns det inget skäl att a priori definiera kriterier för vad som är en ”tillräckligt bra” metod om man gör en neutral vetenskaplig översikt. Det är rimligen en fråga som rymmer andra aspekter än de rent medicinska (etiska, juridiska, politiska etc). För det andra är kriterierna helt godtyckliga (ingen referens anges) och högst kontroversiella. Är det verkligen acceptabelt med 90% säkerhet att ett barn inte felaktigt klassas som vuxen? Vissa skulle säkert kunna argumentera för att man ska uppnå 95% säkerhet. Och varför ska 90% av alla undersökta klassas ”rätt” (som varande under eller över 18)? Det viktiga är väl trots allt att barn inte klassas som vuxna? Om vuxna klassas som barn är det långt mindre allvarligt, eftersom det inte medför någon nackdel för den enskilde. En metod som klassar 80% rätt totalt med 2% av undersökta barn felklassade som vuxna förefaller mer attraktiv än en metod som klassar 92% rätt i hela gruppen men klassar 10% av undersökta barn som vuxna – etc. De kriterier som Flodmark slår fast i början av rapporten motiveras inte på något sätt.

Intrycket att kriterierna är helt godtyckliga och dessutom tveksamma förstärks av att Flodmark själv, pikant nog, redan har hunnit ändra sig sedan rapporten publicerades i april! Tre månader senare, i en intervju med Ekot 11/7, uppgav han nämligen att Socialstyrelsen vill ha 95% säkerhet – trots att han själv i rapporten ”bara” kräver 90%!

Brist 3: Man har missförstått samstämmighetsbegreppet

Samstämmighet är i det här fallet ett mått på i hur hög grad två olika radiologer (till exempel) bedömer samma bild likadant. Om två radiologer bedömer samma bild ska de naturligtvis helst ge bilden samma ”poäng” eller stadium på skalan. Flodmark säger sig kräva 80% samstämmighet för att en metod ska vara acceptabel. Men ingenstans preciserar han vilken samstämmighet det rör sig om, och det är av stor betydelse.

Den mest använda skalan för bedömning av tandröntgenbilder är Demirjian. Demirjianskalan har åtta steg: A-H. Betyder ”samstämmighet” att 80% av alla bilder ska få exakt samma klassificering av två olika bedömare? I så fall har Flodmark hämtat fel data från de artiklar som ingår i översikten, för där redovisas inte denna typ av samstämmighet utan ett mer vedertaget mått: ”kappa” (bokstaven ’k’ i det grekiska alfabetet, förenklat (och med reservation för att jag inte är statistiker) är detta ett sätt att korrigera för slumpmässig överensstämmelse). När Flodmark kräver ”80% samstämmighet” har han alltså ingen möjlighet att utvärdera detta med den data han har samlat in, för de publikationer han refererar anger bara kappakoefficienterna. Flodmark har av misstag översatt kappakoefficienterna rakt av till procentuell samstämmighet, vilket är helt fel.

Ett möjligt försvar mot denna invändning är att man hela tiden menade ”kappa minst 0,80” och inte ”minst 80% samstämmighet” men valde att förenkla för en mindre tekniskt bevandrad publik. Det här håller inte heller som ursäkt, eftersom ett kappavärde på 0,70 inte på något sätt utesluter en samstämmighet på 80% - det beror på hur stor den slumpmässiga överensstämmelsen mellan bedömarna är. Att ställa upp ett absolut krav på att en metod ska uppnå en viss kappakoefficient är således inte särskilt meningsfullt (mer om det senare).

Brist 4: Man har använt ett irrelevant mått på samstämmighet

En än viktigare brist är att Flodmarks mått på samstämmighet (oavsett om det är procent eller kappa) egentligen inte har någonting med undersökningarnas pålitlighet att göra, åtminstone inte som de ska användas i det här sammanhanget. Samstämmigheten i publikationerna ("kappakoefficienterna") bedöms nämligen utifrån hur väl bedömarnas bedömning är samstämmig över hela skalans spektrum (exempelvis A-A, C-C, F-F etc), men när det gäller att bedöma 18-årsgränsen är det bara stadium H och möjligtvis G som är av intresse (när det gäller den mest använda Demirjianmetoden).

Det är alltså strängt taget fullständigt ointressant om två olika bedömare har svårt att enas kring huruvida en viss röntgenplåt motsvarar stadium B, C eller D, då samtliga dessa stadier är förenliga med att den undersökte är under 18 (eller rättare, att inget av dessa stadier är förenliga med slutsatsen att den undersökte sannolikt är över 18).

Eftersom extremerna på en sådan här skala oftast eller alltid är lättare att enas kring än intermediärstadierna finns det goda skäl att anta att samstämmigheten gällande ”stadium H eller ej” är väsentligt högre än för skalan som helhet från A till H. Det finns i alla händelser inget som helst skäl att bedöma en metod som otillförlitlig avseende 18-årsgränsen utan att man har bedömt samstämmigheten för det stadium som är relevant för just 18-årsgränsen. Även detta är en helt fundamental brist.

Jag har frågat rapportförfattarna om de känner till någon studie där samstämmigheten för tandröntgen avseende 18-årsgränsen (alltså den bedömning de anser att tandröntgen inte har tillräckligt god samstämmighet för) har prövats, men de har inte gett mig några sådana exempel. Jag har emellertid hittat två sådana studier: Galic, 2015 och Cameriere, 2014. Här har samstämmighet för 18-årsgränsen bedömts med tandröntgen (”Maturity Index”, mer om detta senare) och i en av studierna är samstämmigheten avseende 18-årsgränsen helt perfekt (kappakoefficient 1,0) och i den andra är den extremt hög (0,89).

Det finns alltså inget som helst stöd för Flodmarks slutsats att tandröntgen inte kan användas för att bedöma 18-årsgränsen på grund av bristande samstämmighet mellan olika bedömare. De studier han åberopar har inte studerat frågan, och de studier som har studerat frågan visar i princip perfekt samstämmighet.

Brist 5: Man har utvärderat traditionella röntgenmetoder på ett icke-rättvisande sätt

Flodmark avfärdar sedan åldersbedömning med tandröntgen på grund av att ”samstämmigheten” är så låg som 60-85% (i själva verket kappakoefficient 0,60-0,85). Notera att jag i detta kapitel bemöter Flodmarks kritik mot tandröntgenmetodernas samstämmighet som om den vore relevant – det är den alltså inte, vilket framgick ovan. Jag går honom till mötes för att det är ett så utmärkt exempel på hur data konsekvent tolkas till de traditionella, internationellt accepterade, metodernas nackdel.

Granskar man rapportens bilaga 7 (nedan) framgår tydligt att de flesta studier har mycket god samstämmighet för tandröntgen! Det är bara Scheurerstudien som faller ur ramen med ett kappavärde på 0,58-0,60. Alla andra ligger väsentligt högre.

När så många studier som utvärderar och dokumenterar en metod har genomförts är det fullständigt orimligt att avfärda metoden utifrån vad den absolut sämsta studien visar. Om två forskargrupper, X och Y, med två radiologer i varje, använder samma metod och grupp X får klart sämre resultat än grupp Y, så är den mest närliggande slutsatsen inte att metoden är opålitlig. Eftersom grupp Y uppenbarligen kan uppnå goda resultat med samma metod är den mest rimliga slutsatsen att grupp X har minst en radiolog som behöver mer träning!

Dessutom har Scheurerstudien en helt annan ålderssammansättning än de övriga. Man undersökte nämligen uteslutande ungdomar i åldern 17,5-18,5. Med ett så snävt spann kommer även tandmognaden att vara mer samlad runt ett färre antal stadier än om man inkluderat 12- och 25-åringar, varför också siffrorna för samstämmighet kommer att vara sämre.

Att av denna enda studie dra slutsatsen att samstämmigheten är dålig för tandröntgen (när det finns ett stort antal studier med en mer relevant population som har mycket bättre samstämmighet) är alltså direkt orimligt.

Det är också värt att notera att ett kappavärde i intervallet 0,6-0,8 normalt anses klart godkänt (”substantial agreement”). Det är oklart varför Flodmark redan innan rapporten skrevs bestämde sig för att kräva 0,80.

Inte bara när det gäller samstämmigheten missgynnar rapporten de internationellt accepterade röntgenmetoderna. Även resultaten från studier som undersöker dessa metoder framställs som sämre än de är, eller misstolkas på ett sätt som får dem att framstå som sämre än de är. Ett flagrant exempel på detta är resultaten för tandröntgen i figur 3, sidan 14. Där står att tandröntgen medför 12% risk att barn klassas som vuxna. Denna siffra gäller dock endast Kullmanmetoden.

Som framgår av sidan 13 (nedan) visar Flodmarks egen metaanalys att risken för att barn klassas som vuxna med (den mer vedertagna) Demirjianmetoden är 5%!

Så varför presenteras inte dessa resultat i figuren? Varför presenteras bara Kullmanresultaten i figuren och i sammanfattningen (sidan 7)?

Där står inte ett ord om att Demirjianmetoden har mycket bättre resultat än Kullmanmetoden, fullt jämförbara med de resultat som presenteras för MR!

Ett mer utstuderat exempel återfinns i samma stycke ovan. Det står ”När det gäller andelen barn som klassats som barn ligger risken att klassificera rätt ofta under 90% enligt den vanligaste metoden Demirjian [26, 29, 35, 39, 40].” Detta skapar naturligtvis ett intryck av att de fem studier som refereras efter påståendet visar att Demirjians metod klassar barn som barn i mindre än 90% av fallen. (Jag antar här att Flodmark egentligen menar ”Sannolikheten att en undersökt som klassas som vuxen faktiskt är vuxen", eftersom det är den andelen han presenterar för övriga metoder i rapporten. Andelen barn som klassas som barn är faktiskt något annat (positivt prediktivt värde vs sensitivitet), även om andelen i de flesta fall kommer att vara snarlik.)

Referens nr 26 är Babburi et al. I tabell 3 i denna studie framgår att 10:e percentilen för stadium H är 18,78 år för pojkar, 17,84 för flickor. För pojkar är sannolikheten att den undersökte är 18 år fyllda alltså över 90% om stadium H har nåtts.

Referens nr 29 är Cameriere et al 2008. Här anges sannolikheten att den undersökte är 18 vid stadium H till 96 resp 98% (män/kvinnor). (Tabell 5)

Referens 35 är Liversidge et al 2010. Här är sannolikheten 95,1% vid stadium H. (Tabell 6)

Referens 39 är Scheurer et al 2011, dvs studien där man bara undersökte personer mellan 17,5 och 18,5 års ålder. Den återger vad jag kan se inga sådana siffror, och är hur som helst direkt olämplig att jämföra med studier med bredare intervall (vanligen studeras personer i åldersspannet 15-25 – att fler blir felklassificerade när man bara inkluderar personer som ligger inom sex månader från 18-årsgränsen är självklart!).

Referens 40 är Streckbein et al, 2014. Varför man refererar denna studie är oklart, eftersom man där undersökt sannolikheten för att en individ är över 18 om alla fyra visdomständerna är fullt utvecklade, och finner att den är över 99%.

Till Flodmarks försvar ska det nämnas att det finns ett antal studier som visar <90% (Kasper, Garamendi, möjligen fler), men ingen av dessa studier refereras av Flodmark. Majoriteten av studierna visar omkring 95% eller mer, liksom Socialstyrelsens egen metaanalys. Och om man ändå tänker basera sin bedömning av metoden utifrån de absolut sämsta resultat som någonsin uppnåtts, varför då göra en metaanalys?

Notera taktiken, liksom i fallet för samstämmighet ovan, att gå igenom ett antal studier och sedan diskvalificera metoden på grundval av vad de sämsta studierna visar, snarare än bevisningen som helhet.

Flodmark nämner sedan att en modifierad metod (”Maturity Index”) har utvecklats av en italiensk grupp, och tillstår att denna metod förefaller vara bättre. Han underkänner emellertid även Maturity Index, av det enkla skälet att man endast bedömt samstämmighet på en delmängd av det totala materialet (Cameriere, 2008). Men detta är närmast standardförfarande på det här området, och flera andra publikationer bekräftar att samstämmigheten är utmärkt! Åtminstone två av dessa publikationer (Galic 2015 och Cameriere 2014) är emellertid inte inkluderade i Flodmarkrapporten, trots att de registrerades i Medline före Deitos-studien (som inkluderades). Det finns säkert en bra förklaring på det, men det är inte tydligt utifrån de sökkriterier som använts.

Galicstudien visar för övrigt att Maturity Index som enda studerade metod uppfyller samtliga de krav Flodmark ställer upp, då kappakoefficienten/samstämmigheten var 0,90, över 90% klassades rätt och mer än 95% av alla som hade ett "positivt" test var över 18 år. Liknande resultat sågs i Cameriere 2014 (92,5% resp 94,4% (pojkar)). Det finns alltså ett antal publikationer som visar både utmärkt samstämmighet och övertygande resultat för Maturity Index, men ändå avfärdas metoden med hänvisning till en ren teknikalitet.

Brist 6: Man har ignorerat en stor del av den tillgängliga forskningen

När det gäller skelettröntgen är Flodmark om möjligt ännu mer orättvis mot materialet. För handledsröntgen väljer han att bara inkludera studier där man automatiserat bildtolkningen, och bortser därmed helt sonika från det enorma forskningsmaterial som utgörs av studier där man använt sig av manuell tolkning av bilder! Betänk nu att röntgen av handled och tänder är huvudmetoderna i radiologisk åldersbedömning. Hur kan man kalla rapporten en litteraturöversikt när man bara gjort halva jobbet? Motiveringen, att tiden inte räckte till, är inte imponerande. Man kan alltså inte påstå att Flodmark underkänner dokumentationen bakom radiologisk åldersbedömning, det vore mer korrekt att säga att han konstaterar att han inte har haft tid att lösa uppgiften!

I princip kokar Flodmarks granskning av hundratals studier av skelettröntgen ner till en enda studie; Thodbergstudien. Som framgår av publikationen är resultaten för Thodbergs metod inte särskilt långt från kraven som ställs upp av Flodmark i början av rapporten (87,5% vs 90% (testet anger vuxen och den undersökte är vuxen), 79,6% rätt klassificerade mot 90%). Samstämmigheten är 100% eftersom tolkningen är automatiserad. Snubblande nära, således, men Thodbergmetoden avfärdas ändå utan vidare spisning.

Brist 7: Man har helt ignorerat en standardmetod enligt internationella riktlinjer

Tandröntgen och handledsröntgen är alltså de två viktigaste undersökningsmetoderna enligt internationell praxis och riktlinjer. Den tredje mest relevanta metoden, datortomografi av nyckelben, tas överhuvudtaget inte upp av Flodmark, trots att detta alltså är en metod som rekommenderas av internationella riktlinjer! Motiveringen till detta (enligt en debattartikel i Läkartidningen) är att undersökning av nyckelben med MR (MR, nota bene!) är behäftad med rörelseartefakter som försvårar tolkningen! Datortomografi är dock en helt annan metod, där bildhämtningen går betydligt snabbare och rörelseartefakterna följaktligen är mycket mindre.

Det är därför de främsta internationella riktlinjerna rekommenderar datortomografi av nyckelben som tredjehandsundersökning, och det är därför mycket märkligt att Flodmark inte med ett ord tar upp denna metod i sin rapport.

(Kommentar: Ser i efterhand att metoden faktiskt nämns, på sidan 11:

Detta är bara ett problem med detta. Flodmark har läst fel i publikationen han hänvisar till. Vieth, som han hänvisar till, skriver nämligen

"A total of 304 medial clavicular epiphyses were evaluated in 152 test persons. An ossification stage was determined in 225 clavicles. 79 clavicles were not evaluable due to norm variants (61 cases) or movement artefacts (18 cases). "

Det är alltså inte 61 av 152 individer som inte kan värderas, det är 61+18 nyckelben. Men eftersom de flesta individer har två nyckelben kunde ändå 127 av 152 individer åldersbedömas i denna studie.)

Brist 8: Man har använt en icke-validerad metod för metaanalys - och tillmäter denna analys större betydelse än de faktiska studieresultaten

MR-metoderna har i Flodmarkrapporten analyserats och jämförts med tandröntgenmetoderna med hjälp av metaanalys. Metaanalys innebär att man lägger ihop data från olika studier för att få ett större material. Detta kan i sin tur göras på olika sätt.

Flodmark har valt att beräkna genomsnittsålder och standardavvikelse för varje ben- eller tandmognadsstadium och utifrån detta uppskatta andelen fel- respektive rättklassade. Man har alltså inte utgått från vad de enskilda studierna visar, utan modellerat resultaten. Problemet med denna metod är att den förutsätter att åldersfördelningen inom varje mognadsstadium är normalfördelad utan skevhet. Det är inte visat att det är så, och sannolikt är fördelningen ordentligt positivt skev, åtminstone för tandröntgen (baserat på data från den omfattande Streckbeinstudien). Det tandstadium som är mest relevant för 18-årsgränsen, Demirjians stadium H, är ett ändstadium och ålderssammansättningen i det mognadsstadiumet är definitivt inte normalfördelad.

En annan sak som skaver är att denna metod för att bedöma metodernas tillförlitlighet är helt ovaliderad, och ändå tillmäts de modellerade resultaten större betydelse än studiernas faktiska resultat. Ett exempel på detta är Streckbeinstudien. Streckbeinstudien visar att av 2360 undersökta hade 870 personer samtliga fyra visdomständer i Demirjianstadium H, och inte en enda var under 18 år gammal.

Men i Flodmarks metaanalys med modellerade (dvs antagna) resultat utifrån medelvärde och standardavvikelse finns det ändå en inte obetydlig andel som enligt modellen felklassas som vuxna fast de är under 18 (till vänster om gröna strecket nedan) – tvärtemot vad studien faktiskt visar!

Detta borde förstås ha väckt frågan om Flodmarks metod var rimlig.

Lustigt nog hade det hade varit fullt möjligt - och extremt enkelt - att validera Flodmarkmetoden, exempelvis med data från Cameriere, 2008 (för tandröntgen). Här presenteras nämligen genomsnittsålder och standardavvikelse för varje stadium, och hur många som klassas rätt respektive fel om man bedömer ålder utifrån Demirjians stadium H. Här hade man snabbt kunnat se om Flodmarks "medelvärde-standardavvikelse"-metod gav tillförlitliga resultat (liknande övning hade kunnat göras med Dedouits data för MR). Hade Flodmark testat sin modell med denna data hade man omedelbart kunnat utvärdera om den var tillförlitlig. Jag antar att man hade funnit att den inte var tillförlitlig, just eftersom ålderssammansättningen i de olika mognadsstadierna inte är perfekt normalfördelade.

Det är oklart varför man inte ens tycks ha reflekterat över varför de modellerade resultaten avviker från de faktiska – och varför man ändå valde att tro på modellen istället för verkligheten.

Brist 9: Man har överskattat effekten av MR-baserade metoder

I metaanalysen har Flodmark alltså modellerat en ålderssammansättning för varje mognadsstadium utifrån ett antagande om normalfördelning. Sedan har han (rimligt nog) begränsat resultaten för en tänkt grupp i åldern 16-22. Det är denna figur som visas på rapportens sida 14.

Men om man tittar på kurvorna och lägger ihop procentsiffrorna för varje ålder ser man att 16- och 17-åringar är kraftigt överrepresenterade jämfört med undersökta i åldersspannet 18-22. Spelar det någon roll? Ja, det gör det, eftersom 16- och 17-åringar nästan alltid klassas rätt som varande ”under 18”. 18-22-åringar står för den absolut största delen av felklassificeringarna totalt sett (det är mycket vanligare att 18-19-åringar klassas som under 18 än att 16-17-åringar klassas som över 18, oavsett metod).

I Thodbergstudien och de två ingående tandröntgenstudierna är åldersfördelningen helt jämn (Thodberg) eller väldigt jämn (tandröntgenstudierna). Detta gör att de metodernas resultat på intet sätt kan jämföras med MR-studiernas, så som görs i figur 3.

När Flodmark hävdar att MR knäled klassar 3% resp 7% av pojkar/flickor som vuxna och 29% av vuxna som barn gör han det alltså utifrån en tänkt grupp undersökta, inte utifrån vad studierna faktiskt visar. Resultaten kan därför inte alls jämföras med de andra metodernas resultat eftersom (den tänkta) MR-gruppens ålderssammansättning är helt olik de övriga gruppernas.

Ett annat exempel på hur Flodmark föredrar modellerade resultat framför faktiska finns på sidan 10-11:

Det stämmer förvisso att de aktuella knäledsstudierna inte direkt återger andelen som klassats rätt med MR knäled - "Andelen är inte uppmätt", som Flodmark korrekt noterar. Men en av de tre studierna (Dedouit) presenterar faktiskt mognadsstadium för varje ålder i det relevanta intervallet (15-21 eller 16-22), så andelen rätt klassificerade kan mycket enkelt beräknas (istället för att modelleras)!

Om man utgår från dessa faktiska resultat (istället för Flodmarks antagna) ser man att risken för att en undersökt som klassats som vuxen i själva verket är barn (dvs falskt positiva) är 17% eller 14% med MR knäled (beroende på om man inkluderar spannet 15-21 som i Thodberg eller spannet 16-22 som Flodmark gjort i sin rapport)! Detta är alltså sämre än Thodberg (12,5%) och mycket sämre än tandundersökning enligt Demirjian (runt 5%). Med MR knäled klassas bara 66% av alla undersökta i relevant åldersspann rätt (inte ens nära de 90% som Flodmark själv kräver och alltså sämre än Thodbergmetodens 80%). Samtliga siffror för MR är väsentligt sämre än de publicerade resultaten för tandröntgen med bedömning av Maturity Index ad modum Cameriere.

De modellerade resultaten för MR är alltså skapliga, om än inte särskilt mycket bättre än resultaten för skelettröntgen eller tandröntgen. Men de resultat som MR-metoden faktiskt visat stöder knappast hypotesen att MR knäled är mer lovande än de övriga metoderna. De faktiska resultaten för MR är klart sämre än för de traditionella metoderna.

Varför Flodmark endast presenterar modellerade resultat och förbigår de faktiska resultaten med tystnad är ytterst oklart.

Brist 10: Man ger långsökta rekommendationer om pilotstudier

Vad mynnar då Flodmarks rapport ut i? Givet litteraturstudiens resultat hade man kunnat föreställa sig en rekommendation att undersöka hur man kan kombinera exempelvis Thodbergmetoden och tandröntgen för att nå bättre resultat, eller en rekommendation att studera samstämmigheten i bedömningen av slutstadierna för olika metoder för bedömning av tandröntgen (Demirjian och Maturity Index).

Märkligt nog rekommenderar Flodmark istället att man helt sonika skrotar alla de traditionella metoder som används i snart sagt hela världen och istället studerar MR av fyra olika kroppsdelar i en (sannolikt) flerårig pilotstudie inkluderande invandrare i första, andra och tredje generationen med flera studiegrupper baserade på självrapporterad etnicitet.

Angående Thodbergmetoden nämns bara i förbigående att man kan överväga att studera denna vidare, men först efter det att MR-studierna är genomförda. Man ställer sig frågan varför en studie av Thodbergmetoden inte kan inledas innan MR-studien är färdig. Thodbergmetoden är ju väl så bra som MR när studiepopulationerna är jämförbara, och kan införas direkt. Metoden finns och är av allt att döma kommersiellt tillgänglig.

Som invändning mot Maturity Index anförs endast att samstämmigheten är otillräckligt undersökt. Förutom att det inte stämmer, vilket jag visat ovan, hade det varit en smal sak att göra en studie där två rättsodontologer fick bedöma några hundra röntgenbilder vardera. Då skulle man få en god bild av huruvida olika bedömare kan uppnå samstämmighet inom ett par veckor – varför rekommenderas inte en sådan studie? Resultaten för Maturity Index uppfyller ju till och med Flodmarks alla kriterier, något MR knäled inte är i närheten av att göra om ålderssammansättningen av de undersökta är någorlunda rimlig. Varför föreslås inte ens en studie där man undersöker om den goda samstämmigheten för Maturity Index kan bekräftas?

Socialstyrelsens tidigare riktlinjer (från 2012) rekommenderar både tand- och handledsröntgen. Att kombinera metoder är standardförfarande även enligt internationella riktlinjer. Varför ignorerar Flodmark detta? Varför ska det inte ens undersökas?

Det är sammantaget en fullständig gåta att MR bedöms som så pass mycket mer lovande än traditionell tand- och skelettröntgen att man rekommenderar att de sistnämnda inte ska göras överhuvudtaget och att MR ska undersökas i ett ambitiöst studieprogram. Ingenting tyder ju på att MR kan något de andra metoderna inte kan! Kostnaderna, förseningen och osäkerheten är alla betydande.

Sammanfattning

Samtliga dessa 10 brister är så pass allvarliga att de sammantaget gör att rapportens slutsatser och rekommendationer måste ifrågasättas i grunden. Tyvärr används rapporten ändå helt okritiskt i debatten, och – vad värre är – den har åberopats i aktuella rättsfall!

Detta är i sanning anmärkningsvärt. Om Flodmarkrapporten med alla dessa brister används som ursäkt för att försena införandet av medicinsk åldersbedömning i asylärenden är det diskutabelt i sig, men om den även används för att skapa osäkerhet om medicinsk åldersbedömning i rättsprocesser kan konsekvenserna bli förödande. Alla misstänkta brottslingar med oklart födelsedatum kan då åberopa lägre ålder än den verkliga, och på detta sätt i värsta fall slippa rättslig påföljd helt. Strategin har redan använts, bland annat i det uppmärksammade Fåfänganmålet. Hade rätten lyssnat på Flodmarkrapportens slutsatser i det här fallet hade alltså en vuxen man som deltagit i en gruppvåldtäkt fått en mycket lindrigare påföljd – eller kanske helt sluppit straff. Även om HD inte gick på den linjen i det här fallet, med de omständigheter som rådde just här, kan liknande frågor mycket väl dyka upp i rättssalarna igen.

Oavsett vilken åsikt man har i migrationsdebatten och huruvida det är lämpligt att bedöma åldern på ensamkommande med radiologiska metoder torde det vara ytterligt svårt att acceptera att våldtäktsmän och mördare ges möjligheten att undvika straff genom att ljuga om sin ålder.

Därför borde det ligga i allas intresse att Flodmarkrapporten i bästa fall dras tillbaka, men som ett absolut minimum får genomgå en oberoende granskning av internationella experter.

Ändringar efter publicering: Tillägg om Streckbeinstudien, 870 med Demirjian stadium H. Infogat kommentar om nyckelbensstudien. Rättat "positivt prediktivt värde" till "falskt positiva" i punkt 9.

Referenser

Babburi, S., Nelakurthi, H., Aparna, V., Soujanya, P., Kotti, A. B., & Ganipineni, K. (2015). Radiographic Estimation of Chronological Age using Mineralization of Third Molars in Coastal Andhra, India. Journal of international oral health: JIOH, 7(5), 49.

Cameriere, R., Ferrante, L., De Angelis, D., Scarpino, F., & Galli, F. (2008). The comparison between measurement of open apices of third molars and Demirjian stages to test chronological age of over 18 year olds in living subjects. International journal of legal medicine, 122(6), 493-497.

Cameriere, R., Santoro, V., Roca, R., Lozito, P., Introna, F., Cingolani, M., ... & Ferrante, L. (2014). Assessment of legal adult age of 18 by measurement of open apices of the third molars: study on the Albanian sample. Forensic science international, 245, 205-e1.

Dedouit, F., Auriol, J., Rousseau, H., Rougé, D., Crubézy, E., & Telmon, N. (2012). Age assessment by magnetic resonance imaging of the knee: a preliminary study. Forensic science international, 217(1), 232-e1.

Deitos, A. R., Costa, C., Michel-Crosato, E., Galić, I., Cameriere, R., & Biazevic, M. G. H. (2015). Age estimation among Brazilians: Younger or older than 18?. Journal of forensic and legal medicine, 33, 111-115.

Galić, I., Lauc, T., Brkić, H., Vodanović, M., Galić, E., Biazevic, M. G. H., ... & Cameriere, R. (2015). Cameriere's third molar maturity index in assessing age of majority. Forensic science international, 252, 191-e1.

Garamendi PM, Landa MI, Ballesteros J, Solano MA. Reliability of the methods applied to assess age minority in living subjects around 18 years old. A survey on a Moroccan origin population. 2005 Nov 10;154(1):3-12.

Kasper et al. Reliability of Third Molar Development for Age Estimation in a Texas Hispanic Population: A Comparison Study. 2009 May;54(3):651-7.

Krämer, J. A., Schmidt, S., Jürgens, K. U., Lentschig, M., Schmeling, A., & Vieth, V. (2014). Forensic age estimation in living individuals using 3.0 T MRI of the distal femur. International journal of legal medicine, 128(3), 509-514.

Liversidge, H. M., & Marsden, P. H. (2010). Estimating age and the likelihood of having attained 18 years of age using mandibular third molars. British dental journal, 209(8), E13-E13.

Saint-Martin, P., Rérolle, C., Pucheux, J., Dedouit, F., & Telmon, N. (2015). Contribution of distal femur MRI to the determination of the 18-year limit in forensic age estimation. International journal of legal medicine, 129(3), 619.

Scheurer, E., Quehenberger, F., Mund, M. T., Merkens, H., & Yen, K. (2011). Validation of reference data on wisdom tooth mineralization and eruption for forensic age estimation in living persons. International journal of legal medicine, 125(5), 707-715.

Streckbein, P., Reichert, I., Verhoff, M. A., Bödeker, R. H., Kähling, C., Wilbrand, J. F., ... & May, A. (2014). Estimation of legal age using calcification stages of third molars in living individuals. Science & Justice, 54(6), 447-450.

2 kommentarer:

Anonym8 september 2016 kl. 14:59
Hej!

Först och främst tycker jag att det ser ut som att du gjort ett grundligt arbete med att granska rapporten. Oavsett de politiska implikationerna måste det finnas ett sunt vetenskapligt samtal, och detta ser ut som ett gediget bidrag. Rapporten är tyvärr inte särskilt välskriven och det är väldigt tidskrävande att navigera i den, så jag har inte haft tid att värdera allt – gäller både rapporten och din kritik – men här kommer några synpunkter:

I den utsträckning som samstämmighet är ett relevant mått är det såklart väsentligt att man anger vilken metod som används, eftersom det finns flera olika: Cohens κ, Youdens J, andel överensstämmande m.fl. Utan denna uppgift kan inte siffrorna värderas och sättas i relation till varandra.

Om jag förstår din brist 3 rätt, så vänder du dig mot att man redovisar samstämmigheten i procent. Min uppfattning är att det snarare är ett estetiskt fel än ett metodfel, eftersom %-tecknet betyder "division med 100". Talen 0,8 och 80% är exakt samma tal.

Det är dock olämpligt att använda ett annat skrivsätt än det som är etablerat. Såvitt jag vet anges Cohens κ alltid som ett decimaltal och det finns ingen anledning till något annat. Jag håller med dig om att en procentsiffra för tankarna till andel överensstämmande bedömningarna.

Rapporten är som sagt tyvärr väldigt rörigt skriven och det är svårt att följa siffrorna och bilderna. Kan du hjälpa mig att tolka figur 5 och 6? Kolumnerna visar ju den relativa frekvensen för respektive mognadsstadium, men det saknas minst en kategori eftersom summan av frekvenserna inte är 100%. Vilket är det sista mognadsstadiet och varför redovisas inte det i tabellen? Jag kan inte tillägna kritiken i brist 9 innan jag har det klart för mig.

Jag skulle vilja rikta uppmärksamheten mot en brist som, vad jag förstår, varken du eller rapporten tar upp. Det finns ett grundläggande problem i hur man hanterar variabeln ålder när man betraktar en kvantitativ variabel som kategorisk genom att sätta en gräns vid 18 år. Detta är såklart en konsekvens av att den juridiska gränsen går där, men det finns mycket god anledning att påminna sig om att den medicinska storheten är biologisk ålder och inget annat.

Det finns andra medicinska bedömningar där variabeln är (i princip) rent kategorisk, t.ex. bedömning av kön hos ett foster, färgblindhet, blodgrupp eller huruvida en kromosomuppsättning är normal. Här har vi istället två kategorier (barn och vuxen) som i själva verket döljer en ordnad kvantitet.

Vad får det för konsekvenser i det här fallet? Om man ska kunna bedöma och utvärdera någon metod, måste man börja titta på ålderssammansättningen i den grupp man undersöker. Såhär står det i rapporten:

"På förhand sattes en lägsta nivå [för] andelen som blir rätt klassificerade till minst 90% och risken att missta ett barn för att vara vuxen till högst 10%."

Den utsagan är i praktiken helt tom på betydelse. Det inser man lätt genom att föreställa sig två grupper som ska bedömas: en bestående av pojkar i åldern 17,5-18,5 år, och en bestående av två mindre grupper i åldrarna 3-5 år och 53-55 år. Samtliga metoder torde ge signifikant olika resultat.

Det kan tyckas vara en trivial invändning, men det är av stor betydelse. Om man inte specificerar vilken grupp man talar om så finns det mycket lite man kan säga om resultaten. Jag är helt för att man på förhand ska sätta kriterier för vilka resultat man ser som godtagbara, men det måste göras på ett meningsfullt sätt.

Detta får konsekvenser samstämmighetsmåtten också, eftersom två samstämmigheten hos två olika bedömare kan vara helt beroende av urvalet. Jag har (med min begränsade kunskap) svårt att se hur resultaten från olika studier kan vara jämförbara om man inte först förvissat sig om att deras urval har samma fördelning (vilket verkar osannolikt).

Läser gärna dina synpunkter på det jag skrivit.

Hannes
SvaraRadera
Svar
Åsiktsfacit8 september 2016 kl. 23:04
Tack för ett bra och genomtänkt svar! Jag noterar att vi tycks vara överens om att rapporten är rörigt skriven och använder otydliga och ofta till synes motstridiga definitioner och begrepp. Jag noterar också din kritik om att resultaten för de olika metoderna helt beror på åldersfördelningen, som jag delar och faktiskt har med under brist 9.

Kort angående dina mer kritiska synpunkter/frågor:

Angående kappa-procent: Det stämmer förstås att 0,84 och 84% rent matematiskt är olika sätt att uttrycka samma sak. I fallet med kappakoefficienter är det emellertid inte så enkelt, eftersom de kan vara från -1 (bedömningarna är exakt omvända) till 1 (helt perfekt samstämmighet). De betecknar alltså inte en "andel av 1".

Samstämmigheten kan vara 90% och kappa kan vara 0,70 eller 0,90, det beror på hur stor bedömarnas slumpmässiga samstämmighet är. Det är detta som är Flodmarks misstag - han har helt enkelt inte förstått att kappakoefficienten inte kan översättas rakt av till en procentuell samstämmighet. (Sedan kan, precis som du säger, koefficienter inte rakt av jämföras mellan olika studier och skalor heller, men det är ett annat problem. Det finns ingen brist på problem i den här rapporten.)

Går du in på http://vassarstats.net/kappa.html kan du blixtsnabbt knappa fram exempel på 90% samstämmighet där kappakoefficienten varierar från 0,60 till 0,90 (beroende på hur du fördelar "träffarna". Att Flodmark tror att siffrorna är direkt översättbara är alltså en rätt grov miss, och jag kan tycka att det är en smula märkligt att statistikern inte fångade detta.

Angående figur 5 och 6 motsvarar de alltså fördelningen av de undersöktas ålder i varje mognadsstadium (där man plockat bort stadium 1 och 5 för MR). Det blir något klarare när man ser att forest-plotten i bilaga 9 har samma siffror åskådliggjorda på ett annat sätt. Här har man alltså antagit normalfördelning (ett inte oproblematiskt antagande) kring de visade medelvärdena (ålder för varje mognadsstadium) och sedan endast bedömt ålder 16-22. Eftersom mognadsstadium 4 för MR har en snittålder på ca 25 år är det bara en mycket liten del av dem som "blir kvar" när man tagit bort alla 23-åringar och upp, och åldersfördelningen i den tänkta gruppen blir inte jämförbar med de andra metodernas. Detta är dock min tolkning av de figurerna, som precis som du skriver är mycket otydliga.

Oavsett vad figurerna försöker uttrycka är metoden med modellerade värden förståelig, och ett fatalt problem med den är ju att dess resultat så uppenbart avviker från de faktiska studieresultaten (se brist 8, Streckbeinstudien). Metoden borde naturligtvis ha validerats, särskilt om den ska tillmätas större värde än de empiriska resultaten!

SvaraRadera
Svar

Lägg till kommentar

tisdag 30 augusti 2016

Flodmarks rapport leder Socialstyrelsen ut på ett gungfly

2 kommentarer: