Urban Vitality Open Science
(Statistisch) Analyse Plan
Een (statistisch) analyse plan, afgekort SAP, beschrijft hoe de kwantitatieve of kwalitatieve gegevens die je gaat verzamelen statistisch verwerkt zullen worden. Je kunt het toevoegen als aanvulling op je protocol.
Op deze pagina:
Wat is een SAP?
Een SAP is een meer technisch document dan het onderzoeksprotocol en bevat gedetailleerde procedures voor het uitvoeren van statistische analyses. Hoewel een SAP oorspronkelijk bedoeld was voor klinische proeven, kunnen ook andere soorten onderzoeksopzet baat hebben bij transparante analyseplannen. Zo zal de analyse van kwalitatieve gegevens waarschijnlijk baat hebben bij een schriftelijk plan, waarin de onderliggende (filosofische) benadering wordt beschreven en details worden behandeld van bijvoorbeeld triangulatie, criteria voor verzadiging en de selectie van citaten.
Waarom een SAP schrijven?
- Het opstellen van een SAP dwingt je na te denken over welke gegevens je in welk formaat wilt verzamelen, wat dan een leidraad kan zijn voor je beslissingen over bv. meetinstrumenten en timing van (herhaalde) metingen. Het kan je er ook op attenderen dat je misschien van plan bent meer gegevens te verzamelen dan je in je analyses zult gebruiken. Dit kan de deelnemers belasten en ertoe leiden dat zij (selectief) afhaken, wat de algemene geldigheid van jouw studie. Hier is een link naar een kader dat je helpt de minimaal vereiste set van confounding factoren te selecteren voor een valide data-analyse. Een recent voorbeeld leerde ons dat voor het statistisch herstellen van bias door slechte therapietrouw in een trial herhaaldelijk meten van tijdsafhankelijke confounders nodig zou zijn geweest. Helaas was men dit vergeten en werd correctie voor therapietrouw onmogelijk. Merk op dat het onnodig verzamelen van persoonsgegevens onwettig is.
- SAP-ontwikkeling kan je erop wijzen dat de nodige hulpmiddelen of statistische technieken niet beschikbaar zijn (in je favoriete software). SAP ontwikkeling kan ook signaleren dat er (meer) statistische ondersteuning georganiseerd moet worden.
- Een goed SAP, en het vasthouden daaraan, kan je veel tijd besparen die anders besteed zou worden aan het analyseren van de gegevens op lukrake en datagestuurde manieren (het voorkomt "data-dredging" waarbij gegevens geselecteerd worden op basis van gewenste uitkomsten).
- Een goede reden om je SAP samen met je onderzoeksprotocol al in een vroeg stadium openbaar te maken is dat de wens (helaas nog lang niet verdwenen) om statistisch significante resultaten te produceren veel onderzoekers ertoe brengt hun gegevens te martelen tot ze bekennen (P-hacking ). Deze aanpak verstoort jouw werk (en vervolgens reviews, richtlijnen en patiëntenzorg of -diensten, en het algemene wetenschappelijke dossier als geheel) en moet koste wat kost worden vermeden. Deze kwestie wordt nader toegelicht in het hoofdstuk over preregistratie .
- Gezien de invloed van statistische beslissingen op studieconclusies, is goed gedocumenteerd en transparant statistisch handelen van essentieel belang.
Hoe schrijf je een (statistisch) analyseplan?
Glasheldere onderzoeksdoelstellingen vormen de leidraad voor elke data-analyse. Voordat je begint na te denken over de analyse, herbekijk je je onderzoeksdoelstellingen en overweeg je om enkele van je collega's, die niet direct betrokken zijn bij het project, te vragen om hun feedback te geven. Tunnelvisie komt immers vaak voor in projectteams. Voor elk artikel dat je schrijft, kan een apart SAP of een aanpassing van het hoofd-SAP nodig zijn. Het beschrijven van de exacte inhoud van SAP's voor alle verschillende onderzoeksdesigns valt buiten het bestek van dit hoofdstuk, dat slechts een globale leidraad biedt, geen format voor elk denkbaar ontwerp. Raadpleeg wel de rapportagerichtlijnen op equator network . Zij geven een overzicht van veel onderzoeksopzetten en analyses die u kunt gebruiken in een SAP of onderzoeksprotocol. Meer richtlijnen voor SAP's voor non-trials zijn te vinden in PubMed door bijvoorbeeld te zoeken met deze string: "statistical analysis plan" NOT (randomized OR randomised OR trial) of kleine variaties daarop. Steeds vaker vindt je voorbeeld-SAP's in Open Science Framework (zoek bijvoorbeeld met "statistical analysis plan"). Hieronder geven we wat meer richtlijnen, tips en trucs.
Fases in statistische analyse
We volgen Rothman, Greenland en Lash (Moderne epidemiologie, 3e editie) en onderscheiden de volgende fasen in een statistische analyse die allemaal van tevoren bedacht en beschreven moeten worden:
- Data bewerken (controleren op nauwkeurigheid (onmogelijke waarden opsporen, verdelingen bekijken), consistentie (onmogelijke combinaties in verwante variabelen)) en volledigheid (ontbrekende waarden)), matrixscatterplots voor continue variabelen (bivariate uitschieters opsporen)
- Data-beschrijving en -samenvatting (intelligent gekozen tabellen, histogrammen, scatterplots, etc.) kiezen van (logische) categorieën (zonder rekening te houden met teststatistieken om vertekening te voorkomen en ondoordacht gebruik van tertielen, kwartielen of kwintielen vermijden, maar in plaats daarvan focussen op (biologische) betekenis en optimale contrasten)
- Behandeling van ontbrekende waarden (het mogelijke gebruik van meervoudige toerekening)
- Schatting (eenvoudige tabellering, (eenvoudige) gestratificeerde analyses, (meervoudige) regressie)
- Gevoeligheids- en invloedsanalyses (robuustheid) die beschrijven hoe je het effect onderzoekt van mogelijke schendingen van aannames en/of resultaten afhankelijk van enkele specifieke waarnemingen (proefpersonen)
- Meer geavanceerde kwantitatieve biasanalyse
Aanbevolen items in een (klinisch onderzoek) SAP
Welk onderzoek je ook plant of uitvoert, kijk hier voor uitstekende richtlijnen over wat er in een SAP voor een klinisch onderzoek moet staan. Maar zelfs als u een ander onderzoeksdesign gebruikt, zijn veel van de principes voor trials nog steeds van toepassing of kunnen ze een geweldige bron van inspiratie zijn. Ontbrekende gegevens komen immers vaak voor en gevoeligheidsanalyses moeten altijd overwogen worden gezien de vele subjectieve beslissingen die bij de meeste (statistische) analyses betrokken zijn. Een goede manier om sectie 6 van het bovenstaande document te structureren is als volgt:
Hoe schrijf je een SAP?
Wordt aan gewerkt, zie intussen hier .
Of dit:
Omgaan met bijwerkingen in de analyse
Het verzamelen en analyseren van schade of bijwerkingen (in trials) is een bijzonder onderontwikkeld onderwerp. Richtlijnen over hoe om te gaan met bijwerkingen in de analyse zijn hier te vinden.
Andere principes
- Denk goed na over skelettabellen en ontwerp ze dan. Skelettabellen hebben een titel, rijlabels en de kolomgegevens zijn exact gespeld, alleen de getallen in de cellen ontbreken. De gegevensanalyse zal de inhoud van de cellen heel gericht produceren. Dat wil zeggen dat er nauwelijks andere getallen geproduceerd hoeven te worden. Hetzelfde principe geldt voor grafieken.
- Bespreek je SAP in een vroeg stadium grondig met je teamleden en zorg ervoor dat het team het eens is over de hoofdzaken en documenteer gemaakte beslissingen (met redenen) in je logboek of notulen van de vergadering. Het kan heel frustrerend zijn om veel analyses uit te voeren en dan door de projectleider terug naar je computer gestuurd te worden om het werk opnieuw te doen omdat hij/zij de nadruk van de analyses wil verleggen.
- Probeer het grootste deel van de syntaxis (code) voor te bereiden voordat de gegevensverzameling klaar is of voordat de analyses beginnen. Dit zal je ook motiveren om na te denken over (korte) namen voor variabelen. Waarom zou je een variabele 'randomization_group' noemen als hij ook 'trt' (voor treatment) of 'intv' (voor intervention) kan heten? Een variabelenaam is geen variabelenlabel!
Wat moet ik doen als ik mijn SAP vooraf heb geregistreerd en ik wil het wijzigen?
Zie het hoofdstuk over voorregistratie .
Meer informatie
Als u advies op maat nodig hebt (buiten gerandomiseerde onderzoeken), schrijf dan een e-mail naar opensciencesupport@hva.nl. Zij kunnen u helpen met het ontwikkelen van een SAP voor zowel een kwantitatief als een kwalitatief of mixed methods onderzoek. Verder lezen: