Företaget

Metod

Den här sidan beskriver hur skolresultat.se bearbetar Skolverkets statistik – vilka bakgrundsfaktorer som används, hur regressionsmodellerna byggs och hur de beräknade förväntade värdena, residualerna och avvikelserna ska tolkas.

Senast uppdaterad: 2026-04-29

1. Översikt

Skolresultat.se publicerar Skolverkets officiella statistik för Sveriges högstadieskolor i interaktiva diagram och rapporter. Utöver de faktiska resultaten beräknar vi även egna statistiska bearbetningar som gör det möjligt att tolka resultaten i ljuset av elevernas förutsättningar.

Tre typer av bearbetningar är centrala för tjänsten:

Förväntade värden och residualer – vi använder multipel regressionsanalys för att beräkna vad varje skola, kommun eller huvudman skulle förväntas prestera givet sitt elevunderlag, och jämför det med det faktiska resultatet.
Avvikelser mellan slutbetyg och nationella prov – för varje ämne där det finns ett nationellt prov beräknar vi skillnaden mellan skolans slutbetyg och dess resultat på det nationella provet. Detta är en indikator på betygskalibreringen.
Gruppskillnader – vi beräknar genomsnittliga skillnader mellan olika elevgrupper (flickor och pojkar, elever vars föräldrar har eller saknar eftergymnasial utbildning, elever med svensk eller utländsk bakgrund) som underlag för analys av likvärdighet och det kompensatoriska uppdraget.

Sammantaget ger detta ett mer komplett underlag för det systematiska kvalitetsarbetet än vad som är möjligt att få direkt från Skolverkets råstatistik. Sidan beskriver hur dessa bearbetningar är gjorda.

2. Datakällor och omfattning

2.1 Skolverket som primär källa

All grunddata kommer från Skolverkets statistikdatabas och avser avgångselever i årskurs 9. Statistik för årskurs 7 och 8 publiceras inte på enhetsnivå och ingår därför inte. Datan omfattar de cirka 1 500 högstadieskolor som finns i Sverige, samt motsvarande statistik på kommun- och huvudmannanivå.

Tjänsten täcker tioårsspannet 2016–2025. Fullständig statistik för den senaste avgångskullen publiceras varje år i februari, ett par veckor efter att Skolverket gjort den sista nödvändiga datan tillgänglig.

2.2 Variabler som importeras

Från Skolverkets filer importeras följande variabelgrupper:

Bakgrundsfaktorer – antal elever, könsfördelning, andel elever vars föräldrar har eftergymnasial utbildning, fördelning på svensk respektive utländsk bakgrund samt föräldrarnas genomsnittliga utbildningsnivå.
Meritvärden och behörighet – genomsnittligt meritvärde, andel elever med godkänt i alla ämnen och andel behöriga till gymnasieskolans yrkesprogram, både totalt och uppdelat på elevgrupp.
Slutbetyg per ämne – betygspoäng och andel godkända i 19 ämnen, uppdelat på samtliga elever, flickor och pojkar.
Resultat på nationella prov – betygspoäng och andel godkända för de 11 nationella prov som ges i åk 9.
SALSA – Skolverkets egna förväntade värden och residualer för meritvärde och andel godkända, så att de finns tillgängliga sida vid sida med våra egna beräknade värden.

2.3 Aggregeringar på kommun- och huvudmannanivå

För att våra förväntade värden, residualer och avvikelser ska vara tillgängliga även på kommun- och huvudmannanivå beräknar vi oviktade medelvärden av de skolor som ingår i respektive enhet.

Riksvvärdena för bakgrundsvariabler bygger dock på Skolverkets studentviktade riksandelar.

3. Bakgrundsfaktorer

Bakgrundsfaktorer är egenskaper hos elevunderlaget som skolan inte kan påverka men som har stor betydelse för resultaten. Forskning visar att över 60 procent av skillnaderna i genomsnittligt meritvärde mellan skolor förklaras av bakgrundsfaktorer. För att kunna jämföra skolor rättvist – och utvärdera effekten av en skolas eget arbete – behöver vi kontrollera för dessa faktorer.

Vår modell testar fyra bakgrundsfaktorer och väljer per resultatvariabel den kombination som bäst förklarar variationen mellan skolor:

Föräldrarnas genomsnittliga utbildningsnivå – ett skattningsvärde mellan 0 och 3 baserat på föräldrarnas högsta utbildning. Detta är genomgående den faktor som har störst påverkan på resultaten.
Andel elever med svensk bakgrund – andelen elever vars båda föräldrar är födda i Sverige.
Andel pojkar – könsfördelningen i elevunderlaget.
Antal elever – skolans storlek mätt i avgångselever.

3.1 Andel svensk bakgrund vs andel nyinvandrade

Skolverkets SALSA-modell använder "andel nyinvandrade elever" – elever som blivit folkbokförda i Sverige under de senaste fyra åren – som ett mått på elevunderlagets bakgrund. På många skolor är denna andel noll eller mycket låg, och variabeln missar då elever med utländsk bakgrund som bott i Sverige längre än fyra år. Det är en grupp som statistiskt sett fortfarande skiljer sig från elever med svensk bakgrund i fråga om resultat.

Vår variabel "andel elever med svensk bakgrund" fångar hela skillnaden i elevunderlaget oavsett hur länge eleverna bott i Sverige. Den innehåller därmed mer information om skolans förutsättningar och bidrar till att modellen förklarar en större del av variationen i skolors resultat. Detta är den enskilt största anledningen till att våra förväntade värden ofta avviker från SALSA:s.

4. Regressionsmodellen och modellval

Regressionsanalys är en statistisk metod som beskriver sambandet mellan en uppsättning oberoende variabler (här: bakgrundsfaktorerna) och en beroende variabel (här: resultatet, t.ex. genomsnittligt meritvärde eller betygspoäng i matematik). Resultatet av en regressionsanalys är en ekvation som, givet skolans bakgrundsfaktorer, beräknar ett förväntat värdeför resultatet. Det förväntade värdet kan tolkas som "vad skolor med liknande elevunderlag genomsnittligt presterar".

4.1 En egen modell per resultatvariabel

Till skillnad från SALSA, som använder samma tre bakgrundsfaktorer för samtliga resultat, bygger vi en egen regressionsmodell för varje kombination av år, ämne, mått (t.ex. betygspoäng eller andel godkända) och elevgrupp (samtliga, flickor, pojkar, etc.). Det innebär att den specifika uppsättningen bakgrundsvariabler kan skilja sig mellan ämnen och elevgrupper. Andel pojkar kan exempelvis vara en viktig faktor i svenska men sakna betydelse i matematik – och då utesluts den i den ena modellen och ingår i den andra.

4.2 Hur den bästa modellen väljs

För varje resultatvariabel testar vi alla möjliga kombinationer av de fyra bakgrundsvariablerna och väljer en bästa modell enligt följande regler:

Statistisk signifikans. Modeller där någon koefficient (utöver konstanten) har p-värde ≥ 0,01 förkastas. Endast modeller där samtliga ingående variabler har en statistiskt säkerställd effekt går vidare.
5-fold korsvalidering. Bland de modeller som klarar signifikanskravet utvärderas vi förmågan att förutsäga resultatet för data som modellen inte tränats på. Detta är ett standardmått för att undvika överanpassning – att modellen lärt sig träningsdatans brus snarare än det underliggande sambandet.
Urvalsregel. Bland modeller med jämförbar prestanda föredras den enklare. Konkret: en modell väljs framför en mer komplex om dess CV-R² ligger inom en bestämd tolerans (i procentenheter) från den bästa modellens. Det förebygger att vi lägger till variabler som bara marginellt höjer förklaringsgraden.

4.3 Förklaringsgrad

Förklaringsgraden (R²) anger hur stor andel av variationen i resultatet mellan skolor som kan förklaras av bakgrundsfaktorerna. För genomsnittligt meritvärde 2024/25 ligger vår modell på ungefär 60 procent, jämfört med SALSA:s 53 procent för samma variabel. En högre förklaringsgrad innebär att de förväntade värdena är mer träffsäkra och bättre fångar skolans faktiska förutsättningar.

5. Förväntade värden, residualer och percentiler

5.1 Förväntat värde

För varje skola beräknas ett förväntat värde genom att stoppa in skolans bakgrundsfaktorer i den modell som valts för respektive resultatvariabel. Resultatet är det värde skolan skulle ha haft om den presterade exakt som genomsnittet av de skolor som har ett liknande elevunderlag.

5.2 Residual

Residualen definieras som skillnaden mellan det faktiska och det förväntade värdet: residual = faktiskt − förväntat. En positiv residual innebär att skolan presterar bättre än vad bakgrundsfaktorerna förutsäger, en negativ att skolan presterar sämre. Eftersom residualen är rensad från elevunderlagets påverkan är den ett kraftfullt verktyg för att jämföra skolor med olika förutsättningar och för att utvärdera effekten av kvalitetsarbete över tid – ett ökande faktiskt resultat som beror på ett starkare elevunderlag ger ingen ökning i residualen, medan en faktisk insats som höjer resultatet utöver förväntat gör det.

5.3 Percentil och z-score

För varje datapunkt – både faktiska värden och residualer – beräknar vi också en percentil mellan 0 och 100 samt en z-score (standardiserad avvikelse från medelvärdet). Percentilen anger var skolans värde placerar sig i förhållande till alla andra enheter på samma nivå (skola, kommun eller huvudman) för samma år, ämne, mått och elevgrupp. Z-score uttrycker samma sak i antal standardavvikelser. Båda måtten gör det möjligt att snabbt sätta ett enskilt värde i ett rikssammanhang.

5.4 Hur värdena presenteras i diagrammen

I diagrammen visas faktiska värden, förväntade värden och residualer tillsammans när det är meningsfullt – ofta som flera serier i samma diagram, eller som tilläggsinformation i tooltipen. Tanken är att man aldrig ska behöva tolka ett faktiskt värde i isolering: residualen och percentilen finns alltid bara ett ögonkast bort.

6. Avvikelser mellan slutbetyg och nationella prov

För varje ämne där det finns ett nationellt prov beräknas en avvikelse mellan slutbetyget och NP-resultatet i samma ämne och för samma elevgrupp. Avvikelsen definieras som:

avvikelse = slutbetyg(faktiskt) − nationellt prov(faktiskt)

Måttet beräknas både för betygspoäng och för andel godkända, och både totalt och uppdelat på elevgrupp. Avvikelsen är en indikator på hur välkalibrerad skolans betygssättning är i förhållande till de nationella proven.

6.1 Tolkning

En positiv avvikelse innebär att slutbetygen är högre än vad NP-resultaten motiverar. På riksnivå förekommer en viss positiv avvikelse i de flesta ämnen, men en stor och bestående positiv avvikelse på en enskild skola kan vara ett tecken på betygsinflation. En negativ avvikelse innebär det motsatta – skolan sätter relativt strängt jämfört med NP-resultatet.

6.2 Varningsflaggor

I diagrammen markerar vi tydligt uppåtgående avvikelser med en varningsflagga: betygspoäng > 0,5 över NP-betyget, eller andel godkända > 5 procentenheter över andelen godkända på NP. Flaggor visas bara åt det positiva hållet eftersom det är där frågan om betygsinflation aktualiseras.

7. Gruppskillnader och likvärdighet

Skolan har ett kompensatoriskt uppdrag – att motverka skillnader mellan olika elevgrupper. För att möjliggöra analys av likvärdigheten beräknar vi differenser mellan gruppers genomsnittliga resultat och lagrar dessa som egna observationer. Tre grupperingar finns tillgängliga:

Flickor − pojkar – beräknas för meritvärde, varje ämne och varje nationellt prov.
Eftergymnasial − utan eftergymnasial utbildning – skillnad mellan barn till föräldrar med eftergymnasial utbildning och barn till föräldrar utan. Beräknas för meritvärde.
Svensk − utländsk bakgrund – beräknas för meritvärde.

7.1 Varför rena differenser inte räcker

Skillnader i resultat mellan grupper är delvis ofrånkomliga och speglar strukturella förhållanden i samhället. Att enbart titta på en skolas egna gruppskillnader ger därför sällan en användbar bild av hur väl skolan kompenserar – det är inte rimligt att förvänta sig att skillnaderna ska vara noll. För att göra differenserna meningsfulla jämför vi dem med rikets genomsnittliga skillnad och presenterar även residualer per grupp.

Genom att titta på residualer för flickor jämfört med residualer för pojkar – alltså hur respektive grupp presterar i förhållande till sina förväntade värden – kan man avgöra om en grupp är särskilt gynnad eller missgynnad just på den aktuella skolan. Det är denna typ av analys som är central för att utvärdera det kompensatoriska uppdraget.

8. Jämförelse med SALSA

På skolresultat.se beräknar vi förväntade resultat med en egen regressionsmodell som skiljer sig från Skolverkets SALSA på flera viktiga punkter. Våra förväntade värden avviker därför ofta från SALSA:s, ibland med stor marginal. De viktigaste skillnaderna är:

Bredare mått på elevernas bakgrund.SALSA använder "andel nyinvandrade elever". Vi använder "andel elever med svensk bakgrund", som fångar en betydligt större del av elevunderlaget.
Högre förklaringsgrad. Vår modell förklarar ungefär 60 procent av skillnaderna i meritvärde mellan skolor, jämfört med SALSA:s 53 procent. Våra förväntade värden speglar därmed bättre vad skolor med liknande elevunderlag faktiskt presterar.
Förväntade värden för allt, inte bara meritvärde. SALSA beräknar förväntade värden för bara två mått (meritvärde och andel godkända i alla ämnen). Vi beräknar förväntade värden för samtliga resultatvariabler – varje ämne, varje nationellt prov, och för olika elevgrupper.

Den praktiska konsekvensen är att en skola kan ligga nära förväntat resultat enligt SALSA men klart under (eller över) förväntat på skolresultat.se.

9. Begränsningar och tolkning

Alla regressionsmodeller är förenklingar av verkligheten och fångar bara en del av de faktorer som påverkar skolors resultat. Det finns ett antal begränsningar som är värda att hålla i minnet vid tolkningen.

Linjäritetsantagande. Modellerna förutsätter ett linjärt samband mellan bakgrundsfaktorerna och resultatet. Icke-linjära samband eller samspel mellan variabler fångas inte.
Små grupper. För grupper med få elever blir både de faktiska värdena och residualerna instabila. Skolverket publicerar i regel inte värden för grupper under 15 elever.
Årsspecifika modeller. En egen modell byggs per år. En skolas förväntade värde kan därför ändras mellan år både genom förändrad elevsammansättning och genom att modellens koefficienter förändras något.
Oförklarad variation. Även om vår modell förklarar omkring 60 procent av variationen i meritvärde innebär det att 40 procent förblir oförklarad. Den oförklarade delen rymmer allt från undervisningskvalitet och skolkultur till lokala förhållanden och slumpmässig variation.
Förväntade värden är inte mål. Ett förväntat värde är en statistisk referenspunkt, inte en målnivå. Att en skola ligger under förväntat betyder inte automatiskt att undervisningen är bristfällig, och att ligga över förväntat garanterar inte att allt fungerar väl.

Värdena på skolresultat.se ska därför ses som ett underlag för analys och diskussion, inte som ett självklart facit. De ger en mer differentierad och rättvis utgångspunkt än rena råresultat, men de behöver kombineras med lokal kunskap om verksamheten för att leda till välgrundade slutsatser.