www.nkrf.no » Kommunerevisoren.no » 2014 » Nr. 6

Søk

NKRF
Munkedamsveien 3B
Postboks 1417 Vika
0115 Oslo

Tlf: +47 23 23 97 00

post@nkrf.no

Hopp over seksjon - Til hovedinnhold - Topp

Stikkprøver i revisjon

Tove-Gunn Moen, fagansvarlig regnskapsrevisjon, Rogaland Revisjon IKS

«Hvor mange stikkprøver skal jeg ta?» «Hvilket grunnlag skal jeg ta dem fra, og hvordan skal jeg velge dem ut?» «Hvordan skal de resultatene jeg har fått, tolkes?»

Dette er spørsmål mange av oss får nesten daglig, og som det noen ganger kan være vanskelig å svare på. Vi har riktignok en revisjonsstandard å støtte oss til – ISA 530 Stikkprøver i revisjon – men det er likevel i stor grad opp til revisors skjønn å gjøre de rette vurderingene. Dette er et av de områdene hvor de årlige kvalitetskontrollene avdekker flest svakheter. Denne artikkelen tar for seg noen av de mest sentrale faktorene revisor må ha en formening om når stikkprøver skal utformes.

Begrepsbruk

Når vi snakker om stikkprøver, innebærer det at revisjonen baseres på granskning av utvalgte deler av grunnlagsmaterialet. Store transaksjonsvolum gjør at revisor sjelden kan kontrollere en regnskapspost eller en transaksjonsklasse 100 prosent, selv om det finnes unntak – kontroll av skatteinntekter og rammetilskudd er gode eksempler i så måte. Her vil vi normalt foreta en sjekk av sum bokførte inntekter mot henholdsvis skatteregnskap og oversikt over tilskudd fra departementet. Da tar vi ikke stikkprøver, men gjennomfører i stedet en totalavstemming.

Tove-Gunn Moen er siviløkonom og statsautorisert revisor, og er ansatt i Rogaland Revisjon IKS som leder og fagansvarlig for regnskapsrevisjon. Hun har tidligere vært ansatt ved Universitetet i Stavanger som ansvarlig for bachelorstudiet i revisjon.

For at en stikkprøve skal gi tilstrekkelig revisjonsbevis, må den være representativ for hele populasjonen. Det forutsetter blant annet at alle enhetene i populasjonen skal ha en mulighet til å bli med i stikkprøven. Hvis vi for eksempel bestemmer oss for å teste kundefordringer over et visst beløp, vil stikkprøven kun være representativ for de kundefordringene som overstiger det aktuelle beløpet, og ikke for hele fordringsmassen. Revisor kan derfor ikke konkludere for hele populasjonen (sum kundefordringer) på bakgrunn av en slik stikkprøve.

Dette er et av de områdene hvor de årlige kvalitetskontrollene avdekker flest svakheter.

Stikkprøven kan være statistisk eller skjønnsbasert (ikke-statistisk). Statistiske stikkprøver kjennetegnes ved at utvelgelsen skjer tilfeldig, det vil si at alle enhetene i populasjonen skal ha nøyaktig den samme sannsynligheten for å bli trukket ut. Et annet kjennemerke ved statistiske testmetoder er at resultatene blir tolket ved hjelp av sannsynlighetsteori. Ved skjønnsbaserte stikkprøver står en friere i valget av utvalgsmetode. God revisjonsskikk framhever ikke den ene metoden som bedre enn den andre, begge har sine fordeler og ulemper. Fordelene med statistiske stikkprøver er blant annet at det er enklere å dokumentere at utplukket har skjedd på et objektivt grunnlag, og at (u)sikkerheten i konklusjonen kan tallfestes. Den største fordelen med skjønnsbasert testing er nettopp det – at revisor kan bruke sitt eget (sunne) skjønn for å oppnå en rasjonell revisjon. I praksis er nok skjønnsbasert stikkprøvetaking langt mer utbredt enn anvendelsen av statistiske metoder. I det følgende legges det derfor til grunn at det er skjønnsbasert testing som er det mest aktuelle.

Et annet sentralt begrep i forbindelse med stikkprøvetaking, er utvalgsrisiko. Utvalgsrisiko er risikoen for at revisor trekker en annen konklusjon enn om alle enhetene hadde blitt kontrollert. Selv om revisor bestreber seg på å foreta en representativ test, vil det likevel alltid foreligge risiko for at så ikke er tilfellet. Utvalgsrisiko kan gå to veier: Stikkprøven kan vise en lavere feilandel enn det som faktisk er tilfellet i populasjonen totalt sett, eller den kan vise en høyere feilandel. Det er den førstnevnte risikoen som er den mest kritiske. Den kan for eksempel innebære at revisor gjennom tester av kontroller konkluderer med at internkontrollen fungerer tilfredsstillende, mens den i virkeligheten ikke gjør det. Det kan igjen medføre at revisor avgir en normal beretning der det i realiteten skulle vært tatt forbehold. Den andre typen risiko er ikke så «farlig». La oss si at revisor på bakgrunn av sin stikkprøve feilaktig har konkludert med at avsetningen for tap på fordringer i regnskapet er altfor lav. Ledelsen på sin side er overbevist om at tapsavsetningen er tilstrekkelig. Ledelsen vil helst unngå å få en revisjonsberetning med forbehold, og vil derfor høyst sannsynlig gjøre det den kan for å dokumentere at revisors tolkning er feil.

Ikke all risiko er utvalgsrisiko. Dersom en har satt en uerfaren medarbeider til en oppgave, kan det for eksempel være en risiko for at vedkommende misforstår hvordan revisjonshandlingene skal utføres. Mangelfull dokumentasjon kan føre til risiko for at det trekkes feil konklusjoner. Begge disse tilfellene representerer revisjonsrisiko, men er ikke knyttet til det utvalget som tas, og kommer dermed ikke i kategorien utvalgsrisiko.

Når et utvalg skal trekkes, kan en gjøre dette på flere måter: tilfeldig, systematisk eller usystematisk utvelgelse. Tilfeldig utvelgelse var vi inne på ovenfor – det innebærer at alle mulige kombinasjoner av utvalg har den samme sannsynligheten for å bli trukket. Metoden anvendes ved statistiske stikkprøver, og kan anvendes når en foretar skjønnsmessig testing. Selve utplukket skjer på bakgrunn av IT-genererte tall (for utvelgelse av eksempelvis bilagsnummer).

Systematisk eller strukturert utvelgelse er benevnelsen på en stikkprøve der startpunktet er tilfeldig generert, mens de øvrige enhetene blir valgt ut med et fast intervall. Sett at revisor har bestemt seg for å kontrollere 50 transaksjoner fra en transaksjonsklasse som i alt består av 5000 transaksjoner (bilag). Det velges tilfeldig ut et startnummer (bilagsnummer). Deretter kontrollerer revisor hvert 100. bilagsnummer/transaksjon. Å trekke utvalget på denne måten behøver ikke ha noe å si for representativiteten, med mindre det er en bestemt systematikk i grunnlagsmaterialet. Revisor må derfor på forhånd forvisse seg om at det ikke er noe fast mønster i grunnlagsmaterialet før denne typen utvelgelse brukes.

Usystematisk utvelgelse, eller «basarmetoden» som jeg liker å kalle det, består i at revisor trekker på måfå blant enhetene i populasjonen, i den hensikt å unngå skjevheter i utvalget. Vi kan se for oss at revisor lukker øynene og trekker tilfeldige lodd fra en bøtte, der loddene i dette tilfellet vil være bilagsnummer. Denne metoden kan være et fullgodt alternativ til tilfeldig utvelgelse, men det forutsetter at revisor er fullstendig objektiv når enhetene trekkes, og at dette kan dokumenteres. Det er ellers lett å tenke seg at revisor kan velge vekk de «vanskelige» transaksjonene til fordel for de det er enklere å kontrollere, og da kanskje særlig i hektiske perioder der tiden er knapp.

Hva bestemmer stikkprøvens størrelse?

Populasjonen, eller det grunnlagsmaterialet revisor skal bekrefte, er i utgangspunktet en av de faktorene som avgjør hvor stor stikkprøven bør være. Når populasjonen øker, må stikkprøven økes, men ikke proporsjonalt. Når populasjonen har nådd et visst nivå, har blitt «stor», vil en ytterligere økning imidlertid ikke lenger ha noen betydning for stikkprøvestørrelsen. Dette er illustrert i figur 1 nedenfor. Ved revisjon av kommuneregnskap vil de aller fleste populasjoner være så store at revisor kan se bort fra denne faktoren når stikkprøvestørrelsen skal bestemmes.

Figur 1 Når populasjonen øker, må stikkprøven økes, men ikke proporsjonalt

Hvilken utvalgsrisiko vi er villige til å ta, har stor betydning for testomfanget. Jo lavere risiko vi kan akseptere, desto større må stikkprøven være. Er dette en av få revisjonshandlinger vi foretar med hensyn til det aktuelle formålet, må vi trolig legge en lav risiko (høy sikkerhet) til grunn. Utfører vi derimot flere, supplerende revisjonshandlinger rettet mot det samme formålet, kan vi akseptere en høyere risiko og dermed ta færre stikkprøver. Jeg skal illustrere det siste ved å ta utgangspunkt i hvordan vi hos oss utfører kontroller i forbindelse med momskompensasjonen. Det gjøres i en to-gang: Det tas en tilfeldig stikkprøve av alle de relevante artene. Stikkprøvestørrelsen beregnes med utgangspunkt i vesentlighetsgrensen og en valgt utvalgsrisiko, og de utvalgte transaksjonene kontrolleres med hensyn til de ulike egenskapene. Den andre delen av kontrollen består av en relativt detaljert gjennomgang av de delene av grunnlagsmaterialet det erfaringsmessig er mest feil, typisk utgifter til matvarer, reiseutgifter, transaksjoner på VAR-området, utgifter til sosialboliger o.a. På grunn av denne detaljerte gjennomgangen på områder som er spesielt risikoutsatte, kan vi legge til grunn en moderat utvalgsrisiko ved beregning av stikkprøven, og likevel kunne konkludere med høy grad av sikkerhet.  

Hvor mye feil eller avvik vi forventer å finne, spiller også en rolle for hvor stor stikkprøven skal være. Dersom vi har revidert kunden i flere år, og det er områder der vi sjelden avdekker feil, trekker det i retning av en mindre stikkprøve. Har vi derimot erfaringsmessig oppdaget mange feil på et eller flere felt, tilsier det en økning av stikkprøvestørrelsen. Med andre ord – når risikoen for feil antas å være lav, kan stikkprøven være mindre enn om risikoen for feil vurderes som høy.

Den siste faktoren som påvirker stikkprøvestørrelsen er hvor stor andel feil eller avvik vi kan akseptere i stikkprøven, uten at det fører til en negativ konklusjon. Når vi tester den interne kontrollen, må vi derfor stille oss spørsmålet: Hvor mange avvik kan aksepteres før vi ikke lenger stoler på internkontrollen på dette området? Tilsvarende ved substanskontroller: Hvor mye feil skal stikkprøven inneholde før den må utvides, vi må utføre supplerende revisjonshandlinger, eller – i verste fall – ta forbehold om den aktuelle regnskapsposten? Dette er størrelser en må ha tatt stilling til på forhånd. Jo flere feil eller avvik som kan aksepteres, desto mindre kan stikkprøven være. Og omvendt, er den akseptable feilmarginen liten, må stikkprøven være større. Den mengden feil vi er villige til å akseptere, er igjen avhengig av vesentlighetsgrensen. Dersom en på forhånd har fordelt vesentlighetsgrensen til de enkelte transaksjonsklassene eller regnskapspostene, vil det kanskje være enklere å gjøre denne vurderingen. Uansett er sammenhengen slik at en høyere vesentlighetsgrense medfører høyere terskel for hvor mye feil som kan aksepteres.

Framgangsmåte ved stikkprøver

Formålet med stikkprøver er på en effektiv måte å kunne gi revisor et betryggende grunnlag for å kunne trekke konklusjoner om hele populasjonen. Når stikkprøven skal utformes, må revisor gjennom flere problemstillinger og faser:

 • Fastsette formålet med testen
 • Definere hva som er populasjonen
 • Avgjøre hvilke egenskaper som skal testes, dvs. definere hva som er en «feil»
 • Bestemme utvelgelsesmetode
 • Bestemme stikkprøvens størrelse
 • Fastsette grensen for akseptabel feilandel
 • Gjennomføre testen
 • Analysere resultatene og trekke en konklusjon

Formålet med testen er avhengig av om det dreier seg om test av en kontroll eller om det er en substanstest som skal utføres. I førstnevnte tilfelle vil formålet være å kunne slå fast om en kontroll fungerer eller ei. I forbindelse med substanstester er formålet å få bekreftet en eller flere regnskapspåstander.

Hva som er populasjonen, henger nært sammen med hva som er formålet for testen. Er det en kontroll som testes, vil populasjonen være den dokumentasjonen som viser at kontrollen er utført. Kontrolleres for eksempel rutinen for godkjenning av variabel lønn, vil populasjonen utgjøres av alle timelistene og kontrollen bestå i å sjekke om de er attestert. Ved substanskontroller vil regnskapspåstanden være avgjørende for hva som utgjør populasjonen. Skal eksempelvis tilskudd bekreftes med hensyn til gyldighet, er det de bokførte transaksjonene innenfor de aktuelle artene som blir populasjonen. Stikkprøven trekkes fra regnskapet, og kontrollen gjøres av det underliggende materialet. Er det derimot fullstendighet som skal testes, eksempelvis fullstendighet av inntekter fra foreldrebetaling, kan ikke utvalget trekkes fra det som er bokført. Da må vi gå til «kilden», og populasjonen må være en type dokumentasjon som viser det antallet barn som har plass i barnehagen, for eksempel opptaks- eller oppmøtelister. Kontrollen vil da bestå i å sjekke om det er utfakturert for et tilsvarende antall plasser som den underliggende dokumentasjonen tilsier.

Dernest må en ta stilling til hva det egentlig er som skal testes, og hva som skal regnes som en feil. Ved test av variabel lønn som nevnt i eksemplet over, vil det være en feil hvis lønn har blitt utbetalt til tross for at timelisten mangler attestasjon. Når det gjelder substanstester, vil det ikke alltid være like opplagt hva som regnes som feil. Sett at revisor har bestemt seg for å sende ut saldoforespørsler til et utvalg av kundene for å teste fordringenes eksistens per 31.12. Samtlige kunder bekrefter saldoene, men en av dem opplyser samtidig at vedkommende har meldt oppbud, og at det derfor er høyst usikkert om fordringen blir innfridd. Skal dette regnes som en feil i denne testen? Nei, det er her ikke sådd tvil om fordringens eksistens, slik at denne regnskapspåstanden kan bekreftes, men forholdet må naturligvis tas i betraktning når verdsettelsen av fordringene skal vurderes.

Det er selvsagt ingen ting i veien for å teste flere egenskaper samtidig. Hos oss gjør vi det blant annet i forbindelse med de før nevnte momskontrollene. Da benytter vi samtidig anledningen til å teste innkjøpsrutinen, at transaksjonene er bokført på korrekt art, funksjon og eventuelt prosjekt, og at formelle krav til dokumentasjonen er oppfylt. Når det på denne måten testes flere forhold parallelt, bør det trekkes én konklusjon for hver av egenskapene som er kontrollert.

Revisor kan også finne det hensiktsmessig å benytte seg av stratifisering. Stratifisering betyr å dele populasjonen inn i flere underpopulasjoner (strata) for deretter å ta stikkprøver av hver av disse. Ofte vil revisor i slike tilfeller ta utgangspunkt i beløp, men en kan også tenke seg andre kriterier for inndeling. Et eksempel fra vår revisjonsvirksomhet: Vi har i de senere årene gjennomført flere forvaltningsrevisjoner av anskaffelser, der formålet har vært å vurdere i hvilken grad anskaffelsesregelverket blir etterlevd. Her var det naturlig å skille mellom anskaffelser over kr 500 000 og anskaffelser mellom kr 100 000 og kr 500 000. I tillegg valgte vi å skille ut områder som etter vår erfaring var mest risikofylte, og tok flere tester her enn på øvrige områder. Det en må passe på når en velger slik stratifisering, er at en ikke projiserer resultatene på tvers av underpopulasjonene. I vårt tilfelle måtte vi altså nyansere konklusjonene slik at resultatene ble tydelige for de respektive underpopulasjonene – over og under kr 500 000, innen eller utenfor risikoområdene.

Det en må passe på når en velger slik stratifisering, er at en ikke projiserer resultatene på tvers av underpopulasjonene.

Etter at testen er gjennomført, må resultatene evalueres og det må trekkes en konklusjon. Er det avdekket feil eller avvik, må revisor forsøke å få brakt på det rene hva som er årsaken, og dernest å vurdere den mulige virkningen feilen har på formålet med revisjonshandlingen. En må være ytterst forsiktig med å anta at feilen er enkeltstående. Har revisor grunn til å tro det, må det i så fall innhentes revisjonsbevis som gir en høy grad av sikkerhet for at feilen ikke er representativ for hele populasjonen.

La oss si at vi har tatt en stikkprøve på 50 og testet om en kontroll har blitt utført, der vi har oppdaget to tilfeller av at kontrollen ikke har blitt dokumentert. Kan vi da si at internkontrollen er tilfredsstillende og bygge på den, eller må testen forkastes og erstattes av andre handlinger? Svaret er avhengig av hvilken feilandel vi på forhånd hadde bestemt at er akseptabel. Stikkprøven i vårt tilfelle viste 4 prosent avvik. Det er da sannsynlig, under forutsetning av at stikkprøven er representativ, at populasjonen totalt sett inneholder 4 prosent avvik. Hvis 4 prosent avvik ligger innenfor det vi kan akseptere, kan vi konkludere positivt. I motsatt fall må konklusjonen bli negativ.

For å illustrere evaluering av en substanstest, kan vi ta utgangspunkt i kontroll av ulike arter på innkjøpsområdet hvor formålet er å se om det er foretatt en korrekt grensedragning mellom drifts- og investeringsutgifter. Revisor har tatt en stikkprøve som dekker 20 prosent av populasjonen, som i dette tilfellet er bokførte utgifter innen de relevante artene. Revisor avdekker at det er bokført utgifter for kr 300 000 i investeringsregnskapet som burde ha vært ført i driftsregnskapet. De avdekkede feilene blir korrigert. Hvilken konklusjon skal trekkes av denne testen? Dersom stikkprøven er representativ, noe revisor forutsettes å tilstrebe, er det naturlig å anta at det er den samme relative feilandelen i hele populasjonen. Revisor må derfor projisere testresultatet slik at det gir utsagnskraft for hele det grunnlagsmaterialet revisor skal bekrefte. Når det er avdekket feil i størrelsesorden kr 300 000 i stikkprøven, som i dette tilfellet er korrigert, er det nærliggende å anta at det i hele populasjonen har blitt feilført utgifter i størrelsesorden 1,5 mill. kr. Det innebærer at det i den delen som ikke er kontrollert, dvs. 80 prosent av populasjonen, kan være utgifter på til sammen 1,2 mill. kr i investeringsregnskapet som burde vært i driftsregnskapet, og som ikke har blitt korrigert. Revisor må derfor ta stilling til om dette er en feilmengde som kan aksepteres innenfor den vesentlighetsgrensen som er satt, om det er noe som krever ytterligere revisjon, eller – i siste instans – om dette er et forhold som fører til en reaksjon i revisjonsberetningen.

Stikkprøver i praksis

Som det ble nevnt innledningsvis, er etterlevelsen av ISA 530 et av de områder de årlige kvalitetskontrollene avdekker flest svakheter. Eller mer presist sagt, det er dokumentasjonen som er mangelfull, det kan godt være gjort mange gode vurderinger som ikke er skriftliggjort. Når det er sagt, må det understrekes at dokumentasjonen ikke nødvendigvis trenger å være svært omfattende, men den må tilfredsstille kravene i ISA 230 Revisjonsdokumentasjon om at dokumentasjonen skal være nøyaktig og tilstrekkelig nok til at en erfaren revisor uten forhåndskunnskaper om oppdraget vil være i stand til å gjøre seg opp en mening om den revisjonshandlingen som er gjennomført.

Typiske gjengangere er:

 • Stikkprøvestørrelsen begrunnes ikke
 • Utvelgelsesmetode beskrives ikke
 • Det gjøres ingen vurderinger på forhånd av hvor mange/store avvik eller feil som kan aksepteres i stikkprøven uten at det konkluderes negativt
 • Det innhentes ofte ikke tilstrekkelig forklaring på feil eller avvik til å kunne bedømme om det er dreier seg om enkeltstående tilfeller eller ei
 • Resultatet av stikkprøven blir ikke projisert til hele populasjonen

Effektivitetshensyn tilsier at revisor legger seg på et minimumsnivå, men det er da viktig å være klar over at dette forutsetter at det ikke avdekkes noen feil eller avvik i stikkprøven.

Når det utføres skjønnsbaserte, altså ikke-statistiske, stikkprøver, finnes det ikke noen fasitsvar på hvor stor stikkprøven skal være. Erfaringer fra tidligere revisjoner ute hos kunden vil si noe om risikoen for feil, og vil dermed langt på vei avgjøre hvilket omfang stikkprøven bør ha. Analyser av det regnskapsmaterialet som skal testes, vil likedan være bestemmende for utvalgsstørrelsen. Finner revisor noe unormalt eller uventet i tallmaterialet, kan dette tyde på økt risiko og dermed en større stikkprøve. Effektivitetshensyn tilsier at revisor legger seg på et minimumsnivå, men det er da viktig å være klar over at dette forutsetter at det ikke avdekkes noen feil eller avvik i stikkprøven. Eksempel: En ikke ubetydelig del av lønnsutgiftene i Sykehjemmet KF består av variabel lønn. Timelistene leveres månedlig av de rundt 30 ansatte, og de skal være attestert av avdelingsleder og anvist av virksomhetsleder. I dette tilfellet kan det være tilstrekkelig at revisor velger ut en tilfeldig måned, og kontrollerer at attestasjon og anvisning foreligger for samtlige lønnsutbetalinger. Oppdages det imidlertid avvik her, om det så bare er ett, må forklaring innhentes og stikkprøven trolig utvides.

Hvilket resultat stikkprøven gir, kan i seg selv gi en pekepinn på om den har vært tilstrekkelig eller ikke. Vi fortsetter eksemplet med kontroll av variabel lønn i Sykehjemmet KF. Kontrollen av en måneds timelister for 30 ansatte har ikke avdekket avvik. Det har vært de samme rutinene, attestanter og anvisere hele året. Sannsynligheten er da stor for at rutinen fungerer som forutsatt. Avdekker vi derimot avvik, kan vi ikke lenger gå ut fra at kontrollen er pålitelig og fungerer som den skal. Det samme gjelder dersom det har vært vesentlige system- eller personalendringer i løpet av den aktuelle perioden. Da må vi utvide stikkprøven skritt for skritt, helt til resultatet framstår som entydig, og vi dermed klarer å komme fram til en pålitelig konklusjon.

Utvelgelsesmetoden, som i praksis ofte er «basarmetoden», bør kort beskrives, uten at det kreves noen omfattende begrunnelse. Stikkprøven bør, som nevnt, være tatt på så objektivt grunnlag som mulig, men dette kan det være vanskelig å dokumentere.

En vanlig mangel er at en konkluderer ut fra stikkprøven uten at de feil eller avvik som er avdekket, er tilstrekkelig forklart. Dette gjør det vanskelig, eller ofte til og med umulig, å vurdere om feilen er representativ for det grunnlagsmaterialet som har vært gjenstand for revisjon, eller om feilen(e) er enkeltstående. Samtidig er det en enkelt ting å rette opp, og samtlige revisjonsmedarbeidere bør dermed oppfordres om å følge opp slike avvik.

Til slutt – kontrollen er ikke ferdig før testresultatet er projisert til hele populasjonen. Her svikter det hos mange av oss; vi tar tester og oppsummerer resultatene av dem. Revisjonsdokumentasjonen viser ikke sjelden at vi unnlater å fullføre testen, og projisere resultatet slik at vi kan si noe om hele populasjonen. Svært ofte blir derfor konklusjonene hengende så å si «i løse luften». En konklusjon av en stikkprøvetest bør derfor inneholde ikke bare resultatene av testen, men også en projisering av resultatet slik at en kan uttale seg om hele populasjonen, herunder en vurdering av om det avdekkede antall feil eller avvik er innenfor det som er akseptabelt.


Kommunerevisoren nr. 6/2014 - 69. årg.

Til toppen av siden

Topp