The New York City Police Officer Problem

Som et ledd i juleferien min befant jeg meg for et par dager siden på Newark flyplass. En av de første tingene som slo meg i det jeg vandret gjennom terminalen var den enorme mengden med politi tilstede. Det er uvant å se politi vandre rundt i så stort antall i Norge.

En artig detalj med amerikanske politimenn er at de alle går rundt med hvert sitt skilt med deres personlige nummer, såkalt «Badge Number». Dette nummeret er individuelt for hver konstabel, og kan brukes for å identifisere konstabelen i etterkant, dersom man f.eks har en klage. De fleste av oss kjenner til disse fra filmer eller tv-serier – skiltene er sølvfargede, støpt av metall og ser sånn ca. sånn her ut …

NYPD badge

… med små variasjoner i design avhengig av hvilken gren av politiet man er del av, og hvilken rang man har.

Politiet på flyplassterminalen var New York-politi, med logo og bilde av byen stolt vist frem på uniformen. Dette fikk meg til å lure; om New York-politiet også dekker flyplassene i New York, som tross alt ligger i nabostaten New Jersey, trenger de mange konstabler. Hvor mange politimenn finnes det egentlig i New York-politiet? Kan vi estimere det basert på skiltnummerne vi observerer?

Iløpet av gåturen min fikk jeg notert meg skiltnummeret til to konstabler som sto og drakk kaffe; henholdsvis 34440 og 45234. Hva sier dette oss om antallet politikonstabler?  Først og fremst, at det finnes minst to.

Videre kan vi anta at det finnes minst 10.000, differansen mellom det høyeste og laveste tallet vi har observert. Hvorfor ikke bare anta minst 45.000, spør du? Fordi vi har ingen anelse om hvorvidt alle nummerne er i bruk, det kan være at det finnes 30.000 pensjonerte politikonstabler med hvert sitt skilt.

Begynner vi å betvile systematiseringen av nummerne på denne måten er vi plutselig på dypt vann. Vi vet faktisk ikke en rekke ting; hvorvidt alle nummerne er i bruk, hvorvidt nummerne fordeles i strengt stigende rekkefølge (hva om de er tilfeldige?) eller hvorvidt nummerne i seg selv inneholder et internt system, f.eks at alle nummere som starter med 30 hører til på Manhattan.

Denne siste vurderingen virker usannsynlig – da ville vi ikke forventet å finne to konstabler med ulike startsiffere på samme flyplass. Siden ingen av sifferne på de to konstablene stemmer overens er det dermed lite som tyder på internt system i nummereringen på basis av geografisk plassering. Det er hvertfall en start.

Vi har dermed to holdepunkt:

  1. Vi vet at alle nummerne er unike til en politikonstabel. Hvis ikke hadde poenget med nummereringen forsvunnet.
  2. Vi har observert to konstabler med nummer 34440 og 45234.

For å komme videre gjør vi noen grunnleggende antagelser.

  1. Vi antar at nummerne ikke er tilfeldig fordelt, men heller deles ut sekvensielt. Det vil si at hver ny konstabel mottar et nummer høyere enn forrigemann.
  2. Vi antar at konstabler som trer ut av styrken må levere inn skiltet sitt (som ofte dramatisert på tv), og at dette resirkuleres. Skiltnummerne vil dermed tilsvare mengden aktive politikonstabler i styrken.
  3. Vi antar at nummerne ikke inneholder noen form for internt system (geografiske restriksjoner, sjekksummer eller lignende) som vil stride med den tilsynelatende tilfeldige, sekvensielle fordelingen av skiltnummer på tvers av byen ellers. Dette er strengt tatt ikke en nødvendig forutsetning – men den skader ikke for å sikre oss.

Med disse restriksjonene på plass kan vi nå begynne å estimere hvor mange politimenn det er. Vi har altså observert 34440 og 45234. Med antagelsene gitt over kan vi nå estimere at det må være omtrent 80.000 politimenn i New York. Hvordan da?

Vi ser på den totale mengden med politimenn i New York som en samlet populasjon vi trekker tilfeldige utvalg fra (eller tilfeldig observerer med kaffekoppen i hånd). Siden nummerne er sekvensielle fra 1 til maksimalt skiltnummer kan vi dermed vite at snittet av populasjonen vil være lik medianen, og representere den midterste politimannen i styrken. Antall politimenn i New York vil dermed tilsvare to ganger snittverdien av et utvalg som tilnærmer seg uendelig, eller i dette tilfellet, et utvalg som tilnærmer seg den samlede populasjonen vi trekker utvalgene fra. Vi kan dermed estimere (34440+45234) = 79.764 politimenn.

Problemet med dette er selvfølgelig at vi har et forferdelig lite utvalg. Det kan dermed hende at det kun eksisterer 45.500 politimenn, men at vi var uheldige nok til å trekke to tall høyt over snittet. Eller det kan tenkes at det eksisterer 120.000 politimenn, og at observasjonene våre uheldigvis ligger under det reelle snittet. Den eneste måten vi kan forbedre estimasjonen vår er ved å utvide antall observasjoner.

Jeg jaktet videre på politimenn fra New York-styrken, men sine egne skiltnummer. På turen min oppfaget jeg raskt at det også fantes en annen lokal politistyrke, Port Authority, som hadde betydelig lavere skiltnummer på rundt 1000-2000. Disse valgte jeg å ignorere, det var New York-politiet jeg ville finne ut av.

I den ene bokhandelen, med dagens avis i hånden oppdaget jeg en ny konstabel – #15782. Snittet mitt var dermed redusert til omtrent 32.000. På vei tilbake forbi de første to konstablene oppdaget jeg nå en ny, tredje konstabel – #20743; nytt snitt: 29.000

Så, i det vi vandret til gaten for å boarde flyet, fikk jeg øye på min siste politikonstabel, #8372, og med det var mitt endelige snitt 24.932, og det påfølgende estimatet for antall politikonstabler i New York; omtrent 50.000 stk.

Så, hvordan sammenligner dette med det virkelige antallet? Jeg ville anta at estimatat mitt er litt høyt; jeg er vant til å tenke at det er omtrentlig 2 politimenn per 1000 innbyggere – som er gjennomsnittet for Norge. Estimatet jeg her har kommet frem til estimerer nesten tredobbelt av det, med 5.8 politimenn per 1000 New Yorkere. Det er kjent at New York har usedvanlig mange politimenn iforhold til innbyggere, men tredobbelt av vanlig størrelse virker i overkant mye. Jeg ville heller estimert omtrent halvannen gang så mye, altså 3-3.5 per 1000.

Ifølge NYPD selv har de omtrent 40.000 politimenn, som tilsvarer 4.7 politimenn per 1000. Med utgangspunkt i kun 5 observasjoner jeg ganske fornøyd med estimatet på 50.000 – det ligger forholdsvis nærme. Hadde jeg kun gjettet, basert på 3 per 1000-antagelsen, ville tilsvart en estimert politistyrke på 25.500, halvannen gang så feilaktig som utvalgsestimatet mitt.

Denne typen problemstilling er forholdsvis kjent innenfor statistikk, og går under navnet «The German Tank Problem». Under andre verdenskrig ønsket de allierte styrkene å estimere antall tanks tyskerne hadde tilgjengelig – for å kunne bedømme hva slags motstand de kunne forvente seg. Hvordan kunne man best mulig gjøre dette? Løsningen var ganske enkel – de tyske produsentene av tanks hadde, i ekte tysk ingeniørånd, merket alle delene av stridsvognene de bygget med serienummer, fordelt sekvensielt etterhvert som nye tanks ble produsert. Det betød at hver gang de allierte styrkene fanget eller ødela en tysk tanks kunne de notere seg serienummerne, regne snittet på ny, og estimere en ny størrelse på det totale antallet tanks. Etterhvert som flere og flere tanks ble tatt ut av spill ble estimatet mer og mer presist. Resultatet for produksjonen av amerikanske stridsvogner var også ganske umiddelbar – alle serienummer i amerikanske tanks ble randomiserte. Slik kunne man forhindre at tyskerne vendte statistikken tilbake mot dem.

 

Reklamer

Legg igjen en kommentar?

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut /  Endre )

Google+-bilde

Du kommenterer med bruk av din Google+ konto. Logg ut /  Endre )

Twitter-bilde

Du kommenterer med bruk av din Twitter konto. Logg ut /  Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut /  Endre )

Kobler til %s