Introduktion till ARIMA: icke-säsongsmodeller ARIMA (p, d, q) prognoser ekvation: ARIMA-modeller är i teorin den vanligaste klassen av modeller för prognoser för en tidsserie som kan göras för att vara 8220stationary8221 genom differentiering (om nödvändigt), kanske i samband med olinjära transformationer, såsom loggning eller avflöde (om nödvändigt). En slumpmässig variabel som är en tidsserie är stationär om dess statistiska egenskaper är konstanta över tiden. En stationär serie har ingen trend, dess variationer kring dess medelvärde har en konstant amplitud, och det vinklar på ett konsekvent sätt. d. v.s. dess kortsiktiga slumpmässiga tidsmönster ser alltid ut i statistisk mening. Det sistnämnda tillståndet betyder att dess autokorrelationer (korrelationer med sina egna tidigare avvikelser från medelvärdet) förblir konstanta över tiden, eller likvärdigt, att dess effektspektrum förblir konstant över tiden. En slumpmässig variabel i denna blankett kan ses som en kombination av signal och brus, och signalen (om en är uppenbar) kan vara ett mönster av snabb eller långsam mean reversion eller sinusformig oscillation eller snabb växling i tecken , och det kan också ha en säsongskomponent. En ARIMA-modell kan ses som en 8220filter8221 som försöker separera signalen från bruset, och signalen extrapoleras därefter i framtiden för att få prognoser. ARIMA-prognosekvationen för en stationär tidsserie är en linjär (d. v.s. regressionstyp) ekvation där prediktorerna består av lags av de beroende variabla andorlagren av prognosfel. Det vill säga: Förutsatt värdet på Y är en konstant och en viktad summa av ett eller flera nya värden av Y och eller en vägd summa av ett eller flera nya värden av felen. Om prediktorerna endast består av fördröjda värden på Y. Det är en ren autoregressiv (8220self-regressed8221) modell, som bara är ett speciellt fall av en regressionsmodell och som kan förses med standard regressionsprogram. Exempelvis är en första-order-autoregressiv (8220AR (1) 8221) modell för Y en enkel regressionsmodell där den oberoende variabeln bara Y är försenad med en period (LAG (Y, 1) i Statgraphics eller YLAG1 i RegressIt). Om en del av prediktorerna är felaktiga, är en ARIMA-modell inte en linjär regressionsmodell, eftersom det inte går att ange 8220last period8217s error8221 som en oberoende variabel: felen måste beräknas periodvis när modellen är monterad på data. Tekniskt sett är problemet med att använda fördröjda fel som prediktorer att modellen8217s förutsägelser inte är linjära funktioner för koefficienterna. även om de är linjära funktioner av tidigare data. Så koefficienter i ARIMA-modeller som innehåller försenade fel måste uppskattas genom olinjära optimeringsmetoder (8220hill-climbing8221) istället för att bara lösa ett system av ekvationer. Akronymet ARIMA står för Auto-Regressive Integrated Moving Average. Lags av den stationära serien i prognosen ekvationen kallas quotautoregressivequot termer, lags av prognosfel kallas quotmoving averagequot termer och en tidsserie som behöver differentieras för att göras stationär sägs vara en quotintegratedquot-version av en stationär serie. Slumpmässiga och slumpmässiga modeller, autoregressiva modeller och exponentiella utjämningsmodeller är alla speciella fall av ARIMA-modeller. En nonseasonal ARIMA-modell klassificeras som en quotARIMA (p, d, q) kvotmodell där: p är antalet autoregressiva termer, d är antalet icke-säsongsskillnader som behövs för stationaritet och q är antalet fördröjda prognosfel i prediksionsekvationen. Prognosekvationen är konstruerad enligt följande. Först, låt y beteckna d: s skillnad på Y. Det betyder: Observera att den andra skillnaden i Y (d2-fallet) inte är skillnaden från 2 perioder sedan. Det är snarare den första skillnaden-av-första skillnaden. vilken är den diskreta analogen av ett andra derivat, dvs den lokala accelerationen av serien i stället för dess lokala trend. När det gäller y. Den allmänna prognostiseringsekvationen är: Här definieras de rörliga genomsnittsparametrarna (9528217s) så att deras tecken är negativa i ekvationen, enligt konventionen införd av Box och Jenkins. Vissa författare och programvara (inklusive R-programmeringsspråket) definierar dem så att de har plustecken istället. När faktiska siffror är anslutna till ekvationen finns det ingen tvetydighet, men det är viktigt att veta vilken konvention din programvara använder när du läser utmatningen. Ofta anges parametrarna av AR (1), AR (2), 8230 och MA (1), MA (2), 8230 etc. För att identifiera lämplig ARIMA-modell för Y. börjar du med att bestämma sorteringsordningen (d) behöver stationera serierna och ta bort säsongens bruttoegenskaper, kanske i kombination med en variationsstabiliserande transformation, såsom loggning eller avflöde. Om du slutar vid denna tidpunkt och förutsäger att den olika serien är konstant, har du bara monterat en slumpmässig promenad eller slumpmässig trendmodell. Den stationära serien kan emellertid fortfarande ha autokorrelerade fel, vilket tyder på att vissa antal AR-termer (p 8805 1) och eller några nummer MA-termer (q 8805 1) också behövs i prognosekvationen. Processen att bestämma värdena p, d och q som är bäst för en given tidsserie kommer att diskuteras i senare avsnitt av anteckningarna (vars länkar finns längst upp på denna sida), men en förhandsvisning av några av de typerna av nonseasonal ARIMA-modeller som vanligtvis förekommer ges nedan. ARIMA (1,0,0) första ordningens autoregressiva modell: Om serien är stationär och autokorrelerad kanske den kan förutsägas som en multipel av sitt eget tidigare värde plus en konstant. Prognosekvationen i detta fall är 8230, som Y är regresserad i sig själv fördröjd med en period. Detta är en 8220ARIMA (1,0,0) constant8221 modell. Om medelvärdet av Y är noll, skulle den konstanta termen inte inkluderas. Om lutningskoefficienten 981 1 är positiv och mindre än 1 i storleksordningen (den måste vara mindre än 1 i storleksordningen om Y är stillastående), beskriver modellen medelåterkallande beteende där nästa period8217s värde bör förutses vara 981 1 gånger som långt ifrån medelvärdet som detta period8217s värde. Om 981 1 är negativ förutspår det medelåterkallande beteende med teckenväxling, dvs det förutspår också att Y kommer att ligga under den genomsnittliga nästa perioden om den är över medelvärdet denna period. I en andra-ordningsautoregressiv modell (ARIMA (2,0,0)) skulle det finnas en Y t-2 term till höger också, och så vidare. Beroende på tecken och storheter på koefficienterna kan en ARIMA (2,0,0) modell beskriva ett system vars medföljande reversering sker på ett sinusformigt oscillerande sätt, som en massans rörelse på en fjäder som utsätts för slumpmässiga stötar . ARIMA (0,1,0) slumpmässig promenad: Om serien Y inte är stillastående är den enklaste möjliga modellen för en slumpmässig promenadmodell, vilken kan betraktas som ett begränsande fall av en AR (1) - modell där den autogegrativa koefficienten är lika med 1, det vill säga en serie med oändligt långsam medelbackning. Förutsägningsekvationen för denna modell kan skrivas som: där den konstanta termen är den genomsnittliga period-till-period-förändringen (dvs. den långsiktiga driften) i Y. Denna modell kan monteras som en icke-avlyssningsregressionsmodell där första skillnaden i Y är den beroende variabeln. Eftersom den innehåller (endast) en nonseasonal skillnad och en konstant term, klassificeras den som en quotARIMA (0,1,0) modell med constant. quot. Den slumpmässiga walk-without-drift-modellen skulle vara en ARIMA (0,1, 0) modell utan konstant ARIMA (1,1,0) annorlunda första ordningens autoregressiva modell: Om fel i en slumpmässig promenadmodell är autokorrelerade kanske problemet kan lösas genom att lägga en lag av den beroende variabeln till prediktionsekvationen - - ie genom att regressera den första skillnaden av Y på sig själv fördröjd med en period. Detta skulle ge följande förutsägelsesekvation: som kan omordnas till Detta är en förstaordens autregressiv modell med en ordning av icke-säsongsskillnader och en konstant term, dvs. en ARIMA (1,1,0) modell. ARIMA (0,1,1) utan konstant enkel exponentiell utjämning: En annan strategi för korrigering av autokorrelerade fel i en slumpmässig promenadmodell föreslås av den enkla exponentiella utjämningsmodellen. Minns att för några icke-stationära tidsserier (t ex de som uppvisar bullriga fluktuationer kring ett långsamt varierande medelvärde), utförs slumpmässiga promenadmodellen inte lika bra som ett glidande medelvärde av tidigare värden. Med andra ord, istället för att ta den senaste observationen som prognosen för nästa observation, är det bättre att använda ett genomsnitt av de sista observationerna för att filtrera bort bullret och mer exakt uppskatta det lokala medelvärdet. Den enkla exponentiella utjämningsmodellen använder ett exponentiellt vägt glidande medelvärde av tidigare värden för att uppnå denna effekt. Förutsägningsekvationen för den enkla exponentiella utjämningsmodellen kan skrivas i ett antal matematiskt ekvivalenta former. varav den ena är den så kallade 8220error correction8221-formen, där den föregående prognosen justeras i riktning mot det fel som det gjorde: Eftersom e t-1 Y t-1 - 374 t-1 per definition kan det skrivas om som : vilket är en ARIMA (0,1,1) - utan konstant prognosekvation med 952 1 1 - 945. Det innebär att du kan passa en enkel exponentiell utjämning genom att ange den som en ARIMA (0,1,1) modell utan konstant, och den uppskattade MA (1) - koefficienten motsvarar 1-minus-alfa i SES-formeln. Minns att i SES-modellen är den genomsnittliga åldern för data i prognoserna för 1-tiden framåt 1 945. Det betyder att de tenderar att ligga bakom trender eller vändpunkter med cirka 1 945 perioder. Det följer att den genomsnittliga åldern för data i de 1-prognos framåt av en ARIMA (0,1,1) utan konstant modell är 1 (1 - 952 1). Så, till exempel, om 952 1 0,8 är medelåldern 5. När 952 1 närmar sig 1 blir ARIMA (0,1,1) utan konstant modell ett mycket långsiktigt glidande medelvärde och som 952 1 närmar sig 0 blir det en slumpmässig promenad utan driftmodell. What8217s det bästa sättet att korrigera för autokorrelation: Lägg till AR-termer eller lägga till MA-termer I de tidigare två modellerna som diskuterats ovan fixades problemet med autokorrelerade fel i en slumpmässig promenadmodell på två olika sätt: genom att lägga till ett fördröjt värde av de olika serierna till ekvationen eller lägga till ett fördröjt värde av prognosfelet. Vilket tillvägagångssätt är bäst En tumregel för denna situation, som kommer att diskuteras mer i detalj senare, är att positiv autokorrelation vanligtvis behandlas bäst genom att addera en AR-term till modellen och negativ autokorrelation behandlas vanligtvis bäst genom att lägga till en MA term. I affärs - och ekonomiska tidsserier uppstår negativ autokorrelation ofta som en artefakt av differentiering. (I allmänhet minskar differentieringen positiv autokorrelation och kan även orsaka en växling från positiv till negativ autokorrelation.) Således används ARIMA (0,1,1) - modellen, i vilken skillnad åtföljs av en MA-term, oftare än en ARIMA (1,1,0) modell. ARIMA (0,1,1) med konstant enkel exponentiell utjämning med tillväxt: Genom att implementera SES-modellen som en ARIMA-modell får du viss flexibilitet. För det första får den uppskattade MA (1) - koefficienten vara negativ. Detta motsvarar en utjämningsfaktor som är större än 1 i en SES-modell, vilket vanligtvis inte är tillåtet med SES-modellproceduren. För det andra har du möjlighet att inkludera en konstant term i ARIMA-modellen om du vill, för att uppskatta en genomsnittlig trendfri noll. ARIMA-modellen (0,1,1) med konstant har förutsägelsesekvationen: Prognoserna från den här modellen är kvalitativt likartade som i SES-modellen, förutom att banan för de långsiktiga prognoserna typiskt är en sluttande linje (vars lutning är lika med mu) snarare än en horisontell linje. ARIMA (0,2,1) eller (0,2,2) utan konstant linjär exponentiell utjämning: Linjära exponentiella utjämningsmodeller är ARIMA-modeller som använder två icke-säsongsskillnader i samband med MA-termer. Den andra skillnaden i en serie Y är inte bara skillnaden mellan Y och sig själv i två perioder, men det är snarare den första skillnaden i den första skillnaden, dvs. Y-förändringen i Y vid period t. Således är den andra skillnaden av Y vid period t lika med (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. En andra skillnad av en diskret funktion är analog med ett andra derivat av en kontinuerlig funktion: det mäter kvotccelerationquot eller quotcurvaturequot i funktionen vid en given tidpunkt. ARIMA-modellen (0,2,2) utan konstant förutspår att den andra skillnaden i serien motsvarar en linjär funktion av de två sista prognosfel: som kan omordnas som: där 952 1 och 952 2 är MA (1) och MA (2) koefficienter. Detta är en generell linjär exponentiell utjämningsmodell. väsentligen samma som Holt8217s modell, och Brown8217s modell är ett speciellt fall. Den använder exponentiellt vägda glidande medelvärden för att uppskatta både en lokal nivå och en lokal trend i serien. De långsiktiga prognoserna från denna modell konvergerar till en rak linje vars lutning beror på den genomsnittliga trenden som observerats mot slutet av serien. ARIMA (1,1,2) utan konstant dämpad trend linjär exponentiell utjämning. Denna modell illustreras i de bifogade bilderna på ARIMA-modellerna. Den extrapolerar den lokala trenden i slutet av serien men plattar ut på längre prognoshorisonter för att presentera en konservatismskampanj, en övning som har empiriskt stöd. Se artikeln om varför Damped Trend worksquot av Gardner och McKenzie och artikeln "Rulequot Rulequot" av Armstrong et al. för detaljer. Det är i allmänhet lämpligt att hålla fast vid modeller där minst en av p och q inte är större än 1, dvs försök inte passa en modell som ARIMA (2,1,2), eftersom det här sannolikt kommer att leda till övermontering och quotcommon-factorquot-problem som diskuteras närmare i noterna om den matematiska strukturen för ARIMA-modeller. Implementering av kalkylark: ARIMA-modeller som de som beskrivs ovan är enkla att implementera på ett kalkylblad. Förutsägningsekvationen är helt enkelt en linjär ekvation som refererar till tidigare värden av ursprungliga tidsserier och tidigare värden av felen. Således kan du ställa in ett ARIMA-prognoskalkylblad genom att lagra data i kolumn A, prognosformeln i kolumn B och felen (data minus prognoser) i kolumn C. Förutsättningsformeln i en typisk cell i kolumn B skulle helt enkelt vara ett linjärt uttryck som hänvisar till värden i föregående rader av kolumnerna A och C multiplicerat med lämpliga AR - eller MA-koefficienter lagrade i cellerna någon annanstans på kalkylbladet. RIMA står för autoregressiva integrerade rörliga genomsnittsmodeller. Univariate (single vector) ARIMA är en prognosteknik som projekterar framtida värden för en serie baserad helt på egen tröghet. Dess huvudsakliga tillämpning är inom området för prognoser på kort sikt som kräver minst 40 historiska datapunkter. Det fungerar bäst när dina data uppvisar ett stabilt eller konsekvent mönster över tiden med ett minimum av outliers. Ibland kallas Box-Jenkins (efter de ursprungliga författarna), ARIMA är vanligtvis överlägsen exponentiell utjämningsteknik när data är relativt långa och korrelationen mellan tidigare observationer är stabil. Om data är korta eller mycket flyktiga, kan en viss utjämningsmetod fungera bättre. Om du inte har minst 38 datapunkter, bör du överväga någon annan metod än ARIMA. Det första steget i att tillämpa ARIMA-metodiken är att kontrollera stationäriteten. Stationäritet innebär att serien förblir på en ganska konstant nivå över tiden. Om det finns en trend, som i de flesta ekonomiska eller affärsapplikationer, är dina data INTE stationära. Uppgifterna bör också visa en konstant varians i sina fluktuationer över tiden. Detta syns lätt med en serie som är väldigt säsongsbetonad och växer i snabbare takt. I så fall blir uppgångarna och nedgångarna i säsongsalden mer dramatiska över tiden. Utan att dessa stationära förhållanden är uppfyllda kan många av beräkningarna som hör samman med processen inte beräknas. Om en grafisk del av data indikerar icke-stationaritet, bör du skilja på serien. Skillnad är ett utmärkt sätt att omvandla en icke-stationär serie till en stationär. Detta görs genom att subtrahera observationen under den aktuella perioden från föregående. Om denna omvandling görs bara en gång till en serie, säger du att uppgifterna först har avvikits. Denna process eliminerar väsentligen trenden om din serie växer i en ganska konstant takt. Om den växer i en ökande takt kan du använda samma procedur och skillnaden data igen. Dina uppgifter skulle då bli annorlunda. Autokorrelationer är numeriska värden som indikerar hur en dataserie är relaterad till sig själv över tiden. Närmare bestämt mäter det hur starkt datavärdena vid ett visst antal perioder från varandra är korrelerade med varandra över tiden. Antalet perioder ibland kallas vanligen lagret. Exempelvis mäter en autokorrelation vid lag 1 hur värdena 1 period från varandra korreleras med varandra i serien. En autokorrelation vid lag 2 mäter hur data två perioder från varandra korreleras genom hela serien. Autokorrelationer kan sträcka sig från 1 till -1. Ett värde nära 1 indikerar en hög positiv korrelation medan ett värde nära -1 innebär en hög negativ korrelation. Dessa åtgärder utvärderas oftast genom grafiska tomter som kallas korrelagram. Ett korrelagram avbildar autokorrelationsvärdena för en given serie i olika lags. Detta kallas autokorrelationsfunktionen och är mycket viktigt i ARIMA-metoden. ARIMA-metoden försöker beskriva rörelserna i en stationär tidsserie som en funktion av vad som kallas autoregressiva och glidande medelparametrar. Dessa kallas AR parametrar (autoregessiva) och MA parametrar (glidande medelvärden). En AR-modell med endast 1 parameter kan skrivas som. X (t) A (1) X (t-1) E (t) där X (t) tidsserier under utredning A (1) den autoregressiva parametern för ordning 1 X (t-1) (t) modellens felperiod Detta betyder helt enkelt att vilket givet värde som helst X (t) kan förklaras med någon funktion av sitt tidigare värde, X (t-1), plus något oförklarligt slumpmässigt fel, E (t). Om det uppskattade värdet av A (1) var .30, skulle nuvärdet av serien vara relaterat till 30 av dess värde 1 period sedan. Naturligtvis kan serien vara relaterad till mer än bara ett tidigare värde. Exempelvis X (t) A (1) X (t-1) A (2) X (t-2) E (t) Detta indikerar att serievärdet är en kombination av de två omedelbart föregående värdena, X (t-1) och X (t-2), plus något slumpmässigt fel E (t). Vår modell är nu en autoregressiv modell av ordning 2. Flytta genomsnittliga modeller: En andra typ av Box-Jenkins-modell kallas en rörlig genomsnittsmodell. Även om dessa modeller ser väldigt ut som AR-modellen är konceptet bakom dem ganska annorlunda. Flytta genomsnittsparametrar relaterar vad som händer i period t endast till de slumpmässiga fel som inträffade under tidigare tidsperioder, dvs E (t-1), E (t-2) osv. Snarare än till X (t-1), X t-2), (Xt-3) som i de autoregressiva tillvägagångssätten. En glidande medelmodell med en MA-term kan skrivas enligt följande. X (t) - B (1) E (t-1) E (t) Termen B (1) kallas en MA i ordning 1. Negativt tecken framför parametern används endast för konventionen och skrivs vanligtvis ut automatiskt efter de flesta datorprogram. Ovanstående modell säger helt enkelt att ett givet värde av X (t) är direkt relaterat till det slumpmässiga felet i föregående period, E (t-1) och till den aktuella feltermen E (t). Som i fråga om autregressiva modeller kan de rörliga genomsnittsmodellerna utvidgas till högre orderstrukturer som täcker olika kombinationer och glidande medellängder. ARIMA-metoden möjliggör också att modeller ska byggas som innehåller både autoregressiva och rörliga genomsnittsparametrar tillsammans. Dessa modeller kallas ofta blandade modeller. Även om detta ger ett mer komplicerat prognosverktyg kan strukturen verkligen simulera serien bättre och ge en mer exakt prognos. Rena modeller innebär att strukturen bara består av AR eller MA parametrar - inte båda. Modellerna som utvecklas genom detta tillvägagångssätt kallas vanligen ARIMA-modeller eftersom de använder en kombination av autoregressiv (AR), integration (I) - hänvisar till omvänd process för differentiering för att producera prognosen och rörliga genomsnittliga (MA) - operationer. En ARIMA-modell anges vanligtvis som ARIMA (p, d, q). Detta representerar ordningen för de autogegressiva komponenterna (p), antalet differensoperatörer (d) och den högsta ordningen av den glidande medelfristen. Till exempel betyder ARIMA (2,1,1) att du har en andra ordning med automatisk reglering med en första ordningens rörlig medelkomponent vars serie har avvikits en gång för att inducera stationäritet. Plocka rätt specifikation: Det största problemet i klassiska Box-Jenkins försöker bestämma vilken ARIMA-specifikation som ska användas - i. e. hur många parametrar för AR och MA som ska inkluderas. Detta är vad mycket av Box-Jenkings 1976 ägde rum åt identifieringsprocessen. Det berodde på grafisk och numerisk utvärdering av provautokorrelationen och partiella autokorrelationsfunktioner. Tja, för dina grundläggande modeller är uppgiften inte för svår. Varje har autokorrelationsfunktioner som ser på ett visst sätt. Men när du går upp i komplexitet är mönstren inte så lätt detekterade. För att göra saker svårare representerar dina data bara ett urval av den underliggande processen. Detta innebär att provtagningsfel (utjämnare, mätfel etc.) kan snedvrida den teoretiska identifieringsprocessen. Det är därför som traditionell ARIMA-modellering är en konst snarare än en vetenskap.8.3 Autoregressiva modeller I en multipelregressionsmodell förutser vi den variabla av intresse med en linjär kombination av prediktorer. I en autoregressionsmodell prognostiserar vi räntevaran med hjälp av en linjär kombination av tidigare värden för variabeln. Termen automatisk regression indikerar att det är en regression av variabeln mot sig själv. Således kan en autoregressiv modell av ordning p skrivas som där c är en konstant och et är vitt brus. Detta är som en multipelregression men med fördröjda värden av yt som prediktorer. Vi hänvisar till detta som en AR (p) modell. Autoregressiva modeller är anmärkningsvärt flexibla för hantering av ett brett spektrum av olika tidsseriemönster. De två serierna i Figur 8.5 visar serier från en AR (1) modell och en AR (2) modell. Ändring av parametrarna phi1, prickar, phip resulterar i olika tidsseriemönster. Felet i felet et kommer bara att ändra seriens skala, inte mönstren. Figur 8.5: Två exempel på data från autoregressiva modeller med olika parametrar. Vänster: AR (1) med yt 18 -0.8y et. Höger: AR (2) med yt 8 1.3y -0.7y et. I båda fallen distribueras et normalt vitt brus med medel noll och varians en. För en AR (1) modell: När phi10, yt motsvarar vitt brus. När phi11 och c0, yt motsvarar en slumpmässig promenad. När phi11 och cne0, yt motsvarar en slumpmässig promenad med drift När phi1tt0, yt tenderar att oscillera mellan positiva och negativa värden. Vi begränsar normalt autoregressiva modeller till stationära data, och då krävs några begränsningar av parametervärdena. För en AR (1) modell: -1 lt phi1 lt 1. För en AR (2) modell: -1 lt phi2 lt 1, phi1phi2 lt 1, phi2-phli1 1. När pge3 är restriktionerna mycket mer komplicerade. R tar hand om dessa begränsningar vid beräkning av en modell.
No comments:
Post a Comment