Prosta Linearna Regresiona Analiza

April 6, 2018 | Author: Anonymous | Category: Documents
Report this link


Description

Regresiona i korelaciona analiza 1 Relacije između varijabli   Reprezentuju neke fenomene Matematički modeli su matematički izrazi tih fenomena Gauss-Markoff pretpostavka za linearnu regresiju  Formula za izračunavanje koeficijenata u regresiji je BLUE (Best Linear Unbiased Estimators)  Best Linear – najefikasniji model sa najmanjom varijansom  Unbiased Estimators – očekivane vrednosti zavisne varijable iste ili vrlo bliske populacionim vrednostima  2 Regresiona analiza  Regresiona analiza se koristi da:   objasni kakav efekat ima promena nezavisne varijable na zavisnu varijablu predvidi vrednost zavisne varijable na osnovu najmanje jedne nezavisne varijable   Zavisna varijabla: varijabla koju želimo da objasnimo ili predvidimo Nezavisna varijabla: varijabla koju koristimo da objasnimo zavisnu varijablu 3 Regresioni modeli  Izražavaju se jednačinom u kojoj je:  1 numerička zavisna (odgovor) varijabla  1 ili više numeričkih ili kategoričkih nezavisnih varijabli Prosta linearna regresija  samo jedna nezavisna varijabla x   relacija između x i y izražena je linearnom funkcijom 4 Prost linearni regresioni model • Relacija između varijabli je linearna funkcija • Prava linija najbolje “fituje” podatke y intercept (konstanta) slučajna greška yi = β0 + β1xi + εi zavisna varijabla (odgovor) nagib nezavisna varijabla (eksplanatorna) 5 Populacioni linearni regresioni model y yi = β 0 + β1xi + ε i ει = slučajna greška dobijena vrednost µ xy = β 0 + β1xi x dobijena vrednost 6 Prost linearni regresioni model yi = a + bxi yi - predviđena vrednost za zapažanje i xi - vrednost x za zapažanje i a - intercept za uzorak, koristi se za procenu populacionog β0 b - nagib za uzorak, koristi se za procenu populacionog β1 7 Linearna jednačina y y = a + bx promena u y b = nagib promena u x a = y-intercept x © 1984-1994 T/Maker Co. 8 Metoda najmanjih kvadrata   Kako povlačimo liniju između tačaka? Kako procenjujemo koja linija najbolje obuhvata podatke? Metoda najmanjih kvadrata Najbolje slaganje (“fitovanje”) znači da je razlika između stvarne vrednosti y i izračunate vrednosti y najmanja      Iz srednje vrednosti x možemo da izračunamo srednju vrednost y kada x odstupa od srednje vrednosti, možemo da očekujemo i da y odstupa od svoje srednje vrednosti x “objašnjava” odstupanje y od srednje vrednosti 9 Metoda najmanjih kvadrata – grafički prikaz Metoda najmanjih kvadrata minimizuje sumu kvadriranih razlika (grešaka = e) između stvarnih i pretpostavljenih vrednosti y 2 2 ei2 = e1 + e 2 + e 3 + e 2 ∑ 2 4 i =1 n y e2 e1 y2 = a + b x2 + e2 e4 e3 y = a + bx x 10 Koeficijenti u jednačini prave y = a + bx Regresiona jednačina Nagib prave ∑ xy− N x y b= ∑ x − N ( x) 2 2 Odsečak na y-osi a = y − bx 11 Interpretacija koeficijenata b - nagib Daje promenu y (kao umnožak) za 1 jedinicu povećanja x  Primer: Ako je b = 2, onda je očekivano y dva puta veće za svaku 1 jedinicu povećanja u x a - odsečak na y-osi Prosečna vrednost y kada je x = 0 12 Primer 1 t (C0) 24 28 29 29 33 36 37 unošenje vode (mL) 480 600 750 810 960 1440 1440 13 Primer 1 – grafički prikaz 1600 1400 1200 1000 mL 800 600 400 200 0 0 5 10 15 20 t 25 30 35 40 14 Primer 1 t (0C) x 24 28 29 29 33 36 37 voda (mL) y 480 600 750 810 960 1440 1440 x2 576 784 841 841 1089 1296 1369 xy 11520 16800 21750 23490 31680 51840 53280 216 x= = 30857 , 7 6480 y= = 925714 , 7 Σx2 = 6796 Σxy = 210360 15 Primer 1 ∑ xy− N x y b= ∑ x − N ( x) 2 2 210360 7 × 30857× 925714 − , , = = 795197 , 2 6796− 7 (30857 , ) a = y − b x = 925,714 79,5197 30,857= -1528,035 × y = - 1528,03 + 79,52x mL = - 1528,03 + 79,52 t 16 Evaluacija modela   U kojoj meri model izražava relaciju između varijabli? Približnost “najboljem slaganju”  Što su tačke bliže liniji to je slaganje bolje    Ispitivanje veličine varijacije Značajnost izračunatih parametara Rezidualna analiza y = a + bx 17 Mere varijacije u regresiji SST = Ukupna varijacija (ukupna suma kvadrata)   mera za varijaciju vrednosti y oko njihove srednje vrednosti ukupna varijacija oko regresione prave jednaka je sumi kvadrata razlika između vrednosti y u svakom paru i srednje vrednosti y odgovara ukupnoj sumi kvadrata u ANOVI  ∑ (y − y) i 2 18 Mere varijacije u regresiji SSR = Varijacija za koju postoji objašnjenje (regresiona suma kvadrata)   mera za varijaciju vezanu za relaciju između x i y objašnjiva varijacija jednaka je sumi kvadrata razlika između svake izračunate (iz jednačine) vrednosti y i srednje vrednosti y odgovara sumi kvadrata između grupa u ANOVI  ˆ ∑ ( y − y) i 2 19 Mere varijacije u regresiji SSE = Varijacija za koju ne postoji objašnjenje (suma kvadrata greške)     mera za varijaciju koja potiče od drugih faktora varijacija za koju ne postoji objašnjenje Neobjašnjiva varijacija jednaka je sumi kvadrata razlika između vrednosti y u svakom paru i odgovarajuće izračunate (iz jednačine) vrednosti y odgovara sumi kvadrata unutar grupa u ANOVI ∑ ˆ )2 (yi − y 20 Mere varijacije u regresiji yi y ˆ y  SSE = Σ(yi − y) 2 SST = Σ(yi − y)2 y = a + bx  SSR = Σ( y − y) 2 y X xi x 21 Koeficijent determinacije objašnjivavarijacija SK R r = = = ukupna varijacija SK T 2 0 ≤ r2 ≤ 1 = ∑(y − y) i  y − y)2 ∑ 2 = procenat varijacije u y koji je posledica varijacije u x 22 r2 - primeri y r = 0,81 2 y r2 = 0,77 x x y r = 0,42 2 y r2 = 0,05 x x 23 Primer 1 r2 =  Σ(y − y)2 Σ(yi − y)2 r2 = 0,9412 94% varijacije u y (mL vode) potiče od varijacije u x (temperatura) 24 Standardna greška regresione prave   Mera za odstupanje dobijene vrednosti y od izračunate (iz jednačine) vrednosti y Veličina greške utiče na:  tačnost predviđanja  značajnost parametara  2 SS E Σ(yi − y) S yx = = N− 2 N− 2 S yx = Σy2 − aΣy - bΣxy N−2 25 Primer 1 t (0C) x 24 28 29 29 33 36 37 mL y 480 600 750 810 960 1440 1440 y2 230400 360000 562500 656100 921600 2073600 2073600 xy 11520 16800 21750 23490 31680 51840 53280 a = − 1528 ,03 b = 7952 , Σ y = 6480 Σ y2 = 6877800 Σ xy= 210360 N= 7 Syx = 101 ,59 26 Testiranje nagiba b   Da li postoji linearna relacija između x i y ? Hipoteze  H0: β1 = 0 (nema linearne relacije)  H1: β1 ≠ 0 (postoji linearna relacija) Sb = Syx Σ x − Nx 2 2 b− β1 tb = Sb H0 se prihvata ako je tb < tα, N-2 zaključak: b = 0 (ne postoji linearna relacija) 27 Primer 1 Sb = 8,8787 tb = 8, 956 t0,05; 5 = 2,571 tb > t0,05; 5 H0 se ne prihvata Zaključak: postoji linearna relacija između spoljašnje temperature i zapremine vode koju čovek popije 28 Testiranje odsečka a   Testira se ako postoji linearna relacija izmedju x i y Hipoteze  H0: β0 = 0  H1: β0 ≠ 0 Sa = Sy,x a ta = Sa Σx2 N (Σx2 − Nx2) H0 se prihvata ako je ta < tα, N-2 zaključak: a = 0 (nema sistematske greške) 29 Primer 1 Sa = 277,008 ta = 5,516 t0,05; 5 = 2,571 ta > t0,05; 5 H0 se ne prihvata Zaključak: odsečak na y-osi je značajno različit od 0 30 Intervali pouzdanosti za regresione koeficijente  Interval pouzdanosti za odsečak a  za nivo značajnosti 95%: a ± t0,05; n-2(Sa)  za nivo značajnosti 99%: a ± t0,01; n-2(Sa) Primer 1: 95% IP za odsečak a     a = – 1528,04 t0,05; 5 = 2,571 Sa = 277,008 –1528,04 ± 2,571 (277,008) = –1528,04 ± 712,19 95% IP: –2240,23 do –815,85  Primer 1: 99% IP za odsečak a    a = –1528,04 t0,01; 5 = 4,032 Sa = 277,008 –1528,04 ± 4,032 (277,008) = –1528,04 ± 1116,90 99% IP: –2644,94 do –411,14 31 Intervali pouzdanosti za regresione koeficijente  Interval pouzdanosti za nagib b  za nivo značajnosti 95%: b ± t0,05; n-2(Sb)  za nivo značajnosti 99%: b ± t0,01; n-2 (Sb) Primer 1: 95% IP za nagib b     b = 79,52 t0,05; 5 = 2,571 Sb = 8,8903 79,52 ± 2,571 (8,8903) = 79,52 ± 22,86 95% IP: 56,66 do 102,38  Primer 1: 99% IP za nagib b    b = 79,52 t0,01; 5 = 4,032 Sb = 8,8903 79,52 ± 4,032 (8,8903) = 79,52 ± 35,85 99% IP: 43,67 do 115,37 32 Rezidualna analiza  Uslovi za regresionu analizu:    normalna raspodela greške konstantna varijansa greške za sve vrednosti x (homosedastičnost) greške su nezavisne jedna od druge   Odstupanje od ovih uslova se ispituje rezidualnom analizom Rezidualna analiza: izračunavanje razlike između dobijenih vrednosti y i izračunatih (iz jednačine) vrednosti y 33 Uslovi za regresionu analizu • normalna raspodela greške • konstantna varijansa greške za sve vrednosti x (homosedastičnost) 34 Primer 1 - reziduali t0C mL dobijeni mL izračunati reziduali 24 28 29 29 33 36 37 480 600 750 810 960 1440 1440 380,4 698,5 778,0 778,0 1096,1 1334,7 1414,2 99,6 -98,5 -28,0 32,0 -136,1 105,3 25,8 35 Primer 1 - reziduali t Residual Plot 150 100 50 Residuals 0 0 -50 -100 -150 t 5 10 15 20 25 30 35 40 36 Rezidualna analiza za homosedastičnost Y Y x x reziduali x reziduali x Nekonstantna varijansa  Konstantna varijansa 37 Predviđanja uz pomoć regresione analize  Vrste predviđanja  Predviđanje jedne vrednosti (u jednoj tački)  Predviđanje intervala Šta se predviđa  Populacioni prosečni odgovor (μyx) za dato x  Tačka na populacionoj regresionoj liniji   Individualni odgovor (y) za dato x 38 Primer 1 – predviđanje y y = - 1528,03 + 79,52x, r = 0,970 mL = - 1528,03 + 79,52 t0C mL = - 1528,03 + 79,52 x 400C = 1652,8 mL = - 1528,03 + 79,52 x 200C= 62,4 mL = - 1528,03 + 79,52 x 100C = -732,8 (??) (??) Predviđanje samo za raspon vrednosti x iz kojih je izračunata regresiona jednačina! 39 Predviđanje y Interval predikcije Interval pouzdanosti  y ± tα / 2,n− 2Syx (xp − x)2 1 1+ + 2 n Σx − n(x)2  y ± tα / 2,n−2Syx (xp − x)2 1 + 2 n Σx − n(x)2 Za predviđanje jedne vrednosti y za dato x Za predviđanje populacione prosečne vrednosti y za dato x Interval pouzdanosti za y je uži od intervala predikcije za y za istu datu vrednost x, jer je manja greška u predviđanju prosečne vrednosti od greške u predviđanju jedne vrednosti 40 Interval pouzdanosti za y   t - 290C y = 778 mL (izračunato) 95% Interval pouzdanosti t0,05, 5 = 2,571 1 (29− 308572 , ) 778 2,571 101 ± × ,59 + 7 6796 7(308572 − , ) 67056mL − 88544mL , , = 778 10744 ± ,   t - 290C y = 778 mL (izračunato) 99% Interval pouzdanosti t0,01, 5 = 4,032 1 (29− 308572 , ) 778 4,032 101 ± × ,59 + 7 6796 7(308572 − , ) 60951mL − 94649mL , , = 778 16849 ± , 41 Interval predikcije za y   t - 290C y = 778 mL (izračunato) 95% Interval predikcije t0,05, 5 = 2,571 = 778 28242 ± , 1 (29− 308572 , ) 778 2,571 101 1+ + ± × ,59 7 6796 7(308572 − , ) 495 mL − 1060 mL ,58 ,42   t - 290C y = 778 mL (izračunato) 99% Interval predikcije t0,01, 5 = 4,032 = 778 44291 ± , 1 (29− 308572 , ) 778 4,032 101 1+ + ± × ,59 7 6796 7(308572 − , ) 33509mL − 1220 mL , ,91 42 Interval pouzdanosti vs. interval predikcije Interval predikcije za jedno y, za dato xp y Interval pouzdanosti za prosečno y, za dato xp ∧ x b0 + b1 y= x xp x 43 Korelacioni modeli  Daju odgovor na pitanje “Koliko je jaka linearna relacija između dve varijable”?’ Izražavaju se koeficijentom korelacije     Populacioni koeficijent korelacije se označava sa ρ (rho) Vrednosti se kreću od -1 to +1 Izražava stepen asocijacije  Koriste se uglavnom za razumevanje relacija 44 Koeficijent korelacije  Pearson – ov koeficijent korelacije: r = koeficijen determinac = t ije = ∑ xy− Nxy (∑ x − N( x) ) (∑ y N( y) ) 2 2 2 2 45 Vrednosti koeficijenta korelacije potpuna negativna korelacija nema korelacije potpuna pozitivna korelacija -1.0 -0.5 0 +0.5 +1.0 povećanje stepena negativne korelacije povećanje stepena pozitivne korelacije 46 Koeficijent korelacije r = 0,8 r = 0,4 r = 0,0 r = -0,8 r = -0,4 r = 1,0 47 Tumačenje veličine koeficijenata korelacije do 0,20 od 0,20 do 0,40 od 0,40 do 0,70 od 0,70 do 0,90 od 0,90 do 1,00 neznatna korelacija, gotovo ne postoji povezanost između varijabli niska korelacija, postoji mala povezanost između varijabli umjerena korelacija, bitna povezanost između varijabli visoka korelacija, izrazita povezanost između varijabli veoma visoka korelacija, veoma uska povezanost između varijabli 48 Testiranje koeficijenta korelacije   Testira se da li postoji linearna korelacija između dve varijable Hipoteze  H0: ρ = 0 (nema korelacije)  H1: ρ ≠ 0 (postoji korelacija)  Izraz za izračunavanje N−2 t =r 1− r 2 H0 se prihvata ako je t < tα, N-2 zaključak: nema korelacije 49 Primer 1   r2 = 0,9412 r = 0,9702 t = 8,95 t0,05; 5 = 2,571 t > t0,05; 5    H0 se ne prihvata Zaključak: postoji značajna korelacija 50 Linearna regresija u MS-Excel-u           Tools, Data Analysis, Regression Input Y-range: obeležiti zavisnu promenljivu Input X-range: obeležiti nezavisnu promenljivu Labels: označiti Confidence Level: 95% (ili 99%) označiti polje Output range i postaviti kursor na polje u Worksheetu gde treba da se pojavi izveštaj Residuals: označiti Residuals Plots: označiti Line Fit Plots: označiti OK 51 Primer 1 - u MS-Excel-u SUMMARY OUTPUT Regression Statistics Multiple R 0,97014 R Square 0,94118 Adjusted R Square 0,92942 Standard Error 101,698 Observations 7 ANOVA df Regression Residual Total 1 5 6 SS MS F Significance F 827458,76 827458,76 80,005429 0,0002911 51712,66376 10342,533 879171,4286 t Stat P-value -5,516 0,0026802 8,945 0,0002911 Lower 95% Upper 95% -2240,11 -815,96 56,67 102,37 Intercept temp Coefficients Standard Error -1528,034934 277,0080568 79,5197 8,8903 52 Interpretacija ANOVA rezultata    F test testira nultu hipotezu da regresija ne objašnjava značajnu proporciju varijacije u y Stepeni slobode za F-test su 1 i n-2 U ovom primeru F = 80,1 sa 1 i 5 stepena slobode t-test za b=0 je identičan F-testu za r2 = 0 vrednost t za b = 0 je jednaka kvadratnom korenu iz F   53 Linearna regresija u SPSS-u      Podaci se unose u dve kolone (nezavisna i zavisna promenljiva) Analyze, Regression, Linear Dependent : mL Independent: t Statistics:  Regression coefficients: označiti Estimates i  Confidence intervals označiti Model Fit   Continue OK 54 Primer 1 - u SPSS-u Variable s Ente re d/Re mov eb d Model 1 Variables Entered a T Variables Removed , Method Enter a. All requested variables entered. b. Dependent Variable: ML b M ode l Summary Model 1 R R Square a ,970 ,941 Adjusted R Square ,929 Std. Error of the Estimate 101,70 a. Predictors: (Constant), T b. Dependent Variable: ML 55 Primer 1 - u SPSS-u b ANOVA Model 1 Sum of Squares Regression 827458,8 Residual 51712,664 Total 879171,4 df 1 5 6 Mean Square 827458,765 10342,533 F 80,005 Sig. ,000 a a. Predictors: (Constant), T b. Dependent Variable: ML a Coe fficie nts Model 1 Unstandardized Coefficients B Std. Error (Constant) -1528,035 277,008 T 79,520 8,890 Standardi zed Coefficien ts Beta ,970 t -5,516 8,945 Sig. ,003 ,000 95% Confidence Interval for B Lower Bound Upper Bound -2240,096 -815,974 56,667 102,372 a. Dependent Variable: ML y = - 1528,03 + 79,52x, r = 0,970 56 Primer 1 - u SPSS-u a Re siduals Statistics Minimum Predicted Value 380,44 Residual -136,11 Std. Predicted Value -1,468 Std. Residual -1,338 a. Dependent Variable: ML Maximum 1414,19 105,33 1,315 1,036 Mean 925,71 1,14E-13 ,000 ,000 Std. Deviation 371,36 92,84 1,000 ,913 N 7 7 7 7 57 Primer 1 - Grafik u SPSS         Graphs Scatter – Simple – Define Y-axis: mL X-axis: t OK Kliknuti na sliku 2 puta, da se otvori Chart Editor U Chart Editoru otvoriti Chart – Options – označiti Fit Line: Total, OK Zatvoriti Chart Editor 58 Primer 1 - Grafik u SPSS 1600 1400 1200 1000 800 600 ML 400 22 24 26 28 30 32 34 36 38 T 59 Primer 2 – vežba na času This dataset stems from a study concerning the preservation of ascorbic acid in vegetables during drying and storing. The amount of acid preserved is the response (dependent) variable, while the percentage dry matter is the explanatory (independent) variable. % suve materije 10,0 10.2 11.2 11.2 10,0 10,7 10,3 12,9 11,8 14,9 12,5 12,3 % sačuvanog vit C 66,7 77,2 83,8 67,9 88,9 69,0 69,8 86,0 79,9 88,2 74,2 83,1 % suve materije 10,0 8,9 8,9 9,2 7,8 10,1 9,0 8,2 9,5 10,8 11,1 11,2 % sačuvanog vit C 70,9 74,0 58,6 80,6 69,4 76,0 66,4 50,9 61,9 65,2 77,2 89,6 60 Primer 2 – Izveštaj u MS Excelu SUMMARY OUTPUT Regression Statistics Multiple R 0,618229 R Square 0,382207 Adjusted R Square 0,354125 Standard Error8,052384 Observations 24 ANOVA df Regression Residual Total SS MS 1 882,5254 882,5254 22 1426,5 64,84089 23 2309,025 F Significance F 13,611 0,00128 Coefficients Standard Error t Stat P-value Lower 95%Upper 95% Lower 95,0%pper 95,0% U Intercept 33,4819 11,0983 3,0168 0,0063 10,4653 56,4984 10,46535 56,49844 % suve materije 3,8458 1,0424 3,6893 0,0013 1,6839 6,0077 1,683931 6,007677 61 Primer 2 – Grafički prikaz 100 90 80 70 % sačuvanog vit C 60 50 40 30 20 10 0 0 2 4 6 8 % suve materije % sačuvanog vit C Linear (% sačuvanog vit C) 10 12 14 16 62 % suve materije 10,0 10,2 11,2 11,2 10,0 10,7 10,3 12,9 11,8 14,9 12,5 12,3 10,0 8,9 8,9 9,2 7,8 10,1 9,0 8,2 9,5 10,8 11,1 11,2 % dobijen 66,7 77,2 83,8 67,9 88,9 69 69,8 86 79,9 88,2 74,2 83,1 70,9 74 58,6 80,6 69,4 76 66,4 50,9 61,9 65,2 77,2 89,6 % izračunat 71,94 72,71 76,55 76,55 71,94 74,63 73,09 83,09 78,86 90,78 81,55 80,79 71,94 67,71 67,71 68,86 63,48 72,32 68,09 65,02 70,02 75,02 76,17 76,55 Residuals -5,24 4,49 7,25 -8,65 16,96 -5,63 -3,29 2,91 1,04 -2,58 -7,35 2,31 -1,04 6,29 -9,11 11,74 5,92 3,68 -1,69 -14,12 -8,12 -9,82 1,03 13,05 Reziduali 63 Primer 2 - Reziduali Residuals 20 15 10 5 0 0 -5 -10 -15 -20 % suve materije 2 4 6 8 10 12 14 16 64 Primena regresione analize u analitici     Regresiona analiza se u analitici primenjuje u sledećim slučajevima Za izračunavanje jednačine standardne krive Za procenu tačnosti metoda i poređenje metoda Za procenu tačnosti metoda na osnovu metode standardnog dodatka (“recovery”) 65 Primena regresione analize u analitici  Stupnjevi u primeni regresione i korelacione analize: Izračunavanje koeficijenta korelacije r za standardnu krivu r ≥ 0,99 r2 = 0,98 = 98% za tačnost i poredjenje metoda r ≥ 0,9 r2 = 0,81 = 81% 1. 66 Primena regresione analize u analitici 2. Izračunavanje jednačine prave  Odsečak a – sistematska greška  Nagib b – sistematska (% greška) Testiranje koeficijenata  Za standardnu krivu: testiranje odsečka a  Za poredjenje metoda: testiranje odsečka a i nagiba b  Za “recovery” test: testiranje nagiba b 2. 67 Tačnost metode – primer 3 r = 0,99995 b = 1,037 Syx = 1,0486 a = -4,221 68 Tačnost metode – testiranje grešaka Testiranje značajnosti odsečka a (sistematske greške)  H0: a = 0 H1: a ≠ 0   Sa = 0,976 t0,05, 4 = 2,776 ta = 4,324 ta > t0,05 Značajnost odsečka a: Prihvata se H1: a ≠ 0 Zaključak: postoji negativna sistematska greška od 4,22 mmol/L 69 Tačnost metode – testiranje grešaka     Testiranje značajnosti nagiba b (proporcionalne greške) H0: b = 1 H1: b ≠ 1 Sb = 0,005 t0,05, 4 = 2,776 tb = 7,43 tb> t0,05 Značajnost nagiba b: Prihvata se H1: b ≠ 1 Zaključak: postoji procentualna greška od 3,7% (b =1 ,037 = 103,7%) 70


Comments

Copyright © 2025 UPDOCS Inc.