1 UNIVERSITATEA DE ŞTIINŢE AGRONOMICE ŞI MEDICINĂ VETERINARĂ BUCUREŞTI DEPARTAMENTUL DE ÎNVĂŢĂMÂNT LA DISTANŢĂ Prof. univ. dr. DUMITRU ENE MATEMATICĂ ŞI STATISTICĂ APLICATĂ ÎN AGRICULTURĂ VOLUMUL II: STATISTICĂ Ediţia II revizuită 2 ISBN 978-973-40-0869-8 Descrierea CIP a Bibliotecii Naţionale a României ENE, DUMITRU Matematică şi statistică aplicată în agricultură / Dumitru Ene. - Bucureşti : Ceres, 2010 vol. ISBN 978-973-40-0867-4 Vol. 2. : Statistică. - 2010. - ISBN 978-973-40-0869-8 51-7:63 3 CUPRINS PREFAŢĂ………………………………..……………………………………………………………7 CAPITOLUL 1. CALCULUL PROBABILITĂŢILOR ....................................................................... 9 1.1 EVENIMENTE ŞI PROBABILITĂŢILE LOR ..................................................................................................................... 9 1.1.1 Evenimente ....................................................................................................................................................... 9 1.1.2 Probabilităţile evenimentelor ......................................................................................................................... 11 1.1.3 Probabilităţile condiţionate ale evenimentelor .............................................................................................. 14 1.2 VARIABILE ALEATOARE ........................................................................................................................................... 17 1.2.1 Densitatea de probabilitate şi funcţia de repartiţie ....................................................................................... 17 1.2.2 Indicatori numerici ......................................................................................................................................... 22 1.2.3 Funcţia caracteristică ..................................................................................................................................... 25 1.3 VECTORI ALEATORI ................................................................................................................................................. 27 1.3.1 Densitatea de probabilitate şi funcţia de repartiţie ....................................................................................... 27 1.3.2 Indicatori numerici ......................................................................................................................................... 30 1.4 VARIABILE ALEATOARE CLASICE DISCONTINUE ...................................................................................................... 34 1.4.1 Variabila binomială ........................................................................................................................................ 34 1.4.2 Variabila hipergeometrică .............................................................................................................................. 37 1.4.3 Variabila Poisson ............................................................................................................................................ 38 1.5 VARIABILE ALEATOARE CLASICE CONTINUE ........................................................................................................... 39 1.5.1 Variabila uniformă ......................................................................................................................................... 39 1.5.2 Variabilele exponenţială, Weibull, Erlang ...................................................................................................... 40 1.5.3 Variabila normală ........................................................................................................................................... 41 1.5.4 Variabilele Hi Pătrat, Student, Fisher ............................................................................................................. 44 A. Variabila Hi Pătrat (2) ....................................................................................................................................................... 44 B. Variabila Student (t) ........................................................................................................................................................... 45 C. Variabila Fisher (F) ............................................................................................................................................................. 45 1.5.5 Vectorul aleator normal ................................................................................................................................. 46 1.6 LEGI LIMITĂ ............................................................................................................................................................ 47 1.7 FIABILITATEA ECHIPAMENTELOR ........................................................................................................................... 50 1.8 REZUMAT ............................................................................................................................................................... 53 1.9 ÎNTREBĂRI .............................................................................................................................................................. 53 1.10 BIBLIOGRAFIE ....................................................................................................................................................... 53 CAPITOLUL 2. CULEGEREA ŞI PRELUCRAREA DATELOR DE SONDAJ .......................... 54 2.1 POPULAŢII STATISTICE ŞI SONDAJE ......................................................................................................................... 54 2.2 INDICATORI DE SONDAJ DE REPARTIŢIE ................................................................................................................. 58 2.2.1 Cazul sondajului de volum mic (n < 30) .......................................................................................................... 58 2.2.2. Cazul sondajului de volum mare (n > 30) ...................................................................................................... 61 2.3 INDICATORI DE SONDAJ DE EVOLUŢIE .................................................................................................................... 69 2.3.1. Cazul măsurătorilor simple în timp ............................................................................................................... 69 2.3.2. Cazul măsurătorilor multiple în timp ............................................................................................................. 75 2.3.3 Indici statistici ................................................................................................................................................. 76 2.4 ESTIMAŢII/TESTE ÎN POPULAŢII NORMALE ............................................................................................................. 85 2.5 ESTIMAŢII/TESTE PARAMETRICE ÎN POPULAŢII NORMALE ..................................................................................... 88 2.5.1 Estimaţii/teste pentru parametrii μ, σ ai unui caracter cantitativ într-o populaţie normală ......................... 88 2.5.2 Estimaţii/teste pentru parametrul p al unui caracter calitativ într-o populaţie normală .............................. 92 2.5.3 Estimaţii/teste pentru parametrii µ2 – μ1, σ2/σ1 ai unui caracter cantitativ în două populaţii normale ........ 93 2.5.4 Estimaţii/teste pentru parametrul p2 – p1 al unui caracter calitativ în două populaţii normale .................... 98 2.6 TESTE NEPARAMETRICE ÎN POPULAŢII NORMALE ................................................................................................ 100 2.6.1 Testul hi pătrat de concordanţă ................................................................................................................... 100 2.6.2 Testul hi pătrat de independenţă ................................................................................................................. 102 2.6.3 Testele normalităţii prin asimetrie şi boltire ................................................................................................ 104 2.7 REZUMAT ............................................................................................................................................................. 106 2.8 ÎNTREBĂRI ............................................................................................................................................................ 106 2.9 BIBLIOGRAFIE ....................................................................................................................................................... 106 4 CAPITOLUL 3. TESTE ALE CONTROLULUI CALITĂŢII ŞI FIABILITĂŢII ÎN AGRICULTURĂ .................................................................................................... 107 3.1 CONTROLUL STATISTIC DE CALITATE ÎN CURSUL PROCESULUI DE PRODUCŢIE .................................................... 108 3.1.1 Cazul unei însuşiri cantitative ....................................................................................................................... 110 3.1.2 Cazul unei însuşiri calitative ......................................................................................................................... 112 3.2 CONTROLUL STATISTIC DE CALITATE LA RECEPŢIE ................................................................................................ 114 3.2.1 Controlul unei însuşiri cantitative ................................................................................................................. 116 A. Controlul simplu al unei însuşiri cantitative .................................................................................................................... 116 B. Controlul secvenţial al unei însuşiri cantitative ............................................................................................................... 118 3.2.2 Controlul unei însuşiri calitative ................................................................................................................... 121 A. Controlul simplu al unei însuşiri calitative ....................................................................................................................... 121 B. Controlul secvenţial al unei însuşiri calitative .................................................................................................................. 121 3.2.3 Controlul fiabilităţii maşinilor agricole ......................................................................................................... 123 A. Controlul simplu al fiabilităţii maşinilor agricole ............................................................................................................. 123 B. Controlul secvenţial al fiabilităţii maşinilor agricole ........................................................................................................ 124 3.3 REZUMAT ............................................................................................................................................................. 125 3.4 ÎNTREBĂRI ............................................................................................................................................................ 125 3.5 BIBLIOGRAFIE ....................................................................................................................................................... 125 CAPITOLUL 4 ANALIZA VARIANŢEI ŞI PLANURI EXPERIMENTALE ÎN AGRICULTURĂ .................................................................................................... 126 4.1 ANALIZA VARIANŢEI MONOFACTORIALĂ NEBALANSATĂ ÎN POPULAŢII OMOGENE ............................................ 126 4.2 ANALIZA VARIANŢEI BIFACTORIALĂ COMPLETĂ NEBALANSATĂ ÎN POPULAŢII OMOGENE .................................. 133 4.3 ANALIZA VARIANŢEI BIFACTORIALĂ IERARHICĂ NEBALANSATĂ ÎN POPULAŢII OMOGENE .................................. 140 4.4 PLANURI EXPERIMENTALE ÎN POPULAŢII NEOMOGENE ....................................................................................... 145 4.4.1 Planul blocurilor complete randomizate ...................................................................................................... 145 4.4.2 Planul pătratelor şi dreptunghiurilor latine .................................................................................................. 148 4.5 REZUMAT ............................................................................................................................................................. 153 4.6 ÎNTREBĂRI ............................................................................................................................................................ 153 4.7 BIBLIOGRAFIE ....................................................................................................................................................... 153 CAPITOLUL 5. CORELAŢIA ŞI REGRESIA ÎNTRE CARACTERE ........................................ 154 5.1 CORELAŢIA ŞI REGRESIA MONOFACTORIALĂ LINIARĂ .......................................................................................... 154 5.1.1 Cazul observaţiilor perechi (xi, yi) ................................................................................................................. 154 5.1.2 Cazul observaţiilor multiple (xi, yij) ............................................................................................................... 169 5.1.3 Cross - corelaţia şi autocorelaţia seriilor de timp ......................................................................................... 172 5.2 CORELAŢII ŞI REGRESII MONOFACTORIALE NELINIARE ........................................................................................ 174 5.2.1 Corelaţia şi regresia monofactorială polinomială ........................................................................................ 175 5.2.2 Corelaţia şi regresia monofactorială trigonometrică ................................................................................... 177 5.2.3 Corelaţia şi regresia monofactorială polinomial-trigonometrică ................................................................. 180 5.3 CORELAŢII ŞI REGRESII POLIFACTORIALE .............................................................................................................. 184 5.3.1 Corelaţia şi regresia polifactorială liniară pentru cazul a 2 + 1 caractere .................................................... 184 5.3.2 Corelaţia şi regresia polifactorială liniară pentru cazul a m + 1 caractere ................................................... 193 5.3.3 Corelaţia şi regresia polifactorială polinomială de grad p fără interacţiuni pentru cazul a m + 1 caractere .............................................................................................................................................................................. 203 5.3.4 Corelaţia şi regresia polifactorială polinomială de grad 3 cu interacţiuni pentru cazul a m + 1 caractere .. 205 5.4 REZUMAT ............................................................................................................................................................. 208 5.5 ÎNTREBĂRI ............................................................................................................................................................ 208 5.6 BIBLIOGRAFIE ....................................................................................................................................................... 208 BIBLIOGRAFIE GENERALĂ ............................................................................................................ 209 ANEXĂ CU TABELE STATISTICE .................................................................................................. 211 TABEL 1 FUNCŢIA DE REPARTIŢIE N(0; 1): F(U/2) = 1 - /2 ................................................................................................ 212 TABEL 2 VALORILE STUDENT T/2 ŞI T: P(|T| > T/2) = P(T > T) = ..................................................................................... 213 TABEL 3 VALORILE HI PĂTRAT (2): P ( 2 > 2) = ......................................................................................................... 214 TABEL 4 VALORILE FISHER (F0.05): P (F > F0.05) = 0.05 ........................................................................................................ 216 TABEL 5 VALORILE FISHER (F0.01): P (F > F0.01) = 0.01 ........................................................................................................ 217 5 TABEL 6 VALORILE FISHER (F0.001): P (F > F0.001) = 0.001 .................................................................................................... 218 TABEL 7 AMPLITUDINEA STUDENTIZATĂ TUKEY T(0.05) ....................................................................................................... 219 TABEL 8 AMPLITUDINEA STUDENTIZATĂ TUKEY T(0.01) ....................................................................................................... 220 TABEL 9 VALORI CRITICE ALE ASIMETRIEI ŞI BOLTIRII .............................................................................................................. 221 TABEL 10 VALORI CRITICE R/2 ALE COEFICIENTULUI DE CORELAŢIE LINIARĂ R ............................................................................ 222 TABEL 11 TRANSFORMAREA FISHER: Z = 0.5 LN [(1 + R)/(1 - R)] ........................................................................................... 223 TABEL 12 VALORI CRITICE PENTRU FIŞE DE CONTROL AL CALITĂŢII ............................................................................................ 224 6 7 PREFAŢĂ Această lucrare este destinată studenţilor de la Facultatea de Management şi Inginerie economică în agricultură şi agroturism, curs de zi şi la distanţă, putând fi folosită şi de studenţii altor facultăţi cu profil Agricol. Capitolele 1 - 5 sunt consacrate aplicaţiilor statisticii în agricultură, domeniu care are o lungă tradiţie în ţara noastră. Aplicaţiile statisticii în agricultură au beneficiat de aportul remarcabil al computerelor pentru partea de calcule prin produse informatice generale sau specializate pe statistică. În acest moment accentul cade pe modelarea statistică cea mai eficientă în agricultură şi pe interpretarea corectă a rezultatelor în vederea luării unor decizii corecte şi rapide. Agricultura ca domeniu de activitate cu risc din partea naturii şi a conjuncturii variabile pe piaţa produselor agricole, se dovedeşte un domeniu de predilecţie al statisticii, ca mod de gândire al viitorului, citându-l pe statisticianul V. Vodă. Capitolul 1 prezintă noţiunile de teoria probabilităţilor strict necesare pentru înţelegerea conceptelor statisticii: evenimente, probabilităţi, variabile şi vectori aleatori, variabile aleatoare clasice, legi-limită şi fiabilitatea echipamentelor. Capitolul 2 prezintă sondajele în populaţii statistice, semnificaţia şi modul de calcul al indicatorilor de sondaj de repartiţie şi evoluţie. O atenţie specială se acordă indicilor statistici foarte folosiţi în aplicaţiile economice. Acest capitol se încheie cu estimaţii şi teste parametrice ale mediilor şi abaterilor-standard în populaţii pentru caractere cantitative (măsurabile), respectiv estimaţii şi teste parametrice ale probabilităţilor în populaţii pentru caractere calitative (atributive) precum şi teste neparametrice în populaţii: concordanţă, independenţă şi normalitate a populaţiei. În capitolul 3 se prezintă testele controlului calităţii şi fiabilităţii în agricultură atât în cursul procesului de producţie (prin fişe de control al calităţii) cât şi la recepţie (prin control simplu şi secvenţial). În capitolul 4 se prezintă analiza varianţei mono şi polifactorială nebalansată completă şi ierarhică în populaţii omogene inclusiv calculul componentelor de varianţă în populaţie. Pentru populaţii neomogene se prezintă principalele planuri experimentale folosite în agricultură: planul blocurilor complete randomizate şi planul pătratelor şi dreptunghiurilor latine. Facem precizarea că în capitolul 4 folosim denumirea de indice de corelaţie, distinctă faţă de denumirea de raport de corelaţie neliniară din capitolul 5 deşi Enciclopedia de statistică le identifică. În capitolul 5 se prezintă corelaţia/regresia monofactorială liniară şi neliniare (de tip polinomial, trigonometric şi mixt). În continuare se prezintă corelaţia/regresia polifactorială liniară şi neliniară polinomială (fără şi cu interacţiuni), între m + 1 caractere. Pentru corelaţia şi regresia liniară polifactorială, se prezintă calculul aporturilor a m factori la al m + 1-lea caracter, stabilită de ENE D. în lucrările 21 şi 27. În întreaga lucrare am adoptat un compromis între rigoarea ştiinţifică (prin definiţii, teoreme şi demonstraţii) şi accesibilitate/utilitate (prin exemple detaliate). Toate exemplele din lucrare conţin date convenţionale plauzibile din agricultură. Lucrarea se încheie cu bibliografie şi o anexă cu 14 tabele statistice. Tot în Anexă se dau câteva foi EXCEL pentru calcule statistice. Pentru problemele tratate în lucrare dispunem de un pachet propriu de programe executabile. Dealtfel în lucrare facem referiri dese la produsul EXCEL pentru optimizări, funcţii statistice uzuale şi pachetul de statistică DATA ANALYSIS din opţiunea TOOLS. Iunie 2010 Autorul 8 9 CAPITOLUL 1. CALCULUL PROBABILITĂŢILOR Obiective: Însuşirea de către studenţi a conceptelor de eveniment, probabilitate simplă şi condiţionată a evenimentelor, variabilă aleatoare şi indicatori asociaţi, vector aleator şi indicatori asociaţi, variabile aleatoare clasice discontinue şi continue precum şi a legilor-limită. Conţinut: 1.1 Evenimente şi probabilităţile lor 1.1.1 Evenimente 1.1.2 Probabilităţile evenimentelor 1.1.3 Probabilităţile condiţionate ale evenimentelor 1.2 Variabile aleatoare 1.2.1 Densitatea de probabilitate şi funcţia de repartiţie 1.2.2 Indicatori numerici 1.2.3 Funcţia caracteristică 1.3 Vectori aleatori 1.3.1 Densitatea de probabilitate şi funcţia de repartiţie 1.3.2 Indicatori numerici 1.4 Variabile aleatoare clasice discontinue 1.4.1 Variabila binomială 1.4.2 Variabila hipergeometrică 1.4.3 Variabila Poisson 1.5 Variabile aleatoare clasice continue 1.5.1 Variabila uniformă 1.5.2 Variabilele exponenţială, Weibull, Erlang 1.5.3 Variabila normală 1.5.4 Variabilele Hi Patrat, Student, Fisher A. Variabila Hi Patrat (2) B. Variabila Student (t) C. Variabila Fisher (F) 1.5.5 Vectorul aleator normal 1.6 Legi-limită 1.7 Fiabilitatea echipamentelor 1.8 Rezumat 1.9 Întrebări 1.10 Bibliografie Cuvinte cheie: eveniment, probabilitate, probabilitate condiţionată, variabilă aleatoare, funcţie de repartiţie şi densitate de probabilitate, media şi varianţa unei variabile aleatoare, funcţia caracteristică a unei variabile aleatoare, vector aleator, covarianţa şi coeficientul de corelaţie liniară pentru un vector aleator, variabila binomială, Poisson, exponenţială, normală, hi patrat, Student, Fisher, vectorul aleator normal. 1.1 EVENIMENTE ŞI PROBABILITĂŢILE LOR 1.1.1 Evenimente Un experiment este aleator dacă rezultatele sale nu pot fi prevăzute cu exactitate, fiind sub influenţa întâmplării. 10 Exemple: 1) Apariţia unei feţe la aruncarea monezii; 2) Apariţia unei feţe la aruncarea zarului; 3) Apariţia unei bile albe la extragerea din urnă cu bile albe şi negre. Totalitatea rezultatelor posibile ale unui experiment aleator se numeşte spaţiu de evenimente elementare şi se notează cu Ω. Mulţimea părţilor (submulţimilor) lui Ω se notează cu P(Ω). Exemplu: 1) La aruncarea monezii avem Ω = {stemă, ban}; 2) La aruncarea zarului avem Ω = {1, 2, 3, 4, 5, 6}; Dacă mulţimea Ω este finită sau numărabilă (şir), orice submulţime A Ω se numeşte eveniment. Dacă mulţimea Ω este nenumărabilă (de exemplu Ω = R), vom numi evenimente numai submulţimile A Ω a căror familie formează o σ – algebră K P(Ω) care se defineşte prin condiţiile: 1) Ω К 2) Ai К pentru i I A i I i 3) A К CA К CA se numeşte eveniment contrar cu A şi se mai notează cu Ā. Exemplu: Dacă A = “apariţia unei feţe pare la aruncarea zarului” atunci CA = “apariţia unei feţe impare la aruncarea zarului”. Ω ca eveniment, se numeşte evenimentul sigur iar CΩ = Ø se numeşte evenimentul imposibil. Incluziunea A B se numeşte implicare a evenimentului B de către evenimentul A: realizarea lui A determină realizarea lui B. Exemplu: Dacă A = “apariţia feţei 6 la aruncarea zarului” şi B = “apariţia unei feţe pare la aruncarea zarului” avem A B. Egalitatea A = B se numeşte echivalenţă a evenimentelor A şi B şi are loc dacă A B şi B A. Evenimentul B este elementar dacă A B A = Ø sau A = B. Exemple: 1) Apariţia unei anumite feţe la aruncarea unei monezi sau zar este eveniment elementar; 2) Apariţia unei bile albe la extragerea din urnă a unei bile este eveniment elementar. Dându-se două evenimente A şi B, reuniunea lor se notează cu A B şi se citeşte “A sau B” fiind un eveniment compus care se realizează dacă se realizează măcar unul dintre evenimentele A, B. Dându-se două evenimente A şi B, intersecţia lor se notează A B şi se citeşte “A şi B” fiind un eveniment compus care se realizează dacă ambele evenimente A, B se realizează. Exemplu: Fie A evenimentul că becul 1 funcţionează la un moment dat şi B evenimentul că becul 2 funcţionează în acelaşi moment. 11 A B este evenimentul că trece curentul prin circuitul paralel care conţine becurile 1 şi 2. A B este evenimentul că trece curentul prin circuitul serie care conţine becurile 1 şi 2. Evenimentele A, B sunt incompatibile dacă nu se realizează simultan adică A B = Ø. În caz contrar A şi B se numesc compatibile. Exemple de evenimente incompatibile: 1) Apariţia de feţe diferite la o aruncare cu moneda sau zarul; 2) Apariţia de culori diferite la extragerea unei bile din urnă. Exemple de evenimente compatibile: 1) Nimerirea unei ţinte de doi trăgători care ochesc asupra ei; 2) Funcţionarea la un moment dat a două becuri într-un circuit electric. 1.1.2 Probabilităţile evenimentelor Fie К o σ - algebră de evenimente din P(Ω). O funcţie P: К → R+ se numeşte probabilitate dacă: 1) P(Ω) = 1 2) IiIi AiPAiP pentru orice familie (Ai) i I cu Ai К, incompatibile câte două. Tripleta {Ω, К, P} se numeşte câmp de probabilitate. Fie p(i) numere negative de sumă 1 care se corespund bijectiv cu evenimentele elementare ωi Ω (i N). Definim P(ωi) = p(i) şi pentru orice eveniment A P(Ω) luăm ωi A P A p(i) . Funcţia P astfel definită este probabilitate în sensul definiţiei de mai sus. În particular dacă Ω = {ω1, …, ωm} şi m 1 ip pentru orice i {1, …, m} vom avea nr. cazuri favorabile evenimentului A P A nr.cazuri egal posibile Aceasta este definiţia clasică a probabilităţii unui eveniment. Exemple: 1) 50% 2 1 stemaP ; 2) 1 P faţă dată la zar 16, 7% 6 ; 3) Fie urna U cu 7 bile albe şi 3 bile negre. 7 P bilă extrasă albă 70% 10 Definiţia clasică a probabilităţii nu se aplică dacă: 1) moneda este deformată; 2) zarul nu are feţele egale (este paralelipiped); 3) bilele din urnă nu au acelaşi diametru, căci în aceste cazuri evenimentele elementare nu sunt egal posibile. Evenimentele A şi B se numesc independente dacă P(A B) = P(A) . P(B) şi dependente în caz contrar. Exemple de evenimente independente: 1) Apariţiile unor feţe la aruncarea simultană a două monezi sau zaruri care nu se ciocnesc; 2) Apariţiile unor feţe la două aruncări succesive a unei monezi sau zar; 3) Apariţiile a două bile albe la extrageri simultane din două urne diferite; 12 4) Apariţia a două bile albe la două extrageri succesive dintr-o urnă cu bila revenită. Exemple de evenimente dependente: Apariţia a două bile albe la două extrageri succesive din urnă cu bila nerevenită. Teorema 1.1 Avem proprietăţile: 1) P(Ā) = 1 – P(A) pentru orice A К; 2) P(A1 … An) = [P(A1) + … + (An)] - [P(A1 A2) + … + P(An-1 An)] +… + (-1) n P(A1 … An) pentru orice evenimente A1, …, An К; 3) 0 < P(A) < 1 pentru orice A К; P(Ø) = 0; P(Ω) = 1; 4) P(A1 … An) > P(A1) + … + (An) – n + 1 (Boole). Demonstraţie: 1) A Ā = Ø şi A Ā = Ω deci P(A Ā) = P(Ω) = 1, deci conform axiomei 2) din definiţia probabilităţii: P(A) + P(Ā) = 1 deci P(Ā) = 1 – P(A). 2) Vom demonstra egalitatea pentru n = 2 şi apoi aplicăm inducţia după n. Evenimentele A1 şi Ā1 A2 sunt incompatibile şi A1 (Ā1 A2) = A1 A2 deci conform axiomei 2) a probabilităţii, avem: P(A1) + P(Ā1 A2) = P(A1 A2) (1) Evenimentele A1 A2 şi Ā1 A2 sunt incompatibile şi (A1 A2) (Ā1 A2) = A2 deci conform axiomei 2) a probabilităţilor avem: P(A1 A2) + P(Ā1 A2) = P(A2) (2) Scăzând egalitatea (2) din (1) obţinem: P(A1) - P(A1 A2) = P(A1 A2) – P(A2) sau: P(A1 A2) = P(A1) + P(A2) - P(A1 A2) (3) Dacă A şi B sunt incompatibile (A B = Ø) din (3) reobţinem axioma 2) a probabilităţii: P(A1 A2) = P(A1) + P(A2) (4) 3) P(A) > 0 şi P(Ω) = 1 conform axiomei 1) a probabilităţii. Dacă A1 A2 egalitatea (2) devine: P(A1) + P(Ā1 A2) = P(A2) sau P(A2) – P(A1) = P(Ā1 A2) > 0, deci A1 A2 implică P(A1) < P(A2). În particular A Ω deci P(A) < P(Ω) = 1. De asemenea Ø = Ω, deci conform punctului 1) avem P(Ø) = 1 – P(Ω) = 0 4) Vom demonstra inegalitatea pentru n = 2 apoi aplicăm inducţia după n. Avem P(A1 A2) = P(A1) + P(A2) – P(A1 A2) > P(A1) + P(A2) – 1 = P(A1) + P(A2) - 2 +1 Dacă A1, A2 sunt independente avem conform definiţiei egalitatea P(A1 A2) = P(A1) . P(A2). Q.E.D. Exemple: 1) Se aruncă 2 monezi care nu se ciocnesc. Se cere: a) Probabilitatea P1 să iasă 2 steme; b) Probabilitatea P2 să nu iasă nici o stemă; c) Probabilitatea P3 să iasă cel puţin o stemă. 13 Soluţie: Fie evenimentele: A1 = “apariţia stemei pe prima monedă” şi A2 = “apariţia stemei pe a doua monedă” a) A1 şi A2 sunt independente, deci P1 = P(A1 A2) = 4 1 2 1 2 1 AAP 21 . b) P2 = P(Ā1 Ā2) = P(Ā1) . P(Ā2) = 4 1 2 1 2 1 . c) P3 = 1 – P2 = 4 3 . 2) Se aruncă 2 zaruri care nu se ciocnesc. Se cere: a) Probabilitatea P1 să iasă o anumită dublă; b) Probabilitatea P2 ca suma punctelor să fie cuprinsă între 2 şi 4; c) Probabilitatea P3 ca produsul punctelor să fie cuprins între 3 şi 5. Soluţie: a) Fie A1 = “evenimentul că iese o faţă dată pe primul zar” şi A2 = “evenimentul că iese aceeaşi faţă pe al II-lea zar”. Evenimentele A1, A2 sunt independente deci P1 = P(A1 A2) = P(A1) P(A2) = 36 1 6 1 6 1 ; b) Avem 2 = 1 + 1; 3 = 1 + 2 = 2 + 1; 4 = 1 + 3 = 2 + 2 = 3 + 1, deci conform definiţiei clasice a probabilităţii avem P2 = 6 1 36 6 ; c) Avem 3 = 1 . 3 = 3 . 1; 4 = 1 . 4 = 2 . 2 = 4 . 1; 5 = 1 . 5 = 5 . 1 deci P3 = 36 7 . 3) Se dau două urne U1 cu 7 bile albe şi 3 bile negre şi U2 cu 4 bile albe şi 6 bile negre. Se extrage câte o bilă din fiecare urnă. Se cere: a) Probabilitatea P1 ca ambele bile să fie albe; b) Probabilitatea P2 ca bilele să fie de aceeaşi culoare; c) Probabilitatea P3 ca bilele să fie de culori diferite. Soluţie: a) Fie evenimentele: A1 = “apariţia unei bile albe din urna U1” şi A2 = “apariţia unei bile albe din urna U2”. Evenimentele A1 şi A2 sunt independente deci: P1 = P(A1 A2) = P(A1) . P(A2) = 28% 10 4 10 7 ; b) Evenimentele A1 A2 şi Ā1 Ā2 sunt incompatibile deci P2 = P[(A1 A2) (Ā1 Ā2)] = P(A1 A2) + P(Ā1 Ā2) + P(A1) . P(A2) + P(Ā1) . P(Ā2) = 46% 10 6 10 3 10 4 10 7 c) P3 = 1 – P2 = 54% 4) Două becuri au probabilităţile de nedefectare: P(A1) = 0.8; P(A2) = 0.9 14 Se cere: a) Probabilitatea P1 ca prin circuitul serie al celor 2 becuri să treacă curentul; b) Probabilitatea P2 ca prin circuitul paralel al celor 2 becuri să treacă curentul. Soluţie: Evenimentele A1, A2 sunt compatibile şi independente. a) P1 = P(A1 A2) = P(A1) . P(A2) = 0.8 x 0.9 = 72%; b) P2 = P(A1 A2) = P(A1) + P(A2) – P(A1) . P(A2) = 0.8 + 0.9 – 0.72 = 98% 5) Doi ochitori lovesc o ţintă cu probabilităţile P(A1) = 0.7; P(A2) = 0.8 Se cere: a) Probabilitatea P1 a lovirii ţintei dacă trag simultan amândoi asupra ei; b) Probabilitatea P2 a lovirii ţintei dacă primul ochitor execută două focuri succesive asupra ei; c) Probabilitatea P3 a lovirii ţintei dacă al II-lea ochitor execută două focuri succesive asupra ei. Soluţie: A1, A2 sunt evenimente compatibile şi independente. a) P1 = P(A1 A2) = P(A1) + P(A2) – P(A1) . P(A2) = 0.7 + 0.8 – 0.7 . 0.8 = 94%; b) P2 = P(A1 A1) = P(A1) + P(A1) – (PA1) . P(A1) = 0.7 + 0.7 – 0.7 . 0.7 = 91%; c) P3 = P(A2 A2) = P(A2) + P(A2) – P(A2) . P(A2) = 0.8 + 0.8 – 0.8 . 0.8 = 96%. 6) Un soi de grâu îndeplineşte condiţiile de calitate cu probabilităţile: P (MMB standard) = 0.96; P (putere de germinare standard) = 0.97; P (umiditate standard) = 0.92 Se cere: Probabilitatea îndeplinirii standardelor pentru cele trei condiţii. Soluţie: Condiţiile din enunţ sunt dependente deci P(A1 A2 A3) > P(A1) + P(A2) + P(A3) – 3 + 1 = 0.96 + 0.97 + 0.92 – 2 = 0.85 = 85%. 1.1.3 Probabilităţile condiţionate ale evenimentelor Pentru a descrie influenţa realizării unui eveniment A1 asupra realizării unui eveniment A2 se foloseşte probabilitatea condiţionată. Raportul 1 21 AP AAP se numeşte probabilitatea lui A2 condiţionată de A1 şi se notează PA1(A2) sau P(A2/A1). Observăm că dacă A1 şi A2 sunt independente, avem: P(A1 A2) = P(A1) . P(A2), deci P(A2) = P(A2). De asemenea dacă A1 implică pe A2 (A1 A2) atunci A1 A2 = A1, deci P(A1 A2) = PA1) aşa că PA1(A2) = 1. Relaţia de definiţie P(A1 A2) = P(A1) . PA1(A2) se extinde prin inducţie după n: P(A1 … An) = P(A1) . PA1(A2) ... PA1 … An-1(An) (5) 15 Teorema 1.2 Dacă Ω = A1 … An cu A1, …, An К şi Ai sunt incompatibile câte două, pentru orice B К avem: 1) (Formula probabilităţii totale): P(B) = P(A1) . PA1(B) + … + P(An) . PAn(B) (6) 2) (Formula Bayes): BPAP...BPAP BPAP AP AnnA11 Aj B j j (7) pentru orice j = 1, …, n. Demonstraţie: 1) Din relaţia Ω = A1 … An rezultă B = (A1 B) … (An B), A1, …, An fiind incompatibile câte două şi A1 B, …, An B vor fi incompatibile câte două. Din axioma 2) a probabilităţii rezultă: P(B) = P(A1 B) + … + P(An B) Dar P(Aj B) = P(Aj) . PAj(B); (j = 1, …, n), deci rezultă relaţia (6) din enunt: P(B) = P(A1) . PA1(B) + … + P(An) . PAn(B) 2)Avem: (B)P)P(A...(B)PAP (B)PP(Aj) P(B) BAjP AjP AnnA11 Aj B )( ; (j = 1, …, n) adică relaţia (7) din enunţ. Q.E.D. Exemple: 1) La o tombolă sunt 50 bilete din care 5 sunt câştigătoare. O persoană cumpără 3 bilete. Care este probabilitatea ca nici unul să nu fie câştigător? Soluţie: Fie evenimentele Ai = “biletul la extragerea Nr. i a ieşit necâştigător” (i = 1, 2, 3). Relaţia (5) se scrie: P(A1 A2 A3) = P(A1) . PA1(A2) . PA1 A2(A3) = 45 44 43 72.7% 50 49 48 2) O urnă conţine 12 bile albe şi 8 bile negre. Se extrag succesiv din urnă 3 bile cu bila nerevenită. Care este probabilitatea ca bilele extrase să fie în ordine: albă, neagră, albă? Soluţie: Fie evenimentul A1 = “prima bilă extrasă este neagră”; A2 = “a doua bilă extrasă este neagră”; A3 = “a treia bilă extrasă este albă”. Relaţia (5) se scrie: P(A1 A2 A3) = P(A1) . PA1(A2) . PA1 A2(A3) = 12 8 11 15.4% 20 19 18 3) Se dau urnele U1 cu 12 bile albe şi 8 bile negre, U2 cu 10 bile albe şi 10 bile negre şi U3 cu 6 bile albe şi 14 bile negre. 16 a) Se extrage o bilă dintr-o urnă. Care este probabilitatea ca ea să fie albă? b) Se extrage o bilă dintr-o urnă şi se constată că este albă. Din ce urnă provine bila extrasă? Soluţie: Fie evenimentele Ai = “bila extrasă provine din urna Ui”, (i = 1, 2, 3) şi B = “bila extrasă este albă”. a) Relaţia (6) se poate scrie: P(B) = P(A1) . PA1(B) + P(A2) . PA2(B) + P(A3) . PA3(B) = = 1 12 1 10 1 6 12 10 6 28 46.7% 3 20 3 20 3 20 60 60 60 60 b) Relaţia (7) se scrie pentru j = 1: 1 A1 B 1 P(A ) P (B) 12 28 12 P (A ) : 42.8% P(B) 60 60 28 Analog PB(A2) = 10 35.7 28 %; PB(A3) = 6 21.5% 28 Deci este mai probabil că bila albă extrasă să provină din urna U1. 4) Se dau urnele U1 cu 12 bile albe şi 8 bile negre şi U2 cu 6 bile albe şi 14 bile negre. Din U1 în U2 se transferă o bilă apoi se extrage o bilă din U2. a) Care este probabilitatea ca bila extrasă din U2 să fie albă? b) Ştiind că bila extrasă din U2 a fost albă, ce culoare avea bila transferată? Soluţie: Fie evenimentele A1 = “bila transferată din U1 în U2 a fost albă”, A2 = “bila transferată din U1 în U2 a fost neagră”; B = “bila extrasă din U2 este albă”. a) Relaţia (6) pentru n = 3 se scrie: P(B) = P(A1) . PA1(B) + P(A2) . PA2(B) = = 12 7 8 6 84 48 132 31.4% 20 21 20 21 420 420 420 b) Relaţia (7) pentru j = 1 se scrie: PB(A1) = 1 A1P(A ) P (B) 84 132 84: 63.6% P(B) 420 420 132 Analog PB(A2) = 48 36.4% 132 deci este mai probabil că bila transferată din U1 în U2 a fost albă. 5) Trei boli la bovine au probabilităţile P(A1) = 0.45; P(A2) = 0.36; P(A3) = 0.19 Aceste boli modifică un parametru sanguin cu probabilităţile PA1(B) = 0.23; PA2(B) = 0.41; PA3(B) = 0.75. a) Care este probabilitatea ca o vacă bolnavă de una din cele trei boli să aibă parametrul sanguin modificat? b) La o vacă se constată că parametrul sanguin este modificat de una din cele trei boli. Care din boli a provocat modificarea? 17 Soluţie: Fie evenimentele Ai = “vaca s-a îmbolnăvit de boala cu nr. i”, (i = 1, 2, 3); B = “vaca are parametrul sanguin modificat”. a) Conform relaţiei (6) pentru n = 3 avem: P(B) = P(A1) . PA1(B) + P(A2) . PB(A2) + P(A3) . PA3(B) = 0.45 . 0.23 + 0.36 . 0.41 + 0.19 . 0.75 = 0.1035 + 0.1476 +0.1425 = 39.36% b) Relaţia (7) pentru j = 1 devine: 1 A1 B 1 P(A ) P (B) 0.1035 P (A ) 26.3% P(B) 0.3936 Analog PB(A2) = 0.1476 37.5% 0.3936 ; PB(A3) = 0.1425 36.2% 0.3936 , deci este mai probabil că boala nr. 2 a modificat parametrul sanguin. 1.2 VARIABILE ALEATOARE 1.2.1 Densitatea de probabilitate şi funcţia de repartiţie Fie spaţiul evenimentelor elementare Ω asociat unui eveniment aleator şi К P(Ω) o σ - algebră de evenimente incluse în Ω. Fie mulţimea numerelor reale R şi σ - algebra mulţimilor boreliene B P(R) adică cea mai mică σ - algebră de submulţimi ale lui R care conţine toate intervalele din R. Fie câmpul de probabilitate (Ω, К, P).O variabilă aleatoare este o funcţie X: Ω R astfel că {ω/X(ω) B} К pentru orice mulţime boreliană B P(R). Dacă mulţimea valorilor variabilei aleatoare X este numărabilă (şir finit sau infinit): x1, x2, …, xn, … atunci {X = xi} sunt evenimente şi cunoaşterea lui P(X = xi) = f(xi) (i =1, 2, 3,…) permite calculul lui P(X B) = f(xi) unde însumarea se face după valorile lui i pentru care xi B. Funcţia xi f(xi) (i N) se numeşte densitatea de probabilitate a variabilei aleatoare X. Avem: i i N )1 P( ) f(x Dacă mulţimea valorilor variabilei aleatoare X este nenumărabilă, densitatea de probabilitate este o funcţie reală f(x) > 0 astfel că P(a < X < b) = b a f(x)dx În particular f(x)dx)XP(1 În acest caz B f(x)dxB)P(X Observăm că orice constantă a R este formal o variabilă aleatoare X cu valoarea a şi P(X = a) = 1. O variabilă aleatoare cu mulţimea valorilor numărabilă se numeşte discontinuă iar o variabilă aleatoare cu mulţimea valorilor nenumărabilă se numeşte continuă. Exemple de variabile aleatoare discontinue: 1) Cu codificarea 1 = “stema”, 0 = “banul”, variabila aleatoare X: este asociată aruncării unei monezi; 2) La aruncarea unui zar avem variabila aleatoare X: 0 1 ½ ½ 1 2 3 4 5 6 1/6 1/6 1/6 1/6 1/6 1/6 18 3) Se dă o urnă U cu 4 bile albe şi 6 bile negre. Se extrag n = 2 bile succesiv cu bila revenită. Pot apare x = 0, 1, 2 bile albe deci avem variabila aleatoare X: Variabilele de la punctele 1) şi 2) se numesc uniforme deoarece toate valorile au aceeaşi probabilitate (densitatea de probabilitate este funcţie constantă) iar variabila de la punctul 3) nu este uniformă. 4) Fie funcţia restin 0 [2;4] xmx, f(x) f(x) este densitatea de probabilitate a unei variabile aleatoare continue dacă 1f(x) şi 0y)f(x, deci - 1mxdx sau 4 2 1mxdx adică 2 2 4 2 m. 1 2 deci 6 1 m . Este vizibil că f(x) > 0. Funcţia reală F(x) = P(X < x) se numeşte funcţia de repartiţie a variabilei aleatoare X. Teorema 1.1 Avem proprietăţile: 1) F(x) ia valori în [0, 1]; lim x F(x) = 0; 1F(x)lim x 2) F(x) este o funcţie continuă la stânga: lim xx 0 F(x) = F(x0) 3) F(x) este funcţie crescătoare: x1 < x1 F(x1) < F(x2) 4) P(a < X < b) = F(b) – F(a) P(X < b) = F(b) P(a < X) = 1 – F(a) Demonstraţie: 1) Evident 0 < F(x) < 1 conform definiţiei lui F şi punctului 3) din teorema 1.1. Fie şirul descrescător Xn cu limita - şi evenimentele: A0 = “X < x1”, Bn = < X < Xn-1” (n > 2). Avem Bi Bj = Ø pentru i j şi A0 = 2n nB , deci 2n n0 )P(B)P(A sau F(x1) = [F(x1) – F(x2)] + [F(x2) – F(x3)] + …+ [F(x2) – F(x3)] + … + [F(xn) – F(xn+1)] + … adică F(x1) = F(x1) - )F(xn nx lim aşa că 0)F(xn nx lim . Relaţia 1)F(xn nx lim se demonstrează în mod analog. 2) Fie şirul crescător Xn cu limita x0. Fie evenimentele A = “X < x0”; A0 = “X < x1”; An = “xn < X < xn+1” (n N). Avem Ai Aj = Ø pentru i j şi A = A0 A1 A2 … An …, deci P(A) = P(A0) + P(A1) + … + P(An) + …, adică F(x0) = F(x1) + [F(x2) – F(x1)] + … + [F(xn) – F(xn-1)] + …, adică F(x0) = )F(xn xnx lim 0 deci F este continuă la stânga în x0. 0 1 2 9/25 12/25 4/25 19 3) Fie evenimentele A = “X < x1”; B = “X < x2”. Cum x1 < x2 rezultă A B deci P(A) < P(B) aşa că F(x1) < F(x2) deci F este crescătoare. 4) Fie evenimentele A = “X < a”; B = “X < b”; C = “a < X < b”. Avem A C = Ø şi A C = B, deci P(B) = P(A) + P(C) sau F(b) = F(a) + P(a < X < b). Punând în această relaţie a = x0, b = x0 + ΔX, avem P(x0 < X < x0 + ΔX) = F(x0 + Δx) – F(x0). Cum F(x) este continuă la stânga, pentru ΔX 0 egalitatea precedentă devine: P(X = x0) =0. În particular P(X = b) = 0 şi cum evenimentele a < X < b şi X = b sunt compatibile, putem scrie P(a < X < b) = P(a < X < b) + P(X = b) = F(b) – F(a) + 0 = F(b) – F(a) În fine P(X < b) = F(b) - lim x F(x) = F(b) – 0 = F(b) şi P(a < X) = 1 – P(X < a) = 1 – F(a) Q.E.D. Dacă X este variabilă aleatoare discontinuă cu repartiţia n1 n1 ,.......pp ,........xx , ea are funcţia de repartiţie : 0 , x < x1 P1 ,x1 < x < x2 F(x) = P1 + … + pn-1, xn-1 < x < xn 1 ,xn < x Dacă X este variabilă aleatoare continuă cu densitatea de probabilitate f(x), X are funcţia de repartiţie x f(t)dtF(x) . Reciproc, avem F’(x) = f(x). Pe graficul lui f(x), F(x) este aria de sub grafic aflată în stânga ordonatei lui x: Exemple: 1) Pentru variabila aleatoare discontinuă X cu repartiţia: X: ave , avem densitatea de probabilitate: f(x) F(x) x 0 x 1 2 4 6 10 0.11 0.42 0.30 0.07 0.10 20 0.11 , x = 1 0.42 , x = 2 f(x) = 0.30 , x = 4 0.07 , x = 6 0.10 , x = 10 0 , x < 1 0 în rest 0.11 , 1 < x < 2 0.53 , 2 < x < 4 şi funcţia de repartiţie: F(x) = 0.83 , 4 < x < 6 0.90 , 6 < x < 10 1 , 10 < x Avem P(1.5 < X < 7.4) = F(7.4) – F(1.5) = 0.90 – 0.11 = 69% P(X < 5.8) = F(5.8) = 83%; F(3.4 < X) = 1 – F(3.4) = 1 – 0.53 = 47% 2) Pentru variabila aleatoare continuă X cu densitatea de probabilitate: x , x 2; 4 f(x) 6 0 în rest avem funcţia de repartiţie x f(t)dtF(x) Pentru x < 2 avem x F(x) 0dt 0 Pentru 2 < x < 4 avem x x 2 2 t t 1 F(x) dt dt (x 4) 6 6 12 iar pentru x > 4 avem x 4 2 t t dt dt 1 6 6 P(2.3 < X < 3.6) = F(3.6) – F(2.3) = 2 21 [(3.6 4) (2.3 4)] 63.9% 12 ; P(X < 3) = F(3) = 21 (3 4) 42.7% 12 P(2.5 < X) = 1 – F(2.5) = 1 - 21 (2.5 4) 81.2% 12 Două variabilele aleatoare X1, X2 se numesc independente dacă: P(X1 B1 şi X2 B2) = P(X1 B1) . P(X2 B2) În particular dacă X1, X2 sunt variabile aleatoare discontinue, X1, X2 sunt independente dacă pentru orice x1, x2 R evenimentele “X1 = x1” şi “X2 = x2” sunt independente, adică P(X1 = x1 şi X2 = x2) = P(X1 = x1) . P(X2 = x2) Exemple: 1) Aruncarea a două monezi sau zaruri care nu se ciocnesc, dau naştere la variabile aleatoare independente; 2) Extragerea a câte unei bile albe din două urne dau naştere la variabile aleatoare independente. Între variabilele aleatoare independente se fac operaţiile aritmetice obişnuite. 21 Fie de exemplu variabilele aleatoare discontinue independente X şi Y cu repartiţiile m1 m1 p ______,p x______,x :X ; n1 n1 q ______,q y ______,y :Y deci rij = P(X = xi şi Y = yj) = P(P(X = xi) . P(Y = yj)) = pi . qj, n .... 1, j m .... 1,i Dacă a R, avem variabila aleatoare constantă 1 a :a Vom avea variabilele aleatoare cu repartiţiile i i p ax X ; i i p ax :aX ; p /ax : a X i (a 0) i a ia p x :X respectiv ji ji qp yx :YX ; i j i j x y X Y : p .q ; i j i j x /yX : p .qY (yj 0) Dacă X este variabilă aleatoare continuă cu densitatea de probabilitate f(x), atunci se arată că variabila aleatoare Y = φ(X) unde φ este o funcţie bijectivă şi derivabilă, va avea densitatea de probabilitate: g(y) = f[φ-1(y)] . 1[ (y) ]' Exemplu: Se dă variabila aleatoare X cu densitatea de probabilitate: f(x) = Se cere densitatea de probabilitate a variabilelor Y = 2X + 3; Y = e 4X ; Y = ln(X + 1) Soluţie: a) 1 -1 ' y 3 1 Y 2X 3 (y) ; [ (y)] 2 2 aşa că: g(y) = y -3 , x [3; 7] 8 0 , în rest b) 4X 1 -1 ' lny 1 Y e (y) ; [ (y)] 4 4y aşa că: g(y) = 8lny , y [1; e ] 32y 0 , în rest x , x [0, 2] 2 0 , în rest 22 c) 1 y -1 ' yY ln(X 1) (y) e 1; [ (y)] e deci: g(y) = 2y ye - e , y [0; ln3] 2 0 , în rest 1.2.2 Indicatori numerici În afară de funcţia de repartiţie F(x), variabila aleatoare X are şi următorii indicatori numerici: 1) Media M(X) = xf(x)dx Dacă X este discontinuă cu repartiţia X : ; (i N) i i x p , avem M(X) = i i i N px 2) Mediana Me(X) este definită de relaţia: 1 F(Me) 2 3) Modul Mo(x) este punct de maxim pentru f(x) 4) Varianţa V(X) = M[(X – M(X))2] = 2[x M(X)] f(x)dx Dacă X este discontinuă cu repartiţia X : ; (i N) i i x p , avem V(X) = 2 i i i N [x - M(X)] p Observăm că eroarea pătratică totală: SPA(x) = Ni 2 i pi)x(x este minimă pentru x = M(X) şi are valoarea minimă V(X). 5) Abaterea standard σ (X) = V(X) 6) Coeficientul de variaţie c(X) = (%) 100 M(X) σ(X) Exemple: 1) Pentru variabila aleatoare discontinuă X cu repartiţia: 1 2 4 6 10 : 0.11 0.42 0.30 0.07 0.10 X avem: M(X) = 1 x 0.11 + 2 x 0.42 + 4 x 0.30 + 6 x 0.07 + 10 x 0.10 = 3.57; Me(X) = 4; Mo(X) = 2 23 V(X) = (1 – 3.57)2 x 0.11 + (2 – 3.57)2 x 0.42 + (4 – 3.57)2 x 0.30 + (6 – 3.57)2 x 0.07 + (10 – 3.57)2 x 0.10 = 6.3651 σ (X) = 6.3651 2.52 c(X) = 2.52 70.6% 3.57 2) Pentru variabila aleatoare continuă X cu densitatea de probabilitate: f(x) = x , x [2; 4] 6 0 , în rest avem: M(X) = 4 4 3 2 4 3 3 2 2 2 x 1 x 1 xf(x)dx x dx x dx (4 2 ) 3.11 6 6 18 18 F(x) = 12 4x2 , pentru x [2; 4], deci: 2x 4 1 Me(X) 10 3.16; Mo(X) 4 12 2 căci f(x) este crescătoare. V(X)= 4 4 2 2 3 2 2 2 2 x 1 [x M(X)] f(x)dx (x 3.11) dx (x 6.22x 3.11 x) 6 6 4 3 2 2 41 x x x 6.22 11 0.6543; σ(X) 0.6543 0.81 26 4 3 2 c(X) = 0.81 26% 3.11 Proprietăţile mediei M(X) în raport cu operaţiile cu variabile aleatoare, sunt date de: Teorema 1.2 Avem proprietăţile: 1) M(a) = a 2) M(X + a) = M(X) + a 3) M(aX) = aM(X) 4) M(X + Y) = M(X) + M(Y) 5) Dacă X, Y sunt independente, avem: M(X . Y) = M(X) . M(Y) Demonstraţie: Relaţiile rezultă prin calcul direct pentru variabile discontinue: 1 m 1 n 1 m 1 n x ... x y ... y X : ; Y : p ... p q ... q şi se generalizează pentru variabile continue folosind liniaritatea integralelor. Q.E.D. Proprietăţile variantei V(X) în raport cu operaţiile cu variabile aleatoare sunt date de: 24 Teorema 1.3 Avem proprietăţile: 1) V(a) = 0 2) V(X + a) = V(X) 3) V(aX) = a2V(X) 4) V(X) = M(X2) – M2(X) 5) X, Y = independente V(X + Y) = V(X) + V(Y) Demonstraţie: Relaţiile rezultă prin calcul direct (folosind şi teorema 1.2) pentru variabile discontinue: 1 m 1 n 1 m 1 n x ... x y ... y X : ;Y : p ... p q ... q şi se generalizează pentru variabile continue folosind liniaritatea integralelor. Q.E.D. Fie X o variabilă aleatoare cu media M(X) şi varianţa V(X) şi fie ε > 0. Dacă cunoaştem funcţia de repartiţie F(x) avem P(M(X) – ε < X < M(X) + ε) = εM(x)FεM(x)FεM(x)XP . În caz contrar aplicăm inegalitatea Cebâşev valabilă pentru ε > σ (X), dată de: Teorema 1.4 2ε V(X) 1εM(X)XP Demonstraţie: Fie variabila aleatoare discontinuă X cu repartiţia n1 n1 p ........, ,p x........, ,x :X Fie I = i i [1;n] : x M(X) ε , deci: n i i i 1 i I P X M(X) ε 1 P x M(X) ε =1 p Avem n 2 2 2 i i i i i i 1 i I i I V(X) x M(X) p x M(X) p ε p , aşa că: Ii i2 εM(X)XPp1 ε V(X) 1 . Demonstraţia când X este variabilă aleatoare continuă se face la fel ca mai sus, înlocuind sumele cu integrale. Q.E.D. Exemple: 1) Se dă variabila aleatoare discontinuă X cu repartiţia: 1 2 4 6 10 X : 0.11 0.42 0.30 0.07 0.10 şi cu M(X) = 3.57; V(X) = 6.3651; σ (X) = 2.52. Se cere o margine inferioară pentru P X 3.57 3 Soluţie: Conform inegalităţii Cebâşev cu ε = 3 σ (X) avem: 25 2 V(X) 6.3651 P X 3.57 3 1 1 29.3% ε 9 . 2) Pentru variabila aleatoare continuă X cu densitatea de probabilitate X ,X 2; 4 f(X) 6 0 , în rest , şi cu M(X) = 3.11; V(X) = 0.6543; σ (X) = 0.81 Se cere o margine inferioară pentru 13,11XP . Soluţie: Conform inegalităţii Cebârşev cu ε = 1 > σ (X) avem: 2 V(X) 0.6543 P X 3.11 1 1 1 34.6% ε 1 1.2.3 Funcţia caracteristică Un instrument puternic în studiul variabilelor aleatoare oferă funcţia caracteristică. Fie X o variabilă aleatoare cu densitatea de probabilitate f(X) şi fie variabila aleatoare complexă: itXe cos tX sin tXi Funcţia complexă de variabilă reală: (t) = M(eitX) = M(cos tX + isin tX) se numeşte funcţie caracteristică a variabilei aleatoare X. Dacă X este variabilă aleatoare discontinuă avem: Dacă X este variabilă aleatoare continuă avem: itx(t) e f(x)dx . În ambele cazuri φ(t) este funcţie continuă. Teorema 1.5 Avem proprietăţile: 1) φ(0) = 1; (t)(-t) 1;(t) 2) Dacă X are funcţia caracteristică φ(t) atunci aX are funcţia caracteristică φ(at). 3) Dacă X, Y sunt independente şi au funcţiile caracteristice φ1(t), φ2(t) atunci variabila aleatoare X + Y are funcţia caracteristică φ1(t) . φ2(t). 4) Momentele de ordin k ale lui X sunt date de relaţiile: (k) k k (0) M(X ) ; (k N) i Demonstraţie: 1) φ(0) = M(e0) = M(1) = 1 ( ) j itx j j N t e p 26 itxitx(t) e f(x)dx e f(x)dx cos tx i sin tx f(x)dx f(x)dx 1 (t)sin tX) i- tXM(cos)M(et)( itX 2) Variabila aleatoare aX are funcţia caracteristică: (at)f(x)dxe)M(e i(at)xX t a i 3) X + Y are funcţia caracteristică: it(X Y) i t X itY it X i t Y(t) M(e ) M(e .e ) M(e ).M(e ) căci X, Y sunt independente deci φ(t) = φ1(t) . φ2(t). 4) Derivăm funcţia caracteristică de k ori: (k) k i t x k k i t x(t) (ix) e f(x)dx i x e f(x)dx , deci: (k) k k k k(0) i x f(x)dx i M(X ) Q.E.D. Inversarea transformatei Fourier permite exprimarea în mod unic a densităţii de probabilitate f(x) a variabilei aleatoare X cu ajutorul funcţiei caracteristice φ(t): (t)dte 2π 1 f(x) t xi Teorema 1.5 transferă proprietăţile lui φ(t) la f(x): 1) f(x) > 0; 1f(x)dx 2) Dacă variabila aleatoare X are densitatea de probabilitate f(x), variabila aX are densitatea a.f(x). 3) Dacă variabilele aleatoare independente X, Y au densităţile de probabilitate f1(x), f2(x), atunci variabila aleatoare X + Y are ca densitate de probabilitate produsul de convoluţie al lui f1(x), f2(x): f(x) f(s)g(x )ds f(x )g(s)dss s 4) Momentele de ordin k ale variabilei aleatoare X sunt date de relaţia: k kM X x f(x)dx Exemple: 1) Fie variabila aleatoare discontinuă X cu repartiţia 1 2 4 X : 0.1 0.6 0.3 Să se afle funcţia caracteristică φ(t) 27 Soluţie: it 2it 4it(t) e 0.1 e 0.2 e 0.3 2) Fie variabila aleatoare continuă X cu densitatea de probabilitate x , x 2; 4 f(x) 6 0 în rest . Se cere funcţia caracteristică φ(t) Soluţie: 4 2 4 2 4 2 t xi t xi dxsin tx x idx t x cosx 6 1 xdxe 6 1 f(x)dxe(t) 2it4it 2 e2it1e4it1 6t 1 1.3 VECTORI ALEATORI 1.3.1 Densitatea de probabilitate şi funcţia de repartiţie Fie spaţiul euclidian Rn şi σ - algebra mulţimilor boreliene B P(Rn) adică cea mai mică σ - algebră de submulţimi ale lui Rn care conţine toate intervalele din Rn. Fie câmpul de probabilitate (Ω, K, P). Un vector aleator n – dimensional este o funcţie X = (X1, …, Xn): Ω R n astfel că KBX(ω(ω pentru orice mulţime boreliană B P(Rn). Componentele X1, …, Xn sunt variabile aleatoare numite variabile marginale pentru X. Pentru simplificarea expunerii, vom prezenta cazu n = 2, adică vectorii aleatori bidimensionali Z = (X, Y). Dacă mulţimea valorilor vectorului aleator Z = (X, Y) este numărabilă (şir finit sau infinit) vectorul aleator se numeşte discontinuu. De exemplu dacă variabila aleatoare X ia valorile x1, ….., xm iar variabila aleatoare Y ia valorile y1, …, yn, cunoaşterea lui rij = P(X = xi şi Y = yj), adică a densităţii de probabilitate a lui Z = (X, Y) cu m 1i n 1j rij1 , permite cunoaşterea repartiţiei vectorului aleator discontinuu Z = (X, Y) Repartiţia vectorului aleator discontinuu Z = (X, Y) se dă prin tabelul: Y X y1……………………… yn Suma linie x1 . . . . xm r11 …………………….. r1n rm1 ……………………...rmn q1 . . . . qn Suma coloană p1 ……………………… pn 1 28 Variabila marginală X are repartiţia m1 m1 p ___ p x___ x :X media: m 1i iipxM(X) şi varianţa: m 1i 2 i 2 i M(X)pxV(X) Variabila marginală Y are repartiţia n1 n1 q ___ q Y ___ y :Y media: n 1j jjqyM(Y) şi varianţa: n 1j 2 j 2 j M(Y)qyV(Y) Exemplu: La tragerea la ţintă, orice lovitură este caracterizată de perechea (X, Y) unde X este abaterea în direcţie faţă de centrul O al ţintei şi Y este abaterea în înălţime faţă de centrul O al ţintei iar rij = P(X = xi şi Y = yj); i, j N este probabilitatea ca o lovitură să aibă abaterea în direcţie xi şi în înălţime yj. Dacă mulţimea valorilor vectorului aleator Z = (X, Y) este nenumărabilă, atunci vectorul aleator se numeşte continuu şi densitatea sa de probabilitate este o funcţie reală f(x, y) > 0 astfel că P(a < X < b şi c < Y < d) = b a d c y)dxdyf(x, . În particular - y)dxdyf(x,R)Y si RP(X1 Exemplu: Fie funcţia restin 0 1;3y 2;4 xy,mx y)f(x, 2 şi f(x, y) este densitatea de probabilitate al vectorului aleator continuu Z = (X, Y) dacă 1y)f(x, şi f(x,y) > 0 deci 1ydxdymx2 sau 4 2 3 1 2 1ydydxxm , deci: 14 3 56 m aşa că 224 3 m . Vizibil f(x, y) > 0. Funcţia de repartiţie a vectorului aleator Z = (X, Y) este F(x, y) = P(X < x şi Y < y). Ca şi în cazul variabilei aleatoare (teorema 2.1.) se demonstrează: Teorema 1.6 Avem proprietăţile: 1) F(x, y) ia valori în [0; 1]; 29 1y)F(x,y)F(x,y)F(x, limlim lim ),(y)(x,yx 2) F este continuă la stânga în raport cu fiecare variabilă: y),F(xy)F(x, 0 xx lim 0 ; )yF(x,y)F(x, 0 yy lim 0 3) F este crescătoare în raport cu fiecare variabilă: x1 < x2 F(x1, y) < F(x2, y) y1 < y2 F(x, y1) < F(x, y2) 4) P[a < X < b şi c < Y < d] = [F(b, d) – F(a, d)] - [F(b, c) – F(a, c)] P(X < b şi Y < d) = F(b, d) P(a < X şi c < Y) = 1 – F(a, c) Variabilele aleatoare X, Y care compun vectorul aleator Z = (X, Y), au funcţiile de repartiţie: y)F(x,(x)F lim y 1 şi y)F(x,(y)F lim x 2 Cunoscând densitatea de probabilitate f(x, y) a vectorului aleator X = (X, Y), funcţia sa de repartiţie este dată de relaţia: yx F(x, y) f(s, t)ds dt Reciproc, dacă F(x, y) este derivabilă de două ori în raport cu x, y avem densitatea de probabilitate f(x, y) = F”xy(x, y). Variabilele X, Y vor avea densităţile de probabilitate: (x)F'y)dyf(x,(x)f 11 (y)F'y)dxf(x,(y)f 22 Exemplu: Pentru vectorul aleator Z = (X, Y) cu densitatea de probabilitate: restin 0 1,3y 2,4 x;y x 224 3 y)f(x, 2 avem funcţia de repartiţie 3 2 2 23 3( , ) ( , ) d t d t 14 224 3 2 y y yx x x x ys t F x y f s t ds s tds s ds tdt adică: 3 3 2 2 0 , x 2 sau y 1 1 F(x, y) (x 2 )(y 1 ) în rest 448 1 , x y si y 3 30 Pe graficul suprafeţei z = f(x, y), densitatea de probabilitate f(x, y) este cota punctului de abscisă x şi ordonată y iar funcţia de repartiţie F(x, y) este volumul de sub suprafaţa z = f(x, y) aflat în semispaţiul Z > 0 şi în stânga planelor X = x şi Y = y. Teorema 1.7 Variabilele aleatoare X, Y din componenţa vectorului aleator Z = (X, Y) sunt independente dacă şi numai dacă F(x, y) = F1(x) . F2(y) sau dacă şi numai dacă f(x, y) = f1(x) . f2(y) Demonstraţie: X, Y sunt independente dacă şi numai dacă evenimentele “X < x” şi “Y < y” sunt independente dacă şi numai dacă P(X < x şi Y < y) = P(X < x) . P(Y < y) dacă şi numai dacă F(x, y) = F1(x) . F2(y) de unde prin derivare parţială în raport cu x, y obţinem F”xy(x, y) = F’1(x) . F’2(y) adică f(x, y) = f1(x) . f2(y). Q.E.D. 1.3.2 Indicatori numerici În afară de funcţia de repartiţie F(x, y), vectorul aleator Z = (X, Y) are şi următorii indicatori numerici: 1) Vectorul medie M(Z) = (M(X), M(Y)) unde: (y)dy yfM(Y) (x)dx;xfM(X) 21 Dacă X, Y sunt discontinue, de exemplu dacă m1 m1 p ___ p x___ x :X şi n1 n1 q ___ q y ___ y :Y avem: m 1i iipxM(X) ; n 1j jjqyM(Y) 2) Matricea de covarianţă: Y)C(Y, X)C(Y, Y)C(X, X)C(X, C(Z) Aici C(X, Y) este covarianţa variabilelor aleatoare X, Y dată de relaţia de definiţie: C(X, Y) = M[(X – M(X) . (Y – M(Y)]. Dacă X, Y sunt discontinue, avem: m 1i n 1j ijji rM(Y))(yM(X))(xY)C(X, unde rij = P(X = xi şi Y = yj). Dacă X, Y sunt continue avem: C(X, Y) (x M(X) (y M(Y)) (x, y)dx dyf Este vizibil că C(X, Y) = C(Y, X) De asemenea, avem: m 1i 1i 2 i (x)dxfM(X))(xpM(X))(xV(X)X)C(X, , respectiv: n 1j 2j 2 j (y)dyfM(Y))(yqM(Y))(yV(Y)Y)C(Y, 31 Observăm că eroarea pătratică totală: m n 2 2 i i j j i 1 j 1 SPA(x, y) (x x ) p (y y ) q este minimă pentru x = M(X), y = M(Y), valoarea minimului fiind urma V(X) + V(Y) a matricii de covarianţă C(Z). 3) Funcţia de regresie Y = g(X) În cazul vectorului aleator discontinuu Z = (X, Y) definim mediile condiţionate: n 1j ijjiXic ry(Y)xM)(xM se defineşte prin relaţiile: g(xi) = MX = xi (Y) În cazul vectorului aleator continuu Z = (X, Y) definim mediile condiţionate: Mc(xi) = MX = Xi(Y) = y)dyyf(x, iar funcţia de regresie va fi: g(x) = Mc(x) 4) Coeficientul de corelaţie liniară al variabilelor aleatoare X, Y este definit de relaţia: σ(Y)σ(X) Y)C(X, V(Y)V(X) Y)C(X, Y)ρ(X, Proprietăţile covarianţei C(X, Y) în raport cu operaţiile cu variabile aleatoare, sunt date de: Teorema 1.8 Avem proprietăţile: 1) C(a, b) = 0 2) C(X + a, Y + b) = C(X, Y) 3) C(aX, bX) = abC(X, Y) 4) C(X, Y) = M(X . Y) – M(X) . M(Y) = V(Y)V(X)Y)V(X 2 1 5) Dacă X, Y sunt variabile aleatoare independente atunci C(X, Y) = 0, adică X, Y sunt necorelate liniar. Dacă X, Y sunt variabile aleatoare normale este adevărată şi reciproca. Demonstraţie: Relaţiile 1) – 4) rezultă prin calcul direct, folosind teoremele 1.2 şi 1.3 şi definiţia lui C(X, Y). Dacă X = Y, din teorema 1.8 reobţinem teorema 1.3. Să demonstrăm punctul 5) din enunţ. Dacă X, Y = variabile aleatoare independente, conform teoremelor 1.2 şi 1.3 avem M(X . Y) = M(X) . M(Y) respectiv V(X + Y) = V(X) + V(Y) deci conform punctului 4) din enunţ, avem C(X, Y) = 0 adică X, Y nu sunt corelate liniar. Reciproca pentru X, Y = variabile aleatoare normale va fi demonstrată în teorema 1.10. Dacă X, Y nu sunt variabile aleatoare normale, reciproca afirmaţiei de la punctul 5) din enunţ, nu este adevărată: există variabile necorelate liniar care sunt dependente. Exemplu: Pentru vectorul aleator discontinuu Z = (X, Y) cu repartiţia Y X 1 3 Suma p 1 2 0.4 0 0.1 0.5 0.4 0.6 Suma q 0.5 0.5 1 32 avem C(X, Y) = 0 deşi: 0.1 = P(X = 2, Y = 1) P(X = 2) . P(Y = 1) = 0.6 . 0.5 = 0.3. Q.E.D. Proprietăţile coeficientului de corelaţie liniară ρ(X, Y) în raport cu operaţiile cu variabile aleatoare sunt date de: Teorema 1.9 Avem proprietăţile: 1) ρ(a, b) = 0 2) ρ(X + a, Y + b) = ρ(X, Y) 3) ρ(aX, bY) = ρ(X, Y) 4) 1;Y)ρ(X, 1;Y)ρ(X, dacă şi numai dacă X, Y sunt dependente funcţional liniar: Y = aX + b 5) Dacă X, Y sunt variabile aleatoare independente atunci ρ(X, Y) = 0 adică X, Y sunt necorelate liniar. 6) Dacă X, Y sunt variabile aleatoare normale, este adevărată şi reciproca. Demonstraţie: Relaţiile 1) – 3) rezultă prin calcul direct, folosind teoremele 1.3, 1.8 şi definiţia lui ρ(X, Y) = V(Y)V(X) Y)C(X, . Din relaţiile 2) – 3) rezultă: σ(Y) M(Y)-Y , σ(X) M(X)X CY)ρ(X, Relaţia 5) din enunţ rezultă din relaţia 5) a teoremei 2.8 şi din definiţia lui ρ(X, Y). Să demonstrăm punctul 4) din enunţ. Avem V[σ (Y) . X - σ (X) . Y] > 0, relaţie în care folosim teoremele 2.2, 2.3, 2.8 şi obţinem: σ 2(X) . σ 2(Y) - σ (X) . σ (Y) . C(X,Y) > 0 sau 1 σ(X)σ(Y) Y)C(X, În mod analog relaţia V[σ (Y) . X + σ (X) . Y] > 0 conduce la relaţia ρ(X, Y) > - 1 deci 1Y)ρ(X, Dacă 1Y)ρ(X, să arătăm că Y = aX + b. Fie funcţia E(a, b) = M[(Y – aX – b)2] Folosind teoremele 2.2, 2.3, 2.8, avem: E(a, b) = V(Y) + a 2 V(X) – 2a ρ(X, Y) . σ (X) σ (Y) + [M(Y) – aM(X) - b]2 Pentru a minimiza funcţia E(a, b), anulăm derivatele sale parţiale în raport cu a, b: baM(X)M(Y)2E' 0baM(X)M(Y)2M(X)σ(X)σ(Y)Y),2ρρX2aV(x)E' b a cu soluţia: σ(X) σ(Y) Y)ρ(X,a ; aM(X)M(Y)b Valoarea minimului este V(Y)Y)](X,ρ[1E 2min . Dacă 1Y)ρ(X, avem Emin = 0 adică: M(Y – aX – b) = 0, deci Y = aX + b 33 Reciproc, dacă Y = aX + b să arătăm că 1Y)ρ(X, Avem 1 a 1 V(X)aV(X) aV(X) b)V(aXV(X) b)aXC(X, b)aXρ(X,Y)ρ(X, 2 deoarece C(X, aX + b) = M[X(aX + b)] – M(X) . M(aX + b) = aM(X2) – aM2(X) = aV(X) Dacă a > 0 avem ρ(X, aX + b) = 1 iar dacă a < 0 avem ρ(X, aX + b) = -1, a se numeşte coeficientul de regresie liniară iar b se numeşte termenul liber al regresiei. Exemplu: Fie vectorul aleator discontinuu Z = (X, Y) cu repartiţia: Y X 1 2 0 Suma p 1 2 0.5 0.1 0 0 0 0.4 0.6 0.4 Suma q 0.5 0.1 0.4 1 Să se calculeze M(Z), C(Z), Y = g(X), ρ(X, Y) şi coeficienţii regresiei liniare a, b. Soluţie: Variabila 1 2 X : 0.6 0.4 Variabila 1 2 3 Y : 0.5 0.1 0.4 Vectorul medie este M(Z) =( 1.4; 1.9) Avem covarianţa C(X, Y) =( 1 – 1.4) . (1 – 1.9) . 0,5 + (1 – 1.4) . (2 – 1.9) . 0.1 + (2 – 1.4) . (2 – 1.9) . 0.4 = 0.44 Matricea de covarianţă va fi: 0.24 0.44 C(Z) 0.44 0.89 Avem mediile condiţionate: MX = 1(Y) = 1 . 0.5 + 2 . 0.1 + 3 . 0 = 0.7 MX = 2(Y) = 1 . 0 + 2 . 0 + 3 . 0.4 = 1.2 deci funcţia de regresie Y = g(X) are forma tabelară: Avem coeficientul de corelaţie liniară: C(X, Y) 0.44 ρ(X, Y) 0.96 V(X) V(Y) 0.24 0.89 Coeficientul de regresie este: σ(Y) 0.89 a ρ(X, Y) 0.96 1.85 σ(X) 0.24 Termenul liber al regresiei este: b = M(Y) – aM(X) = 1.9 – 1.85 . 0.24 = 1.46 are media M(X) = 1.4 şi varianţa V(X) = 0.2 are media M(Y) = 1.9 şi varianţa V(Y) = 0.89 x g(x) 1 2 0.7 1.2 34 1.4 VARIABILE ALEATOARE CLASICE DISCONTINUE 1.4.1 Variabila binomială Variabila aleatoare binominală este variabilă aleatoare cu un număr finit de valori având ca model schema bilei revenite. Această schemă este un caz particular al unei scheme mai generale, numită schema lui Poisson care constă în următoarele: Se dau n urne: U1 cu a1 bile albe şi b1bile negre, Un cu an bile albe şi bn bile negre. Se extrag n bile, câte una din fiecare urnă (extrageri independente). Probabilitatea de a extrage o bilă albă din urna Uj este: pj = (aj/(aj + bj) iar probabilitatea de a extrage o bilă neagră din urna Uj este qj = 1 - pj, (1 j n). Teorema 1.10 Probabilitatea ca din n bile să obţinem k bile albe (k = 0, 1, …, n) şi restul negre, este coeficientul lui t k în produsul (p1t + q1)….(pnt + qn) este: 1 1, ... .... k k nn k i i i i P p p q q Demonstraţie: Fie Aj evenimentul extragerii unei bile albe din urna Uj şi Äj evenimentul extragerii unei bile negre din urna Uj (1 j n). Obţinerea a k bile albe şi n - k bile negre când se extrage câte o bilă din fiecare din cele n urne, constă în realizarea unui eveniment de forma: An,k = Ai1 … Aik A ik + 1 ... A in unde i1, ..., in este o permutare a indicilor 1, …, n. Cum evenimentele Aj, A j sunt independente câte două, avem: P(An,k) = pi1….pikqik+1….qin Evenimentele An,k fiind incompatibile câte două, probabilitatea Pn,k a obţinerii a k bile albe şi n - k bile negre în schema Poisson, va fi: Pn,k = pi1….pikqik+1…..qin pentru toate permutările i1,..., in ale indicilor 1,…, n adică chiar coeficientul lui t k în produsul (p1t + q1)….(pnt + qn). Q.E.D. Schema lui Poisson se aplică când se urmăreşte ca în experimente independente să apară de k ori un eveniment A, dacă se cunosc probabilităţile diferite de realizare a sa în cele n experimente. Schema bilei revenite se obţine ca un caz particular din schema lui Poisson când urnele U1,…, Un au un conţinut identic în bile albe şi negre: a1 =…..= an = a şi b1 =…. bn = b În acest caz, extragerea simultană a câte unei bile din cele n urne identice U cu a bile albe şi b bile negre este echivalentă cu extragerea succesivă a n bile dintr-o singură urnă U cu a bile albe şi b bile negre, punând bila înapoi în urnă după fiecare extragere, pentru ca urna U să fie identică la fiecare din cele n extrageri succesive. Avem p1 =…..= pn = p şi q1 =….qn = q = 1 - p, deci Pn,k este coeficientul lui t k în produsul (pt + q)…(pt + q) = (pt + q)n adică: Pn,k = Cn k p k q n-k ; (k = 0, 1,…, n). Schema bilei revenite se aplică când se urmăreşte ca în n repetări independente ale unui experiment, să apară de k ori un eveniment A, dacă se cunoaşte probabilitatea sa de realizare în acel experiment. Aruncările repetate de monezi şi zaruri se supun schemei bilei revenite, dând naştere la evenimente independente. Formula combinărilor este: ( 1)...( 1) ! ( ) 1.2... !( )! k n n k n k n n n n k n C C k k n k 35 Funcţii EXCEL pentru aranjamente, permutări şi combinări: a) Aranjamente de n obiecte luate câte k: An k = n(n - 1)…(n – k + 1) = n!/(n - k)! Funcţia EXCEL: = PERMUT(n, k) b) Permutări de k obiecte: Pk = 1.2….k = k! Funcţia EXCEL: = FACT(k) c) Combinări de n obiecte luate câte k: Cn k = ( n k) = An k /Pk = n!/k!(n - k)! Funcţia EXCEL: = COMBIN(n, k) Dacă n şi k au valori mari, factorialele se calculează aproximativ cu formula Stirling: ! 2 .( ) n n n n e În concluzie variabila binomială B(n, p) are densitatea de probabilitate: f(k) = Cn k p k q n - k ; (k = 0, 1,…, n) (1) Calculul lui f(k) se face mai comod prin formulele recurente: f(0) = q n , (k = 0) n)1,2,...,(k . 1 ).1()( q p k kn kfkf Funcţia de repartiţie binomială este: Funcţie EXCEL: = BINOMDIST(k, n, p, L) Pentru L = FALSE avem densitatea de repartiţie binomială f(k) iar pentru L = TRUE avem funcţia de repartiţie binomială F(k). Funcţia caracteristică este nqitpet )()( Din teorema 1.5 rezultă (0) ( ) ' M X np i şi 2 2 2 2 ( ) "(0) M X n p npq i aşa că V(X) = M(X2) - M2(X) = npq. Modul Mo(X) satisface relaţia np – q ≤ Mo(X) ≤ np + q. Teorema 1.11 Dacă X, Y sunt variabile binomiale independente de tip B(n1, p) şi respectiv B(n2, p), atunci X + Y este variabilă binomială de tip B(n1 + n2, p). Demonstraţie: Conform teoremei 1.5, X + Y are funcţia caracteristică (pe it + q) n1 .(pe it + q) n2 = (pe it + q) n1 + n2 , deci X + Y este variabilă binomială B(n1 + n2, p). Q.E.D. Valorile f(k) din formula (1) se obţin prin calcul direct pentru n < 30 iar pentru n ≥ 30 variabila binomială se poate aproxima cu cea normală (Teorema 1.14 (Moivre - Laplace) de mai jos). Observăm că f(k) din formula (1) este termenul general al dezvoltării binomului 1 = (q + p)n, de unde şi denumirea de variabilă binomială. 0 ( ) k h h n h n h F k C p q 36 Dacă urna U are a1 bile de culoarea 1,…, am bile de culoarea m şi extragem succesiv n bile cu bila revenită, dorim să apară k1 bile de culoarea 1,…, km bile de culoarea m, deci avem variabila aleatoare polinomială cu densitatea de probabilitate: 1 1 1 1 ! ( ,... ) ... !... ! mkkm m m n f k k p p k k , (k1,…, km = 0, 1,…., n; k1 +…+ km = n) Pentru m = 2 reobţinem variabila aleatoare binominală. Exemple: 1) Se aruncă o monedă de n = 5 ori. Care este probabilitatea să apară stema de k = 2 ori? Soluţie: Aruncările succesive ale monedei sunt independente deci se supun legii binomiale. Acum 2,5, 2 1 1, 2 1 knpqp deci conform relaţiei (1) avem: 2 2 3 5 5 1 1 5.4 1 5 (2) ( ) ( ) . 31.2% 2 2 1.2 162 f C Funcţii EXCEL: = BINOMDIST(2, 5, 0.5 ,FALSE) = 31.2% = BINOMDIST(2, 5, 0.5, TRUE) = 50% Numărul mediu de bile albe va fi: M(X) = np = 5.2 2 5 bile albe şi abaterea standard a numărului de bile albe va fi 1 . 2 1 5 ( ) npq 5. 1.1 bile albe 2 2 x 2) Se aruncă un zar de n = 4 ori. Care este probabilitatea să apară faţa nr. 6 de k = 2 ori? Soluţie: Aruncările succesive ale zarului sunt independente deci se supun legii binomiale. Avem 2,4, 6 5 1, 6 1 knpqp deci conform relaţiei (1) avem: 2 2 2 2 2 4 4 3 1 5 4.3 5 5 25 (2) ( ) ( ) . 11.6% 6 6 1.2 2166 6 f C Funcţii EXCEL: = BINOMDIST(2, 4, 1/6, FALSE) = 11.6% = BINOMDIST(2, 4, 1/6, TRUE) = 98.4% Numărul mediu de feţe nr. 6 apărute va fi 7.0 6 4 )( npxM bile iar abaterea standard a numărului de feţe nr. 6 apărute va fi ( )x npq = 20 36 = 7.0 3 5 bile 3) Se dă o urnă U cu a = 6 bile albe şi b = 14 bile negre. Se extrag succesiv n = 4 bile cu bila revenită. Care este probabilitatea să obţinem k = 2 bile albe? Soluţie: Avem 2,4, 20 14 1, 20 6 knpqp deci conform formulei (1) avem: %5.26 10 7.3 . 2.1 3.4 ) 20 14 () 20 6 ()2( 4 22 222 4 Cf 37 Funcţii EXCEL: = BINOMDIST(2, 4, 0.3, FALSE) = 26.5% = BINOMDIST(2, 4, 0.3, TRUE) = 91.6% 1.4.2 Variabila hipergeometrică Variabila aleatoare hipergeometrică este variabila aleatoare cu un număr finit de valori având ca model schema bilei nerevenite. Fie o urnă U cu a bile albe şi b bile negre din care se extrag succesiv n bile fără revenirea în urnă a bilei după fiecare extragere (extrageri dependente). Cele n bile pot fi extrase şi simultan. Schema bilei nerevenite se aplică la controlul calităţii produselor, deoarece cu convenţia bilă albă = obiect bun şi bilă neagră = rebut, rebuturile nu se mai întorc în urnă după extragere. Teorema 1.12 Probabilitatea ca din n bile extrase să apară k bile albe (k = 0, 1,…, n) în cadrul schemei bilei nerevenite este: , .k n ka b n k n a b C C P C Demonstraţie: Din a bile albe se pot forma Ca k grupe distincte de câte k bile albe în fiecare grupă iar din b bile negre se pot forma Cb n - k grupe distincte cu n - k bile negre în fiecare grupă. Extragerea culorilor albă şi neagră fiind independente, numărul cazurilor favorabile în schema bilei nerevenite este C k a.Cb n - k . Din a + b bile se pot forma Ca + b n grupe distincte cu n bile în fiecare grupă, deci numărul cazurilor egal posibile în schema bilei nerevenite este Ca + b n . Conform definiţiei clasice a probabilităţii avem: , . Q.E.D. k n k a b n k n a b C C P C În concluzie, densitatea de probabilitate a variabilei hipergeometrice H(a, b, n) este: n ba kn b k a C CC kf . )( Un calcul comod pentru f(k) se face cu formulele de recurenţă: ( 1)....( 1) (0) ; (k 0) ( )( 1)....( 1) ( 1)( 1) ( ) ( 1). ; (k 1,2,......n) ( ). n a n a b C a a a n f a b a b a b nC a k n k f k f k b n k k Funcţia de repartiţie hipergeometrică este: Funcţie EXCEL: = HYPGEOMDIST(k, n, a, a + b) Avem M(X) = np; V(X) = npq ) 1 1 1( ba n Dacă a + b ∞, variabilele binomială şi hipergeometrică au aproximativ aceeaşi repartiţie. Dacă urna U are a1 bile de culoarea 1,…, am bile de culoarea m, extragem succesiv cu bila nerevenită n bile (extragerile pot fi şi simultane). 0 . ( ) h n hk a b n h a b C C F k C 38 Dorim să apară k1 bile de culoarea 1,…, km bile de culoarea m, deci avem variabila hipergeometrică cu m stări cu densitatea de probabilitate: 1 1 1 1 1 .... 1 1 ... ( ,...., ) ( ,...., 0,1,...., ; .... ) m m m m kk a a m n a b a b m m C C f k k C k k n k k n Exemplu: Într-un incubator sunt 1000 ouă din care 5% neeclozionate. Se extrag simultan n = 100 ouă. Care este probabilitatea ca să găsim k = 90 ouă eclozionate? Soluţie: Avem schema bilei revenite cu a = 950 ouă eclozionate şi b = 50 ouă neeclozionate. Avem P100,90 = 100 1000 10 50 90 950. C CC Funcţie EXCEL: = HYPGEOMDIST (90, 100, 950, 1000) = 1.4% M(X) = np = 100 x 0.95 = 95 ouă eclozionate. V(X) = npq( 1 (1 ) 100 0.95 0.05 1 n a b . (1 100 1 ) 4.3 ( ) 4.3 2.1 1000 1 deci x ouă eclozionate. 1.4.3 Variabila Poisson Variabila aleatoare Poisson este variabilă cu un şir infinit de valori cu densitatea de probabilitate: ( ) ; ( 0,1,2,...) ! k f x e k k Notaţie: PO() f(k) se calculează recurent astfel: f(0) = e; (k = 0) f(k) k kf ).1( ; (k = 1, 2, 3,…) Funcţia de repartiţie Poisson este: Funcţie EXCEL: = POISSON(k, λ, L) Pentru L = FALSE avem densitatea de repartiţie Poisson f(k) iar pentru L = TRUE avem funcţia de repartiţie F(k). Funcţia caracteristică este ( 1)( ) itet e de unde conform teoremei 2.5. rezultă: " 2 2 2 2 2 '(0) (0) ( ) ; M(X ) i deci V(X) M(X )-M (X) M X i 0 ( ) ! hk h F k e h 39 Teorema 1.13 Dacă X, Y sunt variabile Poisson de tip PO () respectiv PO(atunci X + Y este variabilă Poisson de tip PO Demonstraţie: Conform teoremei 1.5, X + Y are funcţia caracteristică: 1 2 1 2( 1) ( 1) ( )( 1) 1 2( ) ( ) ( ) . it it ite e e t t t e e e , deci X + Y este variabilă Poisson de tip: PO( Q.E.D. Teorema 1.14 Variabila Poisson se obţine din variabila binomială dacă n ∞, p 0 şi np = Demonstraţie: Avem: k n 1/ ( ) 1 1 (1 ) (1 )....(1 ). care tinde catre ! k!(1 ) 1 1 deoarece (1- )...(1 ) 1, (1 ) 1 şi (1-p) [(1 ) ] . n k n k k n k n k k p np np k p C p q e k n n p k p p e n Rezultă că modelul aproximativ al variabilei Poisson este schema bilei revenite aplicată unei urne foarte bogate iar cu foarte puţine bile albe şi din care se extrag succesiv cu bila revenită un număr de n foarte mare de bile. Din acest motiv variabila Poisson se mai numeşte variabila evenimentelor rare. Repartiţia Poisson se găseşte des în agricultură: numărul gemenilor, numărul animalelor cu tare genetice şi numărul celulelor iradiate cu particule sunt evenimente rare. Exemplu: Numărul mediu de miei la 100 oi este de 120 miei. Care este probabilitatea ca o oaie să fete 2 miei? Soluţie: Avem = 1.2 şi k = 2, deci 2 1.21.2(2) 21.7 2! f e %. Funcţii EXCEL: = POISSON(2, 1.2, FALSE) = 21.7% = POISSON(2, 1.2, TRUE) = 87.9% 1.5 VARIABILE ALEATOARE CLASICE CONTINUE 1.5.1 Variabila uniformă Variabila aleatoare uniformă are densitatea de probabilitate: f(x) = 1, x [0; 1] f(x) = 0, în rest. Funcţia caracteristică este it e t it 1 )( şi conform teoremei 1.5. avem: M(X) = 2 1)0(' i ; '' 2 2 2 2 (0) 1 1 ( ) deci V(X) M(X )-M (X) 3 12 M X i Valorile x 0, 1 ale lui γ se numesc numere aleatoare şi se tabelează sau se generează cu calculatorul (funcţia RND). 40 Cu ajutorul variabilei uniforme γ , se pot simula valorile oricărei variabile aleatoare prin metoda Monte Carlo. Simularea altor variabile aleatoare clasice se face cu ajutorul variabilei uniforme γ astfel: Alegem în mod aleator (la întâmplare) m valori ale variabilei uniforme γ i [0, 1] şi luăm x = xi dacă F(xi) = γi, (i = 1, …, m) unde F(x) este funcţia de repartiţie a variabilei aleatoare X. Dacă X este variabilă aleatoare discontinuă cu un număr finit de valori, cu repartiţia: n1 n1 p ___ p x___ x :X din relaţia F(xi) = γi, (i = 1, …, m) rezultă că vom lua: xi = x1 dacă 0 < γi < p1 xi = x2 dacă p1 < γi < p1 + p2 ……………………………………. xi = xk dacă p1 + … + pk-1 < γi < p1 + … + pk ………………………………………………………. xi = xn dacă p1 + … + pn-1 < γi < 1 Dacă X este variabilă aleatoare discontinuă cu un şir infinit de valori, din condiţia 0 < pi < 1 şi 1i i 1p rezultă că numai pentru un număr finit de valori xi avem pi > ε cu 0 < ε < 1 deci vom lua în calcul numai aceste valori. Dacă X este variabilă aleatoare continuă, din relaţia F(xi) = γi, (i = 1, …, m) rezultă xi ca funcţie de γi. 1.5.2 Variabilele exponenţială, Weibull, Erlang Variabila exponenţială E(λ) are densitatea de probabilitate: f(x) = λ e - λx; (x ≥ 0) Funcţia de repartiţie este F(x) = 1-e - λx Funcţie EXCEL: = EXPONDIST(x, λ, L) Pentru L = FALSE avem densitatea de probabilitate exponenţială f(x) iar pentru L = TRUE avem funcţia de repartiţie F(x). Funcţia caracteristică este φ(t) = 1)1( it , deci conform teoremei 2.5 avem 1)0(' )( i XM şi M(X2) = '' 2 2 2 2 2 (0) 2 1 deci V(X) M(X )-M (X) i Variabila exponenţială îşi găseşte aplicaţii în fiabilitatea maşinilor agricole (Secţiunea 1.7 de mai jos). Variabila exponenţială admite următoarele generalizări: A. Dacă X este variabilă exponenţială E(λ) atunci Y = Xα este variabilă Weibull cu densitatea de probabilitate: este funcţia de repartiţie. Funcţie EXCEL: = WEIBULL(x, α, 1/(λ1/α), L) Pentru L = FALSE avem densitatea de probabilitate WEIBULL f(x) iar pentru L = TRUE avem funcţia de repartiţie WEIBULL F(x). Avem: 1( ) ,( 0)xf x x e x ( ) 1 xF x e 41 Avem funcţia Gama: cu proprietăţile: 1) Γ(1) = 1; Γ(1/2) = ; 2) Γ(n + 1) = n!; 3) Γ(x + 1) = x Γ(x) B. Dacă X1,…, Xn sunt variabile aleatoare exponenţiale, independente câte două şi toate de parametru λ, atunci X = X1 +…+ Xn este variabilă Erlang cu densitatea de probabilitate: Funcţia de repartiţie este 1 0 . ! )( .1)( n j j x j x exF Funcţia caracteristică este: '(0) ( ) (1 ) deci conform teoremei 6.5 avem M(X) i nit nt M(X 2 ) = '' 2 2 2 (0) n n i deci V(X) = M(X 2 ) – M2(X) = 2 n Variabila exponenţială şi generalizările ei Weibull şi Erlang, sunt cazuri particulare ale variabilei Gama generalizate. 1.5.3 Variabila normală Variabila normală are densitatea de probabilitate: 2 2 ( ) 2 1 ( ) , 2 x f x e x R care are graficul: 2 1/ 1/ 1 ( ) 1 2 1 ( ) ; ( ) ( ) ( ( )) M X V X 1 0 ( ) x tx t e dt 1( ) ;( 0) ( 1)! n n xf x x e x n 42 Funcţia caracteristică este 2 2 2( ) t i t t e deci conform teoremei 1.5 avem: '' 2 2 2 2 2 2 2 '(0) (0) ( ) ; ( ) V(X) ( ) ( ) M X M X deci M X M X i i Variabila normală X are notaţia X = N(μ, σ). Din graficul densităţii de probabilitate f(x) a variabilei normale se confirmă cele 2 legi ale erorilor accidentale, găsite de Gauss: 1) Legea simetriei: Numărul valorilor care se abat sub media μ este egal cu numărul valorilor care se abat peste media μ; 2) Legea concentrării: Abaterile mici de la media μ sunt numeroase iar abaterile mari de la media μ sunt rare. Dacă pe verticala lui μ lăsăm să cadă boabe de cereale, boabe de nisip sau pietricele, acestea se ciocnesc şi se rostogolesc formând o grămadă care are în secţiune verticală profilul de curbă normală de mai sus. Teorema 1.15 Dacă X1, X2 sunt variabile aleatoare normale de tip N(μ1, 1) şi respectiv N(μ2, 2), independente între ele, atunci variabila aleatoare a1X1 + a2X2 este o variabilă aleatoare normală de tip N(a11 + a2 μ2; (a1 21 2 + a2 22 2 ) 1/2 ). Demonstraţie: Variabila aleatoare a1X1 + a2X2 are conform teoremei 1.5 funcţia caracteristică: 1(a1t1)2(a2t2) = 2 2 2 1 1 1 1 2 a t ia t e . 2 2 2 2 2 2 2 2 a t ia t e = e 2 2 2 2 2 1 1 2 2 1 1 2 2 ( a ) ( ) 2 a t i a a t , deci a1X1 + a2X2 este variabilă aleatoare normală de tip N(a1μ1 + a2μ2; 2 2 2 2 1 1 2 2 )a a Q.E.D. Pentru μ = 0, = 1 obţinem variabila aleatoare normală redusă U = N(0, 1) cu densitatea de probabilitate f(u) = 2 / 21 2 ue şi cu graficul: Legătura între variabila normală X = N(μ, ) şi variabila normală redusă U = N(0, 1) este dată de relaţia x U respectiv X = μ + U. 43 Funcţia de repartiţie a variabilei normale reduse U = N(0, 1) este: 2 2 1 ( ) 2 t u F u e dt Valorile lui F(u) pentru u ≥ 0 se găsesc în tabela 1 din Anexă iar pentru u < 0 avem: F(u) = 1 - F(-u). Graficul lui F(u) are forma: Avem F(u/2) = P(u 44 Exemplu: Greutatea la livrare a porcilor Landrace de 8 luni este variabila normală N(100 kg; 5 kg). Se cere probabilitatea ca greutatea porcilor de 8 luni să fie cuprinsă între 98 kg şi 106 kg? Soluţie: P(98 ≤ X ≤ 106) = 106 100 98 100 ( ) ( ) (1.2) ( 0.4) (1.2) 1 (0.4) 5 5 0.8849 0.6554 1 54%. F F F F F F Funcţii EXCEL: = NORMDIST(1.2) = 0.8849 şi = NORMDIST(-0.4) = 0.3446 1.5.4 Variabilele Hi Pătrat, Student, Fisher A. Variabila Hi Pătrat (2) Dacă X1,…, Xn sunt variabile aleatoare N(0, 1) independente câte două, atunci variabila X definită de relaţia: 22 1 2 .... nXXX se numeşte variabilă hi pătrat (X 2 ) cu n grade de libertate. Ea are densitatea de probabilitate: 1 2 2 2 1 ( ) . . ;( 0) 2 . ( ) 2 n x n f x x e x n Funcţia caracteristică este φ(t) = (1 - 2it) 2 n deci conform teoremei 2.5 avem: M(X) = 2 2 2 '(0) "(0) ; ( ) 2 n M X n n i i aşa că:V(X) = M(X2) - M2(X) = 2n Teorema 1.17 Dacă X1, X2 sunt variabile hi pătrat cu n1 grade de libertate respectiv n2 grade de libertate, atunci X1 + X2 este variabilă hi pătrat cu n1 + n2 grade de libertate. Demonstraţie: Conform teoremei 1.5 variabila aleatoare X1 + X2 are funcţia caracteristică 1 2 1 2 2 2 2( ) (1 2 ) .(1 2 ) (1 2 ) n n n n t it it it deci este variabilă hi pătrat cu n1 + n2 grade de libertate. Q.E.D. Variabila hi pătrat cu n grade de libertate este un caz particular al variabilei Gama generalizate. Dacă X este variabilă hi pătrat cu n grade de libertate (n ≥ 30) atunci variabila 22 2 1 X n U unde U = N (0, 1) de unde rezultă că variabila 2 )12( 2 nU X este aproximativ variabilă hi pătrat cu n grade de libertate pentru n ≥ 30. Valorile lui 2 date de relaţia P( 2 2 ) se obţin din tabela 3 din Anexă. Funcţia EXCEL: = CHIINV(P, GL) dă valoarea χα 2 pentru care: P( 2 2 ) 45 B. Variabila Student (t) Dacă X1 este variabilă N (0, 1) şi X2 este variabilă hi pătrat cu n grade de libertate, X1, X2 fiind independente între ele, atunci n X X Y 2 1 se numeşte variabilă Student (t) cu n grade de libertate. Ea are densitatea de probabilitate: 12 2 1 ( ) 2( ) (1 ) ( ) 2 n n x f x n n n Avem M(X) = 0; V(X) = 2n n Valorile lui t/2 şi t date de relaţiile P(t> t/2) = P(t > t) = , se obţin din tabela 2 din Anexă. Pentru n ≥ 30 variabila Student este bine aproximată de variabila normală N(0, 1). Funcţia EXCEL: = TINV(P, GL) dă valorile t/2 pentru care P(t> t/2) = α C. Variabila Fisher (F) Dacă X1, X2 sunt variabile hi pătrat cu n1 respectiv n2 grade de libertate, independente între ele, atunci Y= 2 2 1 1 : n X n X se numeşte variabilă Fisher (F) cu (n1, n2) grade de libertate. Evident Y 1 este tot variabilă Fisher cu (n2, n1) grade de libertate. Densitatea de probabilitate este: F(X) = ( 1 1 1 2 1 2 1 1 12 2 2 1 22 2 n + n ( ) 2( ) . .(1 ) ( ) ( ) 2 2 n n n n n n x x n nn n ; (x ≥ 0) Avem M(X) = 2 2 2 1 2 2 2 1 2 2 2n (n n -2) ; V(X) 2 ( 2) ( 4) n n n n n Variabilele normală redusă, hi pătrat, Student sunt cazuri particulare ale variabilei Fisher X cu (n1, n2) grade de libertate astfel: - Variabila U este 21 ;1 nncuX - Variabila hi pătrat este X cu 21 ;nnn - Variabila Student este X 1/2 cu n1 = 1; n2 = n. Valorile critice F≥ 1 date de relaţia P(F > F) = pentru = 5%, 1%; 0.1% se obţin din tabelele 4 - 6 din Anexă. Funcţia EXCEL: = FINV(P, GL1, GL2) dă valorile Fα pentru care P(F > F) = Valorile critice din tabelele 1 - 6 ale Anexei, sunt legate prin relaţiile: 2 /2 ;1, , ; , ; .n nU F n F ; /2; ;1,n nt F 46 Pe grafic aceste valori au forma: 1.5.5 Vectorul aleator normal Vectorul aleator normal Z = (X, Y) are densitatea de probabilitate: 2 2 1 2 1 2 2 2 2 1 21 2 1 ( ) ( ) [ 2 . ] 2(1 ) 2 1 2 1 ( , ) 2 1 x y x y f x y e Funcţia caracteristică este: 2 2 2 2 1 1 2 2 1 1 2 2 1 2 1 2 1 ( ) ( 2 ) 2 1 2( , ) i t t t t t t t t e Aici X = 1 1 2 2( , ), ( , ) şi (X,Y) N Y N Avem vectorul medie M(Z) = ( 1 2; ) şi matricea de covarianţă: C(Z) = 2 1 1 2 2 2 1 2 Graficul lui z = f(x, y) este o suprafaţă în spaţiu în formă de clopot cu deschiderea în jos, cu vârful clopotului în punctul: 1 2 2 1 2 1 ( ; ; ) 2 1 M Dacă 1 2 1 20 şi 1 obţinem vectorul aleator normal redus W = (U,V) cu densitatea de probabilitate: 2 2 2 1 [ 2 . . ] 2(1 ) 2 1 ( , ) 2 1 u v u v f u v e 47 Avem M(W) = (0; 0); C(W) = 1 1 Dacă Z = (X, Y) cu 1 1 2 2( , ), Y N( , ) iar W (U,V) cu U V N (0,1) X N avem relaţiile de legătură: 1 2 1 2 Y- ; V X U Am văzut în teorema 1.8 punctul 5) că în general variabilele necorelate liniar pot fi dependente. Teorema 1.18 Dacă variabilele aleatoare normale X, Y sunt necorelate liniar, ele sunt independente. Demonstraţie: Dacă variabilele normale sunt necorelate liniar avem 0 deci: 2 21 2 1 2 2 21 2 1 2 1 [( ) ( ) ] 2 1 2 1 1 ( ) ( ) 22 1 2 1 1 2 1 ( , ) 2 1 1 . ( ) ( ) 2 2 x y x y f x y e e e f x f y deci conform teoremei 1.7. rezultă că X, Y sunt variabile aleatoare independente. Q.E.D. 1.6 LEGI LIMITĂ Teorema 1.19 (Legea numerelor mari a lui Cebâşev) Fie X1,…, Xn variabilele aleatoare independente câte două, cu abaterile standard mărginite de T. Dacă X = 1 ..... nX X n atunci pentru orice 0 avem: lim P(│X - M(X)│ < ) = 1 n ∞ Demonstraţie: Deoarece X1,…, Xn sunt independente câte două, conform teoremei 1.2 avem: M(X) = 1 ( ) ... ( ) nM X M X n iar conform teoremei 1.3, avem: V(X) = 2 2 1 2 ( ) ... ( ) n V X V X nT T n nn Aplicând inegalitatea Cebâşev din teorema 2.4, avem: P(│X - M(X)│< ) ≥ 1 - 2 2 ( ) 1 V X T P n Dar n lim 1 deci lim P( X-M(X) ) 1 n P Din expresia lui P rezultă numărul minim de variabile aleatoare care asigură evenimentului │X - M(x)│< ) o probabilitate de realizare superioară lui P şi anume: 48 2 2 (1 ) T n P . Q.E.D. Legea numerelor mari a lui Cebâşev arată că media unui număr mare de variabile aleatoare independente câte două şi cu abateri – standard mărginite, îşi pierde caracterul de variabilă aleatoare, stabilindu-se în jurul mediei sale. În particular, media a n măsurători independente ale unei însuşiri cantitative X se stabilizează, când volumul măsurătorilor creşte. Exemplu: Câte măsurători trebuie făcute pentru ca greutatea ouălelor să fie cuprinsă între 49 g şi 51 g cu o încredere de cel puţin 99%, dacă toleranţa maximă admisă la greutatea ouălelor este T = 1 g? Soluţie: Avem T = 1 g, = 1 g, P = 0.99 deci n = 21 100 măsuratori. 1 0.01 Dacă în legea numerelor mari a lui Cebâşev luăm variabilele aleatoare X 1 =….= Xn = qp 01 , independente câte două, X = 1 ... nX X n ia valori de forma k/n = f şi M(X) = p; V(X) = pq ≤ T2 ,deci relaţia: P(│X - M(X)< ) ≥ 2 ( ) 1 V X de mai sus devine: P(│f - p │< ) ≥ 1 - P n pq 2 Cum lim P = 1 rezultă: n ∞ lim P(│f - p│ < ) = 1 deci am demonstrat: n ∞ Teorema 1.20 (Legea numerelor mari a lui Bernoulli) Dacă A este un eveniment cu probabilitatea de realizare p iar f = k/n este frecvenţa de realizare a acestui eveniment de k ori în n experienţe independente, atunci pentru orice > 0 avem: lim P(│f - p│< ) = 1 n ∞ Din expresia lui P rezultă numărul minim de experienţe independente care asigură evenimentului │f - p│< o probabilitate de realizare superioară lui P: )1( )1( 2 P pp n Legea numerelor mari a lui Bernoulli arată că frecvenţa f de apariţie a unui eveniment în n experienţe independente care este în fond media a n valori a unei însuşiri calitative X, se stabilizează în jurul probabilităţii p de realizare a evenimentului. Prin urmare, în cazul unui număr mare de experienţe independente, probabilitatea p (constantă şi cunoscută înaintea experienţelor) începe să fie confirmată de frecvenţa f (variabilă şi cunoscută după experienţe). Exemplu: Care este numărul minim de aruncări ale unei monezi pentru ca frecvenţa de apariţie a stemei să fie cuprinsă între 45% şi 55% cu o încredere de cel puţin 90%? 49 Soluţie: Avem p = 1/2 = 50%; = 5% = 0.05, P = 90% = 0.90 deci n= 1000 )90.01.(05.0 )5.01(5.0 )1( )1( 22 P pP aruncări Teorema 1.21 (Leapunov) Dacă X1,…, Xn sunt variabile aleatoare independente şi suma lor X = X1+….+ Xn satisface condiţia: 3 3 1 1 3 ( ( ) ) .... ( ( ) ) lim 0 ( ) n n n M X M X M X M X X atunci funcţia de repartiţie a variabilei aleatoare normate ( ) ( ) X M X x tinde către funcţia de repartiţie F(x) a variabilei normale reduse N (0, 1) când n ∞. (fără demonstraţie) Cu alte cuvinte, dacă valorile a n variabile aleatoare independente, vor fi mici în raport cu suma lor, atunci această sumă are o repartiţie normală când n ∞. Dacă în teorema 1.21 luăm variabilele aleatoare independente X1 =….= Xn = qp 01 deci X = X1 +….+ Xn este variabilă binomială, condiţia din enunţul teoremei 1.21 este îndeplinită deoarece M(Xi) = pq aşa că M (│Xi - M(Xi)│ 3) sunt finite şi egale între ele deci: 3 3 3 1 3 3 3 3 [ ( ( ) )] ( ) ( ) 0 ( ) ( ) n i i i ii M X M X nM X p M X p X npq n p q pentru n ∞ deci rezultă: Teorema 1.22 (Moivre-Laplace) Dacă X este o variabilă binomială cu media M(X) = np şi varianţa V(X) = npq cu q = 1 - p, atunci funcţia de repartiţie a variabilei aleatoare normate ( ) ( ) X M X X np X npq tinde către funcţia de repartiţie F a variabilei normale reduse N(0, 1) când n ∞. Cu alte cuvinte, probabilitatea ca un eveniment A să se realizeze în n experienţe independente de un număr de ori cuprins între a şi b este aproximativ egală cu: )()( npq npa F npq npb F când n ≥ 30 Valorile lui F(u) pentru u ≥ 0 sunt date de tabela 1 din Anexă iar pentru u < 0 avem F(u) = 1 - F(-u). Exemplu: Într-o urnă se află 600 bile albe şi 400 bile negre. Se extrag n = 200 bile cu bila revenită. Se cere probabilitatea ca numărul X de bile albe extrase să fie cuprins între 100 şi 140 bile albe. Soluţie: Avem: p = 6/10; q = 4/10; n = 200; a = 100; b = 140 deci: 50 6 6 140 200. 100 200. 10 10(100 140) ( ) ( ) 6 4 6 4 200. . 200. . 10 10 10 10 (2.9) ( 2.9) 2. (2.9) 1 2 0.9981 1 99.6% P X F F F F F 1.7 FIABILITATEA ECHIPAMENTELOR Fie T variabila aleatoare pozitivă a timpului de funcţionare fără defecţiuni a unui echipament. Fie f(t) densitatea de probabilitate a variabilei aleatoare T şi F(t) = P(T < t) funcţia sa de repartiţie. 1) Fiabilitatea echipamentului este probabilitatea ca echipamentul să funcţioneze fără defecţiuni în intervalul de timp 0, t adică R(t) = P(T t) = 1 – F(t). Cuvânt sinonim: reliabilitate. Proprietăţi: a) R(t) ia valori între 0 şi 1; R(0) = 1; ( ) 0lim t R t ; b) R(t) este continuă la stânga: 0 0 ( ) ( )lim t t R t R t ; c) R(t) este funcţie descrescătoare: t1 < t2 R(t1) > R(t2); P(a < T < b) = R(a) – R(b); P(T < b) = 1 – R(b); P(a < T) = R(a). 2) Probabilitatea de defectare a echipamentului în intervalul de timp 0, t este F(t) = P(T < t) 3) Viteza de defectare a echipamentului la momentul t este f(t) = F‘(t) = - R‘(t). Avem: de unde P(t T < t + t) = f(t).t deci probabilitatea de defectare a echipamentului în intervalul de timp t, t + t este egală cu densitatea de repartiţie f(t) înmulţită cu lungimea t a acestui intreval de timp. 4) Rata defectării (t) este viteza de defectare a echipamentului la momentul de timp t, dacă echipamentul a funcţionat fără defecţiuni în intervalul de timp 0, t. Avem: (t) = f(t)/1 – F(t) = - R’(t)/R(t) În adevăr, fie A evenimentul că echipamentul a funcţionat fără defecţiuni în intervalul de timp 0, t şi B evenimentul că echipamentul se va defecta în intervalul de timp t, t + t. Probabilitatea lui B, condiţinată de A este: Avem P(B A) = (t).t deci probabilitatea ca echipamentul să se defecteze în intervalul de timp t, t + t, dacă a funcţionat fără defecţiuni în intervalul de timp 0, t, este egală cu rata defectării înmulţită cu lungimea t a intervalului de timp t, t + t. Din relaţia (t) = - R’(t)/R(t) rezultă: t 0 t 0 F(t t) F(t) P(t T t t) f(t)= lim lim t t t 0 t 0 P(A B) P(t T< t+ t) F(t+ t)-F(t) P( B A) = = = de unde : P(A) P(T>t) 1-F(t) 1 F(t+ t)-F(t) 1 f (t) R (t) (t) = lim P( B A)= lim t t 1 F(t) 1 F(t) R(t) t 0 - (s)ds R(t) = e 51 Graficul ratei defectării are forma: Avem trei perioade în evoluţia funcţionării unui echipament în timp: I) Perioada de rodaj [0; tr] în care apar un număr mare de defecte de fabricaţie; II) Perioada de viaţă utilă [tr; tu] în care rata defectării este scăzut şi constant; III) Perioada de uzură fizică [tu; +] în care rata defectării creşte din nou datorită uzurii fizice. 5) Rata de defectare cumulată este funcţia: Cum (s) = - R’(s)/R(s) rezultă: (t) = - ln R(t) Rata de defectare cumulată medie este (t)/t = - ln R(t)/t. 6) Durabilitatea echipamentului este timpul mediu de funcţionare fără defecţiuni al echipamentului: 7) Mentenanţa echipamentului. Dacă echipamentul se defectează la un moment de timp td, el trebuie reparat. Defecţiunea poate fi subiectivă (cauzată de exploatarea necorespunzătoare sau nerealizarea reviziilor obligatorii) sau obiectivă (cauzată de uzura fizică). Fie Tm variabila aleatoare pozitivă a timpului de restabilire a funcţionalităţii echipamentului, numit şi timp de mentenanţă (restabilire). Fie Fm(t) funcţia de repartiţie a variabilei Tm deci Fm(t) = P(Tm < t) este probabilitatea de restabilire a echipamentului într-un timp inferior lui t. fm(t) = Fm’(t) este densitatea de repartiţie a variabilei Tm iar media variabilei Tm este timpul mediu de restabilire a echipamentului: Mentenanţa poate fi preventivă (revizie periodică) sau corectivă (reparaţie efectivă). 8) Disponibilitatea echipamentului este capacitatea sa de a-şi îndeplini rolul pe o perioadă de timp, prin controlul fiabilităţii şi mentenanţei. Pentru evaluarea cantitativă a disponibilităţii avem parametrul D = M(T)/M(T) + M(tm) adică proporţia de timp cât echipamentul este activ. Fiabilitatea şi mentenanţa sunt invers proporţionale: cu cât fiabilitatea echipamentului este mai mare cu atât mentenanţa sa este mai mică. t 0 (t)= (s)ds 0 M(t) = t f(t)dt m m 0 M(T ) t f (t)dt λ (t) I II III 0 tr tu t 52 În studiul disponibilităţii intervin aspecte tehnice şi economice. Din punct de vedere economic, uzura fizică implică cheltuieli de mentenanţă crescătoare deci echipamentul trebuie casat când aceste cheltuieli cumulate depăşesc costul de achiziţie al unui echipament nou. Uzura morală scurtează perioada de mentenanţă sub aspectul calitate/preţ. Echipamentele pot fi cu funcţionare intermitentă sau continuă. De exemplu computerul este cu funcţionare intermitentă iar frigiderul este cu funcţionare continuă (tot timpul cât conţine alimente perisabile). Studiile de fiabilitate şi mentenanţă privesc o mulţime de echipamente similare care funcţionează în condiţii identice. Concluziile asupra grupului de echipamente permit efectuarea de corecţii asupra echipamentelor individuale. Studiul fiabilităţii şi mentenanţei echipamentelor se aplică şi la starea de sănătate a fiinţelor vii. Exemplu: Pentru intervalul de timp 0, t se urmăresc N echipamente identice din care se defectează Nr(t) şi sunt bune Nb(t). Avem R(t) = Nb(t)/N; F(t) = Nr(t)/N; f(t) = Nr’(t)/N; (t) = - Nb’(t)/Nb(t) Exemple: 1) T = variabilă exponenţială deci F(t) = tλe1 aşa că tλe)t(R ; λ(t) = λ; M(T) = 1 Acest caz se întâlneşte în perioada II) de viaţă utilă când λ(t) = constant. Dacă probabilitatea funcţionării fără defecţiuni a unui element constructiv într-un interval de timp de lungime t, nu depinde de funcţionarea anterioară a elementului ci numai de lungimea t a intervalului de timp, atunci T este variabilă exponenţială. 2) T = variabilă Weibull deci αtλe1)t(F aşa că: αtλe)t(R ; 1αtαλ)t(λ ; 1 ( ) 1 M T În cazul 0 < α < 1, λ(t) descreşte (cazul elementelor cu defecte de fabricaţie multe da care se uzează lent); în cazul α = 1 avem λ(t) = λ = constant adică cazul 1) al fiabilităţii exponenţiale de mai sus; în cazul α > 1, λ(t) creşte (cazul elementelor cu defecte de fabricaţie puţine dar care se uzează rapid). 3) T = variabilă normală deci 2 22 1 ( ) 2 st F t e cu valori în tabele, după transformarea σ μT U . Rezultă R(t) = 1 – F(t); )t(F1 )t(f )t(λ ; M(T) = μ Aici 2 2 ( ) 2 1 ( ) 2 t f t e este densitatea de probabilitate a variabilei aleatoare normale N(; ). Dacă două elemente constructive independente între ele, au fiabilităţile R1(t), R2(t) atunci legându-le în serie avem un element compus cu fiabilitatea R(t) = R1(t) . R2(t) iar legându-le în paralel, avem un element compus cu fiabilitatea R(t) = R1(t) + R2(t) – R1(t) . R2(t). 53 Exemplu: Două elemente constructive independente ale unui tractor au fiabilităţile exponenţiale R1(t) e - 0.5t ; R2(t) = e - 1.5t. Să se calculeze fiabilitatea elementului compus din cele 2 elemente precedente în montaj serie şi paralel. Soluţie: Pentru montajul serie avem Rs(t) = e -0,5t . e -1,5t = e -2t deci λs(t) = 2; 1 ( ) 0.5 2 sM T . Pentru montajul paralel avem Rp(t) = e -0,5t + e -1,5t – e-2t, deci ' ( ) ( ) ( ) p p p R t t R t şi Mp(T) = 0 ( )pR t dt . 1.8 REZUMAT În acest capitol se prezintă definiţia unui eveniment, clasificarea evenimentelor şi exemple, definiţia axiomatică şi clasică a probabilităţii, definiţia probabilităţii condiţionate, formulele probabilităţii totale şi Bayes, variabilă aleatoare pentru care se descrie funcţia de repartiţie şi densitatea de probabilitate, media, varianţa şi funcţia caracteristică. Deasemenea se prezintă noţiunea de vector aleator pentru care se descrie covarianţa şi coeficientul de corelaţie liniară, variabilele aleatoare clasice discontinue între care remarcăm variabilele binomială şi Poisson, variabilele aleatoare continue între care remarcăm variabilele exponenţială, normală, hi patrat, Student şi Fisher precum şi vectorul aleator normal. Capitolul continuă cu legile limită: Cebâşev, Bernoulli şi teorema limită-centrală. În încheiere se prezintă fiabilitatea echipamentelor. 1.9 ÎNTREBĂRI 1. Ce este un eveniment şi ce operaţii se fac cu evenimente? 2. Care este definiţia clasică a probabilităţii şi ce proprietăţi are probabilitatea? 3. Cum se aplică formula probabilităţii totale şi formula Bayes la diagnosticul bolilor la animale? 4. Enumeraţi proprietăţile funcţiei de repartiţie şi densităţii de probabilitate a unei variabile aleatoare. 5. Enumeraţi proprietăţile mediei şi varianţei unei variabile aleatoare. 6. Enumeraţi proprietăţile covarianţei şi coeficientului de corelaţie liniară pentru un vector aleator. 7. Unde se aplică variabilele discontinue binomială şi Poisson? 8. Unde se aplică variabilele continue exponenţială, normală, hi patrat, Student şi Fisher? 9. Ce importanţă practică au legile-limită Cebâşev şi Bernoulli? 10. Definiţi fiabilitatea unui echipament şi enumeraţi proprietăţile ei. 1.10 BIBLIOGRAFIE 1. D. Ene, M. Drăghici, I.N. Alecu: “Statistică aplicată în agricultură”, Ed. Ceres, 2003 2. M. Iosifescu şi col.: “Mică enciclopedie de statistică”, Ed. Ştiinţif. şi Enciclop., 1985 3. Anuarul statistic al României, 1990 - 2003 54 CAPITOLUL 2. CULEGEREA ŞI PRELUCRAREA DATELOR DE SONDAJ Obiective: Însuşirea de către studenţi a tehnicilor de sondaj, a calculului şi interpretării indicatorilor de sondaj, de repartiţie şi evoluţie, precum şi a calculului şi interpretării indicilor statistici. Însuşirea de către studenţi a metodei intervalelor de încredere pentru estimaţii/teste parametrice (medii, abateri-standard şi probabilităţi) în una şi două populaţii normale precum şi teste neparametrice. Conţinut: 2.1 Populaţii statistice şi sondaje 2.2 Indicatori de sondaj de repartiţie 2.2.1 Cazul sondajului de volum mic (n < 30) 2.2.2. Cazul sondajului de volum mare (n > 30) 2.3 Indicatori de sondaj de evoluţie 2.3.1. Cazul măsurătorilor simple în timp 2.3.2 Cazul măsurătorilor multiple în timp 2.3.3 Indici statistici 2.4 Estimaţii/teste în populaţii normale 2.5 Estimaţii/teste parametrice în populaţii normale 2.5.1 Estimaţii/teste pentru parametrii , ai unui caracter cantitativ într-o populaţie normală 2.5.2 Estimaţii/teste pentru parametrul p al unui caracter calitativ într-o populaţie normală 2.5.3 Estimaţii/teste pentru parametrii 2 - 1, 2/1 ai unui caracter cantitativ în două populaţii normale 2.5.4 Estimaţii/teste pentru parametrul p2 – p1 al unui caracter calitativ în două populaţii normale 2.6 Teste neparametrice în populaţii normale 2.6.1 Testul hi pătrat de concordanţă 2.6.2 Testul hi pătrat de independenţă 2.6.3 Testul normalităţii prin asimetrie şi boltire 2.7 Rezumat 2.8 Întrebări 2.9 Bibliografie Cuvinte cheie: populaţie statistică, sondaj simplu repetat şi nerepetat, sondaj stratificat tipic, proporţional şi optim, indicatori de sondaj de repartiţie/evoluţie, indici statistici individuali şi sintetici, estimaţie corectă şi absolut corectă, ipoteză simplă/compusă unilaterală şi bilaterală, funcţia de putere a testului, interval de încredere, diferenţă limită. 2.1 POPULAŢII STATISTICE ŞI SONDAJE Populaţia statistică este o mulţime de exemplare care aparţin aceleiaşi familii şi care fac obiectul cercetării statistice. Cercetarea statistică poate fi completă sau exhaustivă (pentru toate exemplarele populaţiei) de tip referendum sau recensământ sau poate fi parţială sau selectivă de tip sondaj (eşantion, probă, sondaj de opinie) (pentru o parte reprezentativă din exemplarele populaţiei). 55 Exemple de populaţii statistice în agricultură: plantele unei culturi într-o parcelă, animalele unei ferme zootehnice, maşinile agricole care deservesc o suprafaţă arabilă, fermele vegetale sau zootehnice dintr-un judeţ, unităţile de prelucrare a produselor agricole (mori, fabrici de ulei, zahăr, produse lactate, mezeluri, abatoare etc.), magazinele care comercializează produse alimentare, reţeaua de case de agroturism, reţeaua de unităţi de alimentaţie publică etc. Fiecare exemplar al populaţiei statistice are o serie de însuşiri cantitative (măsurabile) sau calitative (atributive) notate X, Y, Z, … sau X1, X2, …, Xn pe care le vom numi în continuare şi caractere. Pentru populaţiile statistice din agricultură, însuşirile admit şi alte clasificări: - după natură: însuşiri biologice, tehnologice, economice, ecologice; - după modul de exprimare numerică: însuşiri bivalente (0 sau 1), întregi şi reale (fracţionare); - după modul de apreciere: însuşiri primare (numai măsurabile) şi însuşiri derivate (măsurabile sau calculabile); - după gradul de generalitate: însuşiri individuale (proprii fiecărui element al populaţiei) şi colective (proprii unor grupe de elemente ale populaţiei). Exemple de însuşiri individuale: - talia plantei; - suprafaţa foliară a plantei; - greutatea şi densitatea plantei; - dimensiunile fructelor; - greutatea şi densitatea fructelor; - numărul de boabe din fruct; - dimensiunile boabelor; - greutatea şi densitatea boabelor; - conţinutul în substanţe nutritive al fructelor sau boabelor. Exemple de însuşiri individuale la animale: - înălţimea la greabăn; - înălţimea la crupă; - lungimea corpului; - circumferinţa toracică; - greutatea şi densitatea corpului; - dimensiunea organelor interne (ficat, inimă, rinichi, creier etc.); - greutatea şi densitatea organelor interne; - greutatea şi densitatea produselor zootehnice (lapte, grăsime şi proteină în lapte, carne etc.); - conţinutul în substanţe nutritive al produselor zootehnice. Însuşirile individuale precedente devin colective dacă se însumează pentru plantele unei culturi de pe o parcelă dată sau pentru animalele dintr-o fermă zootehnică dată. Menţionăm şi următoarele însuşiri colective: - Consumul de resurse (forţă de muncă, forţă mecanică, energie, îngrăşăminte, apă, furaje, medicamente etc.) pentru o societate agricolă (vegetală, zootehnică, de prelucrare produse agricole, de comercializare produse alimentare, de agroturism) într-un ciclu de producţie; - Costul resurselor pe unitate de resursă pentru o societate agricolă într-un ciclu de producţie; - Cheltuielile cu resurse (consumuri înmulţite cu costurile) însumate pentru o societate agricolă într-un ciclu de producţie; - Cheltuielile neproductive (TVA, taxe, impozite etc.) ale unei societăţi agricole într-un ciclu de producţie; - Producţii fizice principale şi secundare ale unei societăţi agricole într-un ciclu de producţie; 56 - Preţurile de vânzare ale producţiilor fizice principale şi secundare pe unitate, pentru o societate agricolă într-un ciclu de producţie; - Veniturile (producţii fizice înmulţite cu preţurile de vânzare) însumate pentru o societate agricolă într-un ciclu de producţie; - Profitul (venitul din care se scad cheltuielile totale cu resursele cât şi cele neproductive) realizat de societatea agricolă într-un ciclu de producţie; - Rata profitului (profitul împărţit la cheltuielile totale) realizată de societatea agricolă într-un ciclu de producţie. Pentru comparaţia între ele, însuşirile colective se raportează la un exemplar (lungime, suprafaţă, volum, greutate, timp, unitate bănească etc.), obţinând însuşiri medii. Exemple: consumul mediu de motorină pe ha, consumul mediu de furaje pe cap de vacă, profitul mediu pe lună al unei unităţi de agroturism etc. În agricultură, omul nu poate controla în totalitate factorii de producţie sau de vânzare a produselor agricole, de aceea însuşirile precedente sunt parţial sau total sub influenţa întâmplării (hazardului) fiind de fapt în fiecare moment, variabile aleatoare iar în timp, procese aleatoare (vezi cap. 1). Acţiunea întâmplării asupra însuşirilor (caracterelor) în agricultură se concretizează în variabilitatea valorilor acestora în spaţiu, timp, structură etc., variabilitatea poate fi accidentală (involuntară) sau sistematică (cu o cauză precisă). Variabilitatea accidentală este presupusă a fi o variabilă normală cu media 0 şi abaterea – standard σ (vezi cap.1) Exemple de surse de variabilitate: - variabilitatea genotipică a plantelor şi animalelor; - condiţiile pedoclimatice; - atacul buruienilor, bolilor şi dăunătorilor; - conjunctura economică (raport ofertă/cerere) pe piaţa produselor agroalimentare. Fie o populaţie statistică de volum N pe care dorim să o studiem din punct de vedere al însuşirii (caracterului) X pe care o posedă exemplarele populaţiei. Din cauza volumului mare N al populaţiei, nu vom face măsurători complete în toată populaţia ci vom extrage o parte reprezentativă din exemplarele populaţiei, numită sondaj (eşantion, probă) pe care vom face măsurători relativ la însuşirea (caracterul) X. Volumul sondajului se notează cu n iar raportul (%) N n se numeşte cotă de reprezentare sau factor de sondaj. Exemplu: Pe un ha cu porumb există N = 75.000 plante recoltabile din care extragem un sondaj de n = 75 plante reprezentative. Cota de reprezentare este 1000:1 75000 75 N n plante. Un sondaj se poate efectua în două feluri: I. Static: se fac măsurători simultane la un moment dat pe n exemplare extrase din populaţie obţinându-se astfel repartiţia în spaţiu a însuşirii X analizată prin datele de sondaj. II. Dinamic: se fac măsurători consecutive în n momente de timp succesive pe acelaşi exemplar al populaţiei statistice, obţinându-se astfel evoluţia în timp a însuşirii X analizată prin datele de sondaj. Tehnica de efectuare a unui sondaj, depinde de compoziţia populaţiei în raport cu însuşirea X. Avem situaţiile: 57 a) Populaţia este omogenă în raport cu însuşirea X adică orice valoare a lui X este în mod egal probabil proprie fiecărui exemplar al populaţiei. În acest caz se efectuează un sondaj simplu repetat sau nerepetat. Sondajul simplu repetat se efectuează prin extragerea succesivă a exemplarelor din populaţie şi revenirea în populaţie a fiecărui exemplar după măsurarea însuşirii X (schema bilei revenite). Avantajul acestui tip de sondaj este că extragerile din populaţie sunt independente iar dezavantajul este că la controlul calităţii produselor, orice exemplar chiar dacă este rebut, trebuie întors în populaţie. Sondajul simplu nerepetat se efectuează prin extragerea simultană a exemplarelor din populaţie şi revenirea acestora în populaţie (dacă nu sunt rebuturi) după efectuarea tuturor măsurătorilor pe ele relativ la însuşirea X (schema bilei nerevenită). Dezavantajul acestui tip de sondaj este că extragerile din populaţie sunt dependente. Dacă volumul de sondaj n este relativ mare rezultatele obţinute prin sondajul simplu repetat sau nerepetat sunt aproximativ aceleaşi. b) Populaţia este neomogenă în raport cu însuşirea X dar se poate împărţi în k straturi omogene în raport cu X, volumul straturilor fiind N1, …, Nk. Evident avem N1 + …+ Nk = N. În acest caz se efectuează un sondaj stratificat care constă în k sondaje simple, repetate sau nerepetate, din straturi cu volumele de sondaj din straturi n1, …, nk. Evident avem n1 + …+ nk = n. Prezentăm câteva tipuri de sondaj stratificat: a. Sondaj tipic: k n n...n k1 ; b. Sondaj proporţional: N n N n ... N n k k 1 1 deci N N nn,..., N N nn kk 1 1 c. Sondaj optim: 1 1 1 ... k k k i i nn n N N N deci ii kk k ii 11 1 σN σN nn,..., σN σN nn Aici σ 1, …, σ k sunt abaterile standard ale exemplarelor din straturi în raport cu caracterul X ca variabilă aleatoare (vezi cap. 2). Observăm că pentru N1 = …= Nk = k N sondajul tipic şi cel proporţional coincid iar pentru σ 1 = …= σ k = σ sondajul proporţional şi cel optim coincid. În cazul unei populaţii infinite k k 1 1 p N N ,...,p N N deci pentru tipurile de sondaj stratificat precedent, avem: a. Sondaj tipic: n1 = … = nk = k n ; b. Sondaj proporţional: n1 = np1, …, nk = npk c. Sondaj optim: ii kk k ii 11 1 σp σp nn,..., σp σp nn . Exemplu: O turmă de ovine de volum N = 1000 capete are structura N1 = 700 mioare, N2 = 250 miei, N3 = 50 berbeci. 58 Pentru analiza însuşirii X = lungimea firului de lână efectiv din sondaj de n = 60 ovine. Ştiind că abaterile – standard în straturi sunt σ 1 =1 cm; σ 2 = 0.8 cm şi σ 3 = 2 cm, se cer volumele de sondaj din straturi pentru diferite tipuri de sondaj stratificat. Soluţie: a) Pentru sondajul tipic n1 = n/3 = 20 mioare; n2 = n/3 = 20 miei; n3 = n/3 = 20 berbeci; b) Pentru sondajul proporţional n1 = 700 60 42 1000 mioare, n2 = 250 60 15 1000 miei şi n3 = n – n1 – n2 = 3 berbeci; c) Pentru sondajul optim Niσ i = 700x1 + 250 x 0.8 + 50x2 =1000 aşa că: n1 = 700 1 60 42 1000 mioare; n2 = 250 0.8 60 12 1000 miei şi n3 = n – n1 – n2 = 6 berbeci. 2.2 INDICATORI DE SONDAJ DE REPARTIŢIE 2.2.1 Cazul sondajului de volum mic (n < 30) În acest caz datele nu se grupează în clase de valori, prelucrarea la statistică reducându-se la calculul următorilor indicatori statistici: I. Media de sondaj n x MXX i Media de sondaj este centrul de greutate al datelor de sondaj x1, …, xn fiind cea mai apropiată de ansamblul valorilor: SPA(x) = (x1 – x) 2 +…+ (xn – x) 2 este minimă pentru x = x . Aici SPA este prescurtarea pentru suma pătratelor abaterilor. Calităţi ale mediei: a) Este o valoare mărginită: X [xmin; xmax]; b) Nivelează diferenţele între valori: suma abaterilor valorilor de sondaj faţă de media lor este zero (xi - X ) = 0; c) Este reprezentantul întregului pachet de date de sondaj: suma valorilor de sondaj este media lor înmulţită cu numărul lor (xi = n . X ). Defecte ale mediei: d) Prin nivelare, media nu dă informaţii despre variabilitatea datelor de sondaj. Acest defect se remediază prin folosirea indicatorilor statistici de variabilitate între care cităm abaterea standard S şi coeficientul de variabilitate c, care vor fi prezentaţi mai jos. 5) Media este legată de o unitate de măsură deci nu permite comparaţii între caractere. Pentru comparaţii se poate folosi media procentuală 1;0 XX XX pX minmax max . 6) Media este sensibilă la valori de sondaj mult mai mici sau mult mai mari ca restul datelor de sondaj. Acest defect se remediază fie eliminând aceste valori din rândul datelor de sondaj ca valori străine fie folosind mediana prezentată mai jos. 7) Media este sensibilă la codificarea datelor. Conform teoremei 1.1 orice operaţie aritmetică efectuată cu datele de sondaj, trebuie efectuată şi asupra mediei de sondaj. Dacă sondajul a fost stratificat, datele de sondaj au forma: x11, …, x1,n1 extrase din stratul 1 şi cu media de sondaj X 1 ----------------------------------------------------------------------- Xk1, …, Xk,nk extrase din stratul k şi cu media de sondaj X k. 59 Volumul sondajului stratificat este n = n1 + … + nk iar media de sondaj X a sondajului stratificat este medie ponderată: 11 1 ... ... k k k n X n X X n n Media de sondaj de la punctul 1) se mai numeşte şi medie aritmetică de sondaj. Se folosesc în anumite cazuri şi alte medii: - media geometrică: n 1 n21g x...xxX de unde n Xlog...Xlog Xlog n1g - media armonică: n X 1 ... X 1 X 1 n1 a - media pătratică: 2 1 2 n 2 1 2 n X...X X Avem X a ≤ X g ≤ X . Dacă X1,…, Xn sunt depuse în celulele A1:An din coloana A în EXCEL media X este dată de funcţia EXCEL scrisă în celula B1: = AVERAGE(A1:An), media geometrică X g este dată de funcţia EXCEL scrisă în celula B2: = GEOMEAN (A1:An) iar media armonică X a este dată de funcţia EXCEL scrisă în celula B3: = HARMEAN (A1:An). II. Mediana Me este acea valoare faţă de care jumătate din numărul valorilor de sondaj sunt mai mici ca ea şi cealaltă jumătate din numărul valorilor de sondaj sunt mai mari ca ea. Aranjăm datele de sondaj în ordine crescătoare: x1 < x2 < … < xn. Dacă n = număr par avem 2 1k 2 k xx 2 1 Me iar dacă n = număr impar avem 2 1kXMe . Mediana Me este mai stabilă faţă de media X la valori de sondaj foarte mici faţă de restul valorilor de sondaj, deoarece ia în calcul numărul de valori de sondaj nu şi mărimea valorilor de sondaj. În plus, SMA(X) = XX...XX n1 este minimă pentru X = Me. Aici SMA este prescurtarea pentru suma modulelor abaterilor. Mediana primei jumătăţi a datelor de sondaj crescătoare, se numeşte cuartila întâia Q1 . Me = Q2. Analog Q3 pentru a doua jumătate a datelor. Dacă X1,…, Xn sunt depuse în celulele A1:An din coloana A în EXCEL,mediana Me este dată de funcţia EXCEL scrisă în celula B4: = MEDIAN (A1:An) sau de funcţia EXCEL scrisă în celula B4: = QUARTILE (A1:An, 2), quartila Q1 este dată de funcţia EXCEL scrisă în celula B5: = QUARTILE (A1:An, 1) iar quartila Q3 este dată de funcţia EXCEL scrisă în celula B6: = QUARTILE (A1:An, 3). Media şi mediana au fost indicatori de poziţie pentru datele de sondaj. Urmează indicatori de variabilitate pentru datele de sondaj. 60 III. Varianţa (dispersia) 1n n X x 1n Xx SV 2 i2 i2 este variaţia pătratică totală SPA = (xi - X ) 2 raportată la numărul gradelor de libertate GL = n – 1. Datele de sondaj X1, …, Xn sunt independente dar satisfac o relaţie de dependenţă: xi = n . X şi de aceea avem GL = n – 1. IV. Abaterea - standard 1n Xx S 2 i este principalul indicator valoric al variabilităţii fiind o abatere mijlocie a datelor de sondaj faţă de media lor X . Calităţi ale abaterii-standard 1) Abaterea standard este mărginită (cuprinsă între abaterea minimă amin şi cea maximă amax a datelor de sondaj faţă de media lor X . Defecte ale abaterii-standard 1) Abaterea standard S este legată de o unitate de măsură (aceeaşi ca şi pentru media X ) deci nu permite comparaţii între caractere. Pentru comparaţii se poate folosi abaterea standard procentuală 1;0 aa Sa Sp minmax max . 2) Abaterea standard este sensibilă la înmulţirea sau împărţirea datelor de sondaj conform teoremei 1.2. 3) Abaterea standard singură nu poate aprecia intensitatea variabilităţii datelor de sondaj. Dacă X1,…, Xn sunt depuse în celulele A1:An din coloana A în EXCEL, variaţia pătratică totală SPA este dată de funcţia EXCEL scrisă în celula B7: = DEVSQ (A1:An), varianţa V este dată de funcţia EXCEL scrisă în celula B8: = VAR(A1:An) iar abaterea-standard S este dată de funcţia EXCEL scrisă în celula B9: = STDEV(A1:An). Valorile Ui = (Xi - X )/S se numesc reduse sau normate. Avem: M(Ui) = 0 şi V(Ui) = 1. Funcţia EXCEL pentru calculul valorilor reduse are forma = STANDARDISE(Xi, X , S). V. Coeficientul de variabilitate 100 X S c este principalul indicator procentual al variabilităţii datelor de sondaj în jurul mediei la X . El măsoară variabilitatea datelor luând ca unitate de măsură nu unitatea de măsură a caracterului X ci media de sondaj X . Calităţi ale coeficientului de variabilitate 1) Coeficientul de variabilitate c este o valoare mărginită (cuprins între 100 X a max min şi 100 X a min max ). 2) Coeficientul de variabilitate c nu are unităţi de măsuri, deci permite comparaţii între caractere. 3) Coeficientul de variabilitate c poate aprecia cu ajutorul unor praguri intensitatea variabilităţii datelor de sondaj în jurul mediei lor. În raport de valorile coeficientului de variabilitate c avem cazurile: 61 Xi Xi- X (Xi- X ) 2 S XXi 40 42 45 45 48 51 54 57 58 60 -10 -8 -5 -5 -2 1 4 7 8 10 100 64 25 25 4 1 16 49 64 100 -1.43 -1.14 -0.71 -0.71 -0.29 0.14 0.57 1.00 1.14 1.43 500 0 448 - a) Coeficientul de variabilitate c are o valoare mică. În acest caz variabilitatea datelor de sondaj este mică, omogenitatea este mare şi media X este foarte bună; b) Coeficientul de variabilitate c are o valoare mijlocie. În acest caz variabilitatea datelor de sondaj este mijlocie, omogenitatea lor este mijlocie şi media X este bună; c) Coeficientul de variabilitate c are o valoare mare. În acest caz variabilitatea datelor este mare, omogenitatea este mică şi media X este satisfăcătoare. De exemplu pentru agricultură cazurile precedente au forma: a) c < 10%; b) c (10%; 20]; c) c > 20%. În cazul c) se pune problema existenţei unei cauze sistematice pentru variabilitatea mare a datelor de sondaj. Exemplu: Fie o populaţie statistică de plante de porumb la recoltarea pe suprafaţa de 1 ha cu volumul populaţiei N = 75000 plante recoltabile. Fie X = greutatea boabelor pe plantă la recoltare (g). Efectuăm un sondaj de n = 10 plante reprezentative deci cota de reprezentare este 1 N n : 7500 plante. Datele de sondaj se aranjează în ordine crescătoare în tabelul alăturat. Avem indicatorii de sondaj: I) 50 10 500 X g/plantă II) Me = [48; 51] deci Me = 49.5 g/plantă III) 2 2448 49.8 10 1 S g IV) 49.8 7 /S g plantă V) %14 50 7 C O sinteză elegantă a acestor calcule este dată în foaia de calcul C1P1.XLS aflată în Anexă. 2.2.2. Cazul sondajului de volum mare (n > 30) În acest caz se face gruparea datelor de sondaj în clase de valori astfel: se fixează numărul k de clase de valori care nu trebuie să fie nici prea mic, deoarece se şterg trăsături esenţiale ale datelor de sondaj, nici prea mare, deoarece se pun în evidenţă trăsături neesenţiale ale datelor de sondaj. Acest număr k de clase de valori se poate calcula cu una din formulele k < 5 log n, k = 1 + 3.322 log n sau se folosesc recomandabil orientative de mai jos. 62 Volum sondaj (n) Nr. clase de valori (k) 30 – 40 41 – 60 61 – 80 81 – 100 5 6 7 8 101 – 125 126 – 150 151 – 175 176 – 200 9 10 11 12 201 – 400 401 – 600 601 – 800 801 – 1000 13 14 15 16 1001 – 2000 2001 – 3000 3001 – 4000 4001 – 5000 17 18 19 20 Lungimea unei clase de valori este max min nr. clase de valori k X X . Centrul clasei de valori Ci, notat cu xi, este mijlocul clasei adică media aritmetică a valorilor extremităţilor clasei Ci. Centrul clasei xi aproximează toate valorile de sondaj în clasa Ci, fiind reprezentantul acestor valori. Frecvenţa absolută ni a valorilor de sondaj într-o clasă de valori Ci este numărul datelor de sondaj care cad în clasa respectivă, valori aproximate prin centrul clasei xi. Frecvenţa relativă (procentuală) fi a valorilor de sondaj într-o clasă de valori Ci este i i n f n . Alături de frecvenţele precedente se pot folosi frecvenţele cumulate calculate astfel: Frecvenţele absolute cumulate: N * i = n1 + n2 + … + ni, (1 < i < n) Frecvenţele relative cumulate: f * i = f1 + f2 + … + fi, (1 < i < n) Datele grupate se pot prezenta grafic prin histograme în raport cu sistemul de axe (Ci, ni), poligonul frecvenţelor în raport cu sistemul de axe (xi, ni) şi respectiv cumulata în raport cu sistemul de axe *; 2 i ix n . Toate aceste operaţii de grupare, tabelare şi reprezentare grafică se pot face cu programul C1GRUP sau cu EXCEL. Pentru datele de sondaj grupate, indicatorii de sondaj de la punctele 5.2 I) – V) capătă forma: I) Media de sondaj: k 1i k 1i iiii xfxn n 1 X II) Mediana de sondaj: Me se determină grafic cu ajutorul cumulatei fiind abscisa de pe axa 2 ix corespunzătoare ordonatei 2 n n*i ; 63 III) Modul de sondaj: Clasa modală Mo este acea clasă Ci cu ni maxim. Modul Mo se determină grafic în clasa modală cu ajutorul histogramei: Spre deosebire de media X care dă tendinţa centrală a datelor de sondaj, modul Mo dă tendinţa sa principală, numindu-se din acest motiv, valoare dominantă sau principală. Există date de sondaj cu mai multe moduri(plurimodale). Dacă datele de sondaj negrupate X1,…, Xn sunt depuse în celulele A1:An din coloana în EXCEL şi cel puţin două din aceste valori sunt egale, modul Mo este dat de funcţia EXCEL scrisă în celula B10: = MODE(A1:An). IV) Abaterea standard de sondaj: k 1i k 1i 2 ii 2 ii XXf 1n n XXn 1n 1 S 64 Datorită grupării în clase de valori şi a aproximării valorilor dintr-o clasă cu centrul clasei xi, S suferă o eroare care se înlătură prin corecţia Sheppard 2 2' 12 S S unde l este lungimea claselor de valori. V) Coeficientul de variabilitate de sondaj: 100 X S c VI) Coeficientul de asimetrie de sondaj: 3 3 1 1 1 1k ki i i i i i X X A n nU n S n Acest coeficient evaluează deplasarea pe orizontală a poligonului frecvenţelor faţă de graficul funcţiei de repartiţie N( X , S) conform figurii: V) Coeficientul de boltire de sondaj: Acest coeficient evaluează deplasarea pe verticală a poligonului frecvenţelor faţă de graficul funcţiei de repartiţie N( X , S) conform figurii: Dacă datele de sondaj negrupate X1,…, Xn sunt depuse în celulele A1:An din coloana A în EXCEL, coeficientul de asimetrie ajustat (numit skewness): 4 4 1 1 1 1k ki i i i i i X X B n nU n S n 65 este dat de funcţia EXCEL scrisă în coloana B11: = SKEW(A1:An), iar coeficientul de boltire ajustat (numit Kurtozis): este dat de funcţia EXCEL scrisă în coloana B12: = KURT(A1:An). Se numeşte structură de date cu k componente ansamblul de numere f1,…, fk care îndeplinesc condiţiile: 0 ≤ fi ≤ 1 (1 ≤ i ≤ k) şi f1 +…+ fk = 1, (f1,…, fk) se numeşte vectorul structurii. Exemple: 1) Frecvenţele relative f1,…, fk ale datelor de sondaj de volum mare, grupate în clasele de valori C1,…, Ck cu centrele de clase x1,…, xk definesc structura sondajului pe clase de valori. 2) Fie k ramuri ale unei unităţi economice şi fie C1,…, Ck cheltuielile totale (productive şi neproductive) anuale ale ramurilor. Cheltuielile totale anuale ale întregii unităţi sunt C = C1 +…+ Ck. Numerele f1 = C1/C,…, fk = C1/C definesc structura de cheltuieli a unităţii pe ramuri. În mod analog, fie V1,…, Vk veniturile totale anuale ale ramurilor şi fie V = V1 +…+ Vk total anual al unităţii. Numerele f1 = V1/V,…, fk = Vk/V definesc structura de venituri a unităţii pe ramuri. Concentrarea unei structuri de date este tendinţa de creştere a ponderii fi a unei componente în detrimentul celorlalte, inclusiv micşorarea numărului k de componente. Concentrarea structurii este maximă dacă fi = 1 şi fj = 0 pentru j ≠ i. Diversificarea structurii de date este tendinţa de egalizare valorică a ponderilor f1,…, fk ale celor k componente ale structurii, inclusiv prin mărirea numărului k de componente. Diversificarea structurii este maximă dacă f1 =…= fk = 1/k. Media valorilor f1,…, fk este f‾ = 1/k iar abaterea-standard a valorilor f1,…,fk este: Pentru concentrarea maximă avem S = 1/(k)1/2 iar pentru diversificarea maximă avem S = 0. Abaterea-standard corectată: este un indicator al concentrării structurii pe componente şi se poate exprima în procente. Entropia structurii este dată de relaţia: Valorile lui - f.log2f se pot lua din tabela 16 din Anexă. Avem H = 0 pentru concentrarea maximă şi H = log2 k pentru diversificarea maximă. Entropia ajustată: este indicator al diversificării structurii pe componente şi se poate exprima în procente. 2 . ( 1)( 2) n Skew A n n 2 2( 1) 3( 1) . ( 1)( 2)( 3) ( 2)( 3) n n n Kurt B n n n n n 2 i 1 deoarece f 1 1 if S k 2 1 . [0;1] 1 ik f S k S k k 2 i=1 .i iH f og f 2 12 1 . k i i i H f og f og k 66 Fie două structuri de date cu vectorii de structură (f1,…, fk) şi (g1,…, gk) Mediile lui f1,…, fk şi respectiv g1,…, gk sunt f = g = 1/k. Legătura între cele două structuri se măsoară prin coeficientul de corelaţie liniară dat de teorema 1.2: Conform teoremei 1.1, coeficientul de regresie liniară între cele două structuri are forma: iar termenul liber al regresiei este: Conform teoremei 2.9, dacă |R| = 1 avem legătura funcţională liniară între cele două structuri, dată de relaţia: g = B0 + B1.f Avem R = 1 dacă B1 > 0 şi R = -1 dacă B1 < 0. Dacă R = 0, cele două structuri nu sunt corelate liniar. Exemplu: Dacă (f1,…, fk) este structura de venituri sau cheltuieli a unei unităţi economice în anul de bază şi (g1,…, gk) este structura de venituri sau cheltuieli a aceleiaşi unităţi în anul curent, R măsoară gradul de stabilitate a structurii în timp. Dacă caracterul X are numai valori întregi, datele de sondaj de volum mare (n > 30) se pot grupa pe valori distincte Xi cu frecvenţele absolute ni sau se poate alege un număr de clase k astfel ca lungimea l a claselor să fie număr întreg deci şi limitele claselor să fie numere întregi. Exemplu: Fie o populaţie statistică de plante de porumb la recoltare de pe 1 ha cu volumul populaţiei N = 75000 plante recoltabile. Pentru a studia greutatea boabelor pe plantă X în grame, efectuăm un sondaj reprezentativ de n = 50 plante deci cota de reprezentare 1500:1 75000 50 N n plante. Date de sondaj în grame: 50; 45; 40; 48; 47; 53; 49; 56; 58; 60; 42; 48; 49; 51; 54; 53; 46; 49; 48; 46; 55; 59; 52; 44; 48; 43; 49; 51; 50; 52; 44; 55; 43; 49; 47; 50; 54; 56; 59; 49; 48; 51; 50; 51; 47; 46; 42; 53; 51. Să se grupeze datele în k = 5 clase de valori, să se reprezinte grafic histograma, poligonul frecvenţelor, cumulata şi să se calculeze indicatorii statistici de la punctul I) – VII). Soluţie: Numărul de clase este k = 5, lungimea unei clase de valori este: 60 40 4 5 g . 2 2 1 [ 1;1] ( 1)( 1) i i i i k f g R k f k g 1 2 1 1 i i i k f g B k f 2 1 0 1 2 1 . 1 i i i i f f gB B g B f k k f 67 Clase Centre clase Xi Frecvenţe ni Frecvenţe n*i Frecvenţe fI Frecvenţe f*i Sub 44 g [44 – 48 g) [48 – 52 g) [52 – 56 g) peste 56 g 42 g 46 50 54 58 5 plante 9 21 9 6 5 plante 14 35 44 50 0.10 0.18 0.42 0.18 0.12 0.10 0.28 0.70 0.88 1.00 Graficele sunt: Histograma: Poligonul frecvenţelor: 68 Cumulata: I) Media de sondaj: 1 5 40 9 46 21 50 9 54 6 58 50.16 50 X g/plantă II) Mediana de sondaj Me = 50 g III) Modul de sondaj Mo = 50 g IV) Abaterea standard de sondaj: 2 2 2 2 21 5 42 50.16 9 46 50.16 21 50 50.16 9 54 50.16 6 58 50.16 49 S = 4.5 g/plantă. Corecţia Shepard: 2 4 ' 4.46 12 S S g V) Coeficientul de variabilitate de sondaj: 4.5 9% 50.16 C VI) Coeficientul de asimetrie de sondaj: 3 3 3 3 3 3 1 5 42 50.16 9 46 50.16 21 50 50.16 9 54 50.16 6 58 50.16 50 4.5 A = 0.008 VII) Coeficientul de boltire de sondaj: 4 4 4 4 4 4 1 5 42 50.16 9 46 50.16 21 50 50.16 9 54 50.16 6 58 50.16 50 4.5 B = 2.41 VIII) Coeficientul de concentrare de sondaj: 2 2 2 2 25 0.10 0.18 0.42 0.18 0.12 1 28.6 % 5 1 S Desigur indicatorii X , Me, S, c puteau fi calculaţi şi din cele n = 50 valori de sondaj înainte de gruparea datelor. Dacă X este însuşire calitativă (atributivă), facem convenţia: 69 1, Exemplarul i are însuşirea X 0, în rest ix Efectuăm un sondaj de volum n deci datele de sondaj vor fi un număr de n cifre egale cu 0 sau cu 1. Fie k numărul cifrelor Xi = 1 (1 < k < n). Media de sondaj devine 1;0 n k f , numindu-se frecvenţă de sondaj. Indiferent de volumul de sondaj n, datele de sondaj se împart în 2 clase: C = {xi/xi = 1} cu k valori şi C = {xi/xi = 0} cu n – k valori. Exemplu: Într-un miniincubator avem o populaţie statistică de N = 1000 ouă. Efectuăm un sondaj reprezentativ de n = 50 ouă şi găsim k = 6 ouă neeclozionate. Să se calculeze frecvenţa de sondaj a ouălor neeclozionate. Soluţie: %12 50 6 n k f Exemple de însuşiri calitative (atributive) în agricultură: - ecloziune ouă culoare, culoare ouă, rezistenţa la manipulare ouă; - viabilitate purcei sugari, pui de o zi; - stare de gestaţie la animale; - stare de profitabilitate a unei societăţi agricole. 2.3 INDICATORI DE SONDAJ DE EVOLUŢIE 2.3.1. Cazul măsurătorilor simple în timp Fie o populaţie statistică pe care o studiem din punct de vedere al însuşirii cantitative X. Dacă însuşirea X ia valori întregi, datele unui sondaj extras din populaţie la momentele de timp t1, t2, …, tn sunt valori instantanee x1, …, xn măsurate în acele momente de timp. Dacă însuşirea X ia valori reale, datele unui sondaj extras din populaţie în intervalele de timp [t1, t2), [t2, t3), …, [tn-1, tn] sunt valori medii x1, …, xn măsurate în acele intervale de timp cu lungimile t2 - t1, t3 - t2, …, t n – t n – 1. Exemplu: X = efectivul anual de vaci al unei ferme zootehnice se măsoară prin valori instantanee (la 31 decembrie al anului calendaristic). X = producţia anuală de lapte al vacilor dintr-o fermă zootehnică se măsoară prin valori medii pe perioada 1 ianuarie – 31 decembrie a anului calendaristic sau pe perioada medie de lactaţie normală de 308 zile. Măsurătorile sunt echidistante dacă t2 – t1 = t3 – t2 = … = tn - tn-1 şi neechidistante în caz contrar. Exemplu de măsurători echidistante: Producţia de lapte a vacilor se controlează echidistant din 28 în 28 zile astfel că într-o lactaţie normală de 308 zile se efectuează 11 controale ale producţiei de lapte. Prezentarea grafică a datelor de sondaj de evoluţie instantanee se face prin poligonul valorilor în raport cu axele (ti, xi) iar a datelor de sondaj de evoluţie se face prin cronograma în raport cu axele ([ti, ti+1), xi). 70 Indicatori statistici de sondaj de evoluţie I) Media cronologică Dacă X se măsoară prin valori instantanee x1, …, xn la momentele de timp t1, …, tn avem: (1) 1n 1nn1n232121 C tt ttx...ttxttx X Dacă X se măsoară prin valori medii x1, …, xn în intervalele de timp [t1, t2), [t2, t3), …, [tn-1, tn] avem: (2) 1n 1nn n1n 23 32 12 21 m tt tt 2 xx ...tt 2 xx tt 2 xx X În cazul măsurătorilor echidistante în timp, avem t2 - t1 = t3 – t2 =, …,= tn – tn – 1 = d şi tn – t1 = (n – 1).d, deci: (3) 1n X...XX X 1n21C respectiv: (4) 1n 2 X X...X 2 X X n 1n2 1 m II) Ritmul mediu valoric (absolut) de evoluţie Abaterile valorice ale datelor de sondaj consecutive sunt D1 = X2 – X1, …,; Dn – 1 = Xn – Xn– 1. Ritmul mediu valoric de evoluţie al datelor de sondaj va fi: (5) 1n 1nn1nn23231212 tt ttxx...ttxxttxx D În cazul măsurătorilor echidistante avem t2 = t1 + r, t3 = t1 + 2r, …, tn = t1 + (n – 1)r deci: (6) 1n XX D 1n Valorile aşteptate ale datelor de sondaj de evoluţie formează progresia aritmetică cu raţia D: X1, X1 + D, …, X1 + (n – 1)D Aceste valori aşteptate X1 + j.D se apropie de cele observate Xj atunci când caracterul X evoluează numai crescător sau numai descrescător în timp şi abaterile valorice ale datelor de sondaj consecutive D1, …, Dn – 1 sunt toate pozitive sau toate negative şi apropiate între ele ca valoare (caracterul X evoluează liniar în timp). În caz contrar se ajustează aceste abateri valorice D1, …, Dn – 1 cu o funcţie de regresie neliniară în raport cu timpul ca în secţiunea 5.3 Pe durata a m perioade de timp, variaţia valorică a caracterului X va fi P = x1 + (m – 1)D – x1 = (m – 1) D deci X variază valoric cu cantitatea P în 1 D P m perioade de timp. Dacă notăm x1 + … + xm = Q avem: QD 2 1mm mX1 de unde 71 D2 DQ8X2DX2D m 11 adică numărul de perioade de timp în care se acumulează cantitatea finală Q a caracterului X respectiv în care se consumă cantitatea iniţială Q a caracterului X. III) Ritmul mediu procentual (relativ) de evoluţie Abaterile procentuale ale datelor de sondaj consecutive sunt: 32 1 2 n - 1 1 2 1 , I , ..., I n n X XX I X X X Ritmul mediu procentual de evoluţie a datelor de sondaj va fi: (7) 12 1 3 2 1 1 32 1 2 1 ... n n n t tt t t t t t n n X XX I X X X Dacă logaritmăm relaţia precedentă, obţinem: (8) 2 1 2 1 n 1 1 1 logX log ... logX log log I n n n n X t t X t t t t deci logaritmul lui I este ritmul mediu valoric de evoluţie al valorilor de sondaj logaritmate. Dacă măsurătorile sunt echidistante avem: t2 – t1 = t3 – t2 = … = tn – tn – 1 = d iar tn – t1 = (n – 1).d, deci avem: 1log loglog 1 nX XI n adică: (9) 1 1 1 n nXI X Valorile aşteptate ale datelor de sondaj de evoluţie formează o progresie geometrică cu raţia I: X1, X1 .I, …, X1 . I n – 1 . Aceste valori aşteptate X1.Ij se apropie de cele observate Xj atunci când caracterul X evoluează numai crescător sau numai descrescător în timp şi abaterile procentuale ale datelor de sondaj consecutive, notate cu I1, …, In – 1 sunt toate supraunitare sau toate subunitare şi apropiate între ele ca valoare (caracterul X are o evoluţie exponenţială în timp). În caz contrar se ajustează aceste abateri procentuale I1, …, In – 1 cu o funcţie de regresie neliniară în raport cu timpul ca în secţiunea 5.3 Pe durata a m perioade de timp variaţia procentuală a lui X va fi 1 11 1 m mX IP I X deci X variază procentual cu valoarea P în log 1 log P m I perioade de timp. Dacă notăm X1 + … + Xm = Q avem: 1 1 1 mI X Q I de unde 1 log 1 1 log Q I X m I , adică numărul de perioade de timp în care se acumulează cantitatea finală Q a valorilor caracterului X respectiv în care se consumă cantitatea iniţială Q a valorilor caracterului X. Exemplu: Fie X = greutatea porcilor la îngrăşat (kg). Fie ti vârsta în zile a porcilor. Se fac n = 10 controale echivalente din 28 în 28 zile. 72 ti 28 56 84 112 140 168 196 224 252 280 xi(g/zi) 3 12 26 42 60 78 94 107 117 120 Se cer X , D, I. Soluţie: Graficul perechilor de valori (x,z) are forma: 1 2 1 1 1 ... 2 2 66.4 1 n nX X X X X n kg 13 1n XX D 1n kg; 1 log log log 0.178 1 nX XI n deci I = 10 0.178 = 1.57 Fie diviziunile de timp echidistante t1, …, tn (cu t2 – t1 = t3 – t2 = … = tn – tn - 1). În cazul măsurătorilor echidistante, indicatorii D şi I nu depind de X2, …, Xn -1, defect care poate fi corectat prin metoda uniformizării înclinării dinţilor de fierăstrău ai seriei cronologice X1, …, Xn, după cum urmează: a) Corecţia lui D Avem diferenţele de ordin I: Di = Xi+1 – Xi. Dacă diviziunile de timp echidistante au lungimea 1 adică: t2 – t1 = t3 – t2 = … = tn – tn - 1 = 1 atunci Di este înclinarea (panta) segmentului care uneşte punctele (ti, Xi) şi (ti+1, Xi+1) cu ti+1 – ti = 1. Dacă Di < 0, avem Xi > Xi+1 deci pe tronsonul [ti; ti+1] caracterul X are variaţie descrescătoare. Dacă Di = 0, avem Xi = Xi+1 deci pe tronsonul [ti; ti+1] caracterul X este staţionar. Dacă Di > 0, avem Xi < Xi+1 deci pe tronsonul [ti; ti+1] caracterul X are variaţie crescătoare. Vom înlocui pe D cu ritmurile medii valorice (absolute) RV1 şi RV2 care urmează: RV1 < 0 este media aritmetică a diferenţelor Di < 0 iar RV2 > 0 este media aritmetică a diferenţelor Di > 0. Valorile lui X1, …, Xn vor fi ajustate cu ajutorul lui RV1 şi RV2 astfel: 1 1 1 1 1 2 1 dacă X dacă X (1 i n-1) dacă X i i i i i i i i i i XV X X RV X XV X X X RV X 0 20 40 60 80 100 120 140 0 50 100 150 200 250 300 Series1 73 Variaţia pătratică totală a lui Y este: 2( )iSPAT X X iar variaţia pătratică reziduală valorică a lui X este: SPAV = (Xi – XVi ) 2 . Dacă SPAV < SPAT, raportul de corelaţie valorică are forma: 1 / [0;1]RV SPAV SPAT Prognoza valorii necunoscute Xn+1 se face cu valoarea: 1 1 2 dacă ne aşteptăm ca X să scadă. X dacă ne aşteptăm ca X să fie staţionar. dacă ne aşteptăm ca X să crească. n n n n X RV XV X RV b) Corecţia lui I Avem rapoartele de ordin I: Ri = Xi+1/Xi. Dacă diviziunile de timp echidistante au lungimea 1 adică: t2 – t1 = t3 – t2 = … = tn – tn - 1 = 1, atunci Ri este înclinarea (panta) segmentului care uneşte punctele (ti, logXi) şi (ti+1, logXi+1) cu ti+1 – ti = 1. Dacă Ri < 1, avem Xi > Xi+1 deci pe tronsonul [ti; ti+1] caracterul logX are variaţie descrescătoare. Dacă Ri = 1, avem Xi = Xi+1 deci pe tronsonul [ti; ti+1] caracterul logX este staţionar. Dacă Ri > 1, avem Xi < Xi+1 deci pe tronsonul [ti; ti+1] caracterul logX are variaţie crescătoare. Vom înlocui pe R cu ritmurile medii procentuale (relative) RP1 şi RP2 care urmează: RP1 < 1 este media geometrică a rapoartelor Ri < 1 iar RP2 > 1 este media geometrică a rapoartelor Ri > 1. Valorile lui X1, …, Xn vor fi ajustate cu ajutorul lui RP1 şi RP2 astfel: 1 1 1 1 1 2 1 dacă X dacă X (1 i n-1) dacă X i i i i i i i i i i XP X X RP X XP X X X RP X Variaţia pătratică totală a lui Y este: 2( )iSPAT X X iar variaţia pătratică reziduală procentuală a lui X este: SPAP = (Xi – XPi) 2 . Dacă SPAP < SPAT, raportul de corelaţie procentuală are forma: 1 / [0;1] RP SPAP SPAT Prognoza valorii necunoscute Xn+1 se face cu valoarea: 1 1 2 dacă ne aşteptăm ca X să scadă. X dacă ne aşteptăm ca X să fie staţionar. dacă ne aşteptăm ca X să crească. n n n n X RP XP X RP Exemplu: Fie X nivelul apei unui râu din România măsurat la miră (m) în n = 10 zile consecutive. Măsurătorile şi calculele conform formulelor precedente figurează în tabelul următor: 74 Xi Diferenţe Di XVi Di Rapoarte Ri XPi DPi 6.5 0 6.5 0 1 6.50 0 6.8 0.3 6.8 0 1.05 6.79 0.01 6.6 - 0.2 6.6 0 0.97 6.60 0 6.6 0 6.6 0 1 6.60 0 7.0 0.4 6.9 0.1 1.06 6.90 0.10 7.2 0.2 7.3 - 0.1 1.03 7.30 - 0.10 7.2 0 7.3 - 0.1 1 7.30 - 0.10 6.9 - 0.3 7.0 - 0.1 0.96 7.00 - 0.10 6.8 - 0.1 6.7 0.1 0.99 6.70 0.10 6.6 - 0.2 6.6 0 0.97 6.60 0 68.2 RV1 = - 0.2; RV2 = 0.3 X X RP1 = 0.971; RP2 = 1.045 X X Rezultate: Graficul perechilor (x, y) are forma: Media cronologică pentru măsurători instantanee este MC = 68.2/10 = 6.82 m Ritmul mediu de scădere valorică este RV1 = - 0.2 m Ritmul mediu de creştere valorică este RV2 = 0.3 m Ritmul mediu de scădere procentuală este RP1 = 0.971; Scăderea medie este RP1-1 = 2.9% Ritmul mediu de creştere procentuală este RP2 = 1.045; Creşterea medie este RP2-1 = 4.5% Variaţia pătratică totală a lui X este SPAT = 0.576 Variaţia reziduală valorică a lui X este SPAV = 0.087 deci raportul de corelaţie valoric este RCV = 0.956 Variaţia reziduală procentuală a lui X este SPAP = 0.096 deci raportul de corelaţie procentual este RCP = 0.951 Prognoză valorică: 10 1 11 10 10 2 =6.6-0.2=6.4m dacă ne aşteptăm ca X să scadă. X =6.6m dacă ne aşteptăm ca X să fie staţionar. =6.6+0.3=6.9m dacă ne aşteptăm ca X să crească. X RV XV X RV 6,4 6,5 6,6 6,7 6,8 6,9 7 7,1 7,2 7,3 0 2 4 6 8 10 12 Series1 75 Prognoză procentuală: 10 1 11 10 10 2 =6.6*0.971=6.41m dacă ne aşteptăm ca X să scadă. X =6.6m dacă ne aşteptăm ca X să fie staţionar. =6.6*1.045=6.89m dacă ne aşteptăm ca X să crească. X RP XP X RP 2.3.2. Cazul măsurătorilor multiple în timp Fie o populaţie statistică pentru care studiem evoluţia caracterului X. Extragem m exemplare independente din populaţie pe care măsurăm caracterul X în n momente de timp t1, …, tn. Datele de sondaj au forma: Timp Nr. t1 t2 …………….……..tn Medii cronologice X Ci 1 2 … m x11 x12 …………………x1n x21 x22 …………………x2n ……………………………. xm1 xm2 ……………….. xmn X C1 X C2 … X Cm Medii de sondaj X j X 1 X 2 ….………… X n X X C Pentru repartiţia caracterului X în sondajul cu m exemplare avem la momentul tj media de sondaj m 1i ijj x m 1 X ; (1 < j < n). Pe întreaga perioadă de timp [t1, tn] avem indicatorii globali: - media cronologică globală: 1nnn1n1221 1n C ttXX 2 1 ...ttXX 2 1 tt 1 X - ritmul mediu valoric global: 1nn1nn1212 1n ttXX...ttXX tt 1 D - ritmul mediu procentual global I unde: 2 1 2 1 1 1 1 1 log log log ... log logn n n n n I X X t t X X t t t t Pentru evoluţia caracterului X în timp avem pentru exemplarul de sondaj numărul i media de evoluţie: 1nnin1n,i122i1i 1n Ci ttXX 2 1 ...ttXX 2 1 tt 1 X ; (1 < i < m). Pe ansamblul întregului sondaj avem indicatorii de sondaj globali: - media de sondaj globală: m 1i CiX m 1 X 76 - abaterea – standard de sondaj globală: m 1i 2 Ci XX 1m 1 S - coeficientul de variabilitate de sondaj global: 100 X S C (%) Exemplu: X = greutatea porcilor la îngrăşat (kg). Fie tj numărul de zile trecute de la data fătării porcilor până la data controlului numărul j. Se fac n = 10 controale echidistante de 28 zile la m = 5 porci. Data de sondaj: tj Repetiţia C 28 56 84 112 140 168 196 224 252 280 Medii cronologice X Ci 1 3 12 26 42 60 78 94 104 117 120 66.4 2 3 13 27 43 61 78 94 106 115 118 66.4 3 3 12 25 41 59 77 94 109 118 122 66.4 4 4 13 27 43 61 77 92 104 112 115 65.4 5 3 12 25 41 59 78 96 111 121 125 67.4 Medii sondaj X j 3.2 12.4 26 42 60 77.6 94 107.4 116.6 120 X = 66.4 X C= 66.4 Pe baza datelor din tabel şi a mediilor de la capetele de tabel să le calculeze indicatorii de repartiţie şi evoluţie globali. Soluţie: Media cronologică globală: 1 2 1... 2 2 66.4 1 n n C XX X X X n kg. Ritmul mediu valoric global: 13 1n XX D 1n kg. Ritmul mediu procentual global: 1 log log log 0.175 1 nX XI n deci I = 10 0.175 = 1.49 Media de sondaj globală: 1 1 ... 66.4 nC C X X X n kg. Abaterea standard de sondaj globală: 1 221 ... 0.47 1 n C CS X X X X n kg Coeficientul de variabilitate de sondaj global: 100 0.7% S C X 2.3.3 Indici statistici În secţiunea precedentă am văzut că pentru un caracter X cu valorile diferite X0, X1 putem calcula: - variaţia absolută: D(X) = X1 – X0; - variaţia relativă: I(X) = X1/X0; - variaţia procentuală: R(X) = D(X)/X0. 77 În limbaj economic diferenţa D se numeşte spor: X1 = X0 + D(X), raportul I se numeşte indice: X1 = X0. I(X) iar mărimea R se numeşte ritm: X1 = X0 + X0.R(X). Variaţia relativă este superioară celei absolute deoarece nu are unităţi de măsură iar variaţia procentuală se calculează uşor pe baza celei relative: R(X) = I(X) – 1. I. În multe situaţii întâlnim caractere Z compuse din produse ale altor caractere X, Y: Z = X.Y cu valori diferite: Z0 = X0.Y0 respectiv Z1 = X1.Y1. Exemple: - Cheltuielile cu o resursă = consumul de resursă x costul unităţii de resursă; - Venitul din vânzarea unui produs agricol = producţia fizică x preţul de vânzare; - Venitul din muncă = productivitatea muncii (venit pe muncitor) x nr. muncitori. În acest caz putem calcula: D(Z) =Z1 - Z0; I(Z) = Z1/Z0; R(Z) = D(Z)/Z0. Avem relaţiile: I(Z) = I(X.Y) = I(X).I(Y); R(Z) = R(X.Y) = I(X).I(Y) - 1 Avem şi mărimile: - produsul mediu : PM(Z) = Z0 = X0.Y0 - produsul marginal: PD(Z) = (X1 - X0).(Y1 – Y0) = D(X).D(Y) - elasticitatea produsului: EP(Z) = PD(Z)/PM(Z) = R(X).R(Y) II. În multe situaţii întâlnim caractere Z compuse din rapoarte (rate) ale altor caractere X, Y: Z = X/Y cu valori diferite: Z0 = X0/Y0 respectiv Z1 = X1/Y1. Exemple: - Rata profitului = Profit/Cheltuieli; - Costul unităţii de produs = Cheltuieli cu produsul/Producţia fizică; - Rata şomajului = Număr şomeri/Număr persoane active. În acest caz putem calcula: D(Z) = Z1 - Z0; I(Z) = Z1/Z0; R(Z) = D(Z)/Z0. Avem relaţiile: I(Z) = I(X/Y) = I(X)/I(Y); R(Z) = R(X/Y) = I(X)/I(Y) - 1 Avem şi mărimile: - rata medie: PM(Z) = Z0 = X0/Y0 - rata marginală: PD(Z) = (X1 - X0)/(Y1 – Y0) = D(X)/D(Y) - elasticitatea ratei: EP(Z) = PD(Z)/PM(Z) = R(X)/R(Y) Indicii statistici sunt numere relative rezultate din compararea valorilor unui indicator statistic la diferite momente de timp, în locuri diferite sau în categorii diferite în raport cu un criteriu. Indicii calculaţi la momente diferite de timp, se numesc indici ai dinamicii. Indicii calculaţi în locuri diferite, se numesc indici teritoriali. Indicii calculaţi în categorii diferite în raport cu un criteriu, se numesc indici calitativi. În calculul indicilor se aleg două momente de timp/locuri/categorii: 1) Momentul de timp/locul/categoria de bază (de referinţă), notată cu 0. 2) Momentul de timp/locul/categoria curentă, notată cu 1. Pentru elemente omogene se calculează indici elementari (individuali) iar pentru elemente neomogene se calculează indici sintetici (de grup). Calităţi şi defecte ale indicilor: 1. Sunt mărimi mărginite pozitive. 2. Nu au unităţi de măsură deci se pot compara între ei. 3. Nu sunt sensibili la înmulţirea şi împărţirea datelor. 4. Indicii sintetici se pot calcula numai pentru cheltuieli şi venituri. 78 Exemplul 1 Fie trei resurse R1 (motorină în litri/ha), R2 (îngrăşăminte chimice NPK în Kg/ha) şi R3 (apă de irigaţie în m3/ha). Baza este anul 2000 iar anul curent este anul 2003. Qi (unităţi de resursă/ha) este consumul de resursă Ri, Ci (lei/unitate de resursă) este costul resursei Ri iar CHi = Qi .Ci (milioane lei/ha) este suma cheltuită cu resursa Ri. Resurse Consumuri Qi Costuri Ci Cheltuieli CHi = QiCI Bază Qi0 Curent Qi1 Bază Ci0 Curent Ci1 Qi0Ci0 Qi0Ci1 Qi1Ci0 Qi1Ci1 R1 120 110 12000 18000 1.44 2.16 1.32 1.98 R2 210 220 6000 8000 1.26 1.68 1.32 1.76 R3 1000 800 300 500 0.30 0.50 0.24 0.40 Total 18300 26500 3.00 4.34 2.88 4.14 A. Indici individuali: - pentru consumuri: IQ(R1) = Q11/Q10 = 110/120 = 0.92 IQ(R2) = Q21/Q20 = 220/210 = 1.05 IQ(R3) = Q31/Q30 = 800/1000 = 0.80 IQ = [IQ(R1). IQ(R2). IQ(R3)] 1/3 = 0.916 - pentru costuri: IC(R1) = C11/C10 = 18000/12000 = 1.50 IC(R2) = C21/C20 = 8000/6000 = 1.33 IC(R3) = C31/C30 = 500/300 = 1.60 IC = [IC(R1). IC(R2). IC(R3)] 1/3 = 1.494 - pentru cheltuieli: ICH(R1) = (Q11C11)/(Q10C10) = 1.98/1.44 = 1.375 ICH(R2) = (Q21C21)/(Q20C20) = 1.76/1.26 = 1.40 ICH(R3) = (Q31C31)/(Q30C30) = 0.40/0.30 = 1.33 ICH = [ICH(R1). ICH(R2). ICH(R3)] 1/3 = 1.368 A) Indici sintetici pentru cheltuieli ca indici agregaţi: 1) Indicele total: IT(CH) = (ΣQi1Ci1)/(ΣQi0Ci0) = 4.14/3.00 = 1.38 2) Indicele Laspeyres: - pentru consumuri: IL(Q) = (ΣQi1Ci0)/(ΣQi0Ci0) = 2.88/3.00 = 0.96 - pentru costuri: IL(C) = (ΣQi0Ci1)/(Qi0Ci0) = 4.34/3.00 = 1.45 3) Indicele Paasche: - pentru consumuri: IP(Q) = (ΣQi1Ci1)/(Qi0Ci1) = 4.14/4.34 = 0.95 - pentru costuri: IP(C) = (Qi1Ci1)/(Qi1Ci0) = 4.14/2.88 = 1.44 4) Indicele Fisher: - pentru consumuri: IF(Q) = [IL(Q).IP(Q)] 1/2 = 0.955 - pentru costuri: IF(C) = [IL(C).IP(C)] 1/2 = 1.455 79 Observaţii: i) Indicele Laspeyres este medie aritmetică ponderată a indicilor individuali I(R i) cu ponderile: Ui = (Qi0Ci0)/(ΣQi0Ci0), deci ΣUi = 1: - pentru consumuri: IL(Q) = ΣIQ(Ri).Ui - pentru costuri: IL(C) = ΣIC(Ri).Ui ii) Indicele Paasche este medie armonică ponderată a indicilor individuali I(R i) cu ponderile: Vi = (Qi1Ci1)/(ΣQi1Ci1), deci ΣVi = 1: - pentru consumuri: [1/IP(Q)] = Σ[1/IQ(Ri)]. Vi - pentru costuri: [1/IP(C)] = Σ[1/IC(Ri)]. Vi iii) Indicele total este produsul indicilor Laspeyres şi Paasche: IT(CH)= IL(Q).IP(C) = IL(C).IP(Q) B) Indicii sintetici pentru cheltuieli ca rapoarte de medii: 5) Indicele cu structură variabilă: ISV = [(ΣQi1Ci1)/(ΣCi1)] : [(ΣQi0Ci0)/(ΣCi0)] = (4.14/26500) : (3.00/18300) = 0.95 6) Indicele cu structură fixă: ISF = [(ΣQi1Ci1)/(ΣCi1)] : [(ΣQi0Ci1)/(ΣCi1)] = (4.14/26500) : (4.34/26500) = 0.95 7) Indicele variaţiei structurii: IVS = [(ΣQi0Ci1)/(ΣCi1)] : [(ΣQi0Ci0)/(ΣCi0)] = (4.34/26500) : (3.00/18300) = 1 Observaţii: iv) Pentru indicii 7) - 9) avem relaţia: ISV = ISF.IVS v) Cu notaţiile Wi0 = Ci0/(ΣCi0), deci ΣWi0 = 1 respectiv Wi1 = Ci1/(ΣCi1), deci ΣWi1 = 1, indicii 7) - 9) capătă forma de indici agregaţi: ISV = (ΣQi1Wi1)/(ΣQi0Wi0) analog cu indicele total IT de la punctul 1) ISF = (ΣQi1Wi1)/(ΣQi0Wi1) analog cu indicele Paasche IP(Q) de la punctul 3) IVS = (ΣQi0Wi1)/(ΣQi0Wi0) analog cu indicele Laspeyres IL(C) de la punctul 2) Cheltuielile CH sunt un indicator complex bifactorial de forma CH = Q.C Variaţia cheltuielilor în timp este absolută: Δ(CH) = ΣQi1Ci1 - ΣQi0Ci0 sau relativă: IT(CH) = (ΣQi1Ci1)/ΣQi0Ci0 Aceste variaţii absolute sau relative, se pot descompune în componente cu metoda restului/câtului nedescompus. Variaţiile absolute sunt: Δ(CH) = ΣQi1Ci1 - ΣQi0Ci0 = 1.14 Δ(Q) = ΣQi1Ci0 - ΣQi0Ci0 = - 0.12 Δ(C) = ΣQi0Ci1 - ΣQi0Ci0 = 1.34 Δ(Q ∩ C) = (ΣQi1Ci1 - ΣQi1Ci0) - (ΣQi0Ci1 - ΣQi0Ci0) = - 0.08 Verificare: Δ(CH) = Δ(Q) + Δ(C) + Δ(Q ∩ C) Coeficienţii de importanţă pentru repartizarea restului nedescompus Δ(Q ∩ C) în mod proporţional cu influenţa independentă a factorilor, vor fi: α(Q) = Δ(Q)/(Δ(Q) + Δ(C)) = - 0.098 α(C) = Δ(C)/(Δ(Q) + Δ(C)) =1.098 deci α(Q) + α(C) = 1 Recalculăm variaţiile absolute astfel: Δ*(Q) = Δ(Q) + α(Q).Δ(Q ∩ C) = - 0.11 Δ*(C) = Δ(C) + α(C).Δ(Q ∩ C) = 1.25 Verificare: Δ(CH) = Δ*(Q) + Δ*(C) 80 Variaţiile relative sunt: IT(CH) = (ΣQi1Ci1)/(ΣQi0Ci0) = 1.38 IL(Q) = (ΣQi1Ci0)/(ΣQi0Ci0) = 0.96 IL(C) = (ΣQi0Ci1)/(ΣQi0Ci0) = 1.45 I(Q ∩ C) = (ΣQi1Ci1/ΣQi1Ci0) : (ΣQi0Ci1/ΣQi0Ci0) = IP(C)/IL(C) = 0.993 Verificare: IT(CH) = IL(Q) . IL(C) . I(Q ∩ C) Coeficienţii de importanţă pentru repartizarea câtului nedescompus I(Q ∩ C) în mod proporţional cu influenţa independentă a factorilor vor fi: β(Q) = (log IL(Q))/(log IL(Q) + log IL(C)) = - 0.126 β(C) = (log IL(C))/(log IL(Q) + log IL(C)) =1.126 deci β(Q) + β(C) = 1 Recalculăm variaţiile relative astfel: I * L(Q) = IL(Q).[I(Q ∩ C)] β(Q) = 0.961 I * L(C) = IL(C).[I(Q ∩ C)] β(C) = 1.438 Verificare: IT(CH) = I * L(Q). I * L(C) Metoda poate fi aplicată şi indicatorilor complexi trifactoriali, tetrafactoriali etc. Exemplul 2 Fie trei produse: T1 (Grâu); T2 (Porumb); T3 (Floarea soarelui). Baza este anul 2000 iar anul curent este 2003. Yi este producţia fizică a produsului Ti (Kg/ha), Di este preţul de vânzare al unităţii de producţie fizică a produsului Ti (lei/kg) iar Vi = Yi . Di este venitul obţinut din vânzarea produsului Ti (milioane lei/ha). Produse Producţii Yi Preţuri vânzare Di Venituri Vi = YiDI Bază Yi0 Curent Yi1 Bază Di0 Curent Di1 Yi0Di0 Yi0Di1 Yi1Di0 Yi1Di1 T1 3000 3500 2000 4000 6 12 7 14 T2 5000 6000 2500 4000 12.5 20 15 24 T3 1800 2000 10000 12000 18 21.6 20 24 TOTAL 14500 20000 36.5 53.6 42 62 A) Indici individuali: - pentru producţii: IY(T1) = Y11/Y10 = 3500/3000 = 1.17 IY(T2) = Y21/Y20 = 6000/5000 = 1.20 IY(T3) = Y31/Y30 = 2000/1800 = 1.11 IY = [IY(T1) . IY(T2) . IY(T3)] 1/3 = 1.159 - pentru preţuri de vânzare: ID(T1) = D11/D10 = 4000/2000 = 2.00 ID(T2) = D21/D20 = 4000/2500 = 1.60 ID(T3) = D31/D30 = 12000/10000 = 1.20 ID = [ID(T1) . ID(T2) . ID(T3)] 1/3 = 1.566 - pentru venituri: IV(T1) = Y11D11/Y10D10 = 14/6 = 2.33 IV(T2) = Y21D21/Y20D20 = 24/12.5 = 1.92 IV(T3) = Y31D31/Y30D30 = 24/18 = 1.33 IV = [IV(T1) . IV(T2) . IV(T3)] 1/3 = 1.814 81 B) Indici sintetici pentru venituri ca indici agregaţi: 1) Indicele total: IT(V) = (ΣYi1Di1)/(ΣYi0Di0) = 62/36.5 = 1.70 2) Indicele Laspeyres: - pentru producţii: IL(Y) = (ΣYi1Di0)/(ΣYi0Di0) = 42/36.5 = 1.15 - pentru preţuri de vânzare: IL(D) = (ΣYi0Di1)/(ΣYi0Di0) = 53.6/36.5 = 1.47 3) Indicele Paasche: - pentru producţii: IP(Y) = (ΣYi1Di1)/(ΣYi0Di1) = 62/53.6 = 1.48 - pentru preţuri de vânzare: ID = (ΣYi1Di1)/(ΣYi1Di0) = 62/42 = 1.48 4) Indicele Fisher: - pentru producţii: IF(Y) = [IL(Y) . IP(Y)] 1/2 = 1.155 - pentru preţuri de vânzare: IF(D) = [IL(D) . IP(D)] 1/2 = 1.475 C) Indici sintetici pentru venituri ca rapoarte de medii: 5) Indicele cu structură variabilă: ISV = [(ΣYi1Di1)/(ΣDi1)] : [(ΣYi0Di0)/(ΣDi0)] = (62/20000) : (36.5/14500) = 1.23 6) Indicele cu structură fixă: ISF = [(ΣYi1Di1)/(ΣDi1)] : [(ΣYi0Di1)/(ΣDi1)] = (62/20000) : (53.6/20000) = 1.16 7) Indicele variaţiei structurii: IVS = [(ΣYi0Di1)/(ΣDi1)] : [(ΣYi0Di0)/(ΣDi0)] = (53.6/20000) : (36.5/14500) = 1.06 Verificare: ISV = ISF . IVS Veniturile V sunt un indicator complex bifactorial de forma V = Y . D Variaţia veniturilor în timp este absolută: Δ(V) = ΣYi1Di1 - ΣYi0Di0 sau relativă: IT(V) = (ΣYi1Di1)/ΣYi0Di0 Aceste variaţii absolute sau relative, se pot descompune în componente cu metoda restului/câtului nedescompus. Variaţiile absolute sunt: Δ(V) = ΣYi1Di1 - ΣYi0Di0 = 25.5 Δ(Y) = ΣYi1Di0 - ΣYi0Di0 = 5.5 Δ(D) = ΣYi0Di1 - ΣYi0Di0 = 17.1 Δ(Y ∩ D) = (ΣYi1Di1 - ΣYi1Di0) - (ΣYi0Di1 - ΣYi0Di0) = 2.9 Verificare: Δ(V) = Δ(Y) + Δ(D) + Δ(Y ∩ D) Coeficienţii de importanţă pentru repartizarea restului nedescompus Δ(Y ∩ D) în mod proporţional cu influenţa independentă a factorilor, vor fi: α(Y) = Δ(Y)/(Δ(Y) + Δ(D)) = 0.357 α(D) = Δ(D)/(Δ(Y) + Δ(D)) = 0.643 deci α(Y) + α(D) = 1 Recalculăm variaţiile absolute astfel: Δ*(Y) = Δ(Y) + α(Y) . Δ(Y ∩ D) = 2.143 Δ*(D) = Δ(D) + α(D) . Δ(Y ∩ D) = 3.857 Verificare: Δ(V) = Δ*(Y) + Δ*(D) Variaţiile relative sunt: IT(V) = (ΣYi1Di1)/(ΣYi0Di0) = 1.699 82 IL(Y) = (ΣYi1Di0)/(ΣYi0Di0) = 1.151 IL(D) = (ΣYi0Di1)/(ΣYi0Di0) = 1.468 I(Y ∩ D) = (ΣYi1Di1/ΣYi1Di0) : (ΣYi0Di1/ΣYi0Di0) = IP(D)/IL(D) = 1.005 Verificare: IT(V) = IL(Y) . IL(D) . I(Y ∩ D) Coeficienţii de importanţă pentru repartizarea câtului nedescompus I(Y ∩ D) în mod proporţional cu influenţa independentă a factorilor vor fi: β(Y) = (log IL(Y))/(log IL(Y) + log IL(D)) = 0.267 β(D) = (log IL(D))/(log IL(Y) + log IL(D)) = 0.733 deci β(Y) + β(D) = 1 Recalculăm variaţiile relative astfel: I * L(Y) = IL(Y) . [I(Y ∩ D)]β(Y) = 1.152 I * L(D) = IL(D) . [I(Y ∩ D)]β(D) = 1.473 Verificare: IT(V) = I * L(Y) . I * L(D) Metoda poate fi aplicată şi indicatorilor complexi trifactoriali, tetrafactoriali etc. Exemplul 3 Fie trei societăţi comerciale: S1 (Vegetală); S2 (Zootehnie); S3 (Procesare produse agrozootehnice). Baza este anul 2000 iar anul curent este 2003. NI este numărul de muncitori în ramura Si, Pi este productivitatea muncii în ramura Si (milioane lei venit/muncitor) iar Wi = Ni . Pi este venitul din forţa de muncă în ramura Si (milioane lei/an). Societ. Comer. Nr. muncitori Ni Productivităţi Pi Venituri Wi = NiPi Bază Ni0 Curent Ni1 Bază Pi0 Curent Pi1 Ni0Pi0 Ni0Pi1 Ni1Pi0 Ni1Pi1 S1 10 8 10 15 100 150 80 120 S2 15 12 6 7 90 105 72 84 S3 20 16 10 12 200 240 160 192 TOTAL 26 34 390 495 312 396 A) Indici individuali: - pentru număr de muncitori: IN(S1) = N11/N10 = 8/10 = 0.80 IN(S2) = N21/N20 = 12/15 = 0.80 IN(S3) = N31/N30 = 16/20 = 0.80 IN = [IN(S1) . IN(S2) . IN(S3)] 1/3 = 0.800 - pentru productivităţi: IP(S1) = P11/P10 = 15/10 = 1.50 IP(S2) = P21/P20 = 7/6 = 1.17 IP(S3) = P31/P30 = 12/10 = 1.20 IP = [IP(S1) . IP(S2) . IP(S3)] 1/3 = 1.281 - pentru venituri: IV(S1) = N11P11/N10P10 = 120/100 = 1.20 IV(S2) = N21P21/N20P20 = 84/90 = 0.93 IV(S3) = N31P31/N30P30 = 192/200 = 0.96 IW = [IW(S1) . IW(S2) . IW(S3)] 1/3 = 1.024 83 B) Indici sintetici pentru venituri ca indici agregaţi: 1) Indicele total: IT(W)= (ΣNi1Pi1)/(ΣNi0Pi0) = 396/390 = 1.02 2) Indicele Laspeyres: - pentru numărul de muncitori: IL(N) = (ΣNi1Pi0)/(ΣNi0Pi0) = 312/390 = 0.80 - pentru productivităţi: IL(P) = (ΣNi0Pi1)/(ΣNi0Pi0) = 495/390 = 1.27 3) Indicele Paasche: - pentru numărul de muncitori: IP(N) = (ΣNi1Pi1)/(ΣNi0Pi1) = 396/495 = 0.80 - pentru productivităţi: IP (P)= (ΣNi1Pi1)/(ΣNi1Pi0) = 396/312 = 1.27 4) Indicele Fisher: - pentru numărul de muncitori: IF(N) = [IL(N) . IP(N)] 1/2 = 0.80 - pentru productivităţi: IF(P) = [IL(P) . IP(P)] 1/2 = 1.27 C) Indici sintetici pentru venituri ca rapoarte de medii: 5) Indicele cu strucutură variabilă: ISV = [(ΣNi1Pi1)/(ΣPi1)] : [(ΣNi0Pi0)/(ΣPi0)] = (396/34) : (390/26) =0.776 6) Indicele cu structură fixă: ISF = [(ΣNi1Pi1)/(ΣPi1)] : [(ΣNi0Pi1)/(ΣPi1)] = (396/36) : (495/36) = 0.80 7) Indicele variaţiei structurii: IVS = [(ΣNi0Pi1)/(ΣPi1)] : [(ΣNi0Pi0)/(ΣPi0)] = (495/34) : (390/26) = 0.97 Verificare: ISV = ISF . IVS Veniturile din forţa de muncă W sunt un indicator complex bifactorial de forma W = N . P. Variaţia veniturilor în timp este absolută: Δ(W) = ΣNi1Pi1 - ΣNi0Pi0 sau relativă: IT(V) = (ΣNi1Pi1)/ΣNi0Pi0 Aceste variaţii absolute sau relative, se pot descompune în componente cu metoda restului/câtului nedescompus. Variaţiile absolute sunt: Δ(W) = ΣNi1Pi1 - ΣNi0Pi0 = 6 Δ(N) = ΣNi1Pi0 - ΣNi0Pi0 = - 78 Δ(P) = ΣNi0Pi1 - ΣNi0Pi0 = 105 Δ(N ∩ P) = (ΣNi1Pi1 - ΣNi1Pi0) - (ΣNi0Pi1 - ΣNi0Pi0) = - 21 Verificare: Δ(W) = Δ(N) + Δ(P) + Δ(N ∩ P) Coeficienţii de importanţă pentru repartizarea restului nedescompus Δ(N ∩ P) în mod proporţional cu influenţa independentă a factorilor, vor fi: α(N) = Δ(N)/(Δ(N) + Δ(P)) = - 2.889 α(P) = Δ(P)/(Δ(N) + Δ(P)) = 3.889 deci α(N) + α(P) = 1 Recalculăm variaţiile absolute astfel: Δ*(N) = Δ(N) + α(N) . Δ(N ∩ P) = - 17.331 Δ*(P) = Δ(P) + α(P) . Δ(N ∩ P) = 23.331 Verificare: Δ(W) = Δ*(N) + Δ*(P) Variaţiile relative sunt: IT(W) = (ΣNi1Pi1)/(ΣNi0Pi0) = 1.015 84 IL(N) = (ΣNi1Pi0)/(ΣNi0Pi0) = 0.8 IL(P) = (ΣNi0Pi1)/(ΣNi0Pi0) = 1.269 I(N ∩ P) = (ΣNi1Pi1/ΣNi1Pi0) : (ΣNi0Pi1/ΣNi0Pi0) = IP(P)/IL(P) = 1 Verificare: IT(W) = IL(N) . IL(P) . I(N ∩ P) Coeficienţii de importanţă pentru repartizarea câtului nedescompus I(N ∩ P) în mod proporţional cu influenţa independentă a factorilor vor fi: β(N) = (log IL(N))/(log IL(N) + log IL(P)) = - 16.167 β(P) = (log IL(P))/(log IL(N) + log IL(P)) = 17.167 deci β(N) + β(P) = 1 Recalculăm variaţiile relative astfel: I * L(N) = IL(N) . [I(N ∩ P)]β(N) = 0.8 I * L(P) = IL(P) . [I(N ∩ P)]β(P) = 1.269 Verificare: IT(W) = I * L(N) . I * L(P) Metoda poate fi aplicată şi indicatorilor complexi trifactoriali, tetrafactoriali etc. Momentul de bază din exemplele precedente, notat cu 0, poate fi înlocuit cu un loc de bază sau cu o categorie de bază în raport cu un criteriu. Deasemenea momentul curent din exemplele precedente, notat cu 1, poate fi înlocuit cu un loc curent sau cu o categorie curentă în raport cu un criteriu. Indicii precedenţi satisfac anumite condiţii, numite teste ale indicilor, prezentate în lucrarea “Mică enciclopedie de statistică”, pag. 227-230. Vom descrie în încheiere modul de calcul al indicelui preţului de consum (IPC) pe baza indicelui sintetic Laspeyres. I. Nomenclatorul de produse şi servicii conţine trei grupe: a) Produse alimentare b) Produse nealimentare c) Servicii Fiecare grupă conţine mai multe subgrupe, fiecare subgrupă conţine mai multe produse şi fiecare produs conţine mai multe sortimente. În total nomenclatorul conţine circa 2000 sortimente. Exemplu: În grupa produselor alimentare avem de exemplu subgrupa carne şi produse din carne în care avem de exemplu produsul carne de porc în care avem de exemplu sortimentul pulpă de porc cu os. II. Nomenclatorul de localităţi conţine 68 centre de culegere şi înregistrare a preţurilor/ tarifelor în fiecare din cele 41 judeţe (Municipiul Bucureşti are 6 centre pentru cele 6 sectoare şi unul pentru sectorul agricol Ilfov; Timişoara, Constanţa, Cluj, Braşov au câte 3 centre etc.) III. Nomenclatorul de magazine şi pieţe alimentare şi nealimentare, precum şi unităţi prestatoare de servicii pentru înregistrarea preţurilor/tarifelor pe sortimentele de la punctul I. IV. Periodicitatea înregistrării preţurilor/tarifelor este săptămânală pentru mărfuri alimentare, bilunară pentru mărfuri nealimentare şi servicii şi lunară pentru cele supravegheate (pâine, benzină, transport CFR etc). Etape de calcul: 1) Se calculează preţul/tariful mediu lunar PMjk pentru fiecare sortiment j din cele 2000 şi pentru fiecare centru de culegere k din cele 68. 2) Se calculează preţul/tariful mediu lunar PMj pentru fiecare sortiment j din cele 2000 şi pentru toate cele 68 centre de culegere, atât pentru momentul bază (0) cât şi pentru momentul current (1). 85 3) Se calculează indicele individual de preţ Ij = PMj (1) /PMj (0) pentru fiecare sortiment j din cele 2000. 4) Se calculează indicii la nivel de produs, subgrupă, grupă printr-un indice Laspeyres cu coeficienţii de ponderare în perioada de bază: Uj (0) pe sortiment, Up (0) pe produs, Us (0) pe subgrupă, Ug (0) pe grupă: IPC se utilizează în aprecierea inflaţiei, în politica monetară şi fiscal (masa monetară, rata dobânzii), în stabilirea drepturilor băneşti (salarii, pensii, alocaţii, burse) pentru menţinerea puterii de cumpărare, a salariului real şi a veniturilor reale ale populaţiei. 2.4 ESTIMAŢII/TESTE ÎN POPULAŢII NORMALE Fie o populaţie statistică de volum N, care este normală N(μ, σ) în raport cu însuşirea X. Efectuăm un sondaj de n valori independente x1, ..., xn care au media de sondaj n x X i şi abaterea standard de sondaj 2 1 1 Xx n S i . X şi S se schimbă de la un sondaj la altul, fiind variabile aleatoare independente cu următoarele medii şi varianţe: Pentru sondajul simplu repetat avem: 1) XM ; n XV 2 ; 2) M(S 2 )=σ 2 ; V(S 2 )= 2 2n ; Rezultă de aici XM ; 0lim XV n , deci X este o estimaţie absolut corectă pentru μ. De asemenea M(S 2 ) = σ2; 0)(lim 2 SV n , deci S este o estimaţie absolut corectă pentru σ. Pentru sondajul simplu nerepetat avem: 3) M( X ) = μ; Nn XV 22 ; 4) M(S2) = 2 1 N N ; V(S 2 ) = Nn 22 2 ; Rezultă de aici că M( X ) = μ; 0lim XV n , deci şi în acest caz X este estimaţie absolut corectă pentru μ. De asemenea M(S2) = 2 1 N N ; 0)(lim SV n , deci S este estimaţie corectă pentru σ. (0) (0) j j j j p (0) (0) j p (0) (0) p p p p s (0) (0) p s (0) (0) s s s s g (0) (0) s g (0) g g (0) g I U I U pe produs : I = ; U U I U I U pe subgrupă : I = ; U U I U I U pe grupă : I = ; U U I U 5) Calculul IPC : IPC = U 86 Pentru populaţii infinite (N → ∞), expresiile precedente în cazul sondajului simplu repetat de la punctele 1), 2) coincid cu cele din cazul sondajului nerepetat de la punctele 3), 4). Dacă X este însuşire calitativă, X = f (frecvenţa valorii X în sondaj) se schimbă de la un sondaj la altul şi M(f) = p; V(f) = n pp )1( , deci f este o estimaţie absolut corectă pentru p. În cazul sondajului stratificat se efectuează sondaje simple (repetate sau nerepetate) de volume n1,..., nk (n1 +...+ nk = n) din straturile numărul 1,..., k de volume N1,..., Nk; (N1 +.......+ Nk = N), găsindu-se mediile de sondaj din straturi X 1,..., X k. 5) Media sondajului stratificat va fi: n xnxn X kk 11 6) În cazul sondajelor simple repetate din straturi avem: k i ii n N N XV 1 22 2 1 ; 7) În cazul diferitelor tipuri de sondaj stratificat înlocuim pe ni în relaţiile 5) - 7) astfel: a) Pentru sondajul tipic: k n ni , (i = 1,..., k); b) Pentru sondajul proporţional: N N nn ii , (i = 1,..., k); c) Pentru sondajul optim: k i ii ii i N N nn 1 , (i = 1,..., k). În cazul sondajului stratificat optim avem V( X ) = minim. 8) Dacă populaţia este infinită, i i p N N , deci indiferent dacă sondajele simple în straturi sunt repetate sau nerepetate avem: k i ii n p XV 1 22 . Trebuie rezolvate două probleme: I. Estimarea lui μ şi σ prin intervale de încredere pe baza lui X şi S; II. Testarea de valori concrete μ0 şi σ0 pentru μ şi σ pe baza lui X şi S. O ipoteză statistică este o presupunere asupra parametrilor unor variabile aleatoare ce caracterizează anumite populaţii statistice. Fie variabila aleatoare X cu densitatea de probabilitate y = f(x, θ), unde θ este un parametru care poate lua valorile θ0, θ1, θ2,... Ipoteza H: θ = θ0 se numeşte ipoteza nulă iar ipoteza H :θ = θi, (i = 1,2,...) se numeşte ipoteza alternativă. Ipotezele în care se specifică valorile parametrului θ se numesc ipoteze simple iar cele în care nu se specifică valorile lui θ, se numesc ipoteze compuse. De exemplu ipoteza nulă H:θ = θ0este ipoteză simplă în timp ce ipoteza alternativă H :θ ≠ θ0 este ipoteză compusă bilaterală iar ipotezele H = θ › θ0 şi H :θ ‹ θ0 sunt ipoteze compuse unilaterale. O ipoteză H asupra lui θ poate fi adevărată sau falsă iar decizia noastră asupra lui H poate fi de asemenea că H este adevărată sau falsă. Probabilităţile combinaţiilor acestor situaţii sunt date în tabelul alăturat: 87 Decizia despre H Ipoteza H H este adevărată H este falsă H este adevărată 1-α Α H este falsă β 1-β se numeşte eroare de ordin I sau nivel de semnificaţie al testului, β se numeşte eroare de ordin II. În controlul statistic al calităţii şi fiabilităţii (Cap. 3), α se numeşte riscul furnizorului iar β riscul beneficiarului. Se poate arăta că dacă α scade, atunci β creşte şi invers, iar dacă volumul de sondaj n creşte atunci α şi β scad. Mai observăm şi faptul că α pentru ipoteze compuse unilaterale este α/2 pentru ipoteze compuse bilaterale deci în continuare vom considera numai ipoteze compuse bilaterale. Fie vectorul sondajului x = (x1, ..., xn) şi mulţimea vectorilor de sondaj W nR astfel că avem probabilitatea condiţionată PH(x W) = α dacă ipoteza H este adevărată. W se numeşte zonă critică iar complementara sa W zonă de acceptare a ipotezei H. Fie ipoteza nulă H:θ = θ0 faţă de ipoteza alternativă H :θ = θ1. Probabilitatea de respingere a lui H ca funcţie de θ, se numeşte funcţia de putere a testului şi se notează Π(W, θ) = Pθ(x W). Evident avem: Π(W, θ0) = α; Π(W, θ1) = 1 - β. Funcţia de putere a testului Π(W, θ) permite determinarea probabilităţii 1 - β ca testul să sesizeze o anumită diferenţă între θ0 şi θ1 şi reciproc ea permite calcularea diferenţei maxime între θ0 şi θ1 pe care o poate sesiza testul cu o anumită putere 1 - β la un anumit prag de semnificaţie α. Exemplu: Pentru ipoteza nulă H:μ = μ0 faţă de ipoteza alternativă H :μ > μ0 funcţia de putere a testului are graficul: Pentru ipoteza nulă H:μ = μ0 faţă de ipoteza alternativă H :μ ≠ μ0 funcţia de putere a testului are graficul: 88 Testul cu funcţia de putere Π(W, θ) = maximă, se numeşte cel mai puternic test. Se demonstrează: Lema Neyman-Pearson Testul ipotezei nule H:θ = θ0 faţă de ipoteza alternativă simplă H :θ = θ1 este cel mai puternic test dacă zona critică W a testului satisface condiţia: k xf xf ),( ),( 1 0 dacă x W şi k xf xf )1 0 ,( ),( dacă Wx . 2.5 ESTIMAŢII/TESTE PARAMETRICE ÎN POPULAŢII NORMALE 2.5.1 Estimaţii/teste pentru parametrii μ, σ ai unui caracter cantitativ într-o populaţie normală Fie o populaţie statistică normală N(μ, σ) faţă de însuşirea cantitativă X. Fie un sondaj simplu repetat de n valori independente x1, ..., xn extras din populaţie. Fie X media de sondaj şi S abaterea standard de sondaj (vezi secţiunea 2.2) Teorema 2.1 Mărimea X t n S este variabilă Student cu n - 1 grade de libertate. Demonstraţie: x1, ..., xn fiind valori de sondaj independente extrase dintr-o populaţie normală N(μ, σ) faţă de însuşirea cantitativă X, se poate arăta cu teoremele 2.2, 2.3, 3.7 că nx n x n X 11 1 este o variabilă normală cu media: nn xM n xM n XM n 11 )( 1 )( 1 )( 1 şi varianţa: nnn xV n xV n XV n 2 2 2 2 2212 11 )( 1 )( 1 )( . 89 Mai departe, n X fiind variabilă N(0, 1) şi conform teoremei 1.2 de mai jos, 2 21 Sn fiind variabilă χ2 cu n - 1 grade de libertate, variabila n S X n Sn n X t 1 1 2 2 este variabilă Student cu n - 1 grade de libertate. Q.E.D. Din teorema 3.1 rezultă: 1)( 22 tttP , adică intervalul de încredere pentru μ: 1 / 2 / 2; 1P X X unde / 2 / 2 S t n este diferenţa limită. Reciproc, dându-se δα/2, avem mărimea probei: Din tabela 2 din Anexă, conform relaţiei / 2P t t , pe linia a n - 1 grade de libertate şi coloanele α = 0.05; 0.01 şi 0.001 găsim valorile critice 2.5% 0.5% 0.05%; ;t t t cu ajutorul cărora găsim trei intervale de încredere pentru μ de forma: cu încrederea 95%; cu încrederea de 99%; cu încrederea de 99.9%. Ipoteza H:μ = μ0 se acceptă dacă 0 2.5% 2.5%;X X şi se respinge în caz contrar astfel: a) 0 semnificativ dacă totuşi: 0 0.5% 2.5% 2.5% 0.5%; ;X X X X ; b) 0 distinct semnificativ dacă totuşi: 0 0.05% 0.5% 0.5% 0.05%; ;X X X X ; c) 0 foarte semnificativ dacă: 0 0.05%X sau 0 0.05%X . Teorema 2.2 Mărimea 2 2 2 1 Sn este variabilă hi pătrat cu n - 1 grade de libertate. Demonstraţie: Avem 222 2 1 2 1 n n S x Xx X şi cum ii x X u sunt variabile N(0, 1), independente câte două, χ2 este variabilă hi pătrat cu n - 1 grade de libertate (căci avem relaţia de dependenţă 1 0n x Xx X ). Q.E.D. 2.5% 2.5%1) [ ; ]X X 0.5% 0.5%2) [ ; ]X X 0.05% 0.05%3) [ ; ]X X 2 / 2 / 2 . S n t 90 Din teorema 2.2 rezultă: 22 2 2 1 2 2 1 1 n S P , adică intervalul de încredere pentru σ: 2 2 2 1 2 2 1 1 ; 1 n n P S S . Reciproc, dându-se: rezultă: deci mărimea probei este n = max {n1; n2} Din tabela 3 din Anexă, conform relaţiei 22P , pe linia a n - 1 grade de libertate şi pe coloanele α = 0.05; α = 0.01; α = 0.001 găsim valorile 2 1 2 iar pe coloanele 1 – α = 0.95; 1 – α = 0.99; 1 – α = 0.999 găsim valorile 2 2 cu ajutorul cărora găsim trei intervale de încredere pentru σ de forma: cu încrederea de 95%; cu încrederea de 99%; cu încrederea de 99.9%. Ipoteza H:σ = σ0 se acceptă dacă: 0 2 2 0.025 0.975 1 1 ; n n S S şi se respinge în caz contrar după cum urmează: a) 0 semnificativ dacă totuşi: 0 2 2 2 2 0.005 0.025 0.975 0.995 1 1 1 1 ; ; n n n n S S S S ; 2 2 0.025% 0.975% 1 1 1) . ; . n n S S 2 2 0.005 0.995 1 1 2) . ; . n n S S 2 2 0.0005 0.9995 1 1 3) . ; . n n S S ' '' /2 /22 2 /2 1 /2 1 1 . şi . n n S S 2 2 ' '' 2 2/2 /2 1 /2 2 1 /2. 1 şi . 1n n S S 91 b) 0 distinct semnificativ dacă totuşi: 0 2 2 2 2 0.0005 0.005 0.995 0.9995 1 1 1 1 ; ; n n n n S S S S ; c) 0 foarte semnificativ dacă: 0 2 0.0005 1n S sau 0 2 0.9995 1n S . Exemplu: Fie X greutatea viţeilor (kg). Dintr-un sondaj de n = 50 viţei găsim X = 64.9 kg; S = 2.33 kg. a) Se cer intervale de încredere cu riscurile α = 5%; 1%; 0.1% pentru μ şi testarea ipotezelor H:μ = 65 kg; H:μ = 67 kg. b) Se cer intervale de încredere cu riscurile α = 5%; 1%; 0.1% pentru σ şi testarea ipotezelor H:σ = 2.5 kg; H:σ = 3.3 kg. Soluţie: a) Pe linia a n – 1 = 49 GL şi coloanele α = 0.05; α = 0.01; α = 0.001 găsim în tabela 2 din Anexă, valorile critice t2.5% = 2.01; t0.5% = 2.68; t0.05% = 3.50 deci înlocuind în formula (1) găsim intervalele de încredere pentru μ: cu încrederile de 95%; 99%; 99.9%. De exemplu pentru intervalul mic cu 1 – α = 95% avem concluzia: Greutatea medie necunoscută μ a tuturor viţeilor din care fac parte cei 50 din sondaj, este cuprinsă între 64.2 kg şi 65.8 kg cu o încredere de 95%. Există semiriscul 2.5% ca această medie μ să fie mai mică ca 64.2 kg atunci când cei 50 viţei ai sondajului au fost aleşi cei mai performanţi ca greutate. Concluzia este simetrică pentru μ > 65.8 kg. Ipoteza H:μ = 65 kg se acceptă deoarece 65 6.65;2.64 iar ipoteza H:μ = 67 kg se respinge (μ ≠ 67 kg foarte semnificativ căci 67 > 66). b) Pe linia a n – 1 = 49 GL şi coloanele ;999.0 2 1 0.995; 0.975 găsim în tabela 2 din Anexă: χ20.999 = 24.70; χ 2 0.995 = 27.99; χ 2 0.975 = 32.36 iar pe coloanele 2 0.025; 0.005; 0.001 găsim: χ20.025 = 71.42; χ 2 0.005 = 79.49; χ 2 0.001 = 86.70, deci înlocuind în formula (2), găsim intervalele de încredere pentru σ: cu o încredere de 95%; cu o încredere de 99%; cu o încredere de 99.9%. 1) [64.2 ;65.6 ]Kg Kg 2) [64 ;65.8 ]Kg Kg 3) [63.8 ;66 ]Kg Kg 1) [2 ;2.9 ]Kg Kg 2) [1.9 ;3.2 ]Kg Kg 3) [1.8 ;3.4 ]Kg Kg 92 De exemplu pentru intervalul mic cu 1 – α = 95% avem concluzia: Abaterea standard σ necunoscută a greutăţii tuturor viţeilor din care fac parte cei 50 viţei ai sondajului, este cuprinsă între 2 kg şi 2.9 kg cu încrederea de 95%. Există semiriscul 2.5% ca această abatere standard σ să fie mai mică ca 2 Kg atunci când cei 50 viţei ai sondajului au fost aleşi cei mai neomogeni ca greutate. Concluzia este simetrică pentru cazul σ > 2.9 kg. Ipoteza H:σ = 2.5 kg se acceptă deoarece 9.2;25.2 iar ipoteza H:σ = 3.3 kg se respinge (σ ≠ 3.3 kg distinct semnificativ deoarece 4.3;2.33.3 ). O sinteză elegantă a acestor calcule este dată în foaia de calcul C1P1.XLS aflată în Anexă. 2.5.2 Estimaţii/teste pentru parametrul p al unui caracter calitativ într-o populaţie normală Fie o populaţie statistică normală în care însuşirea calitativă X are probabilitatea de apariţie p. Efectuăm un sondaj simplu repetat de n valori independente x1, ..., xn unde: xi = 1 dacă exemplarul i are însuşirea X xi = 0 în rest Dacă k din cele n exemplare de sondaj au valoare 1, media de sondaj X devine frecvenţa de sondaj n k f , (0 ≤ k ≤ n). Teorema 2.3 Pentru n → ∞, mărimea n pp pf u 1 este variabilă normală redusă N(0.1) Demonstraţie: k este valoare a unei variabile binomiale iar pnp n kM nn k MfM 1 )( 1 )( şi n pp pnp n kV nn k VfV 1 1 1 )( 1 )( 22 , deci conform teoremei limită centrală 1.14 din secţiunea 1.3, variabila normată n pp pf f fMf u 1)( )( este variabilă normală redusă N(0.1) când n → ∞.Q.E.D. Din teorema 2.3 rezultă: 1 22 uuuP , adică intervalul de încredere pentru p: (3) 1; 22 ffpP unde 22 1 u n ff este diferenţa limită. Reciproc, dându-se δα/2, avem mărimea probei: 2 / 2 / 2 (1 ). u n f f 93 Din tabela 1 din Anexă, conform relaţiei: 12uuP , avem u2.5% = 1.96; u0.5% = 2.58; u0.05% = 3.29 deci trei intervale de încredere pentru p de forma: cu încrederea de 95%; cu încrederea de 99%; cu încrederea de 99.9%. Ipoteza H:p = p0 se acceptă dacă 0 2.5% 2.5%;p f f şi se respinge în caz contrar astfel: a) p ≠ p0 semnificativ dacă totuşi: 0 0.5% 2.5% 2.5% 0.5%; ;p f f f f ; b) p ≠ p0 distinct semnificativ dacă totuşi: 0 0.05% 0.5% 0.5% 0.05%; ;p f f f f ; c) p ≠ p0 foarte semnificativ dacă: 0 0.05%p f sau 0 0.05%p f Exemplu: Fie X= ecloziunea ouălelor de găină la incubator. Se face un sondaj simplu repetat de n = 1600 ouă, găsindu-se frecvenţa ouălelor eclozionate f = 95%. Se cer intervalele de încredere pentru probabilitatea p de ecloziune pentru toate ouălele din care fac parte cele 1600 din sondaj şi să se testeze ipotezele H:p = 96% şi H:p = 90%. Soluţie: Avem u2.5% = 1.96; u0.5% = 2.58; u0.05% = 3.29, deci formula (3) dă intervalele de încredere pentru p: cu o încredere de 95%; cu o încredere de 99%; cu o încerede de 99.9%. De exemplu pentru intervalul mic cu 1 – α = 95% avem concluzia: Probabilitatea necunoscută p a ecloziunii pentru toate ouăle din care fac parte cele 1600, este cuprinsă între 93.5% şi 96.5% cu o încredere de 95%. Există semiriscul 2.5% ca această probabilitate să fie mai mică de 93.5% atunci când sondajul celor 1600 ouă a fost ales cel mai performant în ceea ce priveşte ecloziunea. Pentru p > 96.5% concluzia este simetrică. Ipoteza H:p = 96% se acceptă deoarece %5.96%;5.93%96 iar ipoteza H:p = 90% se respinge (μ ≠ 90% foarte semnificativ deoarece 90% < 92.7%) 2.5.3 Estimaţii/teste pentru parametrii µ2 – μ1, σ2/σ1 ai unui caracter cantitativ în două populaţii normale Fie două populaţii statistice normale N(μ1, σ1) şi respectiv N(μ2, σ2) faţă de caracterul cantitativ X. 2.5% 2.5%1) [ ; ]p f f 0.5% 0.5%2) [ ; ]p f f 0.05% 0.05%3) [ ; ]p f f 1) [93.5%;96.5%]p 2) [93.1%;96.8%]p 3) [92.7%;97.2%]p 94 Extragem un sondaj simplu repetat de n1 exemplare din prima populaţie cu n1 valori de sondaj independente X11, X12,..., 11n X şi calculăm media de sondaj 1 1 1 11 1 n i i X X n respectiv abaterea standard de sondaj: 1 2 1 1 1 11 1 1 n i i S x X n . Extragem un sondaj simplu repetat de n2 exemplare din a II-a populaţie, cu n2 valori de sondaj independente X21, X22,..., 22n X şi calculăm media de sondaj: şi respectiv abaterea-standard de sondaj: 2 2 22 2 12 1 1 n i i S x X n . Fie 2 11 21 2 22 2 11 nn SnSn S şi 2 2 2 2 2 2 1 1 1 2 2 2 2 1 2 1 1 1 1 1 :* n S nn S nn S n S n deci min 2*1;1 2121 nnnnn . Teorema 2.4 Dacă σ1 = σ2 mărimea 2 1 2 1 1 2 1 1 X X t S n n este variabilă Student cu n1 + n2 - 2 grade de libertate. Dacă 1 2 mărimea: este aproximativ variabilă Student cu n* grade de libertate. Demonstraţie: 2 1X X este variabilă normală cu media: 2 1 2 1 2 1M X X M X M X şi varianţa 2 2 1 2 2 1 2 1 1 2 V X X V X V X n n deoarece cele două sondaje se presupun independente deci şi 1 2,X X sunt variabile aleatoare independente. Rezultă că 2 1 2 1 2 2 1 2 1 2 X X u n n este variabilă N(0; 1). Înlocuind pe σ1 = σ2 cu S, conform teoremei 1.1, 2 1 2 1 1 2 1 1 X X t S n n este o variabilă Student cu n1 + n2 - 2 grade de libertate. Cea de-a doua afirmaţie din enunţ o admitem fără demonstraţie. Q.E.D. 2 2 2 12 1 n i i X X n 2 1 2 1 2 2 1 2 1 2 ( ) ( )X X t S S n n 95 Din teorema 2.4 rezultă: 2 2 1P t t t adică intervalul de încredere pentru μ2 - μ1: 2 1 2 12 1 2 2; 1P X X X X unde 2 21 2 11 t nn S este diferenţa limită. Din tabela 2 din Anexă, conform relaţiei 2ttP găsim tα/2 cu n1 + n2 - 2 GL pentru α = 5%; 1%; 0.1% deci trei intervale de încredere pentru μ2 - μ1 cu încrederile 1 – α = 95%; 99%; 99.9%: cu încrederea de 95%; cu încrederea de 99%; cu încrederea de 99.9%. Ipoteza H:μ1 = μ2 se acceptă dacă şi numai dacă: 2 1 2 12.5% 2.5%0 ;X X X X şi se respinge în caz contrar. În cazul sondajelor dependente de volum n1 = n2 = n vom forma diferenţele d1 = x21 - x11, ..... ,dn = x2n – x1n şi vom calcula n i id n d 1 1 şi n i id dd n S 1 2 1 1 . Intervalul de încredere cu riscul α pentru μ2 – μ1 va avea forma: 2 1 2 2; 1P d d unde 2 2 dS t n este diferenţa limită. Din tabela 2 din Anexa conform relaţiei 2ttP găsim tα/2 pentru n - 1 GL pentru α = 5%; 1%; 0.1%, deci trei intervale de încredere pentru μ2 - μ1 ca mai sus. Ipoteza H:μ1 = μ2 se verifică ca mai sus. Teorema 2.5 Mărimea 2 1 2 2 2 1 2 2 : S S F este variabilă Fisher cu (n1 - 1;n2 - 1) grade de libertate. Demonstraţie: Conform teoremei 2.2 2 1 2 112 1 1 Sn este variabilă hi pătrat cu n1 - 1 GL iar 2 2 2 222 2 1 Sn este variabilă hi pătrat cu n2 - 1 GL deci 2 1 2 2 2 1 2 2 2 2 2 1 2 1 : 1 : 1 S S nn F este variabilă Fisher cu (n1 - 1; n2 - 1) GL. Q.E.D. Din teorema 2.5 rezultă 10 FFP adică intervalul de încredere pentru 1 2 : 2 1 2 1 2.5% 2 1 2.5%1) [( ) ;( ) )]X X X X 1 12 1 2 0.5% 2 0.5%2) [( ) ;( ) ]X X X X 2 1 2 1 0.05% 2 1 0.05%3) [( ) ;( ) ]X X X X 96 (5) 1;0 1 2 1 2 F S S P . Din tabelele 4, 5, 6 din Anexă, conform relaţiei FFP găsim F pentru (n1 - 1; n2 -1) GL pentru α = 5%; 1%; 0.1% deci trei intervale de încredere pentru 1 2 cu încrederile 1 – α = 95%; 99%; 99.9%: cu încrederea de 95%; cu încrederea de 99%; cu încrederea de 99.9% . Ipoteza H:σ1 = σ2 se acceptă dacă %5 1 2;01 F S S şi se respinge în caz contrar astfel: 1. σ2 > σ1 semnificativ dacă totuşi %1 1 21 F S S ; 2. σ2 > σ1 distinct semnificativ dacă totuşi %1.0 1 21 F S S ; 3. σ2 > σ1 foarte semnificativ dacă %1.0 1 21 F S S . Notă. Numerotăm populaţiile 1 şi 2 astfel ca S2 S1. Exemplu: X = greutatea viţeilor (kg). Populaţia 1: Brună. Populaţia 2: Bălţată cu negru. Se cântăresc n1 = 20 viţei din populaţia 1, găsind kgX 1.601 şi S1 = 2.5 kg. Se cântăresc n2 = 30 viţei, găsind kgX 2.622 şi S2 = 2.8 kg. a) Să se găsească intervale de încredere pentru μ2 - μ1 cu riscuri α = 5%; 1%; 0.1% şi să se testeze ipoteza H:μ1 = μ2. b) Să se găsească intervale de încredere pentru σ2/σ1 cu riscuri α = 5%; 1%, 0.1% şi să se testeze ipoteza H:σ1 = σ2. Soluţie: a) În ipoteza σ1 = σ2 care va fi verificată la punctul b), calculăm: 2 11 21 2 22 2 11 nn SnSn S , adică S = 2.42 kg. 2 2 5% 1 1 1) [0; . ] S F S 2 2 1% 1 1 2) [0; . ] S F S 2 2 0.1% 1 1 3) [0; . ] S F S 97 Din tabela 2 din Anexă, pe linia a 20 + 30 – 2 = 48 GL şi coloanele lui α = 0.05; 0.01; 0.001 găsim: t2.5% = 2.01; t0.5% = 2.68; t0.05% = 3.50. Mărimea 2 21 2 11 t nn S devine: δ2.5% = 0.7∙ 2.01 = 1.41; δ0.5% = 0.7 ∙2.68 = 1.88; δ0.05% = 0.7 ∙3.50 = 2.45. Din formula (2) avem intervalele de încredere pentru μ2 - μ1 cu încrederile 1 – α = 95%; 99%; 99.9%: cu o încredere de 95%; cu o încredere de 99%; cu o încredere de 99.9%. De exemplu pentru intervalul mic cu 1 – α = 95% avem concluzia: Diferenţa greutăţii medii a viţeilor μ2 - μ1 necunoscută, pentru toţi viţeii Bălţată cu negru din care fac parte cei 20 faţă de toţi viţeii Brună din care fac parte cei 30, este cuprinsă între 1.69 kg în favoarea viţeilor Bălţată cu negru şi 3.51 kg în favoarea viţeilor bălţată cu negru, cu o încredere de 95%. Există semiriscul 2.5% ca această diferenţă μ2 - μ1 să fie mai mică de 1.69 kg în favoarea rasei bălţată cu negru, atunci când primul sondaj a fost ales cel mai neperformant iar în al doilea sondaj cel mai performant.O concluzie simetrică pentru μ2 - μ1 > 3.51 kg. Ipoteza H:μ1 = μ2 se respinge căci 2 10 1.69;3.51 . b) Pentru (20 - 1; 30 - 1) GL din tabelele 4, 5, 6 ale Anexei, găsim F5% = 2.00; F1% = 2.68; F0.1% = 3.73 aşa că F S S 1 2 va avea valorile: 1.58; 1.83; 2.16 deci avem intervalele cu încrederile 1 – α = 95%; 99%; 99.9%: cu încrederea de 95%; cu încrederea de 99%; cu încrederea de 99.9% . De exemplu pentru intervalul mic cu 1 – α = 95% avem concluzia: Raportul abaterilor standard 1 2 al tuturor viţeilor bălţată cu negru din care provin cei 30 de viţei faţă de toţi viţeii brună din care provin cei 20 viţei este cuprins între 0 şi 1.88 ori în favoarea rasei bălţată cu negru. Există semiriscul 2.5% ca acest raport să fie mai mare de 1.58 ori în favoarea bălţatei cu negru, atunci când sondajul 1 a fost ales cel mai omogen iar al II-lea cel mai omogen. 2 11) [1.69 ;3.51 ]Kg Kg 2 12) [0.22 ;3.98 ]Kg Kg 2 13) [ 0.35 ;4.55 ]Kg Kg 2 1 1) [0;1.58] 2 1 2) [0;1.83] 2 1 3) [0;2.16] 98 Ipoteza H:σ1 = σ2 se acceptă deoarece 58.1;01 . Această ipoteză a stat la baza calculelor de la punctul a). O sinteză elegantă a acestor calcule este dată în foaia de calcul C1P2.XLS aflată în Anexă. 2.5.4 Estimaţii/teste pentru parametrul p2 – p1 al unui caracter calitativ în două populaţii normale Fie două populaţii statistice normale în care însuşirea calitativă X apare cu probabilităţile p1 şi p2. Efectuăm două sondaje simple repetate de volume n1 şi n2. Fie k1 exemplare din primul sondaj în care însuşirea X are valoarea 1 şi k2 exemplare din al doilea sondaj în care însuşirea X are valoarea 1 deci avem frecvenţele de sondaj 1 1 1 n k f respectiv 2 2 2 n k f . Frecvenţa sondajelor reunite este 21 2211 nn fnfn f . Teorema 2.6 Pentru n1, n2 → ∞, 2 22 1 11 1212 11 n pp n pp ppff u este variabilă normală redusă N(0, 1). Demonstraţie: k1 şi k2 sunt valori ale unor variabile binomiale iar 111 1 1 11 1 1 11 ppn n kM nn k MfM şi analog 22 pfM aşa că 121212 ppfMfMffM . De asemenea 1 11 1112 1 12 11 1 1 1 1 11 n pp ppn n kV nn k VfV aşa că 2 22 1 11 1212 11 n pp n pp fVfVffV . Conform teoremei-limită centrală 1.14 din secţiunea 1.3, variabila normată: 2 22 1 11 1212 12 1212 11 n pp n pp ppff ff ffMff u este variabilă normală redusă N(0, 1). Q. E.D. Din teorema 2.6 rezultă: 122 uuuP deci un interval de încredere pentru p2 – p1: (6) 2 1 2 1 2 2 1 2; 1P p p f f f f unde 2 2 1 2 1 1 1f f u n n este diferenţa limită. Din tabela 1 din Anexă, conform relaţiei: 12uuP găsim u2.5% = 1.96; u0.5% = 2.58; u0.05% = 3.29, deci trei intervale de încredere pentru p2 - p1 cu încrederile 1 – α = 95%; 99%; 99.9%: 99 cu încrederea de 95%; cu încrederea de 99%; cu încrederea de 99.9%. Ipoteza H:p1 = p2 se acceptă dacă: 2 1 2.5% 2 1 2.5%0 ;f f f f . În caz contrar ipoteza H se respinge după cum urmează: a) p1 ≠ p2 semnificativ dacă totuşi: 2 1 0.5% 2 1 2.5% 2 1 2.5% 2 1 0.5%0 ; ;f f f f f f f f b) p1 ≠ p2 distinct semnificativ dacă totuşi: 2 1 0.05% 2 1 0.5% 2 1 0.5% 2 1 0.05%0 ; ;f f f f f f f f c) p1 ≠ p2 foarte semnificativ dacă: 2 1 0.05%0 f f sau 2 1 0.05%0 f f . Exemplu: Fie X = ecloziunea ouălelor de găină la incubator. Se fac măsurători pe două rase de găini, găsindu-se la primul sondaj de n1 = 3000 ouă din prima rasă, frecvenţa ouălelor eclozionate f1 = 85% şi la al doilea sondaj de n1 = 2000 ouă din a doua rasă, frecvenţa ouălelor eclozionate f2 = 90%. Să se găsească intervale de încredere pentru diferenţa p1 - p2 a probabilităţilor de ecloziune pentru toate ouălele din care fac parte cele 3000 ouă din primul sondaj faţă de toate ouălele din care fac parte cele 2000 ouă din al doilea sondaj şi să se testeze ipoteza H:p1 = p2. Soluţie: Avem %87 21 2211 nn fnfn f aşa că: 222 0097.0 2000 1 3000 1 87.0187.0 uu şi cum u2.5% = 1.96 ; u0.5% = 2.58; u0.05% = 3.29 rezultă δ2.5% = 1.9%; δ0.5% = 2.5%; δ0.05% = 3.2%. Avem intervale de încredere pentru p2 - p1 cu încrederile 1 – α = 95%, 99%; 99.9%: cu încrederea de 95%; cu încrederea de 99%; cu încrederea de 99.9%. De exemplu pentru intervalul mic cu 1 – α = 95% avem concluzia: Diferenţa necunoscută p2 - p1 a probabilităţilor eclozionării pentru toate ouălele din care fac parte cele 2000 din rasa de găini nr. 2 faţă de toate ouălele din care fac parte cele 3000 ale rasei de găini nr. 1 este cuprinsă între 3.1% şi 6.9% în favoarea rasei nr. 2, cu o încredere de 95%. Există semiriscul ca această diferenţă să fie mai mică de 3.1% în favoarea rasei nr. 2, atunci când sondajul din rasa de găini nr. 1 a fost cel mai neperformant iar sondajul din rasa de găini nr. 2 a fost cel mai performant sub aspectul ecloziunii ouălelor. Ipoteza H:p1 = p2 se respinge deoarece %9.6%;1.30 12 pp şi anume p1 ≠ p2 foarte semnificativ deoarece 0 < 1.8%. 2 1 2 1 2.5% 2 1 2.5%1) [( ) ;( ) ]p p f f f f 2 1 2 1 0.5% 2 1 0.5%2) [( ) ;( ) ]p p f f f f 2 1 2 1 0.05% 2 1 0.05%3) [( ) ;( ) ]p p f f f f 2 11) [3.1%;6.9%]p p 2 12) [2.5%;7.5%]p p 2 13) [1.8%;8.2%]p p 100 2.6 TESTE NEPARAMETRICE ÎN POPULAŢII NORMALE 2.6.1 Testul hi pătrat de concordanţă Fie o populaţie normală în raport cu însuşirea (caracterul) X a exemplarelor sale şi fie un sondaj de volum mare (n > 30) cu datele de sondaj independente şi grupate în clasele de valori C1, …, Ck cu centrele de clase x1, …, xk şi frecvenţele valorilor în clase n1, …, nk (n1 + … + nk = n). Dacă există ni < 5, clasele cu aceste frecvenţe se grupează cu clasele vecine pentru a avea ni > 5. Forma poligonului frecvenţelor observate în sistemul de axe (xi, ni) arată că X este o variabilă aleatoare clasică (cap. 1) cu frecvenţele aşteptate )0( ii np'n unde i )0( i CXPp ; (i = 1, …, k). Dorim să verificăm ipoteza H: )0( kk )0( 11 pp,...,pp a concordanţei probabilităţilor pi cu valorile ipotetice )0( ip ; (i = 1, …, k). Teorema 2.7 Pentru n , mărimea: 22 (0) 2 (0) 1 1 ' ' k k i ii i i ii i f pn n n n p este variabilă hi pătrat cu k – 1 grade de libertate. Demonstraţie: Valorile n1, …, nk sunt pentru n , valori ale unor variabile aleatoare Poisson (secţiunea 1.4.3) independente, cu mediile şi varianţele egale cu )0( k )0( 1 ' 1 n,...,npn deci variabilele normate )0( k )0( kk k )0( 1 )0( 11 1 np npn u,..., np npn u sunt variabile independente între ele cu media 0 şi varianţa 1. Conform teoremei limită centrală 1.14, pentru n , variabilele aleatoare independente între ele, u1, …, uk tind către variabila normală redusă N(0, 1) deci la limită, mărimea: 2 ' (0) 2 2 ' (0) 1 1 1 k k k i i i i i i i ii i n n f p u n n p este variabilă hi pătrat cu k – 1 grade de libertate (se pierde un grad de libertate datorită relaţiei de dependenţă n1 +… + nk = n). Uneori numărul de grade de libertate este mai mic decât k – 1: dacă X este variabilă binomială sau Poisson avem k – 2 grade de libertate, datorită relaţiei de dependenţă n1 + … + nk = n, n1x1 + … + nkxk = n . x iar la variabila X = N(0, 1) avem k – 3 grade de libertate, datorită relaţiilor de dependenţă n1 + … + nk = n, n1x1 + … + nkxk = n . x , n1(x1 - x ) 2 + … + nk(xk - x ) 2 = (n – 1) . S2. Q.E.D. Din teorema 2.1 rezultă testul hi pătrat de concordanţă într-o populaţie normală: Comparăm mărimea: 2 (0)2 (0) 1 1 ' ' k k i ii i i ii i f pn n n n p cu variabile critice 2 2 2 0.05 0.01 0.001; ; extrase în tabela 6 pe linia a k – 1 grade de libertate. Dacă 2 2 0.05 , H se acceptă deci pi concordă cu valorile ipotetice )0( ip . 101 În caz contrar H se respinge după cum urmează: a) Dacă 2 2 20.05 0.01; atunci pi )0( ip semnificativ; b) Dacă 2 2 20.01 0.001; atunci pi )0( ip distinct semnificativ. c) Dacă 2 20.001 atunci pi )0( ip foarte semnificativ. Exemplu: Încrucişând după schema alăturată un soi de porumb de floricele P1 cu boabe albe şi netede cu un soi P2 cu boabe albastre şi zbârcite, s-au obţinut în generaţia F2 665 boabe albastre şi netede 210 boabe albastre şi zbârcite, 240 boabe albe şi netede şi 85 boabe albe şi zbârcite. Să se testeze raportul de segregare 9 : 3 : 3:1 al combinaţiilor de caractere precedente. Soluţie: Numărul total de boabe este n = 665 + 210 + 240 + 85 = 1200. Frecvenţele aşteptate sunt n’i = n . pi n’1 = 1200 . 16 9 boabe albastre şi netede n’2 = 1200 . 16 3 boabe albastre şi zbârcite n’3 = 1200 . 16 9 boabe albe şi netede n’4 = 1200 . 16 1 boabe albe şi zbârcite Avem ipoteza H: 16 1 p , 16 3 pp , 16 9 p 4321 2 2 1 ' ' k i i i i n n n devine pentru k = 4: 2 2 2 2 2 665 675 210 225 240 225 85 75 3.48 675 225 225 75 Din tabela 3 pe linia k – 1 = 3 GL şi coloanele α = 0.05; 0.01; 0.001 găsim: 2 2 2 0.05 0.01 0.0017.81; 11.34; 16.30 Cum 2 2 0.053.84 7.81 rezultă că ipoteza H se acceptă deci se confirmă raportul de segregare 9 : 3 : 3 : 1. În cazul însuşirii X calitative, avem două clase: C în care însuşirea X este prezentă cu frecvenţa n1 = nf şi C în care X este absentă cu frecvenţa n2 = n(1 - f). Avem frecvenţele aşteptate n’1 = np şi n’2 = n(1 - p) aşa că: P1 P2 F1 B1 B2 F2 102 2 2 2 1 1 2 22 1 2 ' ' ' ' 1 n n n n n f p n n p p cu k = 2 – 1 = 1 GL. De aici rezultă testul hi pătrat al ipotezei H: p = p0 faţă de alternativa H: p p0: Se compară: 2 02 0 01 n f p p p cu valorile critice: 2 2 2 0.05 0.01 0.0013.84; 6.63; 10.80 pentru 1 GL extrase din tabela 3 din Anexă şi se ia decizia ca mai sus. Exemplu: Fie X = leucoza vacilor. Într-o fermă cu n = 100 vaci s-a găsit f = 2%. Să se testeze ipoteza H: p = 1% faţă de H : p 1% Soluţie: Pentru n = 100; f = 0.02; p0 = 0.01 găsim: 2 2 2 0.05 0.02 0.01 100. 1.01 3.84 0.01 1 0.01 deci se acceptă ipoteza H: p = 1% a incidenţei leucozei pentru toate vacile din care provin cele n = 100 vaci. 2.6.2 Testul hi pătrat de independenţă Fie o populaţie normală în raport cu două însuşiri X, Y. Fie un sondaj de n > 30 exemplare extrase din populaţie pe care măsurăm caracterele X, Y obţinând n > 30 perechi de valori (x, y) pe care le grupăm în h clase după X şi k clase după Y, această grupare o poate face programul C2GRUP. Clasele după X, notate C1, …, Ch au centrele de clase x1, …, xh iar clasele după Y, notate D1, …, Dk au centrele de clase y1, …, yk. Dacă nij este frecvenţa observată a perechilor (x, y) cu x Ci, y Dj, alcătuim tabela de contingenţă h x k: Y X D1 Dk Sume linii C1 Ch n11 n1k nh1 nhk s1 sh Sume coloane t1 …………………...tk n Dacă însuşirile X, Y sunt independente, avem P(x Ci şi y Dj) = P(x Ci) . (y Dj) adică pij = qi .rj de unde i j ij nq r np n . Dar n.pij = n’ij şi n.qi = si; n.rj = tj deci frecvenţele aşteptate n’ij ale perechilor (x, y) cu x Ci şi y Dj vor fi date de relaţia ' i j ij s t n n ; (i = 1, …, h; j = 1, …, k) şi se vor trece în tabela de contingenţă h x k în dreapta lui nij în paranteze. 103 Verificăm ipoteza H: X, Y = independente faţă de alternativa Y,X:H dependente. Ca şi teorema 2.7 se demonstrează: Teorema 2.8 ' 2 2 ' 1 1 ( )h k ij ij i j ij n n n este variabilă hi pătrat cu (h – 1) (k – 1) GL. De aici rezultă testul hi pătrat de independenţă al însuşirilor X, Y într-o populaţie normală: Comparăm pe χ2 din enunţul teoremei 2.8 cu 2 2 20.05 0.01 0.001; ; extrase din tabela 3 a Anexei, pe linia a (h – 1) . (k – 1) GL şi deci avem: Dacă 2 20.05 se acceptă ipoteza H: X, Y = independente. În caz contrar respingem ipoteza H după cum urmează: a) Dacă 2 2 20.05 0.01; , X, Y sunt dependente semnificativ; b) Dacă 2 2 20.01 0.001; , X, Y sunt dependente distinct semnificativ; c) Dacă 2 20.001 , X, Y sunt dependente foarte semnificativ. Dacă X este însuşire cantitativă şi Y este însuşire calitativă avem tabele de contingenţă hx2 iar dacă X, Y sunt însuşiri calitative avem tabele de contingenţă 2x2. Exemplul 1 Fie X = înălţimea la greabăn a viţeilor (cm) şi Y = greutatea viţeilor (kg). Se face un sondaj de n = 50 viţei şi perechile de date obţinute se clasifică după X, Y în h = k = 3 clase de valori obţinând tabela de contingenţă 3x3: Clase Y Clase X Viţei slabi Viţei mijlocii Viţei graşi Suma linie Viţei scunzi 20(12.5) 5(7.5) 0(5) 25 Viţei potriviţi 10(5) 10(6) 5(4) 20 Viţei înalţi 0(2.5) 0(1.5) 5(1) 5 Suma coloană 25 15 10 n = 50 Să se testeze ipoteza H: X, Y = independente faţă de alternativa H : X, Y = dependente Soluţie: Frecvenţele aşteptate n’ij din paranteze au fost calculate cu relaţia ' i j ij s t n n De exemplu '11 25 25 12.5 50 n Avem 2 2 2 2 2 2 20 12.5 5 7.5 0 5 5 10 10 6 12.5 7.5 5 10 6 2 2 2 2 5 4 0 2.5 0 1.5 5 1 35.8 4 2.5 1.5 1 Din tabela 3 a Anexei, pe linia cu (h – 1)(k – 1) = (3 – 1)(3 – 1) = 4 GL şi coloanele α = 0,05; 0,01; 0,001 găsim valorile critice: 20.05 9.49; 2 2 0.01 0.001 13.28; 18.50 . 104 Cum 2 20.00135.8 rezultă că H se respinge deci X, Y sunt dependente foarte semnificativ. Exemplul 2 Fie X = culoare ou găină; Y = greutate ou găină. Se efectuează un sondaj de n = 60 ouă care se grupează în h = 2 clase X (ouă albe şi ouă bej) şi k = 3 clase Y obţinând tabela de contingenţă 2x3: Clase Y Clase X Ouă uşoare Ouă mijlocii Ouă grele Sume linii Ouă albe 10(7.5) 15(15) 5(7.5) 30 Ouă bej 5(7.5) 15(15) 10(7.5) 30 Suma coloană 15 30 15 n = 60 2 2 2 2 2 2 2 10 7.5 15 15 5 7.5 5 7.5 15 15 10 7.5 3.33 7.5 15 7.5 7.5 15 7.5 Din tabela 3 a Anexei, pe linia cu (h – 1)(k – 1) = (2 – 1)(3 – 1) = 2 GL şi coloanele α = 0.05; 0.01; 0.001 avem valorile critice: 2 20,05 0.015.99; 9.21; 2 0.001 13.80 Cum 2 20.053.33 5.99 , ipoteza H se acceptă deci X, Y sunt independente. Exemplul 3 Fie X = leucoza vacilor, Y = tratament pentru leucoză vaci, se face un sondaj într-o fermă cu n = 100 vaci, datele obţinute se clasifică după X, Y şi se obţine tabela de contingenţă 2x2: Clase Y Clase X Vaci tratate Vaci netratate Sume linii Vaci vindecate 88(81) 2(9) 90 Vaci nevindecate 2(9) 8(1) 10 Suma coloană 90 10 n = 100 2 2 2 2 2 88 81 2 9 2 9 8 1 60.5 81 9 9 1 Din tabela 3 a Anexei, pe linia a (h – 1)(k – 1) = (2 – 1)(2 – 1) = 1 GL şi coloanele α = 0.05; 0.01; 0.001 găsim valorile critice 2 2 20.05 0.01 0.0013.84; 6.63; 10.80 ; Cum 2 20.00160.5 10.80 , H se respinge deci X, Y sunt dependente foarte semnificativ. 2.6.3 Testele normalităţii prin asimetrie şi boltire Testarea normalităţii unei populaţii statistice în raport cu o însuşire X a exemplarelor sale este extrem de importantă deoarece conform teoremei limită centrală 1.13, pentru n orice variabilă aleatoare devine normală iar pe de altă parte metodele statisticii biologice se aplică cu succes numai populaţiilor normale. Testarea normalităţii populaţiei revine la verificarea ipotezei H: “Populaţia este normală faţă de însuşirea X” faţă de alternativa H : “Populaţia nu este normală faţă de însuşirea X”. 105 Testarea normalităţii populaţiei faţă de însuşirea X se poate face pentru sondaje de volum mare (n > 30) şi cu ajutorul coeficienţilor de asimetrie şi boltire ale căror valori critice sunt date în tabela 9. Coeficientul de asimetrie este 3 3 ii nS XXn A şi dă gradul de asimetrie pe orizontală al poligonului frecvenţelor relative observate n n f ii faţă de curba normală N( X , S) adică poziţia relativă a tendinţei centrale dată de media X faţă de tendinţa dominantă dată de modul M0 (vezi secţiunea 2.2.2) Coeficientul de boltire este 4 4 ii nS XXn B şi dă gradul de concentrare pe verticală a poligonului frecvenţelor relative observate n n f ii faţă de curba normală N( X , S) (vezi secţiunea 2.2.2). Avem B > 1. Testarea normalităţii pe orizontală a populaţiei faţă de caracterul X se face cu ajutorul coeficientului de asimetrie A care se compară cu valorile critice A0.05 şi A0.01 pentru valoarea lui n, extrase din tabela 9 din Anexă. Dacă 0.05A A populaţia este normală pe orizontală. În caz contrar avem cazurile: a) 0.05 0.01A A A deci populaţia este nenormală pe orizontală semnificativ; b) 0.01A A deci populaţia este nenormală pe orizontală district semnificativ. Testarea normalităţii populaţiei pe verticală faţă de caracterul X se face cu ajutorul coeficientului de boltire B care se compară cu valorile critice B0.99 < B0.95 < B0.05 < B0.01 pentru valoarea lui n, extrase din tabela 9. Dacă B [B0.95; B0.05], populaţia este normală pe verticală. În caz contrar avem cazurile: a) Dacă B [B0.99; B0.95) sau B (B0.05; B0.01], populaţia este nenormală semnificativ pe verticală. b) Dacă B < B0.99 sau B > B0,01, populaţia este nenormală distinct semnificativ pe verticală. Exemplu: Fie X = greutatea viţeilor (kg) Avem un sondaj de n = 50 viţei cu media X = 64.9 kg, abaterea standard S = 2.3 kg. Datele se grupează în k = 5 clase de valori Ci cu centrele de clasă Xi şi frecvenţele absolute în clase ni: Ci Xi ni Sub 62 [62 – 64) [64 – 66) [66 – 68) peste 68 kg 61 kg 63 65 67 69 7 10 18 9 6 106 Avem: 3 3 3 3 3 3 1 7 61 64.9 10 63 64.9 18 65 64.9 9 67 64.9 6 69 64.9 50 2.3 0.02 A 4 4 4 4 4 4 1 7 61 64.9 10 63 64.9 18 65 64.9 9 67 64.9 6 69 64.9 50 2.3 2.46 B Din tabela 9 a Anexei, pentru n = 50 avem valorile critice A0.05 = 0.533; A0.01 = 0.787 Avem A = 0.02 < A0.05 = 0.533 deci populaţia din care a fost extras sondajul, este normală pe orizontală. Din tabela 9 a Anexei, pentru n = 50 avem valorile critice B0.99 = 1.95; B0.95 = 2.13 respectiv B0.05 = 4.01; B0.01 = 4.92 Avem B = 2.46 [B0.95; B0.05] deci populaţia din care a fost extras sondajul, este normală pe verticală. 2.7 REZUMAT În acest capitol se prezintă tehnicile de sondaj în populaţii statistice omogene şi neomogene, calculul şi interpretarea indicatorilor de sondaj de repartiţie şi evoluţie precum şi calculul şi interpretarea indicilor statistici individuali şi sintetici. În continuare se prezintă conceptele de estimaţie corectă şi absolut corectă a parametrilor pentru una sau două populaţii (medii, abateri-standard şi probabilităţi), de ipoteză statistică simplă sau compusă, unilaterală sau bilaterală. Se prezintă metoda de estimare prin intervale de încredere pentru parametrii precedenţi, testul hi pătrat de concordanţă, de independenţă a două caractere X, Y şi de normalitate a unei populaţii în raport cu un caracter. 2.8 ÎNTREBĂRI 1. Clasificaţi sondajele în populaţii statistice omogene şi neomogene. 2. Ce semnificaţie au indicatorii de sondaj de repartiţie? 3. Ce semnificaţie au indicatorii de sondaj de evoluţie? 5. Ce semnificaţie au indicii statistici individuali şi sintetici? 6. Ce este o estimaţie corectă respectiv absolut corectă a unui parametru din populaţie? 7. Ce este o ipoteză statistică simplă sau compusă, unilaterală sau bilaterală? 8. Ce este funcţia de putere a testului? 9. Ce este un interval de încredere? 10. Cum se aplică testul hi pătrat de concordanţă în genetica mendeliană? 11. Cum se folosesc tabelele de contingenţă în testarea independenţei a două caractere? 12. Cum se testează normalitatea unei populaţii în raport cu un caracter prin asimetrie şi boltire? 2.9 BIBLIOGRAFIE 1. D. Ene, M. Drăghici, I.N. Alecu: “Statistică aplicată în agricultură”, Ed. Ceres, 2003 2. M. Iosifescu şi col.: “Mică enciclopedie de statistică”, Ed. Ştiinţif. şi Enciclop., 1985 3. Anuarul statistic al României, 1990 - 2009 107 CAPITOLUL 3. TESTE ALE CONTROLULUI CALITĂŢII ŞI FIABILITĂŢII ÎN AGRICULTURĂ Obiective: Însuşirea de către studenţi a tehnicilor de control statistic al calităţii produselor agricole şi al fiabilităţii maşinilor agricole în cursul procesului de producţie şi la recepţie (control simplu şi secvenţial). Conţinut: 3.1 Controlul statistic de calitate în cursul procesului de producţie 3.1.1 Cazul unei însuşiri cantitative 3.1.2 Cazul unei însuşiri calitative 3.2 Controlul statistic de calitate la recepţie 3.2.1 Controlul unei însuşiri cantitative A. Controlul simplu al unei însuşiri cantitative B. Controlul secvenţial al unei însuşiri cantitative 3.2.2 Controlul unei însuşiri calitative A. Controlul simplu al unei însuşiri calitative B. Controlul secvenţial al unei însuşiri calitative 3.2.3 Controlul fiabilităţii maşinilor agricole A. Controlul simplu al fiabilităţii B. Controlul secvenţial al fiabilităţii 3.3 Rezumat 3.4 Întrebări 3.5 Bibiliografie Cuvinte cheie: fişe de control, control simplu, control secvenţial, însuşire cantitativă, însuşire calitativă, fiabilitate. Produsele agricole de origine vegetală sau animală sunt destinate în principal consumului uman, consumului zootehnic şi ca materie primă pentru industrie. Produsele de consum uman pot fi consumate direct (alimente proaspete) sau după prelucrare/conservare (făină, mălai, zahăr, ulei, brânzeturi, mezeluri, băuturi etc). Calitatea alimentelor destinate consumului uman este un complex de însuşiri fizice, chimice, biologice şi estetice care trebuie îndeplinite faţă de anumite baremuri (standarde) astfel ca să asigure la nivel optim nevoile omului. Aceleaşi cerinţe se impun şi pentru produsele de consum zootehnic (furaje proaspete sau prelucrate/conservate). Materiile prime pentru industrie (alimentară, textilă, energetică, cosmetică etc) privesc standarde de calitate asupra capacităţii de prelucrare sau conservare în vederea satisfacerii la nivel optim a cerinţelor ca produse finite (alimente, îmbrăcăminte, încălţăminte, biogaz, produse fitofarmaceutice şi cosmetice etc). Maşinile agricole pentru producţia vegetală sau zootehnică trebuie să aibă capacităţi funcţionale şi de economicitate privind combustibilii conform unor standarde care să le permită amortizarea cheltuielilor de fabricaţie şi obţinerea de profit în urma utilizării lor. Cel mai important indicator de calitate al maşinilor agricole este siguranţa lor în funcţionare (fiabilitatea) care trebuie să îndeplinească bareme de timp privind funcţionarea fără defecţiuni la exploatarea în condiţii reale. 108 Controlul calităţii produselor agricole şi a fiabilităţii maşinilor agricole are caracter oficial şi cheltuielile necesare acestui control se amortizează prin vandabilitatea crescută pe piaţa internă şi mai ales cea externă. Controlul calităţii şi fiabilităţii în agricultură se face în toate etapele procesului de producţie cât şi la recepţia produselor sau maşinilor agricole. Acest control poate fi exhaustiv (pentru toate produsele sau maşinile) sau selectiv (prin sondaj). Utilitatea statisticii în controlul calităţii şi fiabilităţii rezultă din faptul că agricultura este un domeniu de predilecţie al acţiunii întâmplării (hazardului) prin variabilitatea genetică a plantelor sau animalelor şi prin variabilitatea condiţiilor de mediu în care acestea trăiesc. Astfel orice însuşire cantitativă (măsurabilă) sau calitativă (atributivă) X este o variabilă aleatoare în jurul standardului de calitate. Timpul T de funcţionare fără defecţiuni al unei maşini agricole este tot o variabilă aleatoare calitativă în jurul standardului de calitate. Dacă X este însuşire cantitativă (măsurabilă) trebuie ca M(X) = μ şi V(X) < W2 iar dacă X este însuşire calitativă (atributivă) trebuie ca frecvenţa sa de apariţie relativă fn(X) să tindă către probabilitatea P. 3.1 CONTROLUL STATISTIC DE CALITATE ÎN CURSUL PROCESULUI DE PRODUCŢIE Fie X o caracteristică de calitate care poate fi cantitativă (măsurabilă) sau calitativă (atributivă). În cursul procesului de producţie în agricultură, asupra caracteristicii X acţionează o multitudine de factori care provoacă asupra valorilor lui X variaţii accidentale (cu cauze necontrolabile) şi variaţii sistematice (cu cauze controlabile). Obiectul controlului de calitate este în acest caz, supravegherea variaţiilor sistematice şi eliminarea lor prin corecţii aduse procesului de producţie. De fapt caracteristica de calitate X este un proces aleator Xt; 0 ≤ t ≤ DS, unde DS este durata unei serii în agricultură (DS = durata perioadei de vegetaţie la plante şi DS = durata unui ciclu de exploatare a animalelor). Realizările Xi, I = 0, 1, 2,… ale lui Xt se presupun a fi variabile aleatoare normale N(μ, σ), independente câte două. Împărţim intervalul de timp [0; DS] în m subintervale de timp egale: [t0 = 0; t1), [t1; t2],…, [tm-1; tm = DS] şi efectuăm la momentele de timp t1, t2,…, tm = DS, m sondaje toate de volum n, obţinând datele de sondaj: x11, x12,…, x1n la momentul t1; x21, x22,…, x2n la momentul t2; ……………………………… xm1, xm2,…, xmn la momentul tm. a) Dacă X este însuşire cantitativă (măsurabilă), din datele de sondaj calculăm mediile sondajelor: abaterile-standard de sondaj: 2 1 1 ( ) 1 n i ij i j s x x n 1 1 n i ij j x x n 109 precum şi media totală: respectiv abaterea-standard totală: Fie xi,min = min xij, (1 ≤ j ≤ n); xi,max = max xij, (1 ≤ j ≤ n), deci avem amplitudinile de sondaj ai = xi,max – xi,min. b) Dacă X este însuşire calitativă (atributivă) avem xij = 1 dacă obiectul numărul j din sondajul numărul i este rebut şi xij = 0 în caz contrar deci va fi numărul de rebuturi în sondajul numărul i iar: Dacă populaţia este de volum N, raportul f = n/N se numeşte factor de sondaj. Mărimea lui f şi cadenţa luării probelor m depind de rapiditatea apariţiei variaţiilor sistematice şi de costul luării probelor. Pentru caracteristica de calitate X controlăm doi parametri: M care ne indică tendinţa centrală şi D care ne indică împrăştierea valorilor lui X. Pentru aceasta se construiesc intervalele de încredere IM pentru M şi ID pentru D. În controlul propriu-zis, dacă o valoare Mi a lui M cade în afara intervalului IM sau dacă o valoare Di a lui D cade în afara intervalului ID, se aduc corecţii procesului de producţie. Intervalele de încredere IM şi ID au forma: [LCI; LCS] cu încrederea 1 – α şi riscul α. LCI se numeşte limita de control inferioară pentru X iar LCS se numeşte limita de control superioară pentru X. Aceste limite se prezintă grafic pe fişele de control al calităţii de forma: 1 n i ij j d x 1 1 m n ij i j d x 1 1 1 m n ij i j x x mn 2 1 1 1 ( ) 1 m n ij i j s x x mn 110 3.1.1 Cazul unei însuşiri cantitative În acest caz în rolul lui M vom lua mediile de sondaj xi sau medianele de sondaj Mei iar în rolul lui D vom lua abaterile-standard de sondaj si sau amplitudinile de sondaj ai. Avem de verificat prin control al calităţii, ipoteza H: μ = μ0 faţă de alternativa Ĥ: μ ≠ μ0 respectiv H: σ = σ0 faţă de alternativa H: σ > σ0. a) Fişa de control pentru medie (fişa X) Mediile sondajelor x1,…,xm sunt variabile aleatoare normale N(μ0, σ0/√n) deci vom lua: Dacă μ0 nu este cunoscut, se aproximează cu xˉ iar dacă σ0 nu este cunoscut, se aproximează cu s. De regulă se ia uα/2 =3 deci 1 - α = 99.865% şi α = 0.135%. b) Fişa de control pentru abaterea-standard (fişa s) Mărimile (n - 1)si 2/σ0 2 sunt variabile aleatoare χ2 cu n - 1 GL deci vom lua: Pentru controlul calităţii abaterii-standard se foloseşte numai LCS. În locul fişei de control b) pentru abaterea-standard se poate folosi: c) Fişa de control pentru amplitudine (fişa R) Amplitudinea unui sondaj de volum n, notată a = xmax – xmin este variabilă aleatoare deci este variabilă aleatoare şi raportul w = a/σ. Mediaw are valorile date de tabela 15 din Anexă. Un estimator al lui σ este σˆ= a/w deci limitele de control pentru medie din relaţiile (1) devin: Notăm: cu valori în tabela 15 din Anexă, deci limitele de control pentru medie devin: 0 0 0 / 2 0 / 2( ) ; ( ) (1)LCI x u LCS x u n n 2 2 1 / 2 / 2 0 0( ) . ; ( ) . (2) 1 1 LCI s LCS s n n ( ) 3 ; ( ) 3 (3) a a LCI x x LCS x x n w n w 3 n w ( ) . ; ( ) . (4)LCI x x a LCS x x a 111 Din relaţia a = wσ rezultă σ(a) = σ(w) . σ şi cum σ nu se cunoaşte, va fi estimat de σˆ = a/w aşa că un estimator pentru σ(a) va fi σˆ(a) = σ(w) .a/w, deci limitele de control pentru a capătă forma: Cu notaţiile: care au valori în tabela 15 din Anexă, limitele de control pentru a, capătă forma: Exemplu: Fie X greutatea puilor de carne la 40 zile. Luăm m = 10 sondaje în 10 serii diferite, a câte n = 4 valori fiecare şi obţinem datele de sondaj din tabelul următor: Nr. sondaj Date sondaj xij Xi,min xi xi,max ai si 1 1000; 1100; 1050; 1010 1000 1040 1100 100 45.46 2 950; 980; 1030; 1000 950 990 1030 80 33.67 3 1100; 1020; 1010; 990 970 1010 1050 80 33.67 4 970; 1020; 1000; 990 990 1030 1100 110 48.30 5 1100; 1030; 990; 960 960 1020 1010 140 60.55 6 1020; 1010; 1050; 1000 1000 1020 1050 50 21.60 7 970; 1010; 990; 1030 970 1000 1030 60 25.82 8 980; 990; 1010; 1100 980 1020 1100 120 54.77 9 1040; 1020; 1030; 910 910 1000 1040 130 60.55 10 970; 990; 1020; 1020 970 1000 1020 50 24.49 TOTAL xmin = 910 x = 1013 xmax = 1100 a = 92 s = 40.84 Pentru n = 4, din tabela 15 din Anexă, avem δ = 0.729 deci relaţiile (4) devin: LCI(x) = 1013 – 0.729 x 92 = 945.932 LCS(x) = 1013 + 0.792 x 92 = 1080.68 Toate valorile xi sunt între aceste limite deci X corespunde la controlul calităţii în cursul procesului de producţie, ca tendinţă centrală a valorilor. ( ) ( ) ( ) 3. . ; ( ) 3. . (5) w w LCI a a a LCS a a a w w 1 2 ( ) ( ) 1 3. ; 1 3. w w D D w w 1 2( ) . ; LCS(a)=D . (6)LCI a D a a 112 Pentru n = 4, din tabela 15 din Anexă avem D1 = 0; D2 = 2.282, deci relaţiile (6) devin: LCI(a) = 0; LCS(a) = 2.282 x 92 = 209.944 Niciuna din valorile ai nu depăşeşte pe LCS(a), deci X corespunde la controlul calităţii în cursul procesului de producţie, ca împrăştiere a valorilor. În cazul măsurătorilor individuale, volumele sondajelor sunt egale cu 1 şi limitele de control pentru cele m valori individuale xi vor fi: Aici w se culege din tabela 15 din Anexă pentru n = 2 iar am este media diferenţelor succesive aim =|xi – xi–1| numite amplitudini mobile. Exemplu: X = producţia zilnică de lapte de vacă (litri/zi) în a 28-a zi de la fătare (controlul Nr. 1). Avem m = 10 sondaje a câte n = 1 vaci fiecare cu producţiile xi: xI 9.5 10 10.4 9.9 11 10.7 10.5 12.4 11.7 10.9 x = 10.8 |xi - xi-1| - 0.5 0.4 0.5 1.1 0.3 0.2 1.9 0.7 0.8 am = 0.71 Din tabela 15 din Anexă, pentru n = 2 valori în amplitudinile mobile, avemw = 1.128 deci: LCI(x) = 10.8 – 3 . (0.71/1.128) = 8.91 LCS(x) = 10.8 + 3 . (0.71/1.128) = 12.69 Toate cele 10 producţii individuale sunt între limitele precedente, deci caracteristica X corespunde calităţii. 3.1.2 Cazul unei însuşiri calitative În acest caz vom avea un singur parametru M în rolul căruia vom lua fie numărul di de exemplare-rebut din sondajul nr. i, fie frecvenţa rebuturilor fi = di/n din sondajul nr. i; (i = 1, 2,…, m). di este variabilă binomială adică: P(di = k) = Cn k p0 k (1 - p0) n–k unde p0 este proporţia rebuturilor în cursul procesului de producţie. Avem de verificat ipoteza H: p = p0 faţă de alternativaH: p > p0. Fie k1(α) cel mai mare număr natural pentru care avem: Fie k2(α) cel mai mare număr natural pentru care avem: 1( ) 1 0 0 0 ( ( )) (1 ) 1 2 k k k n k n k P d k C p p ( ) 3. ; ( ) 3. (7)m m a a LCI x x LCS x x w w 113 Avem: LCI(d) = k1(α); LCS(d) = k2(α) (7) Din păcate, limitele (7) implică calcule laborioase de aceea pentru n ≥ 40 şi p0 ≤ 0.1, variabila binomială poate fi aproximată cu variabila normală. a) Fişa de control pentru frecvenţa rebuturilor (fişa p) Un estimator pentru p0 este fi = di/n unde di este numărul rebuturilor din sondajul nr. i de volum n. Avem: M(fi) = p0 şi V(fi) = p0(1 - p0)/n, deci limitele de control pentru p0 vor fi: Cum p0 nu se cunoaşte, se aproximează cu: aşa că limitele de control pentru p0 devin: Dacă LCI(p0) < 0, luăm LCI(p0) = 0. Exemplu: X = starea de ecloziune a ouălelor de găină în a 18-a zi de incubaţie. Se efectuează m = 10 sondaje a câte n = 100 ouă în 10 serii de incubaţie, găsindu-se numărul di de ouă neeclozionate în aceste sondaje şi frecvenţele de rebut fi: Nr. sond. 1 2 3 4 5 6 7 8 9 10 TOTAL di 3 5 2 0 4 7 8 3 2 6 d = 4 fi 0.03 0.05 0.02 0 0.04 0.07 0.08 0.03 0.02 0.06 f = 0.04 Avem f = 0.04 deci din relaţiile (9) obţinem: 0 0 0 0.04 0.96 ( ) 0.04 3 0.04 0.059 0 deci LCI(p ) 0 100 0.04 0.96 ( ) 0.04 3 0.04 0.059 0.099 0.10 100 LCI p LCS p 2 2 0 0 ( ) 1 ( ( )) (1 ) 1 2 n k k n k n k k P d k C p p 0 0 0 0 0 0 0 0 (1 ) (1 ) ( ) 3. ; ( ) 3. (8) p p p p LCI p p LCS p p n n 1 1 1 1 1 1 1m m m n i i ij i i i j f f d x m mn mn 0 0 (1 ) (1 ) ( ) 3. ; ( ) 3. (9) f f f f LCI p f LCS p f n n 114 Se observă că toate valorile fi nu depăşesc limita superioară LCS(p0) deci X corespunde la controlul calităţii în cursul procesului de producţie ca proporţie a rebuturilor. b) Fişa de control pentru numărul rebuturilor (fişa C) În acest caz numărul di al rebuturilor într-un sondaj de volum n poate fi considerată variabilă Poisson cu media şi varianţa λ, deci limitele de control pentru d au forma: Cum λ nu se cunoaşte, îl aproximăm cu: deci limitele precedente capătă forma: Dacă LCI(d) < 0 luăm LCI(d) = 0. Exemplu: Pentru exemplul anterior avem d = 4 aşa că: Niciuna din valorile di din cele 10 sondaje nu depăşeşte pe LCS(d) deci X corespunde la controlul calităţii în cursul procesului de producţie ca număr de rebuturi. 3.2 CONTROLUL STATISTIC DE CALITATE LA RECEPŢIE Fie un lot de N produse din care D au defecte şi fie N D p proporţia acestor defecte. Efectuăm un control selectiv al calităţii produselor astfel: extragem din lot un sondaj de n produse (factorul de sondaj este N n ) şi le controlăm, găsind produse defecte. Dacă cδ , lotul se acceptă ca fiind corespunzător calităţii X controlate, iar dacă cδ , lotul se respinge ca fiind necorespunzător calităţii X controlate. În lotul respins se înlocuiesc produsele defecte cu altele bune. Probabilitatea de acceptare a lotului ca funcţie de p (proporţia produselor defecte în întregul lot) se notează cu L(p) şi se numeşte caracteristica operativă a controlului de calitate. Graficul său are forma: ( ) 3 ; ( ) 3 (10)LCI d LCS d 1 1 m i i d d m ( ) 3 ; ( ) 3 (11)LCI d d d LCS d d d ( ) 4 3 4 2 deci LCI(d)=0 LCS(d)=4+3 4 10 LCI d 115 0pL1α este eroarea de ordin I, adică probabilitatea respingerii unui lot cu defecte puţine, deci este riscul furnizorului. 1pLβ este eroarea de ordin II, adică probabilitatea acceptării unui lot cu defecte multe, deci este riscul beneficiarului. 0p se va numi calitate de acceptare, iar 1p calitate limită admisă. Controlul calităţii revine deci la verificarea ipotezei 0pp:H faţă de alternativa 1p:H p . Evident c d 0 L p P δ c P δ d . În plus valoarea medie pentru volumul n de sondaj este: n n L p N 1 L p . Observăm că pentru p = 0 avem nn , iar pentru p = 1 avem Nn . este variabilă hipergeometrică deoarece obiectele controlate deja (între care pot fi şi rebuturi) nu se mai întorc în populaţie, de aceea avem: d n dd n d N p N 1 pD N D D N p N N C CC C P δ d C C . Prin calcul rezultă că n δ ca variabila aleatoare, are media δ D M n N şi varianţa 2 D N Dδ 1 N n V n n N 1 N deci δ n este o estimaţie absolut corectă pentru proporţia reală D p N de produse defecte ale lotului, deoarece: δ D M n N , iar n δ lim V 0 n . Pentru , daţi, trebuie să aflăm pe n şi c astfel ca: 0 1L p 1 α;L p β , adică: 1 0 0 d n d c N p N 1 p N p d 0 N C C 1 α C ; 1 1 1 d n d c N p N 1 p N p d 0 N C C β C . Aceste ecuaţii în raport cu n şi c sunt foarte greu de rezolvat datorită calculelor cu combinări. În unele cazuri variabila hipergeometrică poate fi înlocuită cu variabila binomială, Poisson sau normală. 1) Dacă n N este mult mai mic ca 1, avem: c n dd d n d 0 L p C p 1 p încât n şi c satisfac ecuaţiile: n dc d d n 0 0 d 0 C p 1 p 1 α ; c n dd d n 1 1 d 0 C p 1 p β . 116 2) Dacă p şi n N sunt mult mai mici ca 1, avem: dc λ d 0 λ L p e d! , unde n λ n p D N , deci n şi c satisfac ecuaţiile: 0 d c n p0 d 0 n p e 1 α d! ; 1 d c n p1 d 0 n p e β d! . 3) Dacă n este foarte mare, avem: c np L p F np 1 p , unde F este funcţia de repartiţie N(0, 1) cu valori în tabela 1 a Anexei, aşa că n şi c satisfac ecuaţiile: 0 0 0 c np F 1 α np 1 p ; 1 1 1 c np F β np 1 p . Prezentăm mai departe două tipuri de control al calităţii şi fiabilităţii: controlul simplu şi controlul secvenţial. 3.2.1 Controlul unei însuşiri cantitative A. Controlul simplu al unei însuşiri cantitative Fie maxT limita superioară admisă pentru valorile însuşirii cantitative (măsurabile) X. Pentru , şi 0p , 1p daţi, trebuie să găsim volumul sondajului n şi pragul de acceptare c al lotului la controlul calităţii. Lotul este acceptat dacă la sondajul efectuat găsim media maxX T cσ . Această condiţie se mai scrie: maxX μ T μ cσ sau: maxT μX μ n c n σ σ . Dar proporţia de produse defecte este: maxT μp 1 F σ , aşa că max p T μ U σ . Aşadar lotul se acceptă dacă: p X μ n U c n σ . Pentru 0p p obţinem: 0p X μ P n U c n 1 α σ , iar pentru 1p p obţinem: 117 1p X μ P n U c n β σ . Conform demonstraţiei teoremei 1.1 din secţiunea 1.2, X μ n σ este variabilă N(0, 1), deci avem: 0 1α p 1 β p U U c n;U U c n Ţinând cont că: 1 β βU U , am demonstrat: Teorema 3.1 În cazul testului simplu al controlului calităţii avem: 1 0 0 1 2 α p β pα β p p α β U U U UU U n ;c U U U U (1) Dacă = necunoscută, luăm S, deci c rămâne neschimbat, iar n creşte de 2c 1 2 ori. Dacă minT este limita inferioară admisă pentru valorile lui X, lotul este acceptat dacă la sondajul efectuat găsim media: minX T c σ , ceea ce duce la aceleaşi valori ca mai sus pentru n şi c. Fie T limita (superioară sau inferioară) pentru valorile lui X. Fie 0 10 1 T μ T μ 1 F p ;F p σ σ , aşa că: 0 10 p 1 p μ T U σ; μ T U σ deoarece 0 1 0 1 p p T μ μ T U ; U σ σ Verificarea ipotezei 0H : p p faţă de alternativa 1H : p p devine: 0H : μ μ faţă de alternativa 1H : μ μ iar valorile din teorema 3.1 devin: α β α 1 β 0 α β 0 1 α β U U σ U μ U μ U U T n ; c 2T σ σ σ U U (2) Exemple: 1) Se controlează X = greutatea unui lot de pui livraţi (kg) pentru care limita inferioară de calitate este minT = 1kg. Dacă se ştie că = 0.1 kg şi se dau = 3%; = 7%; 0 1p 1%;p 4% , să se determine volumul n al sondajului şi limita de acceptare minT c σ pentru media de sondaj X . Solutie: Din tabela 1 a Anexei, obţinem 3%F U 97% 0.9700 deci 3% 7%U 1.88;F U 93% 0.9300 deci 7% 1%U 1.48;F U 99% 0.9900 deci 1% 4%U 2.33;F U 96% 0.9600 , deci 4%U 1.75. Din relaţiile de mai sus obţinem: μ0 = 0.767 Kg; μ1 = 1.175 Kg. Înlocuind aceste valori în relaţia (1) găsim: n = 34; c = 2 deci minT cσ 1.2kg . 118 Lotul se acceptă dacă dintr-un sondaj de n = 34 de pui livraţi, greutatea medie al acestora este de cel puţin 1.2 kg. 2) Se controlează X = grosimea stratului de grăsime la greabăn al porcilor livraţi (cm) pentru care limita superioară de calitate este maxT 4cm . Dacă se ştie că = 0.1 cm şi se dau = 5%; = 10%; 0 1p 2%;p 7% , să se determine volumul sondajului n şi limita de acceptare maxT c σ pentru media de sondaj X . Soluţie: Din tabela 1 din Anexă, obţinem ca în exemplul anterior: 5% 10% 2% 7%U 1.65;U 1.28;U 2.06;U 1.48 ; Din formulele precedente obţinem: μ0 = 3.794 cm; μ1 = 4.148 cm. Din formula (1) rezultă: n = 12; c = 1.7; maxT cσ 3.83 cm. Lotul se acceptă dacă într-un sondaj de n = 12 porci, grosimea medie a stratului de grăsime la greabăn nu depăşeşte 3.83 cm. B. Controlul secvenţial al unei însuşiri cantitative În acest caz volumul n al sondajului nu se mai determină în prealabil, ci se face controlul în lot, produs cu produs, până la acceptarea sau respingerea lotului la controlul de calitate. În acest fel, dacă p este mult mai mic ca 0p (lot foarte bun) sau mult mai mare ca 1p (lot foarte prost), volumul n de sondaj este mult mai mic ca în cazul sondajului simplu. Fie maxT limita superioară admisă pentru valorile însuşirii cantitative X şi fie 0 1μ , μ definite de relaţiile: max 0 max 10 1 T μ T μ 1 F p ;F p σ σ , de unde rezultă: 0 10 max p 1 max p μ T U σ; μ T U σ . Controlul de calitate revine la a verifica ipoteza 0H : μ μ faţă de alternativa 1H : μ μ . Fie n 0P probabilitatea de a obţine valorile de sondaj 1 nx ,..., x în cazul în care este adevărată ipoteza H şi n1P probabilitatea de a obţine valorile 1 nx ,..., x în cazul în care este adevărată ipoteza alternativă H . Avem cazurile: 1) n 1 n 0 Pβ 1 β 1 α P α , în care caz se continuă măsurătorile; 2) n 1 n 0 P β P 1 α , în care caz se ia decizia acceptării ipotezei 0H : μ μ ; 3) n 1 n 0 P 1 β P α , în care caz se ia decizia acceptării ipotezei alternative 1H : μ μ . Populaţia fiind presupusă normală şi datele de sondaj independente, avem: 2 i 0 2 x μ 2σ n 0 n 1 P e 2π σ şi 2 i 1 2 x μ 2σ n 1 n 1 P e 2π σ , 119 de unde rezultă: 2 2 i 0 i 1 2 x μ x μ n 1 2σ n 0 P e P . aşa că avem: 0 11 0n 1 i2 n 0 n μ μμ μP ln x P 2σ Cu notaţiile: 2 2 0 1 0 1 1 0 1 0 μ μ σ β σ 1-β a ;b ln 0 ; b ln > 0 2 μ μ 1 α μ μ α (3) cazurile 1) - 3) de mai sus, prin logaritmare în baza e, duc la: Teorema 3.2 Avem cazurile: 1) 0 i 1a.n b x a.n b , în care caz se continuă măsurătorile; 2) i 0x a.n b , în care caz se acceptă ipoteza 0H : μ μ ; 3) i 1x a.n b , în care caz se acceptă ipoteza alternativă 1H : μ μ . Practic, se reprezintă grafic dreptele 0x a.n b şi 1x a.n b , în sistemul de axe cu abscisa n şi ordonata ix şi se continuă măsurătorile până când punctul de coordonate in ; x trece prin una din zonele 2 sau 3: maxT fiind limită superioară pentru X, acceptarea ipotezei H duce la acceptarea lotului la controlul calităţii, deci zona 2 este zona de acceptare a lotului, în timp ce acceptarea ipotezei alternative duce la respingerea lotului la controlul calităţii, deci zona 3 este zona de respingere a lotului. Dacă minT este limită inferioară pentru X, m situaţia este inversă. Exemple: 1) X = greutatea porcilor la livrare (kg) limitată inferior. Dacă se dau = 5%; = 2% şi se ştie că = 5 kg, să se verifice ipoteza 100kgμ:H faţă de 110kgμ:H prin control secvenţial. 120 Soluţie: Avem 2%β5%;α5kg;σ110kg;μ100kg;μ 10 , deci conform formulelor (3) obţinem: 7.44b9.65;b105kg;a 10 . Tabelul de calcul cu datele de sondaj ix şi sumele ix este: n ix 105n - 9.65 n1 xx 105n + 7.44 1 107 95.35 107 112.44 2 103 200.35 210 217.44 3 109 305.35 319 322.44 4 96 410.35 415 427.44 5 103 515.35 518 532.44 6 105 620.35 623 637.44 7 100 725.35 723 742.44 După n = 7 măsurători, avem i 0x a.n b , deci se acceptă H, aşa că lotul se respinge la controlul calităţii deoarece X este limitată inferior. 2) X = grosimea stratului de grăsime la greabăn pentru porci (cm) limitată superior. Dacă se dau = 6%; = 9% şi se ştie că = 1 cm, să se verifice ipoteza 3cmμ:H faţă de alternativa 4cmμ:H , prin control secvenţial. Solutie: Avem 9%β6%;α1cm;σ4cm;μ3cm;μ 10 , deci conform formulelor (3) obţinem: 2.72b2.35;b3.5cm;a 10 Tabelul de calcul cu datele de sondaj xi şi sumelor Σx1, este: n ix 3.5n-2.35 n1 xx 3.5n + 2.72 1 3.6 1.15 3.6 6.22 2 4.1 4.65 7.7 9.72 3 3.1 8.15 10.8 13.22 4 3.0 11.65 13.8 16.72 5 3.8 15.15 17.6 20.22 6 2.9 18.65 20.5 23.72 7 2.6 22.15 23.1 27.22 8 3.0 25.65 26.1 30.72 9 2.7 29.15 28.8 34.22 Dacă n = 9 măsurători, avem i 0x a.n b , deci se acceptă H, aşa că lotul se acceptă la controlul calităţii deoarece X este limitată superior. 121 3.2.2 Controlul unei însuşiri calitative A. Controlul simplu al unei însuşiri calitative Pentru 10 p,pβ,α, daţi, trebuie să găsim volumul n al sondajului şi pragul de acceptare c al lotului la controlul de calitate. Lotul este acceptat dacă la sondajul efectuat găsim numărul de rebuturi cδ . Se poate arăta că 2p 1 p 2n cu 2 (c+1) grade de libertate. Pentru 0pp avem 2 1 α 0 1 p 2n , iar pentru 1pp avem 2 β 1 1 p 2n , de unde rezultă: Teorema 3.3 Avem 22 β1 α 0 1 n 2p 2p cu 2 (c + 1) grade de libertate. În concluzie vom căuta pentru câte grade de libertate (egale cu 2 (c + 1)) avem: 22 β1 α 0 1p p , deci găsim pe c, apoi din teorema 3.3 găsim pe n. Exemplu: X = ecloziunea unui lot de ouă de găină în a -18-a zi de incubaţie. Dacă se dau 6%p3%;p5%;β5%;α 10 , se cere volumul sondajului n şi pragul de acceptare c al lotului la controlul calităţii. Solutie: Trebuie să avem: 2 2 0.95 0.05 0.03 0.06 sau 2 20.95 0.053 , egalitate care se realizează pentru 2 (c + 1) = 19 GL, pentru că în acest caz avem 2 20.95 0.0510.12; 30.14 . Rezultă că c = 9 şi 167 0.032 10.12 n . Lotul se acceptă dacă dintr-un sondaj de n = 167 de ouă, cel mult c = 9 ouă sunt neeclozionate. B. Controlul secvenţial al unei însuşiri calitative Fie: 0, 1, x i deci dacă ix sunt independente, ix este variabilă binominală de parametri 1xPp i şi n. Controlul de calitate revine la verificarea ipotezei 0pp:H faţă de alternativa 1pp:H . În cazul nostru avem: n nk k k k n 0 n 0 0 n 1 n 1 1P C p 1 p ; P C p 1 p k k , unde ixk este numărul produselor din sondaj care sunt rebuturi faţă de însuşirea calitativă X. Avem k n n 1 1 1 n 0 0 0 P p 1 p P p 1 p k ,deci: n 1 1 1 n 0 0 0 P p 1 p ln .ln n .ln P p 1 p k k . dacă al i-lea produs din sondaj este defect faţă de însuşirea X în caz contrar 122 Dându-se şi , respectiv 10 p,p avem cazurile: 1) n 1 n 0 Pβ 1 β 1 α P α , în care caz se continuă măsurătorile; 2) n 1 n 0 P β P 1 α , în care caz se decide că 0pp:H este adevărată; 3) n 1 n 0 P 1 β P α , în care caz se decide că alternativa 1pp:H este adevărată. Cu notaţiile: 0 1 0 1 1 0 1 0 1 0 0 1 0 1 0 1 1 p β 1 βln ln ln 1 p 1 α αa ;b ;b p 1 p p 1 p p 1 p ln ln ln p 1 p p 1 p p 1 p (4) cazurile 1) - 3) de mai sus prin logaritmare în baza e, conduc la: Teorema 3.4 Avem cazurile: 1) 0 1a.n b a.n bk , în care caz se continuă măsurătorile; 2) 0a.n bk , în care caz se acceptă ipoteza H; 3) 1a.n bk , în care caz se acceptă alternativa H . Practic, se reprezintă grafic dreptele 0x a.n b şi 1x a.n b în sistemul de axe cu abscisa n şi ordonata ixk şi se continuă măsurătorile până când punctul de coordonate (n,k) trece în una din zonele 2 sau 3. Acceptarea ipotezei H duce la acceptarea lotului la controlul calităţii, deci zona 2 este zona de acceptare a lotului în timp ce acceptarea alternativei H duce la respingerea lotului la controlul de calitate, deci zona 3 este zona de respingere a lotului. Exemplu: X = viabilitatea puilor de găină în vârstă de o zi. Se dau = 4%; = 6%. Să se verifice ipoteza H: p < 10% faţă de alternativa 90%p:H prin controlul secvenţial. Solutie: Avem 0.9p0.1;p0.06;β0.04;α 10 , deci conform formulelor (4) obţinem: 0.72b0.63;b0.5;a 10 . Tabelul de calcul cu datele de sondaj ix şi sumele ixk , este: N ix 0.5n - 0.63 1 nx xk 0.5n + 0.72 1 0 -0.13 0 1.22 2 1 0.37 1 1.72 3 1 0.87 2 2.22 4 0 1.37 2 2.72 5 0 1.87 2 3.22 6 1 2.37 3 3.72 7 0 2.87 3 4.22 8 0 3.37 3 4.72 După n = 8 pui controlaţi se acceptă ipoteza H, deci lotul se acceptă la controlul calităţii. 123 3.2.3 Controlul fiabilităţii maşinilor agricole A. Controlul simplu al fiabilităţii maşinilor agricole Dacă pentru produsele agricole destinate consumului este important controlul statistic al calităţii lor în raport cu diferite însuşiri X, măsurabile sau atributive, pentru maşinile agricole este important controlul statistic al siguranţei în funcţionare sau al fiabilităţii lor. Definiţia fiabilităţii a fost dată în secţiunea 1.2 Fiabilitatea este o însuşire calitativă (atributivă) pentru care 0p şi 1p sunt înlocuiţi cu T0 (timpul mediu de funcţionare fără defecţiuni acceptat), respectiv T1 (timpul mediu de funcţionare fără defecţiuni limită admis), deci trebuie verificată ipoteza 0H : t T faţă de alternativa 1H : t T , unde avem T0 > T1 spre deosebire de 10 pp la însuşirile X atributive. În cadrul testului simplu al controlului fiabilităţii, pentru 0 1α;β;T ;T daţi, trebuie găsite numărul de defecţiuni acceptate c şi timpul de acceptare ct al lotului la controlul fiabilităţii. Lotul este acceptat dacă: a) timpul de funcţionare până la apariţia a c defecţiuni este ctt sau b) numărul de defecţiuni apărute în timpul de funcţionare ct este ck . În caz contrar lotul se respinge la controlul fiabilităţii. Se poate arăta că c 2 p 2t t cu 2 (c + 1) grade de libertate. Pentru 0t T avem: c 0 2 1 α 2t T , iar pentru 1t T avem: c 1 2 β 2t T , de unde rezultă: Teorema 3.5 Avem 2 20 1c 1 α βt 2 2 T T cu 2(c + 1) grade de libertate. Vom căuta în tabela 3 din Anexă, pentru câte grade de libertate, adică 2(c + 1), avem 2 2 0 1 α 1 βT T , deci obţinem pe c, apoi din teorema 3.5 obţinem pe ct . Exemplu: Pentru controlul fiabilităţii unor maşini agricole de împrăştiat îngrăşăminte chimice, se dau 0α 5%;β 5%;T 160 ore; 1 80T ore. Să se determine numărul c de maşini defecte acceptat şi timpul de acceptare ct la controlul fiabilităţii. Solutie: Trebuie să avem 2 20 1 α 1 βT T , adică 2 2 0.95 0.05160 80 sau 2 2 0.95 0.052 ceea ce se întâmplă pentru 2(c + 1) = 40 GL. În acest caz 2 20.95 0.0526.51; 55.76 . De aici rezultă că c = 19; 212026.51 2 160 t c ore. În concluzie, lotul se acceptă dacă timpul de funcţionare până la defectarea a 19 maşini este de cel puţin 2120 ore sau dacă numărul de maşini care s-au defectat după 2120 ore de funcţionare este de cel putin 19 maşini. În caz contrar, lotul se respinge la controlul fiabilităţii. 124 B. Controlul secvenţial al fiabilităţii maşinilor agricole Dorim să verificăm ipoteza 0H : t T faţă de alternativa 1H : t T , unde T0 > T1. t este timpul de funcţionare fără defecţiuni al unei maşini, iar datele de sondaj privind funcţionarea sa fără defecţiuni sunt: n1 t,,t . Conform teoremei 4.1, probabilitatea de a avea k defecţiuni într-un interval de timp de lungime t, este: k λ t λ t P k e k! . Cu 1 λ avem: k t t P k e k! . este timpul mediu între apariţia a două defecţiuni consecutive. Fie n 0P probabilitatea de a obţine datele de sondaj n1 t,,t în cazul că ipoteza H este adevărată şi n 1P probabilitatea de a obţine datele de sondaj n1 t,,t în cazul că alternativa H este adevărată. Avem: 0 1 k k t t o 1 n 0 n 1 t t P e ;P e k! k! T T T T , deci: 1 0 k 1 1 t 0n 1 n 0 1 P e P T TT T , de unde: on 1 n 0 1 1 0 P 1 1 ln .ln t P T k T T T . Avem cazurile: 1) n 1 n 0 Pβ 1 β 1 α P α , în care caz se continuă măsurătorile; 2) n 1 n 0 P β P 1 α , în care caz se acceptă ipoteza H; 3) n 1 n 0 P 1 β P α , în care caz se acceptă ipoteza alternativă H . Cu notaţiile: 1 0 0 1 0 0 0 1 1 1 1 1 β 1 β ln ln 1 α αa ;b ;b ln ln ln T T T T T T T T (5) prin logaritmare în baza e, cazurile 1) - 3) de mai sus conduc la: Teorema 3.6 Avem cazurile: 1) 0 1a.t b a.t bk , în care caz se continuă măsurătorile; 2) 0a.t bk , în care caz se acceptă ipoteza H; 3) 1a.t bk , în care caz se acceptă ipoteza alternativă H . Practic, se reprezintă grafic dreptele 0x a.t b şi 1x a.t b , în sistemul de axe cu abscisa t şi ordonata itk şi se continuă măsurătorile până când punctul de coordonate (t,k) trece prin una din zonele 2 sau 3. Zona 2 este zona de acceptare a lotului la controlul fiabilităţii, iar zona 3 este zona de respingere a lotului la controlul fiabilităţii. 125 Exemplu: Pentru controlul fiabilităţii unor staţii pentru epurarea dejecţiilor la porci, avem = 5%; = 10%. Să se verifice ipoteza H: t > 4 luni faţă de alternativa 1t:H lună prin control secvenţial. Soluţie: Avem 0 1α 5%;β 10%;T 4;T 1 , deci conform formulelor (5) găsim: 2.08b1.62;b0.54;a 10 . Tabelul de calcul cu datele de sondaj it şi sumele ik t , este: t it 0.54t - 1.62 1 nk t t 0.54t + 2.08 1 0 -1.08 0 2.62 2 1 -0.54 1 3.16 3 0 0 1 3.70 4 0 0.54 1 4.24 5 1 1.08 2 4.78 6 0 1.62 2 5.32 7 0 2.16 2 5.86 Se acceptă ipoteza H: t > 4 luni după t = 7 luni de funcţionare deci lotul de staţii de epurare se acceptă la controlul calităţii. 3.3 REZUMAT În acest capitol se prezintă controlul statistic al calităţii în cursul procesului de producţie prin fişe de control al unei însuşiri cantitative respectiv calitative. Se prezintă controlul simplu şi secvenţial al controlului statistic de recepţie pentru însuşiri cantitative, calitative şi fiabilitate. 3.4 ÎNTREBĂRI 1. Ce fişe de control se folosesc pentru controlul calităţii în cursul procesului de fabricaţie? 2. În ce constă controlul simplu al calităţii la recepţie? 3. În ce constă controlul secvenţial al calităţii la recepţie? 4. În ce caz controlul secvenţial este preferat controlului simplu? 3.5 BIBLIOGRAFIE 1. D. Ene, M. Drăghici, I.N. Alecu: “Statistică aplicată în agricultură”, Ed. Ceres, 2003 2. M. Iosifescu şi col.: “Mică enciclopedie de statistică”, Ed. Ştiinţif. şi Enciclop., 1985 3. Anuarul statistic al României, 1990 - 2008 126 CAPITOLUL 4 ANALIZA VARIANŢEI ŞI PLANURI EXPERIMENTALE ÎN AGRICULTURĂ Obiective: Însuşirea de către studenţi a puternicului aparat al analizei varianţei mono şi polifactoriale în populaţii omogene şi neomogene (planuri experimentale). Conţinut: 4.1 Analiza varianţei monofactorială nebalansată în populaţii omogene 4.2 Analiza varianţei bifactorială completă nebalansată în populaţii omogene 4.3 Analiza varianţei bifactorială ierarhică nebalansată în populaţii omogene 4.4 Planuri experimentale în populaţii neomogene 4.4.1 Planul blocurilor complete randomizate 4.4.2 Planul pătratelor latine 4.5 Rezumat 4.6 Întrebări 4.7 Bibliografie Cuvinte cheie: analiza varianţei nebalansată completă/ierarhică, model cu efecte fixe/aleatoare, componente de varianţă, blocuri complete randomizate, pătrate şi dreptunghiuri latine. 4.1 ANALIZA VARIANŢEI MONOFACTORIALĂ NEBALANSATĂ ÎN POPULAŢII OMOGENE În populaţia statistică luăm ca obiect de studiu un caracter măsurabil Y faţă de care exemplarele populaţiei au media . Fie un alt caracter X asociat cu exemplarele populaţiei, caracterul X având m variante (doze, nivele, tratamente) notate X(1),..., X(m). Caracterul X se numeşte factor şi constituie un criteriu de clasificare a populaţiei în m subpopulaţii (straturi) ce corespund variantelor X(1),..., X(m), mediile pe subpopulaţii relativ la caracterul Y fiind (1),..., (m). Diferenţele x(i) = (i) - se numesc efecte principale ale lui X în subpopulaţii. Avem: m i 1 x(i) = 0 Subpopulaţiile se presupun normale cu mediile (1),..., (m) şi aceeaşi varianţă σ2(E) în raport cu caracterul Y. Extragem în mod întâmplător din subpopulaţii, m sondaje (probe, eşantioane) de volume p(1),..., p(m). Volumul de sondaj total este pT = m j jp 1 )( . Datele relative la Y, din aceste sondaje le numim repetiţii (replicate) şi le notăm cu Y(i, j) (i = 1,..., m; j = 1,..., p(i)). Forma generală a modelului liniar este: unde e(i, j) sunt variabilele aleatoare normale, independente câte două, cu media zero şi varianţa σ2(E). Y(i, j)= +x (i)+e(i, j) 127 Orice variantă X(i) a lui X trebuie să modifice pe (i) nu şi pe σ. Această condiţie se verifică prin ipoteza H: σ(1)2 =..........= σ(m)2 faţă de alternativa Ĥ: σ (1)2 ≠.........≠ σ(m)2 cu ajutorul testului Bartlett: Fie mediile de sondaj în cadrul variantelor ( ) 1 1 ( ) ( , ) ( ) p i j MY i Y i j p i şi varianţele de sondaj în cadrul variantelor: SY(i) 2 = )( 1 )](),([ 1)( 1 ip j iMYjiY ip 2 , (1 i m) Varianţa erorii este: S2E = 1 1 ( ( ) 1) ( ) m iT p i SY i p m 2 Fie: C = 1 + ] )1)(( 1 1)( 1 [ )1(3 1 1 1 m i m i ip ipm Mărimea: 2B= )1)(([ 1 ip C ln S 2 E- m i ip 1 )1)(( SY(i) 2 ] este o variabilă 2 cu m - 1 grade de libertate. Se extrag din tabela 3 din Anexă, valorile critice 20.05; 2 0.01; 2 0.001 cu m - 1 GL şi se compară 2B cu aceste valori critice. Dacă 2B 2 0.05 atunci se acceptă ipoteza H: σ(1) 2 =..........= σ(m)2. În caz contrar avem cazurile: 1) 20.05 ≤ 2 B 2 0.01 în care caz se acceptă Ĥ deci σ(1) 2... σ(m)2 diferă semnificativ între ele; 2) 20.01 ≤ 2 B 2 0.001 în care caz se acceptă Ĥ deci σ(1) 2... σ(m)2 diferă distinct semnificativ între ele; 3) 2B 2 0.001 în care caz se acceptă Ĥ deci σ(1) 2... σ(m)2 diferă foarte semnificativ între ele. În cazul balansat p(1) =.........= p(m) = p; pT = mp şi ipoteza H: σ(1) 2 =..........= σ(m)2 faţă de alternativa Ĥ: σ(1)2 ≠........≠ σ(m)2 se verifică cu testul Cochran: Fie SY 2 max = max SY(i) 2 (1 i m) Calculăm: Q = SY2max/(SY(1) 2 +...+ SY(M) 2) şi extragem din tabelele Cochran, valorile critice Q0.05 şi Q0.01 pentru m variante şi p - 1 GL. Dacă Q Q0.05 se acceptă ipoteza H: σ(1) 2 =...= σ(m)2. În caz contrar avem cazurile: 1) Q0.05 ≤ Q Q0.01 deci se acceptă Ĥ adică σ(1) 2... σ(m)2 diferă semnificativ între ele; 2) Q Q0.001 deci se acceptă Ĥ adică σ(1) 2... σ(m)2 diferă distinct semnificativ între ele. După modul de alegere al subpopulaţiilor, avem două tipuri de modele: a) Modele cu efecte fixe: În acest caz experimentatorul fixează valorile variantelor X(1),..., X(m) şi împarte populaţia în m subpopulaţii ce se vor asocia cu X(1),..., X(m). Mediile (i) sunt constante, efectele principale x(i) = (i) - sunt de asemenea constante. 128 Avem: M(Y(i, j)) = (i) M(x(i)) = x(i) (1 ≤ i ≤ m) M(e(i, j)) = 0 (1 ≤ j ≤ p(i)) respectiv: V(Y(i, j)) = σ 2(E) V(x(i)) = M( 2 x(i)) - M(x(i)) 2 = 2x(i) - 2 x(i) = 0 V(e(i, j)) = M(e 2 x(i)) - M(e(i, j)) 2 = σ2(E) - σ2(E) = 0 Ipoteza care se verifică este H: (1) =...= (m) = faţă de alternativa Ĥ: (1) ≠...≠ (m)) ≠ sau sub altă formă H: x(i) = 0 faţă de alternativa Ĥ: x(i) ≠ 0. Modelul cu efecte fixe se aplică când numărul m de variante este mic şi permite ca aceleaşi variante să fie utilizate din nou dacă experienţa se repetă. Exemplu: X = îngrăşăminte, apă, energie la plante respectiv furaje, sex, perioada de îngrăşare la animale. b) Modelul cu efecte aleatoare: Experimentatorul alege în mod aleator valorile variantelor X(1),..., X(m), iar cele m subpopulaţii se aleg în mod aleator din mulţimea subpopulaţiilor posibile, urmând a fi asociate în mod aleator cu variantele X(1),..., X(m). Mediile (i) sunt variabile aleatoare normale cu media şi varianţa σ2(x), iar efectele principale x(i) = (i) - sunt tot variabile aleatoare normale cu media 0 şi varianţa σ 2 (x). Avem: M(Y(i, j)) = M(x(i)) = 0 unde: (i = 1,..., m) şi (j = 1,..., p(m)) M(e(i, j)) = 0 respectiv: V(Y(i, j)) = V(x(i)) + σ 2 (E) V(x(i)) = M( 2 x(i)) - M(x(i)) 2 = σ2(x) – 0 = σ 2 (x) V(e(i, j)) = M(e 2 x(i)) - M(e(i, j)) 2 = σ2(E) – 0 = σ2(E). Aici x este variabila aleatoare: mp ......., ,1p m ......, ,1 xx x cu media M(x) = m i 1 p(i)x(i) = 0 şi varianţa σ 2 (x). Ipoteza care se verifică este H: σ(x) = 0 faţă de alternativa Ĥ: σ(x) ≠ 0. Modelul cu efecte aleatoare se aplică când numărul m de variante X este mare (poate fi şi infinit), dar numai n din ele sunt alese în experiment. Aceleaşi variante nu pot fi utilizate din nou dacă experienţa se repetă. Exemplu: X = tata sau mama în încrucişarea plantelor şi animalelor. În cazul ambelor modele, datele împreună cu calculele de sume şi medii pe variante şi pe total, se trec în tabelul de mai jos: 129 Repetiţii Y→ VarianteX ↓ Y(i, j) Medii pe variante Media totală X(1) . . . . X(m) Y(1, 1),..., Y(1, p(1)) . . . . Y(m, 1),..., Y(m, p(m)) MY(1) . . . . MY(m) MYT Notaţie: pT = m i ip 1 )( Calcule: a) SPA şi GL: SPAT = m i ip j1 )( 1 [Y(i, j) - MYT] 2 = m i ip j1 )( 1 Y(i, j) 2 - S 2 T/pT cu GLT = pT -1 SPAX = m i 1 p(i)[MY(i) - MYT] 2 = m i 1 S(i) 2 /p(i) - S 2 T/pT cu GLX = m - 1 SPAE = m i ip j1 )( 1 [Y(i, j) - MY(i)] 2 = SPAT - SPAX cu GLE = GLT - GLX = pT - m b) S 2 : S 2 X = SPAX/(m - 1); S 2 E = SPAE/(pT - m) c) F: FX = S 2 X/S 2 E 1 cu [m - 1; pT - m]GL Rezultatele de la punctele a) - c) se trec în tabelul sintetic de analiză a varianţei: Sursa de variaţie SPA GL S2 F X E T SPAX SPAE SPAT m - 1 pT - m pT – 1 S 2 X S 2 E - FX - - Raportul Fisher FX se compară cu valorile critice F0.05; F0.01; F0.001 extrase din tabelele 4, 5, 6 din Anexă pentru perechile de grade de libertate corespunzătoare şi se acceptă sau se respinge ipoteza formulată mai sus. Conform teoremei 4.1 de mai jos, avem: 1) Pentru modelul cu efecte fixe: M(S 2 X) = m im 1 [ 1 1 p(i)2x(i)] + σ 2 (E) M(S 2 E) = σ 2 (E) Avem estimatorii: σ*2(E) = S2E; σ *2 (E) = (S 2 X - S 2 E)/a(1, 1) unde a(1, 1) = m im 1 [ 1 1 p(i)2x(i)] 130 2) Pentru modelul cu efecte aleatoare: M(S 2 X) = 1 1 m [pT - (1/pT) m i 1 p 2(i)] σ2(x) + σ 2 (E) M(S 2 E) = σ 2 (E) Avem estimatorii: σ*2(E) = S2(E); σ*2(X) = (S2X - S 2 E)/a(1, 1), unde a(1, 1) = 1 1 m [pT - (1/pT). m i 1 p 2 (i)] În cazul balansat avem: p(1) =...= p(m) = p; pT = mp şi a(1, 1) = m im p 11 2x(i), pentru modelul cu efecte fixe; şi a(1, 1) = p, pentru modelul cu efecte aleatoare; Modelul cu efecte fixe este ilustrat de desenul: Modelul cu efecte aleatoare este ilustrat de desenul: Teorema 4.1 (fără demonstraţie) a) Pentru modelul cu efecte fixe, avem: M(S 2 X) = m im 1 [ 1 1 p(i)2x(i)] + σ 2 (E) M(S 2 E) = σ 2 (E) 131 b) Pentru modelul cu efecte aleatoare, avem: M(S 2 X) = 1 1 m [pT - (1/pT) m i 1 p 2(i)] σ2(x) + σ 2 (E) M(S 2 E) = σ 2 (E) Un indicator statistic asemănător cu coeficientul de corelaţie liniară din secţiunea 5.1 şi cu raportul de corelaţie neliniară din secţiunea 5.3, este indicele de corelaţie definit astfel: Ic = TE SPASPA /1 Teorema 4.2 Indicele de corelaţie Ic are proprietăţile: 1) 0 Ic 1 2) X, Y = independente X, Y = necorelate (Ic = 0) 3) X, Y = dependente funcţional (Y = f(x)) dacă şi numai dacă Ic = 1. Demonstraţie: 1) Ic = TE SPASPA /1 = TX SPASPA / 0. Cum SPAX SPAT, rezultă 0 Ic 1. 2) X, Y = independente MY(i) nu depinde de X(i), deci sunt egale între ele, adică MY(i) = MY, (i = 1,..., m) aşa că SPAX = 0, deci Ic = 0, adică X, Y = necorelate. 3) X, Y = dependente funcţional (Y = f(x)) dacă şi numai dacă lui X(i) îi corespunde un singur Z(i) adică Y(i, j) sunt egale între ele pentru orice j = 1,..., p deci Y(i, j) = MY(i), (j = 1,..., p) aşa că SPAX = SPAT ceea ce are loc dacă şi numai dacă Ic = 1. Q.E.D. Raportul Fisher FX = [SPAX/SPAE] : [(m - 1)/(pT - m)] capătă forma FX = [Ic 2 /(1 - Ic 2 )] : [(m - 1)/(pT - m)], deci verificarea ipotezei HX: (1) =...= (m) = faţă de alternativa ĤX: (1) ≠...≠ (m) ≠ se reformulează astfel: HX: ηc = 0 faţă de HX: ηc ≠ 0, unde ηc este indicele de corelaţie în populaţie împărţită în m subpopulaţii cărora li se aplică X(1),..., X(m). În plus AX = Ic 2 ; AE = 1 - Ic 2, proprietate pe care o are şi coeficientul de corelaţie liniară r şi raportul de corelaţie neliniară Rc. În cazul respingerii ipotezei HX: (1) =...= (m) = , se poate stabili în cazul balansat (p(1) =,..., p(m)) prima variantă X(i) a lui X cu influenţă semnificativă asupra variaţiei lui Y astfel: Aranjăm mediile pe variante în ordine crescătoare: MY(i1) ,..., MY(im), (i1,..., im 1,..., m) şi presupunem că MY(it) este media variantei –martor X(1), (it 1,..., m). Fie Δ(h, t) =│MY(ih) - MY(it)│, (h = 1,..., m; h ≠ t) Se calculează amplitudinea teoretică a diferenţelor de medii: A = max - min = (S 2 E/p) 1/2 T, unde T este amplitudinea studentizată Tukey obţinută din tabelele 7, 8 ale Anexei, pentru numărul m al mediilor şi numărul de grade de libertate ale erorii GLE. Fiecare diferenţă faţă de martor Δ(h, t); (h = 1,..., m; h ≠ t), care depăşeşte pe A0.05 primeşte o steluţă de semnificaţie, iar dacă depăşeşte pe A0.01 primeşte a doua steluţă de semnificaţie. Un test asemănător cu testul Tukey este testul Duncan, precum şi testul diferenţei – limită: /2 = (i) - (j) = (2S 2 E/p) 1/2 t/2; GLE Exemplu: X = proteină digestivă (PD) în raţia vacilor cu lapte; Y = producţia lunară de lapte (litri) într-o anumită lună a ciclului de lactaţie. Luăm m = 3 variante ale factorului X: 132 X1(1100g/zi) (doza-martor); X2(1200g/zi); X3(1300g/zi). Aceste variante le aplicăm la câte p = 4 repetiţii ale factorului Y. Avem tabelul cu date: Repet. Y → Variante X ↓ Y(i, j) Mediile pe variante Media totală X1 300; 314; 306; 308 MY(1) = 307 MYT = 338 X2 330; 338; 342; 350 MY(2) = 340 X3 366; 362; 370; 370 MY(3) = 367 Verificăm ipoteza H: σ(1)2 = σ(2)2 = σ(3)2, faţă de alternativa:H: σ(1)2 ≠ σ(2)2 ≠ σ(3)2, cu testul Cochran: SY(1) 2 = 33.33; SY(2) 2 = 69.33; SY(3) 2 = 14.66; Avem Q = 66.1433.6933.33 33.69 = 0.5910 Din tabelele pentru m = 3 variante X şi p – 1 = 3 GL avem valorile critice Q0.05 = 0.8709; Q0.01 = 0.9423; Avem Q Q0.05, deci se acceptă ipoteza H: σ(1) 2 = σ(2)2 = σ(3)2 Etape de calcul: a) SPA şi GL: SPAT = m i p j1 1 [Y(i, j) - MYT] 2 = 7576 cu GLT = mp - 1 = 11 GL SPAX = p m i 1 [MY(i, j) - MYT] 2 = 7224 cu GLX = m – 1 = 2 GL SPAE = SPAT - SPAX = 352 cu GLE = 11 – 2 = 9 GL b) S 2 : S 2 X = 3612 2 7576 XGL SPAX ; S 2 E = 11.39 9 352 E E GL SPA c) F: FX = S 2 X/S 2 E 35.92 11.39 3612 cu (2; 9) GL Din tabelele Fisher 4, 5, 6 din Anexă, găsim valorile critice pentru (2; 9) GL : F0.05 = 4.26; F0.01 = 8.02; F0.001 = 16.39. Cum FX F0.001 se acceptă ipoteza Ĥ adică (1), (2), (3), diferă foarte semnificativ între ele adică influenţa variaţiei factorului X asupra variaţiei factorului Y este foarte semnificativă aşa că F = 92.35***. Tabelul de analiză a variaţiei sintetic este: Sursă de variaţie Variaţii Pătratice (SPA) Grade de libertate (GL) Variante (S2) Rapoarte Fisher (F) X 7224 2 3612 92.35*** E 336 9 39.11 - T 7560 11 - - Indicele de corelaţie este Ic = TX SPASPA / = 0.977*** şi este foarte semnificativ. 133 Testul Tukey Calculăm triunghiul diferenţelor de medii pe variantele lui X: Diferenţe de medii 307 340 367 367 340 307 60** 33** - 27** - - - - - Din tabelele Tukey 7, 8 din Anexă, pentru m = 3 medii şi GLE = 9 găsim T0.05 = 3.95; T0.01 = 5.43 aşa că avem amplitudinile aşteptate: A0.05 = 4/11.39 X 3.95 = 12.35 A0.01 = 4/11.39 X 5.43 = 16.98 Cele trei diferenţe din tabelul precedent depăşesc pe A0.01, deci sunt distinct semnificative adică (1), (2), (3), diferă distinct semnificativ două câte două. Aportul variaţiei lui X la variaţia lui Y egală cu 100%, este AX = IC2 = 95.5%. Aportul variaţiei erorii la variaţia lui Y este AE = 1 - AX = 4.5% Calculele precedente privitoare la analiza varianţei monofactorială balansată în populaţii omogene, pot fi făcute în EXCEL astfel: Depunem în foaia de calcul Nr. 1 în blocul de celule A1 : C5 astfel: A B C 1 X1 X2 X3 2 300 330 366 3 314 338 362 4 306 342 370 5 308 350 370 Deschidem fereastra TOOLS în care activăm opţiunea DATA ANALYSIS. Aici activăm opţiunea ANOVA:SINGLE FACTOR în care declarăm blocul de celule cu date A1:C5. Rezultatele se găsesc fie în foaia de calcul Nr. 2, fie tot în foaia de calcul Nr. 1, prin declararea ca celule de rezultate, a altor celule decât cele din blocul de date A1:C5 O prezentare elegantă a calculelor precedente se află în foaia de calcul AV1.XLS din Anexă. 4.2 ANALIZA VARIANŢEI BIFACTORIALĂ COMPLETĂ NEBALANSATĂ ÎN POPULAŢII OMOGENE În populaţia statistică luăm ca obiect de studiu un caracter măsurabil Z faţă de care exemplarele populaţiei au media . Fie alte două caractere X, Y asociate cu exemplarele populaţiei, caracterul X având m variante (doze, nivele, tratamente) notate X(1),..., X(m), iar caracterul Y având n variante (doze, nivele, tratamente) notate Y(1),..., Y(n). Caracterele X, Y se numesc factori şi constituie criterii de clasificare dublă a populaţiei în mn subpopulaţii (straturi) ce corespund perechilor de variante (X(i), Y(j)), mediile pe subpopulaţii relativ la caracterul Z fiind (i, j), (i = 1,..., m; j = 1,..., n). Diferenţele (X, Y)(i, j) = (i, j) - se numesc efecte principale ale perechii de factori (X, Y) în subpopulaţii. Avem m i n j1 1 (X, Y)(i, j) = 0 134 Subpopulaţiile se presupun normale cu mediile (i, j) şi aceeaşi varianţă 2(E) în raport cu caracterul Z. Extragem în mod întâmplător din subpopulaţii mn sondaje (probe, eşantioane) de volume p(i, j), (i = 1,..., m; j = 1,..., n). Datele reletiv la caracterul Z, din aceste sondaje le numim repetiţii, (replicate) şi le notăm cu Z(i, j, k), (i = 1,..., m; j = 1,..., n; k = 1,...,p(i, j)). Forma generală a modelului liniar este: Z(i, j, k) = + X(i) + Y(j) + X.Y(i, j) + e(i, j, k), unde e(i, j, k) sunt variabile aleatoare normale, independente două câte două cu media 0 şi varianţa 2(E). Reunim toate subpopulaţiile care corespund varianţei X(i) fixate pentru orice j = 1,..., n. Exemplarele din această reuniune vor avea faţă de caracterul Z media: X(i) = (1/n). n j 1 (i,j), iar efectul principal al variantei X(i) este: X(i) = X(i) - . Avem m i 1 X(i) = 0. În mod analog se reunesc subpopulaţiile ce corespund variantei Y(j) fixate pentru orice i = 1,..., m. Exemplarele din această reuniune au faţă de caracterul Z, media Y(j) = (1/m). m i 1 (i, j), iar efectul principal al variantei Y(j) este: Y(j) = Y(j) - . Avem n j 1 Y(j) = 0. Cantitatea X.Y(i, j) = (i, j) - X(i) - Y(j) + se numeşte efectul principal al interacţiunii variantei X(i) cu varianta Y(j). După modul de alegere al subpopulaţiilor după X şi Y, avem trei tipuri de modele: a) Model cu efecte fixe În acest caz ambii factori X, Y definesc efecte constante X(i), Y(j), X.Y(i, j). Ipotezele care se verifică sunt: 1) HX: X(1) =...= X(m) = faţă de alternativa HX: X(1) ≠...≠ X(m) ≠ sau sub altă formă: HX: X(i) = 0 faţă de alternativa HX: X(i) ≠ 0. 2) HY: Y(1) =...= Y(n) = faţă de alternativa HY: Y(1) ≠...≠ Y(n) ≠ sau sub altă formă: HY: Y(j) = 0 faţă de alternativa: HY: Y(j) ≠ 0. 3) HX.Y: (i, j) = X(i) + Y(j) faţă de alternativa HX.Y: (i, j) ≠ X(i) + Y(j) sau sub altă formă: HX.Y: X.Y(i, j) = 0 faţă de alternativa: HX.Y: X.Y(i, j) ≠ 0. b) Model cu efecte aleatoare: În acest caz ambii factori definesc efecte aleatoare : X(i) sunt variabile aleatoare N(0; 2(X)), Y(j) sunt variabile aleatoare N(0; 2 (Y)), iar X.Y(i, j) sunt variabile aleatoare N(0; 2(X.Y)). Ipotezele care se verifică sunt: 1) HX: 2 (X) = 0 faţă de HX: 2 (X) ≠ 0 2) HY: 2 (Y) = 0 faţă de HY: 2 (Y) ≠ 0 3) HX.Y: 2 (X.Y) = 0 faţă de HX.Y: 2 (X.Y) ≠ 0. c) Modelul mixt: În acest caz unul din factori, de exemplu X, este cu efecte fixe, iar cel de-al doilea Y este cu efecte aleatoare. Efectele X(i) sunt constante şi ipoteza care se verifică este: 135 1) HX: X(i) = 0 faţă de HX: X(i) ≠ 0 Efectele Y(j) sunt variabile aleatoare de tip N(0; 2 (Y)) şi ipoteza care se verifică este : 2) HY: 2 (Y) = 0 faţă de HY: 2 (Y) ≠ 0 Efectele X.Y(i, j) sunt variabile aleatoare de tip N(0; 2 (X.Y)) şi ipoteza care se verifică este: 3) HX.Y: 2 (X.Y) = 0 faţă de HXY: 2 (X.Y) ≠ 0. În cazul celor trei modele, datele împreună cu calculele de sume şi medii ale repetiţiilor pe variante (X, Y), X, Y şi pe total se trec în tabelul care urmează: Repet. Z Variante (X, Y) Z(i, j, p(i, j)) Medii pe variante (X, Y) Medii pe variante X Medii pe variante Y Media totală (X(1), Y(1)) …………. (X(1), Y(n)) …………. (X(m), Y(1)) ………….. (X(m), Y(n)) Z(1,1,1),…,Z(1,1,p(1,1)) ………………………. Z(1,n,1),…,Z(1,n,p(1,n)) ……………………….. Z(m,1,1),…,Z(m,1,p(m,1)) ……………………….. Z(m,n,1),…,Z(m,n,p(m,n)) MZ(1, 1) ………. MZ(1, n) ………. MZ(m, 1) ……….. MZ(m, n) MZX(1) ………. MZX(m) MZY(1) ……… MZY(n) MZT Notaţii: q = numărul de celule (i, j) nevide; pT = m i n j1 1 p(i, j); px(i) = n j 1 p(i, j); pY(j) = m i 1 p(i, j) CALCULE: a) SPA şi GL: SPAT = m i n j jip k1 1 ),( 1 [Z(i, j, k) - MZT] 2 = m i n j jip k1 1 ),( 1 Z 2 (i, j, k) - S 2 T/pT, cu GLT = pT - 1 grade de libertate; SPA(X, Y) = m i n j1 1 p(i, j)[MZ(i, j) - MZT] 2 = m i n j1 1 S 2 (i, j)/p(i, j) - S 2 T/pT, cu GL(X, Y) = q - 1 grade de libertate; SPAX = m i 1 px(i)[MZX(i) - MZT] 2 = m i 1 S 2 X(i)/px(i) - S 2 T/pT, cu GLX = m - 1 grade de libertate; SPAY = n j 1 PY(j)[MZY(j) - MZT] 2 = n j 1 S 2 Y(j)/pY(j) - S 2 T/pT, cu GLY = n - 1 grade de libertate; SPAX.Y = m i n j1 1 p(i, j)[MZ(i, j) - MZx(i) - MZY(j) + MZT] 2 = m i n j1 1 S 2 (i, j)/p(i, j) - m i 1 S 2 X(i)/px(i) - n j 1 S 2 Y(j)/pY(j) + S 2 T/pT = SPA(X,Y) - SPAX - SPAY cu GLX.Y = q – m – n + 1 = GL(X,Y) - GLX - GLY grade de libertate; 136 SPAE = m i n j jip k1 1 ),( 1 [Z(i, j, k) - MZ(i, j)] 2 = m i n j jip k1 1 ),( 1 Z 2 (i, j, k) - m i n j1 1 S 2 (i, j)/p(i, j) = SPAT - SPA(X,Y), cu GLE = pt – q = GLT - GL(X,Y) grade de libertate. b) S 2 : S 2 X = SPAX/(m - 1); S 2 Y = SPAY/(n - 1); S 2 X.Y = SPAXY/(q – m – n + 1); S 2 E = SPAE/(pT - q) c) F: FX = S 2 X/S 2 E 1 cu [m - 1;pT - q]GL FY = S 2 Y/S 2 E 1 cu [n - 1;pT - q]GL FX.Y = S 2 X.Y/S 2 E 1 cu [q – m – n + 1;pT - q]GL Rezultatele de la punctele a) - c) se trec în tabelul sintetic de analiză a varianţei: Sursa de variaţie SPA GL S 2 F X SPAX m - 1 S 2 X FX Y SPAY n - 1 S 2 Y FY X.Y SPAX.Y q – m – n + 1 S 2 X.Y FX.Y E SPAE pT - q S 2 E - T SPAT pT - 1 - - Rapoartele Fisher FX, FY, FX.Y se compară cu valorile critice F0.05; F0.01; F0.001 extrase din tabelele 4, 5, 6 din Anexă, pentru perechile de grade de libertate corespunzătoare şi se acceptă sau se resping ipotezele formulate mai sus. Printr-un calcul asemănător cu cel din teorema 4.1 obţinem relaţiile: (1) M(S2X) = a(1, 1). 2 () + a(1, 2).2() + a(1, 3).2() + 2(E) (2) M(S2Y) = a(2, 1). 2 () + a(2, 2).2() + a(2, 3).2() + 2(E) (3) M(S2X.Y) = a(3, 1). 2 () + a(3, 2).2() + a(3, 3).2(.) + 2(E) (4) M(S2E) = 2 (E) unde: a(1, 1) = 1 1 1 [ ( 1 m T iT p m p p2X(i))] a(1, 2) = 1 1 1 1 [ ( 1 ( ) m n i jXm p i p2(i, j)) - 1 1 ( n jTp p2Y(j))] a(1, 3) = 1 1 1 1 [ ( 1 ( ) m n i jXm p i p2(i, j)) - 1 1 1 ( m n i jTp p2(i, j))] a(2, 1) = 1 1 1 1 [ ( 1 ( ) n m j iYn p j p2(i, j)) - 1 1 ( m iTp p2X(j))] a(2, 2) = 1 1 1 [ ( 1 n T jT p n p p2Y(i))] 137 a(2, 3) = 1 1 1 1 [ ( 1 ( ) n m j iYn p j p2(i, j)) - 1 1 1 ( m n i jTp p2(i, j))] a(3,1 ) = - (2,1) 1 1 n a q m n a(3, 2) = - (1, 2) 1 1 m a q m n a(3, 3) = 1 1 1 [ ( ( ) 1 1 m n T i jX p p iq m n p 2 (i, j)) - 1 1 1 ( ( ) n m j iYp j p2(i, j)) + 1 1 1 ( m n i jTp p2X(j))] Cu aceşti coeficienţi alcătuim tabelul componentelor de varianţă: M(S 2 ) 2(X) 2 (Y) 2 (X.Y) 2 (E) M(S 2 X) a(1, 1) a(1, 2) a(1, 3) 1 M(S 2 Y) a(2, 1) a(2, 2) a(2, 3) 1 M(S 2 X.Y) a(3, 1) a(3, 2) a(3, 3) 1 M(S 2 E) 0 0 0 1 Avem estimatorii: *2(E) = S2E *2 2 2 *2 *2 1 2 2 2 2* 2 .. X X E Y Y E X Y EX Y X Y S S A S S S S unde A = )3,3()2,3()1,3( )3,2()2,2()1,2( )3,1()2,1()1,1( aaa aaa aaa În cazul balansat avem: p(i, j) = p; pT = mnp; pX(i) = np; pY(j) = mp; q = mn Tabelul sintetic de analiza varianţei are forma: Sursa de variaţie SPA GL S 2 F X SPAX m - 1 S 2 X FX Y SPAY n - 1 S 2 Y FY X.Y SPAX.Y (m - 1)(n - 1) S 2 X.Y FX.Y E SPAE mn(p - 1) S 2 E - T SPAT Mnp - 1 - - 138 Tabelul cu componentele de varianţă are forma particulară: M(S 2 ) 2(X) 2 (Y) 2 (X.Y) 2 (E) M(S 2 X) np 0 p 1 M(S 2 Y) 0 mp p 1 M(S 2 X.Y) 0 0 p 1 M(S 2 E) 0 0 0 1 Un caz particular al analizei varianţei completă balansată este cel în care p = 1, deci avem câte o singură repetiţie ataşată fiecărei perechi de variante (X(i), Y(j)). În acest caz avem T = (X, Y), iar E are GLE = 0 grade de libertate, deci vom lua E = X.Y, deci SPAE = SPA(XY) - SPAX - SPAY şi GLE = GL(X,Y) - GLX - GLY. Tabelul sintetic de analiza varianţei are forma: Sursa de Variaţie SPA GL S 2 F X SPAX m-1 S 2 X FX Y SPAY n-1 S 2 Y FY E SPAE (m-1)(n-1) S 2 E - T SPAT mn-1 - - Tabelul cu componentele de varianţă are forma: M(S 2 ) 2(X) 2 (Y) 2 (E) M(S 2 X) n 0 1 M(S 2 Y) 0 m 1 M(S 2 E) 0 0 1 Exemplu: Fie X = proteina digestibilă în raţia porcilor la îngrăşat şi Y = unităţile nutritive în raţia porcilor la îngrăşat şi Z = sporul lunar în greutate (kg) al porcilor la îngrăşat. Luăm m = 3 variante X = X1(250g/zi); X2(275g/zi); X3(300g/zi) şi n = 2 variante Y = Y1(2.5UN) şi Y2(3UN). Pentru fiecare combinaţie de variante (X, Y) luăm câte p = 2 repetiţii Z. Avem tabelul cu date: Repetiţii Z Variante (X,Y) Z(i, j, p(i, j)) Medii pe variante (X, Y) Medii pe variante X Medii pe variante Y Media Totală (X1, Y1) 14; 14.2 MZ(1, 1) = 14.1 MZX(1) = 14.75 MZX(2) = 15.65 MZX(3) = 16.60 MZY(1) = 15.17 MZT = 15.67 (X1, Y2) 15.2; 15.6 MZ(1, 2) = 15.4 (X2, Y1) 15; 15.4 MZ(2, 1) = 15.2 (X2, Y2) 16; 16.2 MZ(2, 2) = 16.1 MZY(2) = 16.17 (X3, Y1) 16.1; 16.3 MZ(3, 1) = 16.2 (X3, Y2) 16.9; 17.1 MZ(3, 2)=17 139 Etape de calcul: a) SPA şi GL: m i n j p k TT MZkjiZSPA 1 1 1 2 2268.10]),,([ cu GL T = mnp – 1 = 11 GL m i n j TYX MZjiMZpSPA 1 1 2 ),( 9868.9]),([ cuGL ),( YX = mn – 1 = 5 GL m i TXX MZiMZnpSPA 1 8468.6])([ cu GL X = m – 1 = 2 GL n j TYY MZjMZmpSPA 1 9200.1)([ cu GL Y = n – 1 = 1 GL 2200.1),( YXYXYX SPASPASPASPA cu GLGLGLGLGL YXYXYX 2),( 2400.0),( YXTE SPASPASPA cu GLGLGLGL YXTE 6),( b) S 2 : ;4234.32 X X X GL SPA S 9200.1 2 Y Y Y GL SPA S ;61.02 YX YX YX GL SPA S 04.0 2 E E E GL SPA S c) F: 585.85 2 2 E X X S S F cu (2; 6) GL 48 2 2 E Y Y S S F cu (1; 6) GL 25.15 2 2 E YX YX S S F cu (2; 6) GL Din tabelele Fisher 4, 5, 6 din Anexă, găsim valorile critice pentru (2; 6) GL: 14.505.0 F ; 92.1001.0 F ; 2701.0 F ; Cum 001.0FFX se acceptă ipoteza H adică (1), (2), (3)X X X diferă foarte semnificativ între ele adică influenţa variaţiei lui X asupra variaţiei lui Z este foarte semnificativă deci ***585.85xF . Cum 001.001.0 FFF YX se acceptă ipoteza H adică influenţa variaţiei interacţiunii YX asupra variaţiei lui Z este distinct semnificativă deci **25.15YXF . Din tabelele Fisher 4, 5, 6 din Anexă, găsim valorile critice pentru (1, 6) GL: F0.05 = 5.99, ;74.1301.0 F .51.35001.0 F Cum 001.0FFY se acceptă ipoteza H deci (1), (2)Y Y diferă foarte semnificativ între ele adică influenţa variaţiei lui Y asupra variaţiei lui Z este foarte semnificativă deci .***48YF 140 Tabelul sintetic de analiza varianţei este: Sursa de variaţie Variaţii pătratice (SPA) Grade de libertate (GL) Varianţe S 2 Rapoarte Fisher (F) X 6.8468 2 3.4234 ***585.85 Y 1.9200 1 1.9200 ***48 YX 1.2200 2 0.6100 **25.15 E 0.2400 6 0.400 - T 10.2268 11 - - Indicii de corelaţie sunt: ***( ) 0.818 ;Xc T SPA I X SPA ***( ) 0.433 ;Yc T SPA I Y SPA Aporturile variaţiilor lui X, Y, YX la variaţia lui Z, socotită egală cu 100%, sunt: %;9.66 T X X SPA SPA A %;8.18 T Y Y SPA SPA A %.9.11YXA Aportul variaţiei erorii la variaţia lui Z este: %.4.21 YXYXE AAAA Testele Cochran şi Tukey se efectuează ca în secţiunea 4.1. Calculele precedente privitoare la analiza varianţei bifactorială completă balansată în populaţii omogene cu p repetiţii în celulă, pot fi făcute în EXCEL astfel: Depunem în foaia de calcul Nr. 1 datele în blocul de celule A1:D5 asfel: A B C D 1 X1 X2 X3 2 Y1 14 15 16.1 3 14.2 15.4 16.3 4 Y2 15.2 16 16.9 5 15.6 16.2 17.1 Deschidem fereastra TOOLS în care activăm opţiunea DATA ANALYSIS. Aici activăm opţiunea ANOVA:TWO-FACTOR WITH REPLICATION în care declarăm blocul de celule cu date A1:D5 şi numărul p = 2 de repetiţii (replicate). Rezultatele se găsesc fie în foaia de calcul Nr. 2, fie tot în foaia de calcul Nr. 1, prin declararea ca celule de rezultate, a altor celule decât cele din blocul de date A1:D5 4.3 ANALIZA VARIANŢEI BIFACTORIALĂ IERARHICĂ NEBALANSATĂ ÎN POPULAŢII OMOGENE În populaţia statistică luăm ca obiect de studiu un caracter măsurabil Z faţă de care exemplarele populaţiei au media μ. Fie alte două caractere X, Y asociate cu exemplarele populaţiei în mod ierarhizat. Caracterul X are m variante (doze, nivele, tratamente) notate X(1),…, X(m) şi în cadrul fiecărei variante X(i), caracterul Y are subvariabilele Y(i, 1),…, Y(i, n(i)). Caracterele X, Y se numesc factori ierarhizaţi şi constituie criterii de clasificare succesivă, mai întâi în m subpopulaţii care corespund variantelor X(1),…, X(m), fiecare din aceste subpopulaţii se împarte la rândul ei în subsubpopulaţii care corespund subvariantelor Y(i, j). **( . ) 0.345 .X Yc T SPA I X Y SPA 141 Mediile pe subpopulaţii relativ la caracterul Z sunt μ(1),…, μ(m) iar mediile pe subsubpopulaţii relativ la Z sunt: μ (1, 1),…, μ(1, n(1)) ……………………… μ(m, 1),…, μ(m, n(m)). Efectele principale ale factorului X sunt )()( iiX , iar efectele principale ale factorului Y sunt ( , ) ( , ) ( )Y i j i j i . Avem m i X i 1 ;0)( m i mn j Y ji 1 )( 1 .0),( Subpopulaţiile după X se presupun normale cu mediile μ(i) şi aceeaşi varianţă )( 2 E iar subsubpopulaţiile după Y în cadrul lui X se presupun normale cu mediile μ(i, j) şi aceeaşi varianţă )(2 E . Extragem în mod întâmplător din subpopulaţii m i inm 1 )( sondaje (probe, eşantioane) de volume p(i, j); (i = 1,…, m), (j = 1,…, n(m)). Datele relative la Z din aceste sondaje, le numim repetiţii (replicate) şi le notăm cu Z(i, j, k), (i = 1,…, m; j = 1,…, n(m); k = 1,…, p(m, n(m)). Forma generală a modelului liniar ierarhizat este: ( , , ) ( ) ( , ) ( , , )X YZ i j k i i j e i j k unde e(i, j, k) sunt variabile aleatoare normale cu media 0 şi variaţia )(2 E . Ca şi la analiza variaţiei bifactorială completă din secţiunea 4.1.2, modelul poate fi cu efecte fixe, cu efecte aleatoare sau mixt dar în cazul ierarhic lipseşte interacţiunea YX . a) În cazul modelului cu efecte fixe verificăm ipotezele: 1) )(..........)1(: mH X faţă de : (1) .......... ( ) ;XH m 2) )(),(: ijiHY faţă de : ( , ) ( )YH i j i . b) În cazul modelului cu efecte aleatoare verificăm ipotezele: 1) 0)(: 2 XXH faţă de ;0)(: 2 XXH 2) 2: ( ) 0Y YH faţă de .0)(: 2 YYH În toate cazurile, datele împreună cu calculele de sume şi medii de repetiţii pe variante, subvariante şi total, se trec în următorul tabel: Repetiţii Z Variante Y X Z(i, j, p(i, j)) Medii pe subvar. Y Medii pe var. X Media totală (X(1), Y(1, 1)) . . . (X(1), Y(1,n(1)) Z(1, 1, 1),……….…,Z(1, 1, p(1, 1)) Z(1,n(1),1),………,Z(1,n(1),p(1,n(1))) )1,1(YMZ . . . ))1(,1( nMZY )1(XMZ TMZ . . . . . . . . . . . . 142 (X(m), Y(m, 1)) . . . (X(m), Y(m, n(m)) Z(m, 1, 1),…….…..,Z(m, 1, p(m, 1)) . . . Z(m, n(m), 1),…,Z(m, n(m), p(m, n(m))) )1,(mMZY . . . ))(,( mnmMZY )(mMZX Notaţii: ( ) 1 1 ( , ); n im T i j p p i j )( 1 );,()( in j x jipip 1 ( ). m T i n n i Calcule: a) SPA şi GL: 2( ) ( , ) ( ) ( , ) 2 2 1 1 1 1 1 1 [ ( , , ) ] ( , , ) n i p i j n i p i jm m T T T i j k i j k T S SPA Z i j k MZ Z i j k p cu 1T TGL p grade de libertate; 2 2 2 1 1 ( ) ( )[ ( ) ] ( ) m m X T X X X T i i X T S i S SPA p i MZ i MZ p i p cu 1 mGLX grade de libertate; m i in j m i in j m i X XY XYY ip iS jip jiS iMZjiMZjipSPA 1 )( 1 1 )( 1 1 22 2 )( )( ),( ),( )](),()[,( cu Y TGL n m grade de libertate; m i in j jip k m i in j jip k m i in j Y YE jip jiS kjiZjiMZkjiZSPA 1 )( 1 ),( 1 1 )( 1 ),( 1 1 )( 1 2 22 ),( ),( ),,()],(),,([ = YXT SPASPASPA cu E T T T X YGL p n GL GL GL b) S 2 : ; 1 2 m SPA S XX 2 ; X Y T SPA S n m ; 2 E E T T SPA S p n c) F: 1 2 2 Y X X S S F cu [ 1; ] ;Tm n m GL 12 2 E Y Y S S F cu [ ; ]T Tn m p m GL . Datele de la punctele a) - c) se trec în tabelul: Sursa de variaţie SPA GL S 2 F X XSPA m-1 XS 2 XF Y YSPA Tn m YS 2 YF E ESPA T Tp n ES 2 - T TSPA 1Tp - - 143 Rapoartele Fisher Fx, Fy se compară cu valorile critice 001.001.005.0 ;; FFF extrase din tabelele 4, 5, 6 din Anexă, pentru perechile de grade de libertate corespunzătoare şi se acceptă sau se resping ipotezele formulate mai sus. Printr-un calcul asemănător cu cel din teorema 4.1 obţinem relaţiile: 1) )()()2,1()()1,1()( 2222 EaaSM YXX 2) 2 2 2( ) (2,2) ( ) ( )X YM S a E 3) 2 2( ) ( )XM S E unde: 2 1 1 1 (1,1) [ ( ( ))]; 1 m T X iT a p p i m p ( ) ( ) 2 2 1 1 1 1 1 1 1 (1,2) [ ( ( , )) ( ( , )]; 1 ( ) n i n im m i j i jX T a p i j p i j m p i p ( ) 2 1 1 1 1 (2,2) [ ( ( , ))]. ( ) n im T i jT X a p p i j n m p i Cu aceşti coeficienţi alcătuim tabelul componentelor de varianţă: )( 2SM )(2 X )( 2 Y )( 2 E )( 2 XSM a(1,1) a(1,2) 1 )( 2YSM 0 a(2,2) 1 )( 2 ESM 0 0 1 Avem estimatorii: *2 2( ) ;EE S 2 *2 2 *2 (1,2) ( )( ) (1,1) X Y E X S a S a În cazul balansat avem: p(i, j) = p; ;)( npipX n(i) = n; nT = mn; .Tp mnp Tabelul cu componentele de varianţă are forma: )( 2SM )( 2 X )(2 Y )( 2 E )( 2 XSM np p 1 )( 2YSM 0 p 1 )( 2 ESM 0 0 1 2 2 *2 ( ) (2,2) Y E Y S S a 144 Exemplu: Fie X = genotip vier; Y = genotip scroafă şi Z = greutatea la fătare a purceilor (Kg); luăm m = 2 variante ),(1 martorXX 2X (elită) şi luăm n = 2 subvariante Y pentru fiecare variantă X: 11Y (martor), 12Y (elită) respectiv 21Y (martor), 22Y (elită). Pentru fiecare variantă X şi fiecare subvariantă Y luăm câte p = 3 repetiţii Z (purcei rezultaţi din încrucişarea variantelor paterne cu subvariantele materne). Avem tabelul cu date: Repetiţii Z Variante Y X Z(i, j, k) Medii pe subvariante Y Medii pe variante X Media totală ),( 111 YX ),( 121 YX 0.9; 1; 1.1 1; 1.1; 1.2 1)1,1( YMZ 1.1)2,1( YMZ 05.1)1( XMZ 15.1TMZ ),( 212 YX ),( 222 YX 1.2; 1.2; 1.2 1.1; 1.4; 1.4 2.1)1,2( YMZ 3.1)2,2( YMZ 25.1)2( XMZ Etape de calcul: a) SPA şi GL: m i n j p k TT MZkjiZSPA 1 1 1 2 25.0]),,([ cu TGL = mnp – 1 = 11 GL; m i n j XYY iMZjiMZpSPA 1 1 2 03.0)](),([ cu YGL = m(n - 1) = 2 GL; m i TXX MZiMZnpSPA 1 2 12.0])([ cu XGL = m – 1 = 1 GL; 10.0 YXTE SPASPASPASPA cu 8E T X YGL GL GL GL GL . b) S 2 : ;1200.02 X X X GL SPA S ;0150.02 Y Y Y GL SPA S .0125.02 E E E GL SPA S c) F: 8 2 2 Y X X S S F cu (1; 2) GL 2.1 2 2 E Y Y S S F cu (2; 8) GL Din tabelele Fisher 4, 5, 6 din Anexă, pentru (1; 2) GL avem valorile critice ;51.1805.0 F ;5.9801.0 F .5.998001.0 F Cum 05.0FFX rezultă că influenţa variaţiei lui X asupra variaţiei lui Z este nesemnificativă. Din tabelele Fisher 4, 5, 6 din Anexă, pentru (2; 8) GL avem valorile critice ;46.405.0 F ;65.801.0 F .41.18001.0 F Cum 05.0FFY rezultă că influenţa variaţiei lui Y asupra variaţiei lui Z este nesemnificativă. 145 Tabelul sintetic de analiză a varianţei este: Sursa de variaţie Variaţii pătratice (SPA) Grade de libertate (GL) Varianţe (S 2 ) Rap. Fisher (F) X 0.12 1 0.1200 8 Y 0.03 2 0.0150 1.2 E 0.10 8 0.0125 - T 0.25 11 - - Indicii de corelaţie sunt: ( ) 0.693Xc T SPA I X SPA ; ( ) 0.500Yc X SPA I y SPA . Aporturile variaţiei lui X, Y, E la variaţia lui Z egală cu 100%, vor fi: %;48 T X X SPA SPA A %;12 T Y Y SPA SPA A %.40 T E E SPA SPA A 4.4 PLANURI EXPERIMENTALE ÎN POPULAŢII NEOMOGENE 4.4.1 Planul blocurilor complete randomizate În secţiunile 4.1 - 4.3 s-a presupus că populaţia este omogenă în raport cu însuşirea cantitativă Y luată în studiu. Populaţia omogenă s-a împărţit în mod aleator în m subpopulaţii omogene asociate cu variantele X1,…, Xm. Din fiecare subpopulaţie s-au extras în mod aleator blocurile de repetiţii Y1j,…, Ymj care corespund variantelor X1,…, Xm. Din acest motiv aranjamentul folosit se numeşte plan complet randomizat. Dacă populaţia este neomogenă, presupunem că se poate împărţi în l subpopulaţii, omogene în raport cu însuşirea Y luată în studiu. Materialul experimental va fi şi el neomogen fiind constituit din l sondaje din cele l subpopulaţii, fiecare sondaj fiind format din m repetiţii corespunzător celor m variante ale unei alte însuşiri X asociată populaţiei, notate X(1),..., X(m). Fiecare din cele l sondaje omogene de câte m repetiţii, îl vom numi bloc. Blocurile se numesc complete dacă conţin exact atâtea repetiţii câte variante are factorul X şi anume m. Blocurile se numesc randomizate deoarece în fiecare bloc se aplică în mod aleator câte o variantă a factorului X pentru fiecare repetiţie a blocului. Exemple de blocuri naturale: sex, soi, rasă, hibrid, exemplar, loc, perioadă de timp etc. Desemnăm fiecare repetiţie printr-o casuţă în care notăm varianta aplicată X(i) şi răspunsul repetiţiei Y(i; j). Un mod posibil de randomizare se asigură prin permutări circulare ale variantelor de la un bloc la altul după schema: B(1) X(1) X(2) X(m) Y(1; 1) Y(2; 1) Y(m; 1) B(2) X(m) X(1) X(m - 1) Y(m; 2) Y(1; 2) Y(m - 1; 2) ……………………………………………………………………… B(l) X(m – l + 2) X(m – l + 3) X(m – l + 1) Y(m – l + 2; l) Y(m – l + 3; l) Y(m – l + 1; l) 146 Răspunsurile Y(i; j) se rearanjează în tabelul de mai jos pentru a fi prelucrat prin analiza varianţei bifactorială completă (cu factori X, B) balansată, cu o repetiţie în fiecare celulă (p(i; j) = 1). Repetiţii Y Variante (X,B) Yi j Medii pe variante X Medii pe blocuri B Media totală (X(1); B(1)) Y(1; 1) MYX(1) . . . . . MYX(m) MYB(1) . . . . . MYB(l) MYT (X(1); B(l)) Y(1; l) (X(m); B(1)) Y(m; 1) (X(m); B(l)) Y(m; l) Etape de calcul: a) SPA şi GL: 2 T T i=1 j=1 SPA Y i;j -MY m l cu GLT = ml - 1 grade de libertate; 2 X X T i=1 SPA [MY (i)-MY ] m l cu GLX = m - 1 grade de libertate; 2 B B T j=1 SPA [MY (j)-MY ] l m cu GLB = l - 1 grade de libertate; E T X BSPA SPA -SPA -SPA cu GLE = GLT - GLX - GLB = (m - 1)(l - 1) grade de libertate; b) S 2 : 2 2 2X B E X B E SPA SPA SPA S ; S ; S -1 -1 -1 -1m l m l c) F: 2 X X 2 E S F 1 S cu [m - 1; (m - 1)(l - 1)]GL 2 B B 2 E S F 1 S cu [l - 1; (m - 1)(l - 1)]GL Valorile precedente se trec în tabelul sintetic de analiză a varianţei: Sursa de variaţie SPA GL S 2 F X SPAX m - 1 2 XS FX B SPAB l - 1 2 BS FB E SPAE (m - 1)(l - 1) 2 ES - T SPAT ml - 1 - - 147 Valorile FX şi FB se compară cu valorile critice F0.05, F0.01 şi F0.001 extrase din tabelele 4, 5, 6 din Anexă, pentru perechile de grade de libertate corespunzătoare. Se acceptă sau se resping ipotezele: 1) X X XH :μ (1) … μ μm faţă de alternativa: X X XH :μ (1) … μ μm 2) B B BH :μ (1) … μ μl faţă de alternativa: B B BH :μ (1) … μ μl Exemplu: X = proteina digestibilă în raţia porcilor (g/zi) Y = sporul lunar în greutate al porcilor (Kg) Populaţia este neomogenă în raport cu Y dar se poate împărţi în l = 2 blocuri omogene: B1(Landrace) şi B2(Marele Alb). Luăm m = 3 variante X: X1(250 g/zi); X2(275 g/zi) şi X3(300 g/zi) deci fiecare bloc va conţine câte m = 3 repetiţii (bloc complet). În fiecare bloc variabilele X se distribuie în mod aleator (bloc randomizat): B(1) B(2) X(1) X(2) X(3) 15 17 19 X(3) X(1) X(2) 20 14 18 Datele precedente se rearanjează pe variante (X, B) în tabelul: Repetiţii Y Variante (X, B) Yi j Medii pe variante X Medii pe blocuri B Media totală (X1; B1) 15 MYX(1) = 14.5 MYX(2) = 17.5 MYX(3) = 19.5 MYB(1) = 17 MYB(2) = 17.33 MYT = 17.165 (X1; B2) 14 (X2; B1) 17 (X2; B2) 18 (X3; B1) 19 (X3; B2) 20 Etape de calcul: a) SPA şi GL: SPAT = 26.833 cu GLT = 5 GL; SPAX = 25.333 cu GLX = 2 GL; SPAB = 0.166 cu GLB = 1 GL; SPAE = SPAT - SPAX - SPAB = 1.334 cu GLE = GLT - GLX - GLB = 2 GL; b) S 2 : 2 2 2X B E X B E X B E SPA SPA SPA S 12.667; S 0.166; S 0.667 GL GL GL c) F: 2 X X 2 E S F 19 S cu (2; 2) GL 2 B B 2 E S F 1 S deci 2 E 2 B B 1 S 9.02 F S cu (2; 1) GL 148 Din tabelele Fisher 4, 5, 6 din Anexă, pentru (2; 2) GL avem valorile critice F0.05 = 19, F0.01 = 99 şi F0.001 = 999. Cum F0.05 = FX < F0.01 influenţa variaţiei lui X asupra variaţiei lui Y este semnificativă, aşadar FX = 19 * . Cum FB < 1 influenţa variaţiei blocului B asupra variaţiei lui Y este nesemnificativă. Tabelul sintetic de analiză a variaţiei este: Sursa de variaţie Variaţii pătratice (SPA) Grade de libertate (GL) Varianţe (S 2 ) Rapoarte Fisher (F) X 25.333 2 12.667 19 * B 0.166 1 0.166 4.02 E 1.334 2 0.667 - T 26.833 5 - - Indicii de corelaţie sunt: X B c c T T SPA SPA I ( ) 0.972*; I ( ) 0.079 SPA SPA X B Aporturile variaţiei lui X, B şi E la variaţia lui Y egală cu 100%, sunt: X B X B T T E X B SPA SPA A 94.4%; A 0.6% SPA SPA A 1-A -A 5% Calculele precedente privitoare la analiza varianţei bifactorială completă balansată cu câte o repetiţie în celulă, pot fi făcute în EXCEL astfel: Depunem în foaia de calcul Nr. 1 datele în blocul de celule A1:D3 astfel: A B C D 1 X1 X2 X3 2 B1 15 17 19 3 B2 14 18 20 Deschidem fereastra TOOLS în care activăm opţiunea DATA ANALYSIS. Aici activăm opţiunea ANOVA:TWO-FACTOR WITHOUT REPLICATION în care declarăm blocul de celule cu date A1:D3. Rezultatele se găsesc fie în foaia de calcul Nr. 2, fie tot în foaia de calcul Nr. 1, prin declararea ca celule de rezultate, a altor celule decât cele din blocul de date A1:D3 4.4.2 Planul pătratelor şi dreptunghiurilor latine Un pătrat latin l x l, (l 2) este un aranjament de l2 litere latine mari în formă de pătrat cu laturile de l litere astfel că pe fiecare linie şi pe fiecare coloană a pătratului, fiecare literă apare odată şi numai odată. 149 Exemple: Pătrat 2 x 2 Pătrat 3 x 3 Pătrat 4 x 4 Două sau mai multe pătrate latine l x l se pot alipi după linii sau după coloane dând naştere la un dreptunghi latin. Exemple: Planul în pătrate latine rezultă din combinarea a două planuri în blocuri complete randomizate, blocurile primului plan fiind liniile pătratelor iar blocurile celui de al doilea plan fiind coloanele pătratelor. Numărul l al repetiţiilor fiecărui bloc-linie este egal cu numărul repetiţiilor fiecărui bloc- coloană şi este divizor al numărului m al variantelor factorului X. Randomizarea variantelor factorului X, notate cu X(1), …, X(m) puse în locul literelor latine, se asigură prin faptul că în fiecare pătrat latin fiecare variantă a lui X se aplică odată şi numai odată repetiţiei din fiecare linie şi din fiecare coloană. Desemnăm fiecare repetiţie printr-o căsuţă în care notăm varianta aplicată X(i) şi răspunsul la ea Y(i; j; k). Randomizarea este asigurată prin permutări circulare ale variantelor de la o linie (coloană) la alta conform structurii pătratului latin. Rezultatele se valorifică prin analiza varianţei trifactorială completă (X, L, C) cu p(i; j; k) = 1 repetiţii în celulă. C(1) C(2) C(l) L(1) X(1) X(2) X(m) Y(1; 1; 1) Y(2; 1; 2) Y(m; 1; l) L(2) X(m) X(1) X(m - 1) Y(m; 2; 1) Y(1; 2; 2) Y(m - 1; 2; l) L(l) X(2) X(3) X(1) Y(2; l; 1) Y(3; l; 2) Y(1; l; l) A B B A A B C C A B B C A A B C D D A B C C D A B B C D A A B B A C D D C A B C D B A D C 150 Din pătratele sau dreptunghiurilor latine, datele se rearanjează pe variante (X, L, C) în tabelul: Repetiţii Y Variante (X, L, C) Y(i, j, k) Medii pe variante X Medii pe linii L Medii pe coloane C Media totală (X(1);L(1);C(1)) Y(1; 1; 1) MYX(1) . . . . MYX(m) MYL(1) . . . . MYL(l) MYC(1) . . . . MYC(l) MYT (X(m);L(1);C(1)) Y(m; 1; 1) (X(m);L(l);C(1)) Y(m; l; 1) (X(m); L(l);C(l)) Y(m; l; l) Etape de calcul: a) SPA şi GL: 2 T T i=1 j=1 k=1 SPA Y i;j;k -MY m l l cu GLT = ml - 1 grade de libertate; 2 X X T i=1 SPA [MY (i)-MY ] m l cu GLX = m - 1 grade de libertate; 2 L L T j=1 SPA [MY (j)-MY ] l m cu GLL = l - 1 grade de libertate; 2 C C T k=1 SPA [MY (k)-MY ] l m cu GLC = l - 1 grade de libertate; E T X L CSPA SPA -SPA -SPA -SPA cu GLE = GLT - GLX - GLL - GLC = = (l - 1)(m - 2) grade de libertate; b) S 2 : 2 2 2 2CX L E X L C E SPASPA SPA SPA S ; S ; S ; S -1 -1 -1 -1 -2m l l l m c) F: 2 X X 2 E S F 1 S cu [m-1;(l-1)(m(l+1)-2)]GL 2 L L 2 E S F 1 S cu [l-1;(l-1)(m(l+1)-2)]GL 2 C C 2 E S F 1 S cu [l-1;(l-1)(m(l+1)-2)]GL Mărimile precedente se trec în tabelul sintetic de analiză a varianţei: Sursa de variaţie SPA GL S 2 F X SPAX m - 1 2 XS FX L SPAL l - 1 2 LS FL C SPAC l - 1 2 CS FC E SPAE (l – 1)[m(l – 1) - 2] 2 ES - T SPAT ml 2 - 1 - - 151 Valorile FX, FL şi FC se compară cu valorile critice F0.05, F0.01 şi F0.001 extrase din tabelele 4, 5, 6 din Anexă, pentru perechile de grade de libertate corespunzătoare. Se acceptă sau se resping ipotezele: 1) X X XH :μ (1) … μ μm faţă de alternativa X X XH :μ (1) … μ μm 2) L L LH :μ (1) … μ μl faţă de alternativa L L LH :μ (1) … μ μl 3) C C CH :μ (1) … μ μl faţă de alternativa C C CH :μ (1) … μ μl În compararea a două planuri experimentale se foloseşte eficienţa relativă Fisher: 2 2 1 1 2 1 2 2 E E E E E E S GL 1 S GL 1 % : GL 3 GL 3 e unde 1 2 2 2 E ES şi S sunt varianţele erorilor celor două planuri experimentale iar 1 2E EGL şi GL sunt gradele de libertate ale acestora. Exemplu: X = proteina digestibilă în raţia porcilor la îngrăşat (g/zi) Y = sporul lunar în greutate al porcilor (Kg) Populaţia este neomogenă în raport cu Y dar se poate împărţi în l = 2 blocuri-linie: L1(Landrace) şi L2(Marele Alb) şi în l = 2 blocuri-coloană: C1(vârstă 6 luni) şi C2(vârstă 7 luni). Luăm m = 4 variante X: X1(250 g/zi); X2(270 g/zi); X3(290 g/zi) şi X4(310 g/zi). Datele se trec în două pătrate latine care prin alipire după linii/coloane, constituie un dreptunghi latin: C1 C2 C1 C2 L1 X1 X2 L1 X3 X4 10 12 13 14 L2 X2 X1 L2 X4 X3 12 12 15 16 Datele precedente se rearanjează pe variante (X, L, C) în tabelul: Repetiţii Z Variante (X, L, C) Z1 Medii pe variante X Medii pe linii L Medii pe coloane C Media totală (X1; L1; C1) 10 MYX(1) = 11 MYX(2) = 12 MYX(3) = 14.5 MYX(4) = 14.5 MYL(1) = 12.25 MYL(2) = 13.75 MYC(1) = 12.5 MYC(2) = 13.5 MYT = 13 (X1; L2; C2) 12 (X2; L1; C2) 12 (X2; L2; C1) 12 (X3; L1; C1) 13 (X3; L2; C2) 16 (X4; L1; C2) 14 (X4; L2; C1) 15 152 Etape de calcul: a) SPA şi GL: SPAT = 26 cu GLT = 7 GL; SPAX = 19 cu GLX = 3 GL; SPAL = 4.5 cu GLL = 16 GL; SPAC = 2 cu GLC = 1 GL; SPAE = SPAT-SPAX-SPAL-SPAC = 0.5 cu GLE = GLT-GLX-GLL-GLC = 2 GL; b) S 2 : 2 2 2 2CX L E X L C E X L C E SPASPA SPA SPA S 6.33; S 4.5;S 2; S 0.25 GL GL GL GL c) F: 2 X X 2 E S F 25.32 S cu (3; 2) GL 2 L L 2 E S F 18 S cu (1; 2) GL 2 C C 2 E S F 8 S cu (1; 2) GL Din tabelele Fisher 4, 5, 6 din Anexă, pentru (3; 2) GL avem valorile critice F0.05 = 19.6, F0.01 = 99.17 şi F0.001 = 999.20. Cum F0.05 = FX < F0.01 influenţa variaţiei lui X asupra variaţiei lui Y este semnificativă, aşadar FX = 25.32 * . Din tabelele Fisher 4, 5, 6 din Anexă, pentru (1; 2) GL avem valorile critice F0.05 = 18.51, F0.01 = 98.50 şi F0.001 = 998.50 Cum FL, FC < F0.05 influenţa variaţiei lui L şi C asupra variaţiei lui Y este nesemnificativă. Tabelul sintetic de analiză a varianţei este: Sursa de variaţie Variaţii pătratice (SPA) Grade de libertate (GL) Variaţie (S 2 ) Rapoarte fisher (F) X 19 3 6.33 25.32 * L 4.5 1 4.5 18 C 2 1 2 8 E 0.5 2 0.25 - T 26 7 - - Indicii de corelaţie sunt: CX L c c c T T T SPASPA SPA I ( ) 0.855*; I ( ) 0.416; I ( ) 0.277 SPA SPA SPA X L C Aporturile variaţiei lui X, L, C şi E la variaţia lui Y egală cu 100%, sunt: X L X L T T C C E X L C T SPA SPA A 73.1%; A 17.3% SPA SPA SPA A 7.7%; A 1-A -A -A 1.9% SPA 153 În exemplul rezolvat în secţiunea 4.3.1 (planul blocurilor complete randomizate) am găsit 1 2 ES 0.667 cu n1 = 2 GL iar în exemplul de mai sus (planul pătratelor latine) am găsit 2 2 ES 0.25 cu n2 = 2 GL deci: 2 2 1 1 2 1 2 2 E E E E E E S GL 1 S GL 1 % : 2.4 240% GL 3 GL 3 e Aşadar planul pătratelor latine este de 2.4 ori mai eficient ca planul blocurilor complete randomizate. 4.5 REZUMAT În acest capitol se prezintă analiza varianţei mono şi bifactorială (completă şi ierarhică) nebalansată în populaţii omogene. Se prezintă şi planurile experimentale (blocuri complete randomizate, pătrate şi dreptunghiuri latine) în populaţii neomogene care se valorifică prin analiza varianţei polifactorială balansată. 4.6 ÎNTREBĂRI 1. Care este ideea fundamentală a analizei varianţei? 2. Prin ce se deosebeşte analiza varianţei bifactorială completă de cea ierarhică? 3. Cum se asigură randomizarea în planurile experimentale? 4. Ce este eficienţa relativă Fisher a două planuri experimentale? 4.7 BIBLIOGRAFIE 1. D. Ene, M. Drăghici, I.N. Alecu: “Statistică aplicată în agricultură”, Ed. Ceres, 2003 2. M. Iosifescu şi col.: “Mică enciclopedie de statistică”, Ed. Ştiinţif. şi Enciclop., 1985 3. Anuarul statistic al României, 1990 - 2009 154 CAPITOLUL 5. CORELAŢIA ŞI REGRESIA ÎNTRE CARACTERE Obiective: Însuşirea de către studenţi a conceptelor de corelaţie şi regresie mono şi polifactorială între caractere, liniară şi neliniare precum şi tehnicilor de prognoză efectuate pe baza lor. Conţinut: 5.1 Corelaţia şi regresia monofactorială liniară 5.1.1 Cazul observaţiilor perechi (xi, yi) 5.1.2 Cazul observaţiilor multiple (xi, yij) 5.1.3 Cross - corelaţia şi autocorelaţia seriilor de timp 5.2 Corelaţii şi regresii monofactoriale neliniare 5.2.1 Corelaţia şi regresia monofactorială polinomială 5.2.2 Corelaţia şi regresia monofactorială trigonometrică 5.2.3 Corelaţia şi regresia monofactorială polinomial-trigonometrică 5.3 Corelaţii şi regresii polifactoriale 5.3.1 Corelaţia şi regresia polifactorială liniară pentru cazul a 2 + 1 caractere 5.3.2 Corelaţia şi regresia polifactorială liniară pentru cazul a m + 1 caractere 5.3.3 Corelaţia şi regresia polifactorială polinomială de grad p fără interacţiuni pentru cazul a m + 1 caractere 5.3.4 Corelaţia şi regresia polifactorială polinomială de grad 3 cu interacţiuni pentru cazul a m + 1 caractere 5.4 Rezumat 5.5 Întrebări 5.6 Bibliografie Cuvinte cheie: covarianţă, coeficient de corelaţie liniară, coeficienţi de regresie liniară, raport de corelaţie neliniară, coeficienţi de regresie neliniară, cross-corelaţie şi autocorelaţie. Măsura cantitativă a influenţei variaţiei unui factor controlat X asupra variaţiei factorului Y, se numeşte corelaţie între X şi Y iar funcţia care stabileşte dependenţa cantitativă a lui Y şi X se numeşte funcţie de regresie a lui Y după X. Din populaţie se aleg n exemplare pe care se măsoară însuşirile cantitative X şi Y obţinând perechile de date de sondaj (x1, y1), …, (xn, yn). Se reprezintă grafic în raport cu axele Ox, Oy punctele de coordonate (x1, y1), …, (xn, yn) obţinând un nor de puncte în planul Oxy. După forma acestui nor de puncte funcţia de regresie poate fi liniară (rectilinie) sau neliniară (curbilinie). Norul de puncte se poate reprezenta grafic cu produsele informatice EXCEL şi TCWIN. 5.1 CORELAŢIA ŞI REGRESIA MONOFACTORIALĂ LINIARĂ 5.1.1 Cazul observaţiilor perechi (xi, yi) Din datele de sondaj calculăm următorii indicatori statistici de sondaj: a) Indicatorii de sondaj proprii fiecărui caracter: I) Mediile de sondaj: MX = 1 1 ; MY = Yi iX X Y n n ; 155 II) Varianţele de sondaj: ;YY 1n 1 S ;XX 1n 1 S 2 i 2 Y 2 i 2 X III) Abaterile standard de sondaj: 2 YY 2 XX SS ;SS ; IV) Coeficienţii de variabilitate de sondaj: Definiţiile, calităţile şi defectele acestor indicatori proprii au fost date în secţiunea 2.2. b) Indicatorii de sondaj de legătură între caractere: V) Covarianţa de sondaj: YYXX 1n 1 S iiXY ; Covarianţa de sondaj este o măsură a legăturii statistice a caracterelor X, Y fiind o medie a produselor între abaterile valorilor de sondaj Xi faţă de X şi abaterile valorilor de sondaj Yi faţă de Y . Calităţi: 1) Covarianţa SXY are o valoare mărginită fiind cuprinsă în intervalul [-SXSY; + SXSY]. Dacă SXY > 0; Xi, Yi cresc sau scad simultan iar dacă SXY < 0; când Xi cresc, Yi scad şi reciproc. Dacă SXY = 0; Xi, Yi nu sunt corelate liniar. Observăm că SXX = 2 XS ; SYY = 2 YS . Defecte: 2) Covarianţa SXY are unităţi de măsură egală cu produsul unităţilor de măsură ale lui X şi Y deci nu permite comparaţii între perechile de caractere. 3) Covarianţa SXY este sensibilă la înmulţirea şi împărţirea datelor (secţiunea 7.2). 4) Covarianţa de sondaj SXY singură nu poate aprecia intensitatea legăturii statistice între caracterele X, Y. VI) Coeficientul de corelaţie liniară de sondaj XY X Y S R S S (vezi teorema 5.2 de mai jos) Acest coeficient este o măsură standardizată a legăturii statistice între caracterele X, Y Calităţi (vezi secţiunea 1.2): 1) Coeficientul R este standardizat: R [-1; 1]; 2) Coeficientul R nu are unităţi de măsură deci permite comparaţii între perechile de caractere; 3) Coeficientul R nu este sensibil la codificarea datelor; 4) Coeficientul R poate aprecia intensitatea legăturii statistice a caracterelor X, Y (vezi teorema 5.2, punctul 3). Dacă X1,…, Xn sunt depuse în celulele A1:An din coloana A în EXCEL iar Y1,…, Yn sunt depuse în celulele B1:Bn din coloana B, atunci covarianţa Sxy este dată de funcţia EXCEL scrisă în .100(%); .100(%)X YX Y S S C C X Y 156 celula C1: = COVAR((A1:An),(B1:Bn)) iar coeficientul de corelaţie liniară R este dat de funcţia EXCEL scrisă în celula C2: = CORREL((A1:An),(B1:Bn)). Valorea lui Sxy poate fi obţinută în EXCEL şi prin deschiderea ferestrei TOOLS în care activăm opţiunea COVARIANCE în care declarăm celulele A1:An, B1:Bn în care se găsesc datele. Valoarea lui Sxy se obţine fie în foaia de calcul Nr. 2 fie tot în foaia de calcul Nr. 1 în care se găsesc datele, prin declararea ca celule de rezultate a altor celule decât cele din blocul de date A1:Cn. Coeficientul de corelaţie liniară R se obţine exact ca şi Sxy, dacă în DATA ANALYSIS activăm opţiunea CORRELATION. Uneori mai importante decât valorile Xi, Yi ale însuşirilor X, Y sunt rangurile lor în ordonarea după mărime. În cazul însuşirilor X, Y calitative se cunosc numai asemenea ranguri în clasificarea după un anumit criteriu. Notăm cu d diferenţa rangurilor a două însuşiri X, Y ale aceluiaşi exemplar, coeficientul de corelaţie a rangurilor într-un sondaj de n perechi de ranguri, capătă forma: 2 2 1 2 6( ... ) 1 ( 1) nd dR n n Privind perechea de caractere X, Y ca un vector Z = (X, Y), acesta are indicatorii de sondaj: 1) Vectorul – medie de sondaj: M(Z) = ( X , Y ) 2) Matricea de covarianţă de sondaj: 2 YYX XY 2 X S S S S )Z(C 3) Matricea de corelaţie liniară de sondaj: 1 R ( ) R 1 L Z VII) Coeficienţii de regresie liniară de sondaj: 0)(Bliber termen fara este regresia daca X/YX )0(Bliber cu termen este regresia daca S S B 0iii 02 X XY 1 0) (Bliber termen fara este regresia daca 0 0)(Bliber cu termen este regresia daca XBY B 0 01 0 Între coeficientul de corelaţie liniară R şi coeficientul de regresie B 1 există relaţia: B1= R.(SY/SX) Coeficienţii B1 şi B0 de sondaj sunt o măsură a legăturii bijective a caracterelor X, Y dată de ecuaţia Y = B0 + B1X. Aceasta reprezintă grafic dreapta de regresie care trece prin centrul de greutate ( X , Y ) al norului de puncte căci Y = Y + B1(X - X ). În legătura de tip statistic între X, Y se poate asocia o valoare a lui X cu mai multe valori ale lui Y şi o valoare a lui Y poate corespunde cu mai multe valori ale lui X. În legătura de tip funcţional între X, Y, nu se poate asocia o valoare a lui X cu mai multe valori ale lui Y dar o valoare a lui Y poate corespunde cu mai multe valori ale lui X. În legătura de tip bijectiv între X, Y fiecare valoare a lui X se asociază cu o valoare unică a lui Y şi fiecare valoare a lui Y corespunde unei valori unice a lui X (corespondenţă 1 - 1). 157 Legătura din tabelul: xi 2 3 3 4 5 6 yi 8 10 11 14 14 20 este de tip statistic căci lui x = 3 i se asociază y = 10 şi y = 11 iar y = 14 se corespunde cu x = 4 şi x = 5. Legătura din tabelul: xi 1 2 3 4 5 6 yi 8 10 11 14 14 20 este de tip funcţional căci y = 14 se corespunde cu x = 4 şi x = 5. Legătura din tabelul: xi 1 2 3 4 5 6 yi 8 10 11 14 15 20 este de tip bijectiv deoarece fiecare x este unic asociat cu un y unic. Coeficientul de regresie B1 este egal cu XΔ YΔ deci B1 este valoarea marginală cu care creşte sau scade Y când X creşte cu o unitate. Termenul liber al regresiei B0 este valoarea- martor a lui Y când X = 0. Calităţi: 1) Coeficienţii B0, B1 au valori mărginite: X S S Y ;X S S YB ; S S ; S S B X y X y 0 X y X y 1 Defecte: 2) B0 şi B1 au unităţi de măsură deci nu permit comparaţii între perechi de caractere; 3) B0 este sensibil la codificarea datelor iar B1 la înmulţirea şi împărţirea datelor; 4) Prognoza valorilor Y făcută pe baza dreptei de regresie Y = B0 + B1X este aproximativă. Dacă X1,…, Xn sunt depuse în celulele A1:An din coloana A în EXCEL iar Y1,…, Yn sunt depuse în celulele B1:Bn din coloana B, atunci coeficientul de regresie liniară B1 este dat de funcţia EXCEL scrisă în celula C3: = SLOPE((A1:An),(B1:Bn)) iar termenul liber al regresiei B0 este dat de funcţia EXCEL scrisă în celula C4: = INTERCEPT((A1:An),(B1:Bn)). Pentru prognoza valorii Y (0) = B0 + B1.X (0) se foloseşte funcţia EXCEL scrisă în celula C5: = FORECAST (X (0) , (A1:An),(B1:Bn)). Fundamentarea afirmaţiilor din secţiunea 5.1 se bazează pe teoremele care urmează: Teorema 5.1 1) Dreapta de regresie Y = B0 + B1X are coeficienţii daţi de relaţiile: 02 1 2 0 pt. B 0 / pt. B 0 XY X i i i S SB X Y X 158 2) Lăţimea fâşiei de încredere este: 2 ; n - 2 GL 2 2 1 1 2 Y n R S t n n Demonstraţie: 1) Dacă regresia este cu termen liber (B0 0) vom minimiza variaţia reziduală cu necunoscutele B0, B1: SPAY.X = (y1 – B1x1 – B0) 2 + … + (yn – B1xn – B0) 2 = minim (metoda celor mai mici pătrate) Anulând derivatele parţiale ale lui SPAY.X în raport cu B1, B0, obţinem sistemul de ecuaţii normale cu necunoscutele B1, B0: i0i1 iii0 2 i1 ynBxB yxxBxB Eliminând B0 între cele două ecuaţii normale, găsim 2 X XY 1 S S B , apoi din a II-a ecuaţie normală împărţită cu n, găsim B0 = Y - B1 . X Ecuaţia dreptei de regresie se scrie XBXBYY 11 adică Y - Y = B1(X - X ) deci dreapta de regresie Y = B0 + B1X trece prin centrul de greutate ( X , Y ) al norului de puncte {(xi, yi); (i = 1, …, n}. Dacă regresia este fără termen liber (B0 = 0) avem variaţia reziduală minimă: SPAY.X = (y1 - B1x1) 2 + … + (yn – B1xn) 2 = minim. Anulând derivata lui SPAY.X în raport cu B1, găsim ecuaţia normală necunoscută B1: ii 2 i1 YXXB de unde 2 iii1 X/YXB . 2) Avem M(Y – B0 – B1X) = M(Y) – B0 – B1M(X) = 0 şi V(Y – B0 – B1X) = n σ2 XY deci variabila normată n σ XBBY XY 10 este variabilă N(0, 1). Variabila 2 2 2 Y X Y X n S este variabilă 2 cu n – 2 GL, independentă de variabila N(0, 1) notată n σ XBBY XY 10 . De aici rezultă că : 2 2 0 1 0 1 2 : 2 Y X Y X Y X Y X n S Y B B X Y B B X t n n n S este variabilă student cu n – 2 GL. De aici rezultă: 2 2 1P t t t adică intervalul de încredere pentru Y – B0 – B 1X: 0 1 0 1 2 2 ; 1P Y B B X B B X , unde /2;( 2) 2 Y X n GL S t n este diferenţa limită. 159 Ţinând cont de demonstraţia teoremei 5.2 avem: 2 2 2 2 1 1 1 2 2 2 Y YY X Y X R SPA R n SSPA S n n n , deci avem: 2 /2;( 2) 2 1 1 2 Y n GL n R S t n n Graficul dreptei de regresie cu fâşia de încredere 2 αδ are forma: Y D + D D Y D - D - 0 X X Aici dreptele D + , D, D - au ecuaţiile: D + : Y = B0 + B1X + 2 αδ D: Y = B0 + B1X D - : Y = B0 + B1X - 2 αδ Q.E.D. Teorema 5.2 1) Coeficientul de corelaţie liniară este dat de relaţia: XY X Y S R S S ; 2) Aporturile variaţiei lui X, E la variaţia lui Y sunt 2 XYX rA ; AE = 1-AX 3) 2 2 1 R t n R este variabilă Student cu n – 2 grade de libertate. Demonstraţie: 1) Dacă 2 X XY 1 S S B ; B0 = Y - B1 . X se verifică prin calcul relaţia: 20i1i 2 0i1 2 i BXBYYBXBYY adică: 160 SPAY = SPAR + SPAY.X (1) cu n – 1 = 1 + (n – 2) grade de libertate. Grafic variaţiile pătratice din relaţia (1) au forma: Definim coeficientul de corelaţie liniară R astfel: 1 Y X Y SPA R SPA (2) deci conform relaţiei (1) avem: 2 1 0 2 iR Y i B X B YSPA R SPA Y Y şi înlocuind pe 2 X XY 1 S S B ; B0 = Y - B1 X (conform teoremei 5.1) rezultă prin calcul: XY X Y S R S S 161 Observăm că: 2 21 1 XYY X Y Y X Y SPA SPA R SPA SPA SPA SPA adică: X 2 XY YXY SPA SPA SPASPA (3) 2) Ţinând cont de relaţia (2) relaţia (1) se scrie: 2 2. 1 .Y Y YSPA R SPA R SPA sau 2 21 1R R aşa că AX = R2 (numit şi determinaţie) este aportul în procente al variaţiei lui X la variaţia lui Y şi AE = 1 – R 2 este aportul în procente al variaţiei tuturor factorilor necontrolaţi (numiţi Eroare) la variaţia lui Y. Întreaga variaţie a lui Y este egală cu 100%. 3) Avem varianţa totală a lui Y: 1n YY GL SPA S 2 i Y Y2 Y , varianţa regresiei liniare a lui Y după X: 2 1 02 1 iY R Y B X B YSPA S GL şi varianţa reziduală a lui Y faţă de X: 2n BXBY GL SPA S 2 0i1i XY XY2 XY Rezultă variabila Fisher 2 2 R X Y X S F S cu (1; n – 2) GL. Dar 2 2 1 1 R Y R SPA R SPA S şi 2 2 1 2 2 YY X Y X R SPASPA S n n deci avem: 2 2 1 : 21 R F nR cu (1; n - 2) GL şi conform secţiunii 1.2 2 2 1 R t F n R este variabilă Student cu n – 2 GL. Avem: 1 2 2 12 2 Y X B t n S B S Q.E.D. Avem 1 Y X S B R S de unde 1 X Y S R B S aşa că valorile Yai calculate din dreapta de regresie Y = Y + B1(X - X ) conform relaţiei: Yai = Y + B1(Xi - X ); (i = 1, …, n) (4) se numesc valori aşteptate ale lui Y. Valorile Yci calculate conform relaţiei: Yci = Yi – B1(Xi - X ) = Y + (Yi – Yai)); (i = 1, …, n) (5) se numesc valori corectate ale lui Y. Teorema 5.3 1) Pentru valorile aşteptate Ya = (Ya1, …, Yan) avem: Media Ya Y ; Varianţa 2 2 2 2 21Ya X YS B S R S ; Covarianţa SX,Ya = SXY; Coeficientul de corelaţie liniară RX,Ya = 1 162 2) Pentru valorile corectate Yc = (Yc1, …, Ycn) avem: Media Yc Y ; Varianţa 2 2 2 2 2 21 (1 )Yc Y X YS S B S R S ; Covarianţa SX,Yc = 0; Coeficientul de corelaţie liniară RX,Yc = 0 Demonstraţie: 1) 1 1( )Ya M Ya M Y B X X Y B M X X Y 2 2 2 2 2 21 1 1. . ( ) ( )Ya YS V Ya V Y B X X B V X X B V X R V Y R S 2, 1, ( ) ( ) [ ( )]X YaS C X Ya M X Ya M X M Ya M XY B X X X X Y 2 2 1 1 ( , ) ( ) ( ) ( ) ( ) ( ) XY C X Y XY B M X M X X Y B V X V X S V X 1 , 2 1 ( )( , ) 1 ( ) ( ) ( ) . ( ) X Ya B V XC X Ya R V X V Ya V X B V X 2) ( ) [ ( )] ( ) ( )Yc M Yc M Y Y Ya Y M Y M Ya Y Y Y Y Avem Yc Ya Y Y deci ( ) ( ) ( )V Yc V Ya V Y aşa că: 2 1( ) ( ) ( ) ( ) ( )V Yc V Y V Ya V Y B V X Dar 1 ( ) ( , ) ( ) S Y B X Y S X deci 2 21 ( ) ( , ) ( )B V X X Y V Y aşa că: 2 2 2( ) 1 ( , ) ( ) 1 YV Yc X Y V Y R S , ( , ) , ( ) , ( , ) ( , ) 0X Yc XY XYS C X Yc C X Y Y Ya C X Y Ya C X Y C X Ya S S , ( , ) ( , ) 0 ( ). ( ) X Yc C X Yc R X Yc V X V Yc . Q.E.D. În continuare vom aborda estimaţii/teste pentru corelaţia şi regresia liniară în populaţie. Teorema 5.4 1) Intervalul de încredere pentru coeficientul de corelaţie liniară necunoscut ρxy în populaţia din care provine sondajul, are forma: P(ρxy [ 2 αδ ; 2 α'δ ]) = 1 – α unde 2 2 2 / 3 2 / 32 (1 ) (1 ) (1 ) (1 ) u n u n R R e R R e şi 2 2 2 / 3 2 / 32 (1 ) (1 ) ' (1 ) (1 ) u n u n R R e R R e 2) Intervalul de încredere pentru coeficientul de regresie liniară necunoscut β1 în populaţia din care provine sondajul, are forma: P(β1 [β1 - 2 αδ ; β1 + 2 α'δ ]) = 1 – α unde: 163 2 /2;( 2) 2 1 2 Y n GL X SR t n S Intervalul de încredere pentru termenul liber necunoscut β0 al regresiei liniare în populaţia din care provine sondajul, are forma: α1δB ;δBβP 2 α0 2 α00 unde: 2 2 2 /2;( 2) 2 1 1 2 X Y n GL X R n S nX S t n n S (Fără demonstraţie) Coeficientul de corelaţie liniară de sondaj R este variabil de la un sondaj la altul în jurul coeficientului de corelaţie liniară necunoscut în populaţie. Se arată că: 2 1- ( ) ; V(R)M R n deci lim ( ) 0 n V R , aşa că R este o estimaţie absolut corectă a lui . 1) Testul ipotezei H: = 0 faţă de alternativa : 0H se face pe baza teoremei 5.2 punctul 3) astfel: Din relaţia 2 2 2 1 R t n t R rezultă: 2 /2 2 2 t R R t n Valorile critice 2 R pentru α = 0.05; 0.01; 0.001 şi n – 2 GL sunt date de tabela 10 din Anexă. Decizia asupra ipotezei H se ia astfel: Dacă 0.025R R ipoteza H se acceptă: = 0 deci X, Y nu sunt corelate liniar în populaţie. În caz contrar avem cazurile: a) 0.025 0.005R R R deci X, Y sunt corelate liniar semnificativ; b) 0.005 0.0005R R R deci X, Y sunt corelate distinct semnificativ; c) 0.0005R R deci X, Y sunt corelate liniar foarte semnificativ. 2) Testarea ipotezei H: ρ = 0 faţă de alternativa 0ρ:H este echivalentă conform relaţiei 1 Y X S B R S cu testarea ipotezei H: β1 = 0 faţă de alternativa H: β1 0 făcută pe baza relaţiei: 164 1 2 2 12 2 Y X B t n S B S care se compară cu valorile critice t0.05; t0.01; t0.001 cu n – 2 GL, extrase din tabela 2 din Anexă. Decizia se ia ca la punctul 1). 3) Testul ipotezei H: ρ = ρ0 faţă de alternative H : ρ ρ0 se face cu transformata Fisher: 1 1 ln 2 1 R z R . Se arată că z este variabilă normală 1 1 1 ln ; 2 1 n-3 N deci cu 0 0 0 ρ1 ρ1 ln 2 1 z rezultă că: u = (z – z0) 3n este variabilă N(0,1). Din tabela 11 din Anexă, obţinem transformatele Fisher z al lui R şi z0 al lui ρ0 şi calculăm pe u din relaţia precedentă şi îl comparăm cu u0.025 = 1.96; u0.005= 2.58; u0.0005 = 3.29 Decizia se ia ca la punctul 1). Valorile z din tabelul 11 din Anexă se obţin şi cu funcţia EXCEL:= FISHER (R). 4) Testul ipotezei H: ρ’= ρ” faţă de alternativa H : ρ’ ρ” pe baza a două sondaje de n1 perechi de valori (xi, yi) respectiv n2 perechi de valori (xi, yi), extrase din două populaţii normale, se bazează pe faptul că 1 1 ' ' ln 2 1 ' R z R este variabilă 1 1 1 ' 1 ln ; 2 1 ' n 3 N iar 1 1 " " ln 2 1 " R z R este variabilă: 3n 1 ; "ρ1 "ρ1 ln 2 1 N 2 (z’, z” = independente) deci z’ – z” este variabilă 3n 1 3-n 1 ;0N 21 aşa că 3n 1 3n 1 "z'z u 21 este variabilă N(0, 1). Din tabela 11 din Anexă, obţinem transformatele Fisher z’ şi z” ale lui R’, R” apoi calculăm pe u din relaţia precedentă şi îl comparăm cu valorile critice u0.025=1.96; u0.005=2.58; u0.0005=3.29 Decizia se ia ca la punctul 1). Exemple: 1) Fie X = înălţimea la greabăn a viţeilor (cm) şi Y = greutatea în viu a viţeilor (kg). Populaţia este formată din N = 100 viţei din care extragem un sondaj de n = 10 viţei, pe care măsurăm înălţimea la greabăn şi greutatea, obţinând datele de sondaj: xi 70 68 71 72 69 66 70 67 71 72 yi 55 54 56 60 54 50 56 53 56 58 Se cere semnificaţia lui R, diagrama aporturilor şi dreapta de regresie Y = B0 + B1X + δ0.025 cu prognoză pentru x = 75 cm. Soluţie: Se reprezintă grafic norul de puncte cu coordonatele (xi, yi) cu unul din produsele informatice EXCEL, TCWIN. 165 Forma alungită a norului de puncte indică o dependenţă liniară. Deoarece pentru talia X = 0 avem greutatea Y = 0, regresia este fără termen liber. Calcule: a) Indicatorii de sondaj proprii fiecărui caracter Mediile: MX = 696 69.6 10 ix X n cm MY = 552 55.2 10 iy Y n kg Abaterile – standard: 2 38.40 4.27 2.07 1 10 1 i X x X S n cm 2 67.60 7.51 2.74 1 10 1 i Y y Y S n kg Coeficienţii de variabilitate: 2.07 100 3% 69.6 XC ; 2.74 100 5% 55.2 YC b) Indicatorii de sondaj de legătură între caractere: Covarianţa 47.80 5.31 1 10 1 i i XY x X y Y S n cm x kg Coeficientul de corelaţie liniară de sondaj: 5.31 0.938 2.07 2.74 XY X Y S R S S 48 50 52 54 56 58 60 62 65 66 67 68 69 70 71 72 73 Series1 166 Valorile critice din tabela 10 din Anexă, pentru 10 – 2 = 8 GL sunt: R0.05 = 0.632; R0.01 = 0.765; R0.001 = 0.872 Deoarece R = 0.936 > R0.001 = 0.872 corelaţia liniară între X, Y pentru toţi viţeii din care provin cei 10, este foarte semnificativă aşa că R = 0.936*** AX = R 2 = 88%; AE = 1 – Ax = 12% Concluzie: 88% din variaţia lui Y este datorată variaţiei lui X, restul de 12% se datorează variaţiei altor factori necontrolaţi numiţi Eroare. Pentru coeficientul de corelaţie liniară necunoscut ρ între X, Y în populaţie, avem intervalele de încredere: [0.801; 0.982], cu încrederea de 95%; [0.688; 0.989], cu încrederea de 99%; [0.504; 0.994], cu încrederea de 99.9%. Intervalul cel mai mic [0.801; 0.982] cu încrederea de 95% are următoarea interpretare: Coeficientul de corelaţie necunoscut ρ între talia şi greutatea tuturor viţeilor din care fac parte cei 10 ai sondajului, este cuprins între 0.801 şi 0.982 cu o încredere de 95%. Există semiriscul 2.5% ca acest coeficient ρ să fie mai mic ca 0.801 atunci când sondajul extras din populaţie a fost intens corelat liniar (în sondaj sunt viţei scunzi şi slabi respectiv viţei înalţi şi graşi). În mod analog există semiriscul 2.5% ca, coeficientul ρ să fie mai mare ca 0.982 atunci când sondajul extras din populaţie a fost slab corelat liniar (în sondaj sunt viţei de toate categoriile: scunzi şi slabi, scunzi şi graşi, înalţi şi slabi, înalţi şi graşi). Ipoteza H: ρ = 0.9 se acceptă deoarece ρ = 0.9 [0.801; 0.911]. Coeficienţii de regresie liniară de sondaj: 1 2 38467 0.793 kg crestere greutate 48480 1 cm crestere talie i i i x y B x B0 = 0 kg (regresie fără termen liber). Pentru coeficientul de regresie liniară necunoscut β1 între X şi Y în populaţie, avem intervalele de încredere: [0.676; 0.911], cu încrederea de 95%; [0.622; 0.965], cu încrederea de 99%; [0.530; 1.057], cu încrederea de 99.9%. Ţinând cont de relaţia: 1 = .(Y/X) intervalul cel mai mic [0.676; 0.911] cu încrederea de 95% are următoarea interpretare: Coeficientul de regresie liniară necunoscut β1 între X şi Y în populaţia din care provine sondajul este cuprins între 0.676 şi 0.911 cu încrederea de 95%. AE = 12% Ax = 88% Variaţia totală a lui Y = 100% 167 Există semiriscul 2.5% ca acest coeficient β1 să fie mai mic de 0.676 atunci când sondajul extras din populaţie a fost intens corelat liniar sau variabilitatea caracterului Y raportată la variabilitatea caracterului X este relativ mare în populaţie. În mod analog există semiriscul 2.5% ca acest coeficient β1 să fie mai mare ca 0.911 atunci când sondajul extras din populaţie a fost slab corelat liniar sau variabilitatea caracterului Y raportată la variabilitatea caracterului X este relativ mică în populaţie. Ipoteza H: β1 = 0.7 se acceptă deoarece β1 = 0.7 [0.676; 0.911]. Relaţia: 2 / 2;( 2) 2 1 1 2 Y n GL n R S t n n devine: 2 2 10 1 1 0.938 2.74 2.31 0.736 10 10 2 Ecuaţia dreptei de regresie cu fâşia de încredere 0 1 2 Y B B X devine Y = 0.793X + 0.736. Cu ajutorul acestei ecuaţii se pot face prognoze cu asigurarea de 95% astfel: Pentru X = 75 cm avem valorile aşteptate: 60.211 kg (Maxima) Ya = 0.793 x 75 + 0.736 = 59.475 kg (Media) 59.739 kg (Minima) Pentru talia viţeilor Xa = 75 cm, ne aşteptăm ca greutatea viţeilor din care provine sondajul să fie cuprins între [58.739 kg; 60.211 kg] cu o încredere de 95%. Există semiriscul 2.5% ca această greutate să fie sub 58.739 kg atunci când sondajul a fost ales performant ca greutate. În mod analog există semiriscul 2.5% ca această greutate să fie peste 60.211 kg atunci când sondajul a fost ales neperformant ca greutate. Ipoteza a 75 cm : 60 kg aX H Y se acceptă deoarece Ya = 60 kg [58.739; 60.211]. Valorile aşteptate Ya ale lui Y se calculează cu relaţia Ya = 0.793X iar valorile corectate Yc ale Y sunt date de relaţia: cY Y Y Ya Avem tabelul: xi yi yai Δyi = yi - yai ci iy y y 70 68 71 72 69 66 70 67 71 72 55 54 56 60 54 50 56 53 56 58 55.54 53.96 56.34 57.13 54.75 52.37 55.54 53.16 56.34 57.13 - 0.54 0.04 - 0.34 2.87 - 0.75 - 2.37 0.46 - 0.16 - 0.34 0.87 54.66 55.24 54.86 58.07 54.45 52.83 55.66 55.04 54.86 56.07 Coloanele yi (albastră) şi yai (cărămizie) apar împreună în diagramă: 168 Calculele precedente privitoare la regresia liniară pot fi făcute în EXCEL astfel: Valorile X1,…, Xn se înscriu în celulele A1:An din coloana A iar valorile Y1,…, Yn se înscriu în celulele B1:Bn din coloana B a foii de calcul Nr. 1. Deschidem fereasta TOOLS în care activăm opţiunea DATA ANALYSIS. Aici activăm opţiunea REGRESSION în care declarăm celulele A1:An şi B1:Bn unde se află datele. Rezultatele regresiei liniare se găsesc fie în foaia de calcul Nr. 2, fie tot în foaia de calcul Nr. 1 cu date, prin declararea ca celule de rezultate a altor celule decât cele din blocul de date A1:Cn. O sinteză elegantă a acestor calcule este dată în foaia de calcul C2P1.XLS pentru regresii cu termen liber şi în foaia de calcul C2P10.XLS pentru regresii fără termen liber, aflate în Anexă. 2) a) Să se testeze ipoteza H: ρ = 0.9 faţă de alternativa H : ρ 0.9 pentru exemplul 1) cu transformata Fisher: 1 1 ln 2 1 R z R . Soluţie: Transformata Fisher din tabela 11 din Anexă, pentru R = 0.938 este z = 1.7220 iar transformata Fisher din tabela 11 din Anexă, pentru ρ0 = 0.9 este z0 = 1.4722. 3nzzu 0 devine u = 0.66 Cum 0.0250.66 1.96u u , ipoteza H: ρ = 0.9 se acceptă. b) Dintr-o populaţie de viţei se extrage un sondaj de n1 = 10 viţei pe care se măsoară talia X la greabăn în cm şi greutatea Y în kg găsindu-se R’ = 0.938. Din a II-a populaţie de viţei se extrage un al II-lea sondaj de n2 = 17 viţei şi se găseşte R” = 0.865. Să se testeze ipoteza H: ρ’ = ρ” în cele două populaţii faţă de alternativa H : ρ’ ρ” Soluţie: Pentru R’ = 0.938 avem din tabela 11 din Anexă, transformata Fisher z’ = 1.7220 iar pentru R” = 0.865 din aceeaşi tabelă, avem transformata Fisher z” = 1.3132 Avem 1 2 ' " 1.7220 1.3132 3.04 1 1 1 1 3 3 7 14 z z u n n . Cum u = 3.04 [2.58; 3.29] rezultă că ρ’ ρ” distinct semnificativ. 44 46 48 50 52 54 56 58 60 62 1 2 3 4 5 6 7 8 9 10 Series1 Series2 169 3) În exemplul 1) cei 10 viţei ocupă următoarele ranguri în ordine descrescătoare după talie la greabăn X şi greutate Y: ti 6 8 3 1 7 10 5 9 4 2 gi 6 8 4 1 7 10 5 9 3 2 di 0 0 1 0 0 0 0 0 1 0 di 2 0 0 1 0 0 0 0 0 1 0 Coeficientul de corelaţie a rangurilor 2 2 6 1 1 id R n n devine R = 0.988 cu 10 – 2 = 8 GL. Valorile critice pentru n – 2 = 8 GL din tabela sunt R0.05 = 0.632; R0.01 = 0.765; R0.001 = 0.872. Cum R = 0.988 > R0.001 = 0.872, corelaţia rangurilor după talie şi greutate a tuturor viţeilor din care fac parte cei 10, este foarte semnificativă. 5.1.2 Cazul observaţiilor multiple (xi, yij) Există cazuri când pentru caracterul Y avem observaţii multiple deci datele de sondaj au forma: xi yij iy x1 x2 . . . xn y11 _________y1p y21 _________y2p yn1 _________ynp 1y 2y . . . ny În acest caz se poate face corelaţia şi regresia liniară între valorile xi şi mediile iy şi pe de altă parte se poate face analiza varianţei monofactorilală balansată între valorile xi şi valorile yij. Variaţia totală a valorilor Y este: 1 1 pn Y ij i j SPA y Y cu np – 1 GL Variaţia regresiei între X şi Y este: 2 0 1 1 n R i i SPA p B B X Y cu 1 GL Variaţia abaterilor de la regresie este: 2 0 1 1 n A i i i SPA p y B B x cu n – 2 GL Variaţia intraclase (datorată erorii) este: n 1i p 1j 2 iijE yySPA cu n(p - 1) GL Se verifică prin calcul relaţia: (6) SPAY = SPAR + SPAA + SPAE, cu np - 1 = 1 + (n – 2) + n(p – 1) GL. Prin însumarea două câte două, variaţiile din membrul II dau: 170 Variaţia interclase (datorată lui X) este: SPAX = SPAR + SPAA = n 1i i yyp cu 1 + (n – 2) = n - 1 GL Variaţia reziduală a regresiei între X şi Y este: SPAY.X = SPAA + SPAE = n 1i p 1j 2 i10ij xBBy cu (n - 1) + n(p - 1) = (np - 2) GL Coeficientul de corelaţie liniară R între valorile xi şi iy se calculează cu formula (2) din teorema 5.2 astfel: 1 Y X R Y Y SPA SPA R SPA SPA (7) Indicele de corelaţie din analiza variaţiei (cap. 4.1) are forma: 1 E Xc Y Y SPA SPA I SPA SPA (8) Rezultă de aici: SPAR = R 2 . SPAY, cu 1 GL SPAY.X = (1 – R 2 ) . SPAY, cu np – 2 GL respectiv: SPAX =Ic 2 . SPAY, cu n – 1 GL SPAE = (1 – Ic 2 ) . SPAY, cu n(p – 1) GL De asemenea: SPAA = (Ic 2 – R2) . SPAY, cu n – 2 GL Prin împărţire cu SPAY, relaţia (6) devine: 1 = R 2 + (Ic 2 – R2) + (1 – Ic 2 ) (9) Din relaţia SPAA = (Ic 2 – R2) . SPAY, rezultă: 0 < R < Ic (10) Reunind teorema 1.9 din secţiunea 1.2 şi teorema 1.2 din secţiunea 4.1, obţinem: Teorema 5.5 În cazul observaţiilor multiple (xi, yij) avem proprietăţile: 1) 0 < R < Ic < 1 R = Ic dacă şi numai dacă xi şi yij sunt dependente funcţional liniar ( y i = B0 + B1xi) 2) X, Y = independente X, Y = necorelate liniar (R = 0) 3) X, Y = independente X, Y = necorelate (Ic = 0) 4) X, Y = dependente funcţional liniar (Y = B0 + B1X) dacă şi numai dacă R = 1 5) X, Y = dependente funcţional liniar dacă şi numai dacă Ic = 1. Fie indicele de corelaţie în populaţia din care face parte sondajul. Avem trei ipoteze relativ la populaţia din care face parte sondajul: a) Ipoteza HX: η = 0 faţă de alternativa H X: η 0 se testează prin analiza variaţiei (cap. 3.1) cu ajutorul raportului Fisher: 22 2 2 1 1 : : ( 1) ( 1)1 cX X E c IS n n F n p n pS I , cu [n – 1; n(p – 1)] GL 171 b) Ipoteza HR: ρ = 0 faţă de alternativa H R: ρ 0 se testează cu ajutorul raportului Fisher: 2 2 2 2 1 1 : : 2 21 R R Y X S R F np npS R , cu [1; np – 2] GL De aici rezultă că 2 2 1 R R R t F np R c) Ipoteza HA: ρ = η faţă de alternativa H A: ρ η se testează cu ajutorul raportului Fisher: 2 22 2 2 2 2 : : ( 1) ( 1)1 cA A E c I RS n n F n p n pS I , cu [n – 2; n(p – 1)] GL Ecuaţia dreptei de regresie între valorile xi şi y i cu fâşia de încredere se stabileşte ca secţiunea 5.1.1 pe baza relaţiei: y = B0 + B1x + 2 αδ , unde 1 0 12 ; B -B ; XY X S B Y X S 2 /2;( 2) 2 ( 1)(1 ) ( 2) Y n GL n R S t n n Exemplu: Fie X = proteina digestibilă (kg) în raţia vacilor de lapte; Y = producţia lunară de lapte (hectolitri). Avem n = 8 variante de proteină digestibilă aplicate la câte p = 3 vaci cu lapte. Date de sondaj: Xi Yij iY aiY iY 1 4.5; 4.5; 4.8 4.6 5.361 - 0.761 1.05 5; 5; 5.3 5.1 5.629 - 0.529 1.10 5.4; 5.3; 5.5 5.4 5.897 - 0.497 1.15 6; 5.9; 6.1 6.0 6.165 - 0.165 1.20 6.3; 6.3; 6.6 6.4 6.433 - 0.033 1.25 6.9; 7; 7.1 7.0 6.701 0.299 1.30 7.5; 7.4; 7.6 7.5 6.969 0.531 1.35 7.9; 8.1; 8 8.0 7.237 0.763 Avem MX = 1.175 kg PD; MY = 6.25 hectolitri lapte pe lună. Regresia este fără termen liber (B0 = 0 pentru X = 0) deci 1 2 59.775 5.361 11.15 i i i X Y B X . Valorile aşteptate sunt 1.i iya B x şi sunt înscrise în coloana patru a tabelului precedent. Avem 8 3 2 1 1 ( ) 30.452Y ij i j SPA y Y SPAR=3 8 2 1 ( ) 8.384i i ya Y SPAA= 8 2 1 3 ( ) 6.254i i i y ya 172 SPAE = 8 3 2 1 1 ( ) 15.814ij i i j y y Rezultă SPAX = SPAR + SPAA = 14.638 şi SPAY.X = SPAA + SPAE = 22.068 Rezultă R = 0.525; 0.693R Xc Y Y SPA SPA I SPA SPA Testele ipotezelor: a) HX: = 0 faţă de HX: ≠ 0 FX= 2 2 1 : 2.112 ( 1)1 c c I n n pI , cu (7; 16) GL Din tabelele 4, 5, 6 din Anexă, avem valorile critice pentru (7; 16) GL astfel: F0.05 = 2.66; F0.01 = 3.04; F0.001 = 6.50 Cum FX < F0.05, se acceptă ipoteza Hx: = 0. b) HR: = 0 faţă de HR: ≠ 0 FR= 2 2 1 : 8.371 cu [1;22] GL 21 R npR tR = RF = 2.893, cu 22 GL Din tabela Student 2 din Anexă, avem pentru 22 GL, valorile critice t0.05 = 2.07; t0.01 = 2.82; t0.001 = 3.79. Cum tR [t0.01; t0.001] ipoteza HR: = 0 se respinge deci ≠ 0 distinct semnificativ. c) HA: = faţă de :AH cu (6; 16) GL. Din tabelele Fisher 4, 5, 6 din Anexă, pentru (6; 16) GL, avem valorile critice F0.05 = 2.74; F0.01 = 4.20; F0.001 = 6.81 Cum FA < F0.05 ipoteza HA: = se acceptă. Funcţia de regresie este Y = B1X adică y = 5.361X. Avem 2S Y = 2 1 1 ( ) 0.93 n i i Y Y n Lăţimea fâşiei de încredere cu = 0.05 este 2.5 % = 2(8 1)(1 0.525 ) 0.964 2.45 0.768 8(8 2) deci Y = 0.5361X 0.768 5.1.3 Cross - corelaţia şi autocorelaţia seriilor de timp În secţiunile a) şi b) caracterele X, Y au fost măsurate în acelaşi moment de timp dând la sondajul de repartiţie (x1, y1),…, (xn, yn) pentru vectorul aleator Z = (X, Y). Dacă măsurătorilor sunt efectuate succesiv în timp la momentele t = 1, 2,…, n obţinem sondajul de evoluţie (x1, y1),…, (xn, yn) pentru procesul aleator Z(t) = (X(t), Y(t)). Valorile consecutive în timp (x1,…, xn) respectiv (y1,…, yn) se numesc şi serii de timp pentru caracterele X, Y. 2 2 2 2 : 1.050 11 c A c I R n F npI 173 Uneori mai importantă decât corelaţia perechilor (xi, yi) este cross-corelaţia perechilor (xi, yi+1). Astfel resursa X aplicată la plante sau animale în momentul t = i are efect asupra valorii producţiei Y la momentul următor t’ = i + 1. Exemple: 1) X = precipitaţii în săptămâna t = i Y = talia plantei în săptămâna următoare t’ = i + 1 2) X = cantitatea de proteină digestibilă în raţia vacilor cu lapte în ziua t = i Y = producţia zilnică de lapte în ziua următoare t’ = i + 1 Exemplu: X = proteina digestibilă în raţia unei vaci cu lapte (g/zi) în 11 zile consecutive Y = producţia zilnică de lapte (litri/zi) în 11 zile consecutive. Date de sondaj: Xt 1000 1020 1040 1060 1080 1100 1120 1140 1160 1180 1200 Yt 9.6 9.6 9.7 9.8 9.9 9.9 9.9 10.1 10.3 10.4 10.6 Yt+1 9.6 9.7 9.8 9.9 9.9 9.9 10.1 10.3 10.4 10.6 - Fie notaţiile X = Xt; Z = Yt+1 Mediile: MX = 1090 g/zi; MZ = 10.02 l/zi Abaterile standard: SX = 60.553 g/zi; SZ = 0.322 l/zi Covarianţa: SXZ = 18.889 g x l/zi Coeficientul de cross-corelaţie liniară: R = 0.967 Coeficienţii de cross-regresie liniară: B0 = 0; B1 = 0.009 Lăţimea fâşiei de încredere 2.5% = 0.063; Ecuaţia de cross-regresie este: Yt+1 = B0 + B1.Xt /2 Autocorelaţia pentru caracterul Y este corelaţia între valorile yi la momentul t = i şi valorile yi+1 la momentul t’ = i + 1. Valoarea producţiei yi + 1 la momentul t’ = i + 1 depinde de valoarea producţiei yi la momentul anterior t = i. Exemplu: Fie notaţiile: Y = Yt; Z = Yt+1. Avem rezultatele: Mediile: MY = 9.92 l/zi; MZ = 10.02 l/zi Abaterile standard: SY = 0.274 l/zi; SZ = 0.322 l/zi Autocovarianţa SYZ = 0.086 Coeficientul de autocorelaţie liniară: R = 0.976 Coeficienţii de autoregresie liniară: B0 = 0; B1 = 1.010 Lăţimea fâşiei de încredere: 2.5% = 0.054 Ecuaţia de autoregresie Yt+1 = B0 + B1.Yt 2/ Cross-corelaţia şi autocorelaţia se pot combina într-un model liniar mixt (vezi 5.3.1): Valoarea producţiei yi+1 la momentul t’ = i + 1 depinde atât de valoarea resursei xi la momentul anterior t = i cât şi de valoarea producţiei yi la momentul anterior t = i. De exemplu, producţia de lapte yi+1 în ziua t’ = i + 1 depinde atât de cantitatea de proteină digestibilă xi în ziua precedentă t = i (cauză externă) cât şi de producţia de lapte yi în ziua precedentă t = i (cauză internă). 174 Exemplu: Fie notaţiile: X = Xt; Y = Yt; Z = Yt+1. Avem rezultatele: Mediile: MX = 1090 g/zi; MY = 9.92 l/zi; MZ = 10.02 l/zi Coeficienţii de corelaţie liniară simpli: RXY = 0.964; RXZ = 9.967; RYZ = 0.976 Coeficienţii de corelaţie liniară multipli: Coeficientul multiplu total: RZ.XY = 0.981 oeficienţii multipli parţiali: RZX.Y = 0.458; RZY.X = 0.638 Coeficienţii de regresie multiplă: B0 = 0; B1 = 0.002; B2 = 0.845 Lăţimea fâşiei de încredere: 2.5% = 0.053 Ecuaţia de regresie multiplă:Yt+1 = B0 + B1.Xt + B2.Yt 2/ 5.2 CORELAŢII ŞI REGRESII MONOFACTORIALE NELINIARE Am văzut în capitolul 1 că două variabile aleatoare independente X, Y sunt necorelate liniar sau prin negaţie două variabile X, Y corelate liniar sunt dependente.Reciproca nu este în general adevărată, adică există variabile X, Y dependente, care nu sunt corelate liniar, dar pot fi corelate neliniar. În cazul corelaţiei şi regresiei neliniare a variabilelor X, Y forma norului de puncte (xi, yi) (i = 1,..., n) indică o anumită formă a funcţiei de regresie Y = f(X, B0, B1,..., Bd-1), unde B0, B1,..., Bd-1 sunt d parametri necunoscuţi ai funcţiei de regresie. Parcurgem următoarele etape: a) Calculul parametrilor de regresie B0, B1,..., Bd-1 se face ca şi în cazul regresiei liniare, prin metoda celor mai mici pătrate (vezi teorema 5.1): Vom minimiza variaţia reziduală: SPAY.X = [y1 - f(x1, B0, B1,..., Bd-1)] 2 +...+ [yn - f(xn, B0, B1,..., Bd-1)] 2 = minim Anulând derivatele parţiale ale lui SPAY.X în raport cu B0, B1,..., Bd-1 obţinem sistemul de d ecuaţii normale cu d necunoscute: B0, B1,..., Bd-1: . . 0 1 0,................., 0Y X Y X d SPA SPA B B b) După calculul celor d parametri de regresie B0, B1,..., Bd-1, vom calcula raportul de corelaţie neliniar Rc printr-o formulă asemănătoare cu formula (1) din demonstraţia teoremei 1.2: .1 Y Xc Y SPA R SPA (1) Aici SPAY = ( )iy Y 2 este varianţa totală a valorilor lui Y cu n - 1 GL. SPAY.X = [yi - f(xi, B0, B1,..., Bd-1)]2 este varianţa reziduală a valorilor aşteptate f(xi, B0, B1,..., Bd-1) ale lui Y faţă de valorile observate yi ale ale lui Y n - d grade de libertate (d este numărul parametrilor B0, B1,..., Bd-1 ai regresiei). Diferenţa SPAY - SPAY.X = SPAR se numeşte varianţa regresiei neliniare şi are n – 1 - (n - d) = d – 1 GL Ca şi în cazul teoremei 5.2 se arată că: este variabilă Fisher cu (d - 1; n - d) GL. În cazul dreptei de regresie Y = B0 + B1X avem d = 2 parametrii necunoscuţi B0, B1, deci: 2 2 1 : (2) 1 c c R d F n dR 175 este variabilă Fisher cu (1; n - 2) GL, deci t = F 2 2 1 R n R este variabilă Student cu n - 2 GL (punctul 3 al teoremei 5.2) Deosebirea între R şi Rc este aceea că R [-1; 1], iar Rc [0; 1] 5.2.1 Corelaţia şi regresia monofactorială polinomială Funcţia de regresie are forma: Y = f(X, B0, B1,..., Bm) = B0 + B1X +...+ BmX m în care avem d = m + 1, parametri de regresie necunoscuţi B0, B1,..., Bm. Sistemul cu d = m + 1 ecuaţii normale cu necunoscutele B0, B1,..., Bm are forma: Notăm X = 1............. ........................ 1............. 1 1 11 m n m n mm xx xx de tip n x (m + 1) X T este matricea transpusă a lui X, de tip (m + 1) x n, B = 1 .......... m m o B B B este vectorul - coloană de tip (m + 1) x 1 al coeficienţilor de regresie polinomială, iar Y = 1 .... n y y este vectorul coloană de tip n x 1 pentru valorile lui Y. Sistemul precedent capătă forma matricială: XT.X.B = XT . Y Dacă matricea simetrică XT . X de ordin m + 1 este nesingulară (det(XT.X) 0), sistemul de ecuaţii normale are soluţie unică scrisă matricial: B = (XT.X)-1.XT . Y Cu d = m + 1, raportul Fisher F capătă forma: cu (m; n - m - 1) GL. În cazul regresiei polinomiale fără termen liber (B0 = 0) ecuaţiile normale au forma: 2 2 1 : (3) 21 R F nR 2 1 1 0 1 2 1 0 1 0 ... ..................................................................... ... ... m m m m m i i i i i m m i i i i i m m i i i B x B x B x x y B x B x B x x y B x B x nB y 2 2 : (4) 11 c p c R m F n mR 176 Avem un sistem liniar de m ecuaţii cu m necunoscute B1,..., Bm, deci numărul parametrilor de regresie este d = m. Cu d = m, raportul Fisher capătă forma: cu (m - 1; n - m) GL Exemplu: Fie X = cantitatea de azotat de amoniu (kg/ha) şi Y = producţia de grâu (quintale/ha). Avem un sondaj de volum n = 10: xi 0 30 60 90 120 150 180 210 240 270 yi 15 17 20 22 25 29 34 36 38 40 Diagrama care urmează conţine norul de puncte al perechilor (x, y): Folosim funcţia de regresie polinomială de grad m = 3 având forma: Y = Bo + B1X + B2X 2 + B3X 3 Coeficienţii de regesie daţi de sistemul de ecuaţii normale au valorile: B0 = 15.27849; B1 = 0.032527; B2 = 0.000653; B3 = - 0.0000016 Valorile xi, valorile observate yi, valorile aşteptate yai = B0 + B1.xi + B2xi 2 + B3xi 3 şi diferenţele yi = yi - yai, sunt date de tabelul: 0 5 10 15 20 25 30 35 40 45 0 50 100 150 200 250 300 Series1 2 1 1 1 2 1 ... ......................................................... ... m m m m i i i i m m i i i i B x B x x y B x B x x y 2 2 1 : (5) 1 c p c R m F n mR 177 xi yi yai yi 0 15 15.28 -0.28 30 17 16.80 0.20 60 20 19.23 0.77 90 22 22.32 -0.32 120 25 25.80 -0.80 150 29 29.40 -0.40 180 34 32.88 1.12 210 36 35.97 0.03 240 38 38.40 -0.40 270 40 39.92 0.08 Variaţia totală este SPAY = 742.4, iar variaţia reziduală este SPAY.X = 3.025 aşa că raportul de corelaţie va fi: Rc = .1 Y X Y SPA SPA =0.99796. Raportul Fisher Fp are forma (4) (regresia este cu termen liber) şi pentru n = 10; m = 3 capătă valoarea Fp = 488.7 cu (3; 6) GL. Valorile critice Fisher din tabelele 4, 5, 6 din Anexă, cu (3; 6) GL sunt: F0.05 = 4.76; F0.01 = 9.78; F0.001 = 23.70. Cum Fp = 488.7 F0.001 = 23.70, corelaţia polinomială în populaţia din care provine sondajul este foarte semnificativă. 5.2.2 Corelaţia şi regresia monofactorială trigonometrică Funcţia de regresie are forma: Y = To + (S1sinx + C1cosx) +...+ (Sksinkx + Ckcoskx), (k ≤ n/2) în care avem 2k + 1 parametri de regresie necunoscuţi T0, S1, C1,..., Sk, Ck. Sistemul cu d = k + 1 ecuaţii normale cu necunoscutele Y0, S1, C1,..., Sk, Ck dă aceste valori astfel: T0 = MY S1 = 1 2 sin n i i i y x n ; C1 = 1 2 cos n i i i y x n ...................................................…… Sk = 1 2 sin n i i i y kx n ; Ck = 1 2 cos n i i i y kx n Pentru a aduce date de sondaj xi în careul trigonometric [0; 2], vom înlocui pe xi cu xci = 1 1 ( 1) ( ) 2 i n n n x x nx x x n după ce în prealabil valorile xi au fost reordonate în ordine crescătoare. Dacă xi [x1; xn], atunci xci = [0; 2] iar xcn = 2 Dacă xi = x1 + (I - 1)r, (xi sunt echidistante), atunci: xc1 = 2/n, xc2 = 2(2/n),..., xcn = n(2/n) = 2. Calculul raportului de corelaţie neliniar Rc se face cu formula (1) de mai sus. Testarea corelaţiei trigonometrice în populaţia din care provine sondajul adică verificarea ipotezei H: c = 0 faţă de alternativa H: c 0 se face cu relaţia (2) de mai sus în care F este 178 variabilă Fisher cu (d - 1; n - d) GL, unde d este numărul parametrilor de regresie necunoscuţi T0, S1, C1,..., Sk, Ck, deci d = 2k + 1, aşa că F renotat cu Ft are forma: Ft = [Rc 2 /(1 - Rc 2 )] : [2k/(n - 2k - 1)] (6) cu (2k; n - 2k - 1) GL. Prin regresia trigonometrică se ajustează date cu caracter periodic (ciclic) mai ales când x este timpul măsurat sezonier (în secunde, minute, ore, zile, săptămâni, luni, trimestre, semestre, ani, decenii, secole, milenii). De exemplu în cazul X = timpul, Y poate fi caracter meteorologic (precipitaţii, căldură, lumină, secete, inundaţii, îngheţuri, grindină etc.) sau geologic (cutremure, alunecări de teren) sau biologic (cicluri de reproducţie şi lactaţie, serii la îngrăşat pentru animale domestice, perioade de vegetaţie pentru plantele de cultură) sau economic (perioade de avânt economic şi de recesiune). Exemple: 1) X = timpul în luni Y = temperatura medie lunară a aerului în perioada 1901-1990 la staţia meteo Bucureşti- Filaret ( 0 C). Z = precipitaţiile medii lunare în perioada 1901-1990 la staţia meteo Bucureşti-Filaret (m 3 /ha). Date de sondaj: Luna X Temperatura Y Precipitaţii Z 1 -2.4 406 2 -0.3 340 3 5.2 374 4 11.6 444 5 16.9 681 6 20.6 860 7 22.8 578 8 22.3 512 9 17.8 391 10 11.8 411 11 5.5 485 12 0.4 411 a) Diagrama temperaturilor are forma: -5 0 5 10 15 20 25 0 5 10 15 Series1 179 Funcţia de regresie trigonometrică pentru temperatura medie lunară Y cu k = 2 armonice are coeficienţii: T0 = MY = 11.01667 o C S1 = - 6.5409; C1 = - 10.5161; S2 = - 0.4908; C2 = - 0.5500. Valorile echidistante xi, valorile din cerc xci = i.(2/12), valorile observate yi, cele aşteptate yai = T0 + [s1.sin(xci) + c1.cos(xci)] + [s2.sin(2.xci) + c2.cos(2.xci)] şi diferenţele yi = yi - yai sunt: xi Xci Yi yai yi 1 0.5235989 -2.4 -2.06 -0.34 2 1.047198 -0.3 -0.06 -0.24 3 1.570797 5.2 5.03 0.17 4 2.094395 11.6 11.31 0.29 5 2.617994 16.9 17.00 -0.10 6 3.141593 20.6 20.98 -0.38 7 3.665192 22.8 22.69 0.11 8 4.188791 22.3 21.79 0.51 9 4.712390 17.8 18.11 -0.31 10 5.235988 11.8 12.12 -0.32 11 5.759587 5.5 5.33 0.17 12 6.283186 0.4 -0.05 0.45 Variaţia totală este SPAY = 2381.04, variaţia reziduală este SPAY.X = 1.148, deci raportul de corelaţie trigonometrică dat de relaţia (1) va fi Rc = 0.999759 Raportul Fisher este dat de relaţia (6) şi pentru n = 12; k = 2 capătă valoarea: Ft = 3629 cu (4; 7) GL. Valorile critice Fisher din tabele 4, 5, 6 din Anexă, cu (4; 7) GL sunt F0.05 = 4.12; F0.01 = 7.85; F0.001 = 17.19 Cum Ft = 3629 F0.001 = 17.19, corelaţia trigonometrică în populaţia din care provine sondajul, este foarte semnificativă. b) Diagrama precipitaţiilor are forma: 0 100 200 300 400 500 600 700 800 900 1000 0 2 4 6 8 10 12 14 Series1 180 Funcţia de regresie trigonometrică pentru precipitaţiile medii lunare Z cu k = 5 armonice, are coeficienţii: T0 = 491.0834 m 3 /ha S1 = - 20.8963; C1 = - 145.0328; S2 = - 26.7024; C2 = 121.2500; S3 = 6.8334; C3 = - 40.6666; S4 = - 25.8362; C4 = 17.9168; S5 = 19.2296 ; C5 = - 38.8806 Valorile echidistante xi, valorile din cerc xci = i.(2/12), valorile observate zi, valorile aşteptate )].cos().sin(.[ 5 1 0 iji j ji xcjcxcjsTza şi diferenţele zi = zi - zai sunt date de tabelul de mai jos. xi xci zi zai zi 1 0.5235989 406 411.25 - 5.25 2 1.047198 340 334.75 5.25 3 1.570797 374 379.25 - 5.25 4 2.094395 444 438.75 5.25 5 2.617994 681 686.25 - 5.25 6 3.141593 860 854.75 5.25 7 3.665192 578 583.25 - 5.25 8 4.188791 512 506.75 5.25 9 4.712390 391 396.25 - 5.25 10 5.235988 411 405.75 5.25 11 5.759587 485 490.25 - 5.25 12 6.283186 411 405.75 5.25 Variaţia totală este SPAZ = 3142985, variaţia reziduală este SPAZ.X = 331, deci raportul de corelaţie trigonometrică dat de relaţia (6) este: Rc = 0.9999474 Raportul Fisher Ft dat de relaţia (1), pentru n = 12, k = 5 capătă valoarea Ft = 950.9893 cu (10; 1) GL. Valorile critice Fisher pentru (10; 1) GL extrase din tabelele 4, 5, 6 din Anexă, sunt F0.05 = 241.9; F0.01 = 6056; F0.001 = 605600 Cum F0.05 < Ft 181 Testarea ipotezei H: ρcp = 0 faţă de alternativa H: ρcp 0 adică a inexistenţei sau a existenţei trendului polinomial în populaţia din care face parte sondajul, se face cu raportul Fisher dat de relaţia (4): fp = [Rcp 2 /(1 - Rcp 2 ] : [m/(n – m - 1)], care are (m; n – m - 1) GL. Aici raportul de corelaţie polinomială Rcp are forma din relaţia (1): Rcp= .1 Y X Y SPA SPA , cu SPAY = 2 1 ( ) n i i y y ; SPAY.X = 2 1 ( ) n i i i y yap . b) Partea trigonometrică din a doua paranteză pătrată din membrul doi al funcţiei de regresie de mai sus, este periodică şi se numeşte parte ciclică sau sezonieră, coeficienţii T0, S1, C1,..., Sk, Ck se stabilesc ca în secţiunea 5.3.2 de mai sus, prelucrând datele reziduale (xi; ypi) de la regresia polinomială, unde ypi = yi - yapi, (1 i n). Valorile aşteptate ale regresiei trigonometrice sunt date de relaţia: yati = T0 + S1sin xi + C1cos xi +...+ Sksin kxi + Ckcos kxi. Diferenţele ypti = ypi – yati are forma ypti = yi - yapi - yati. Valorile aşteptate ale regresiei polinomial-trigonometrice sunt: yapti = yapi + yati, aşa că ypti = yi - yapti. Testarea ipotezei H: ρct = 0 faţă de alternativa H: ρct 0, adică a inexistenţei sau a existenţei părţii ciclice în populaţia din care face parte sondajul, se face cu raportul Fisher dat de relaţia (6) şi anume: Ft = [(Rct) 2 /(1 - (Rct) 2 )] : [2k/(n - 2k - 1)] cu (2k; n - 2k - 1) GL. Aici raportul de corelaţie trigonometrică are forma din relaţia (1) şi anume: Rct = .1 Y X Y SPAD SPAD , unde SPADY = 1 ( ) n i i i yp yp 2 şi SPADY.X = 2 1 ( ) n i i i yp yat Exemplul 1: X = timpul (zile trecute de la data fătării) Y = producţia zilnică de lapte de vacă (litri/zi) Date de sondaj: xi 28 56 84 112 140 168 196 224 252 280 308 yi 15 18 20 21 22 19 16 12 8 4 2 Graficul perechilor (x, y) are forma: 0 5 10 15 20 25 0 100 200 300 400 Series1 182 a) Regresia polinomială: Pentru funcţia polinomială alegem gradul m = 3, deci y = B0 + B1x + B2x 2 + B3x 3 . Sistemul de 4 ecuaţii normale are ca soluţii coeficienţii de regresie : B0 = 7.61776; B1 = 0.28246; B2 = - 0.00166; B3 = 0.0000022. Valorile echidistante xi, valorile în cerc xci = i.(2/11), valorile observate yi, valorile aşteptate yapi = B0 + B1.xi + B2xi 2 + B3xi 3 ale regresiei polinomiale şi diferenţele ypi = yi - yapi se găsesc în tabelul de mai jos. Avem SPAY = 478.182; SPAY.X = 5.481, deci Rcp = 0.994252 cu (3; 7) GL. Valoarea Fisher este Fp = 201.22, iar valorile critice din tabelele 4, 5, 6 din Anexă, pentru (3; 7) GL sunt: F0.05 = 4.35; F0.01 = 8.45; F0.001 = 18.77 Cum Fp = 201.22 F0.001 = 18.77, corelaţia polinomială este foarte semnificativă în populaţia din care provine sodajul. b) Regresia trigonometrică: Perechile de valori (xi; ypi) din tabelul de mai jos se prelucrează cu regresia trigonometrică cu k = 2 armonice, deci: yp = S0 + (S1sinx + C1cosx) + (S2sin2x + C2cos2x.) Conform secţiunii 5.3.2 de mai sus, avem coeficienţii de regresie trigonometrică: T0 = 0.00000217 S1 = -0.0548; C1 = - 0.2158; S2 = 0.3089; C2 = 0.7362; Valorile aşteptate ale regresiei polinomial-trigonometrice: yapti = [B0 + B1.xi + B2xi 2 + B3xi 3 ] + [T0 + s1.sin(xci) + c1.cos(xci) + s2.sin(2.xci) + c2.cos(2.xci)] şi diferenţele ypti = yi - yapti se găsesc în tabelul de mai jos: xi yi xci yapi ypi Yapti ypti 28 15 0.5711987 14.27 0.73 14.65 0.35 56 18 1.142397 18.61 - 0.61 18.22 - 0.22 84 20 1.713596 20.92 - 0.92 20.10 - 0.10 112 21 2.284795 21.49 - 0.49 21.18 - 0.18 140 22 2.855994 20.62 1.38 21.27 0.73 168 19 3.427193 18.60 0.40 19.61 - 0.61 196 16 3.998391 15.71 0.29 16.09 - 0.09 224 12 4.569590 12.24 - 0.24 11.71 0.29 252 8 5.140789 8.49 - 0.49 7.74 0.26 280 4 5.711987 4.75 - 0.75 4.62 - 0.62 308 2 6.283186 1.30 0.70 1.82 0.18 Avem SPADY = 5.481; SPAY.X = 1.702, deci Rct = 0.8302674 cu (4; 6) GL. Valoarea Fisher este Ft = 3.328, iar valorile critice din tabelele 4, 5, 6 din Anexă, pentru (4; 6) GL sunt F0.05 = 4.53; F0.01 = 9.15; F0.001 = 21.92. Cum Ft = 3.328 F0.05 = 4.53, corelaţia trigonometrică este nesemnificativă în populaţia din care provine sondajul. Media de sondaj de evoluţie este: 1 2 1... 2 2 14.85 litri lapte/zi 1 n n c YY Y Y MY n 183 Exemplul 2: X = timpul (zile trecute de la data ecloziunii ouălelor de găină) Y = greutate pui broiler (grame) Date de sondaj: xi 0 7 14 21 28 35 42 49 56 yi 21 92 213 378 580 791 1005 1220 1432 Graficul perechilor (x, y) este: a) Regresia polinomială: Luăm m = 3, deci: B0 = 19.74748; B1 = 6.16912; B2 = 0.63531; B3 = - 0.0052885 Valorile echidistante xi, valorile în cerc xci = i.(2/9), valorile observate yi, valorile aşteptate yapi = B0 + B1.xi + B2xi 2 + B3xi 3 ale regresiei polinomiale şi diferenţele ypi = yi - yapi se găsesc în tabelul de mai jos. SPAY = 2057641; SPAY.X = 108; Rcp = 0.9999738 cu (3; 5) GL; Fp = 31804.948*** F0.05 = 5.41; F0.01 = 12.06; F0.001 = 33.20 < Fp Corelaţia polinomială în populaţia din care provine sondajul este foarte semnificativă. b) Regresia trigonometrică: Luăm k = 2 armonice, deci: T0 = - 0.00007354; S1 = -0.4810; C1 = -0.7903; S2 =4.0881; C2 = 1.6168 Valorile aşteptate ale regresiei polinomial-trigonometrice: yapti = [B0 + B1.xi + B2xi 2 + B3xi 3 ] + [T0 + s1.sin(xci) + c1.cos(xci) + s2.sin(2.xci) + c2.cos(2.xci)] şi diferenţele ypti = yi - yapti se găsesc în tabelul de mai jos: SPAy = 107.72; SPAy.x = 16.90; Rct = 0.9182102 cu (4; 4) GL; Ft = 5.374; F0.05 = 9.28; F0.01 = 29.46; F0.001 = 141.10 Ft < F0.05 deci corelaţia trigonometrică este nesemnificativă în populaţia din care provine sondajul. Media de sondaj de evoluţie este: 0 200 400 600 800 1000 1200 1400 1600 0 10 20 30 40 50 60 Series1 184 Tabelul final cu rezultate este: xi xci yi yapi ypi yapti ypti 0 0.6981318 21 19.75 1.25 23.14 -2.14 7 1.396264 92 92.25 -0.25 91.52 0.48 14 2.094395 213 216.12 -3.12 211.75 1.25 21 2.792527 378 380.49 -2.49 379.68 -1.68 28 3.490659 580 574.47 5.53 579.25 0.75 35 4.188791 791 787.18 3.83 790.72 0.28 42 4.886923 1005 1007.72 -2.72 1005.14 -0.14 49 5.585055 1220 1225.22 -5.22 1221.18 -1.18 56 6.283186 1432 1428.80 3.20 1429.62 2.38 5.3 CORELAŢII ŞI REGRESII POLIFACTORIALE 5.3.1 Corelaţia şi regresia polifactorială liniară pentru cazul a 2 + 1 caractere Fie X, Y, Z trei caractere ale exemplarelor unei populaţii. Efectuăm un sondaj de n exemplare din populaţie şi obţinem triplete de valori (xi, yi, zi), (i = 1,…, n). Reprezentând în spaţiul R3 faţă de sistemul de axe 0xzy cele n triplete se vor corespunde cu n puncte în spaţiu care vor forma un nor. După forma acestui nor, funcţia de regresie va fi liniară (norul are formă turtită ca o scoică) sau neliniară (norul are altă formă decât în cazul liniar). Din datele de sondaj (xi, yi, zi), (i = 1,…, n) calculăm următorii indicatori statistici de sondaj: a) Vectorul mediilor: , ,X Y Z unde: 1 1 1 , , i i iX MX x Y MY y Z MZ z n n n b) Matricea simetrică de covarianţă: 2 XY XZ 2 YZ 2 ZX ZY S S S S S S S S S S X YX Y Z unde varianţele sunt: 2 2 2 21 1 1S = ; S = ; S = -1 -1 -1 X i Y i Z ix X y Y z Z n n n iar covarianţele sunt: 2 2 21 1 1S = ; S = ; S = ; -1 -1 -1 XY i i XZ i i YZ i ix X y Y x X z Z y Y z Z n n n c) Matricea simetrică de corelaţie liniară: 1 1 1 XY XZ YX YZ ZX ZY R R T R R R R unde XY XZ YZXZ YZ X Y X Z Y Z S S S -1;1 ; R -1;1 ; R -1;1 S S S S S S XYR Funcţia de regresie liniară multiplă are forma: 0 1 2B B BZ X Y unde coeficienţii de regresie liniară multiplă B0, B1, B2 sunt daţi de: 1 2 1... 2 2 625.7 g 1 n n c YY Y Y MY n 185 Teorema 5.6 1) Planul de regresie 0 1 2B B BZ X Y are coeficienţii B1, B2 ca soluţii ale sistemului liniar: 2 1 2 2 1 2 YZ B S B S S B S +B S S X XY XZ XY Y iar 0 1 2B B BZ X Y Dacă regresia este fără termen liber (B0 = 0), B1 şi B2 sunt soluţiile sistemului liniar: 2 1 2 2 1 2 B B B B i i i i i i i i i i x x y x z x y y y z 2) Lăţimea fâşiei de încredere este 2 . ; ( 3)GL 2 2 1 1 S 3 Z XY Z n n R t n n unde .Z XYR este definit în teorema 5.7 Demonstraţie: 1) Dacă regresia este cu termen liber (B0 = 0) vom minimiza variaţia reziduală cu necunoscutele B0, B1, B2: 2 2 1 1 1 2 1 0 1 2 0SPA B B B B B B minim.Z XY n n nz x y z x y Anulând derivatele parţiale ale lui Z.XYSPA în raport cu B1, B2, B0, obţinem sistemul de ecuaţii normale cu necunoscutele B1, B2, B0: 2 1 2 0 2 1 2 0 1 2 0 B B B B B B B B B i i i i i i i i i i i i i i i x x y x x z x y y y y z x y n z Din a 3-a ecuaţie avem: 0 1 2B B B i i iz x y n n n şi înlocuim în primele două ecuaţii pe B0, după împărţirea ambilor membri cu n - 1 obţinem: 2 1 2 2 1 2 B S B S S B S +B S S X XY XZ XY Y YZ de unde rezultă B1 şi B2. Dacă regresia este fără termen liber (B0 = 0) vom minimiza variaţia reziduală cu necunoscutele B1 şi B2: Anulând derivatele parţiale ale lui Z.XYSPA în raport cu B1 şi B2, găsim sistemul de ecuaţii normale cu necunoscutele B1 şi B2: 2 1 2 2 1 2 B B B B i i i i i i i i i i x x y x z x y y y z Prin rezolvarea acestui sistem găsim pe B1 şi B2. 2) Avem M(Z - B0 - B1X - B2Y) = M(Z) - B0 - B1M(X) - B2M(Y) = 0 şi 2 . 0 1 2V Z-B -B X-B Y Z XY n deci variabila normată 0 1 2 . Z-B -B X-B Y Z XY n este variabilă N(0, 1). Variabila 2 . 2 . 3 SZ XY Z XY n este variabila hi pătrat cu n - 3 GL, independentă de variabila N(0, 1) notată cu 0 1 2 . Z-B -B X-B Y Z XY n . De aici rezultă că: 2 2 Z.XY 1 1 1 2 1 1 2SPA B B B B minim.n n nz x y z x y 186 20 1 2 . 0 1 2 2 . .. Z-B -B X-B Y 3 S Z-B -B X-B Y : S 3 Z XY Z XY Z XYZ XY n t n n n este variabilă Student cu n - 3 GL. De aici rezultă: 2 2 P 1t t t adică intervalul de încredere pentru 0 1 2Z-B -B X-B Y : 0 1 2 0 1 2 2 2 P Z B +B X+B Y- ;B +B X+B Y+ unde . ;( 3)GL 2 2 SZ XY n t n este diferenţa limită. Ţinând cont de demonstraţia teoremei 5.2 avem: 2 2 2. .2 . . 1 SPA 1 1 SSPA S 3 3 3 Z XY Z Z XY ZZ XY Z XY R R n n n n deci avem: 2 . ; ( 3)GL 2 2 1 1 S 3 Z XY Z n n R t n n Graficul planului de regresie cu fâşia de încredere 2 are forma: Aici planele de regresie P +, P şi P- au ecuaţiile: + 0 1 2 2 0 1 2 - 0 1 2 2 P : Z B +B X+B Y+ P : Z B +B X+B Y P : Z B +B X+B Y- Q.E.D. Teorema 5.7 1) Coeficientul de corelaţie liniară multiplă total este dat de relaţia: 2 2 . 2 2 1 ZX ZY ZX ZY XY Z XY XY R R R R R R R Coeficienţii de corelaţie liniară multiplă parţiali sunt daţi de relaţiile: . . 2 2 2 2 ; R 1 1 1 1 ZX ZY XY ZY ZX XY ZX Y ZY X ZY XY ZY XY R R R R R R R R R R R z y x P + P -P z y x 0 187 2) Aporturile variaţiei X, Y, interacţiunea X Y şi E la variaţia lui Z sunt: 2 .X,Y 2 2 X .X,Y Y 2 2 Y .X,Y X 2 2 2 X Y X Y .X,Y 2 E .X,Y A ; A A A ; A A A ; A A A A ; A 1 A 1 Z XY Z XY ZY Z XY ZX ZX ZY Z XY Z XY R R R R R R R R R 3) 2 . X,Y 2 . 2 F : 31 Z XY Z XY R nR este variabilă Fisher cu [2; n - 3] GL . . X Y 2 2 . . 2 şi 2 1 1 ZX Y ZY X ZX Y ZY X R R t n t n R R sunt variabile Student cu n - 2 GL. Demonstraţie: 1) B0, B1, şi B2 sunt daţi de teorema 5.6, pct. 1); se verifică prin calcul relaţia: 2 2 2 1 2 0 1 2 0 1 1 1 B +B B B B -B n n n j j j j j j j j j z Z x y Z z x y adică .SPA SPA SPA cu -1 2 ( - 3) GLZ R Z XY n n (1) Definim coeficientul de corelaţie liniară multiplă total: . . SPA 1 SPA Z XY Z XY Z R (2) deci conform relaţiei (1) avem: 2 1 2 0 . 2 B +B BSPA SPA j j R Z XY Z j x y Z R z Z Înlocuind pe B1, B2 şi B0 daţi de teorema 5.1 pct. 1) în această expresie, rezultă prin calcul: 2 2 . 2 2 1 ZX ZY ZX ZY XY Z XY XY R R R R R R R . Fie * XX XY XZ YX YY YZ ZX ZY ZZ T T T T T T T T T T matricea adjunctă a matricii de corelaţie T, formată cu complemenţii algebrici ai elementelor din T Rezultă . det T 1Z XY ZZ R T (3) Dacă B1, B2 şi B0 sunt daţi de teorema 1.1 punctul 1), se verifică prin calcul relaţia (cu Y = constant): 2 2 2 1 2 0 0 1 2 0 0B B B B B Bi i i iz Z x y Z z x y (4) . .SPA SPA SPA cu - 2 1 ( - 3) GLZ Y RX Z XY n n Definim coeficientul de corelaţie liniară multiplă parţial (când Y = constant): . . . SPA 1 SPA Z XY ZX Y Z Y R (5) 188 deci conform relaţiei (3) avem: 2 1 2 0 0 . 2 . B +B BSPA SPA i RX ZX Y Z Y i x y Z R z Z şi înlocuind pe B1, B2 şi B0 cu valorile lor din teorema 11.1 punctul 1), găsim prin calcul: 2 . . 2 2 2 1 1 1 1 1 Z XY ZX ZY XY ZX Y ZY ZY XY R R R R R R R R (6) Cu ajutorul complemenţilor algebrici din T* avem: . YZ ZX Y YY ZZ T R T T Observăm că: 2 2 2. .1 1 1Z XY ZY ZX YR R R de unde rezultă: . . . . 1 1 0 ZX Y Z XY ZX Y Z XY ZY R R R R R În mod analog definim coeficientul de corelaţie liniară multiplă parţial: (când X = constant): . . . SPA 1 SPA Z XY ZY X Z X R care după calcule capătă forma: 2 . . 2 2 2 1 1 1 1 1 Z XY ZY ZX XY ZY X ZX ZX XY R R R R R R R R Cu ajutorul complemenţilor algebrici din L* avem: . XZ ZY X XX ZZ L R L L Observăm că: 2 2 2. .1 1 1Z XY ZX ZY XR R R de unde rezultă: . . . . 1 1 0 ZY X Z XY ZY X Z XY ZX R R R R R 2) Ţinând cont de relaţia (2), relaţia (1) se scrie: 2 2. .SPA SPA 1 SPAZ Z XY Z Z XY ZR R sau 2 2. .1 1Z XY Z XYR R aşa că: 2 2 . E .X,Y A ; A 1Z XY Z XYR R . Ţinând cont de relaţia 2.SPA 1 SPAZ Y ZY ZR precum şi de relaţiile (2) şi (4), relaţia (3) devine: 2 2 2 2. .1 SPA 1 SPA 1 SPAZY Z ZX Y ZY Z Z XY ZR R R R adică: 2 2 2 2. .1 1 1ZY ZX Y ZY Z XYR R R R deci 2 2 2 2 X . . (Y)X,Y A 1 A AZX Y ZY Z XY ZYR R R R În mod analog rezultă relaţia: 2 2 2 2 Y . . X,Y X A 1 A AZY X ZX Z XY ZXR R R R În fine: 2 2 2 2 X Y . E .X,Y X Y X,Y A A A A şi A 1 A 1ZY ZY Z XY Z XYR R R R 3) Avem: varianţa totală: 2 2 SPAS GL 1 i Z Z Z z Z n , varianţa regresiei totale: 2 1 2 02 B B BSPA S GL 2 i i R R R x y Z 189 şi varianţa reziduală: 2 1 2 02 . . . -B B BSPA S GL 3 i i iZ XY Z XY Z XY z x y n . Rezultă variabila Fisher 2 X,Y 2 . S F S R Z XY cu (2; n - 3) GL. Dar 22 .2 2. . . 1 SPASPA SPASPA S şi S 2 2 3 3 Z XY ZZ XY Z Z XYR R Z XY RR n n aşa că: 2 . X,Y 2 . 2 F : 31 Z XY Z XY R nR cu (2; n - 3) GL Avem: varianţa parţială (când Y = constant): 2 2 . . . SPA S GL 2 i Z Y Z Y Z Y z Z n varianţa regresiei parţiale după X (când Y = constant): 2 1 2 0 02 B B BSPA S GL 1 i RX RX RX x y Z şi varianţa reziduală: 2 1 2 0 02 . . . -B B BSPA S GL 3 i iZ XY Z XY Z XY z x y n . Rezultă variabila Fisher 2 X 2 . S F S RX Z XY cu (1; n - 3) GL. Dar: 22 . .2 2. . . . 1 SPASPA SPASPA S şi S 1 1 3 3 ZX Y Z YZX Y Z Y Z XYRX RX Z XY RR n n aşa că: 2 . X 2 . 1 F : 31 ZX Y ZX Y R nR cu (1; n - 3) GL, deci: .X 2 . 3 1 ZX Y ZX Y R t n R este variabilă Student cu n - 3 GL. În mod analog .Y 2 . 3 1 ZY X ZY X R t n R este variabilă Student cu n - 3 GL. Q.E.D. Între coeficienţii de corelaţie parţiali şi coeficienţii de regresie liniară multiplă există relaţiile: . .1 . 2 . . . S S B ; B S S Z Y Z X ZX Y ZY X X Y Y X R R , care generalizează relaţia de la corelaţia liniară simplă între X şi Y: 1 S B S Y X R . Ecuaţia planului de regresie se poate scrie şi sub forma: 1 2B BZ Z X X Y Y . În continuare vom aborda testele pentru corelaţia liniară multiplă în populaţie. 1) Coeficientul de corelaţie liniară multiplă total de sondaj RZ.XY este variabil de la un sondaj la altul în jurul coeficientului de corelaţie total necunoscut ρZ.XY din populaţie. Testul ipotezei H: ρZ.XY = 0 faţă de alternativa .H : 0Z XY se face pe baza teoremei 5.2 punctul 3) astfel: 190 Calculăm 2 . X,Y 2 . 2 F : 31 Z XY Z XY R nR cu (2; n - 3) GL. Din tabelele 4, 5, 6 din Anexă, pentru (2; n - 3) GL extragem valorile critice F0.05; F0.01; F0.001. Decizia asupra ipotezei H se ia astfel: dacă F(X,Y) < F0.05 ipoteza H se acceptă: ρZ.XY = 0 deci Z şi perechea (X, Y) nu sunt corelate liniar în populaţie. În caz contrar avem cazurile: a) F0.05 ≤ F(X,Y) < F0.001 deci Z şi (X, Y) sunt corelate liniar semnificativ. b) F0.01 ≤ F(X,Y) < F0.001 deci Z şi (X, Y) sunt corelate liniar distinct semnificativ. c) F(X,Y) ≤ F0.001 deci Z şi (X, Y) sunt corelate liniar foarte semnificativ. 2) Coeficienţii de corelaţie liniară multiplă parţiali de sondaj RZX.Y şi RZY.X sunt variabili de la un sondaj la altul în jurul coeficienţilor de corelaţie parţiali necunoscuţi ρZX.Y şi respectiv ρZY.X din populaţie. Testul ipotezei H: ρZX.Y = 0 faţă de alternativa .H : 0ZX Y se face pe baza teoremei 5.2 punctul 3) astfel: se calculează . X 2 . 3 1 ZX Y ZX Y R t n R cu n - 3 GL. Din tabela 2 din Anexă, pentru n - 3 GL extragem valorile critice t0.025; t0.0025; t0.0005 Decizia asupra ipotezei H se ia astfel: dacă tX < t0.025, ipoteza H se acceptă: ρZX.Y = 0, deci Z şi X nu sunt corelate liniar în populaţie pentru Y = constant. În caz contrar avem cazurile: a) t0.025 ≤ tX < t0.0025 deci Z şi X sunt corelate liniar semnificativ când Y = constant b) t0.0025 ≤ tX < t0.0005 deci Z şi X sunt corelate liniar dinstinct semnificativ când Y = constant c) tX ≥ t0.0005 deci Z şi X sunt corelate liniar foarte semnificativ când Y = constant Decizia asupra ipotezei .H : 0ZY X faţă de alternativa .H : 0ZY X se ia în mod asemănător cu ajutorul lui .Y 2 . 3 1 ZY X ZY X R t n R cu (n - 3) GL. Exemplu: X = lungime carcasă porci (cm) Y = grosime strat grăsime la greabăn (cm) Z = greutate în viu porci (kg) Date de sondaj de la n = 10 porci: xi 142 141 142 143 146 140 142 143 142 144 yi 3.8 3.3 4 4.1 4.4 3 3.9 4 3.7 4.2 zi 110 109 112 114 118 106 111 112 110 115 Să se calculeze şi să se testeze RZ.XY, RZX.Y, RZY.X, să se alcătuiască diagrama aporturilor şi să se calculeze planul de regresie 1 2 2.5%B Bz x y (regresie fără termen liber: B0 = 0) şi să se efectueze prognoza lui Z pentru X = 150 cm; Y = 45 cm. Soluţie: 1) Vectorul mediilor este 142.5 cm; 3.84 cm; 111.7 KgX Y Z Matricea de covarianţă este: 2 2 YX 2 S 2.722 S 0.622 S 5.389 S S 0.622 S 0.176 S 1.324 S 5.389 S 1.324 S 11.344 X XY XZ Y YZ ZX ZY Z 191 Matricea de corelaţie liniară: 1 0.8989 0.9697 0.8989 1 0.9373 0.9697 0.9373 1 XY XZ YX YZ ZX ZY R R T R R R R Matricea de covarianţă S se calculează în EXCEL astfel: Înscriem datele xi în celulele A1:A10 din coloana A, datele yi în celulele B1:B10 din coloana B, şi datele zi în celulele C1:C10 din coloana C, din foaia de calcul Nr.1. Deschidem fereastra TOOLS în care activăm opţiunea DATA ANALYSIS. Aici activăm opţiunea COVARIANCE în care declarăm celulele A1:A10, B1:B10 şi C1:C10 în care se găsesc datele. Matricea de covarianţă S se va obţine fie în foaia de calcul Nr. 2, fie tot în foaia de calcul Nr. 1 unde se găsesc datele, prin declararea ca celule de rezultate a altor celule decât cele din blocul de date A1:C10. Matricea de corelaţie liniară T se obţine exact ca şi S, dacă în DATA ANALYSIS activăm opţiunea CORRELATION. 2) Coeficientul de corelaţie multiplă total: 2 2 . 2 2 1 ZX ZY ZX ZY XY Z XY XY R R R R R R R devine . 0.9812Z XYR 2 . X,Y 2 . 2 F : 31 Z XY Z XY R nR devine X,YF 90.47 cu (2; 7) GL Din tabelele 4, 5, 6 din Anexă, avem F0.05 = 4.74; F0.01 = 9.55; F0.001.= 21.69 pentru (2; 7) GL. Avem F(X,Y) = 90.47 > F0.001 = 21.69 deci corelaţia liniară multiplă între greutatea în viu a porcilor şi perechea de factori formată din lungimea carcasei şi grosimea stratului de grăsime la greabăn, este foarte semnificativă deci ***. 0.9812Z XYR Coeficienţii de corelaţie multiplă parţiali: . . 2 2 devine R 0.8328 1 1 ZX ZY XY ZX Y ZX Y ZY XY R R R R R R . . 2 2 devine R 0.4297 1 1 ZY ZX XY ZY X ZY X ZX XY R R R R R R . X X 2 . 3 devine 3.98 cu 7 GL. 1 ZX Y ZX Y R t n t R . Y Y 2 . 3 devine 1.26 cu 7 GL. 1 ZY X ZY X R t n t R Din tabela 2 din Anexă, pentru 7 GL găsim: t0.025 = 2.36; t0.005 = 3.50; t0.0005.= 5.41. Cum t0.005 = 3.50 < tX < t0.005 = 5.41 corelaţia liniară parţială între greutatea în viu a porcilor şi lungimea carcasei când grosimea stratului de grăsime este constantă, este distinct semnificativă deci **. 0.8328ZX YR Cum tY < t0.025 = 2.36, corelaţia liniară între greutatea în viu a porcilor şi grosimea stratului de grăsime când lungimea carcasei este constantă, este nesemnificativă deci . 0.4297ZY XR 192 Aporturi: 2 2 .X,Y 2 2 X . 2 2 Y . X Y X YX,Y E X,Y A 0.98 96.3% A 8.4% A 2.2% A A A A 85.7% A 1 A 3.7% Z XY Z XY ZY Z XY ZX R R R R R Variaţia totală a greutăţii în viu a porcilor fiind considerată 100%, 8.4% din ea se datorează variaţiei lungimii carcasei, 2.2% din ea se datorează variaţiei grosimii stratului de grăsime, 85.7% din ea se datorează variaţiei interacţiunii între lungimea carcasei şi grosimea stratului de grăsime iar restul de 3.7% se datorează variaţiei altor factori necontrolaţi numiţi Eroare care au fost relativ constanţi pentru cele 10 exemplare din sondaj. 3) Planul de regresie: 1 2B BZ X Y (regesia este fără termen liber: B0 = 0) B1 şi B2 sunt soluţiile sistemului liniar: 2 1 21 2 2 1 21 i 2 203087 B 5477.6 B 159221B B adică 5477.6 B +149.04 B 4301.2B x +B i i i i i i i i i x x y x z y y y z de unde: 1 0.6441 Kg creştere greutate porc B = 1 cm creştere lungime carcasă când grosimea stratului de grăsime este constantă. 2 5.1858 Kg creştere greutate porc B = 1 cm creştere lungime carcasă când lungimea carcasei este constantă Lăţimea fâşiei de încredere este: 2 . ; ( 3)GL 2 2 1 1 S 3 Z XY Z n n R t n n Pentru = 5% din tabela 2 din Anexă, avem t0.005 = 2.36 pentru 7 GL aşa că 2.5% = 0.55 Kg. Planul de regresie cu fâşia de încredere va fi: 0.6441 5.1858 0.55Z X Y . Prognoză pentru X = 70 cm; Z = 4.5 cm: Valoarea aşteptată a lui Z va fi: 119.45 Kg (Minima) Za 0.6441 70 5.1858 4.5 0.55 119.95 Kg (Media) 120.50 Kg (Maxima) La o lungime a carcasei de 70 cm şi la o grosime a stratului de grăsime de 4.5 cm, ne aşteptăm ca greutatea în viu a tuturor porcilor din care provin cei 10, să fie cuprinsă între 119.45 Kg şi 120.50 Kg cu o încredere de 95%. Există semiriscul 2.5% ca această greutate să fie mai mică de 119.45 Kg atunci când cei 10 porci ai sondajului au fost aleşi cei mai performanţi ca greutate. În mod simetric, există semiriscul 2.5% ca această greutate să fie mai mare ca 120.50 Kg atunci când cei 10 porci ai sondajului au fost aleşi cel mai puţin performanţi ca greutate. În tabelul de mai jos se găsesc valorile xi, yi, valorile aşteptate zi, valorile aşteptate zai şi diferenţele zi = zi – zai: 193 xi yi zi zai zi 62 3.8 110 111.173 -1.173 61 3.3 109 107.936 1.064 62 4 112 112.210 -0.210 63 4.1 114 113.373 0.627 66 4.4 118 116.861 1.139 60 3 106 105.736 0.264 62 3.9 111 111.692 -0.692 63 4 112 112.854 -0.854 62 3.7 110 110.655 -0.655 64 4.2 115 114.536 0.464 O sinteză elegantă a acestor calcule este dată în foaia de calcul C3P1.XLS pentru regresii cu termen liber şi în foaia de calcul C3P10.XLS pentru regresii fără termen liber, aflate în Anexă. 5.3.2 Corelaţia şi regresia polifactorială liniară pentru cazul a m + 1 caractere Fie X(1), X(2),..., X(m), Y notaţiile pentru m + 1 caractere ale exemplarelor unei populaţii. Efectuăm un sondaj de n ansambluri de valori (x1i, x2i,..., xmi; yi); (i = 1,…, n). Din aceste date calculăm următorii indicatori statistici de sondaj: a) Vectorul mediilor: 1 ,..., ;mX X Y unde =1 =1 1 1 = ; = n n n n i ij i i i X x Y y b) Matricea simetrică de covarianţă de ordin m + 1: 1 1 2 1 1 2 1 2 2 2 1 2 1 2 2 2 2 2 S S ...... S S S S ...... S S S ...... ...... ...... ...... ...... S S ...... S S S S ...... S S n n n n n n n X X X X X X Y X X X X X X Y X X X X X X Y YX YX YX Y unde varianţele sunt: 2 2 2 2 1 1 1 1 S = ; S = -1 -1i n n X ij i Y i j i x X y Y n n iar covarianţele sunt: 2 2 1 1 1 1 S = ; S = -1 -1i j i n n X X ik i jk j X Y ij i j k j x X x X x X y Y n n c) Matricea simetrică de corelaţie liniară de ordin m + 1: 1 2 1 1 2 1 2 2 1 2 1 2 1 ...... 1 ...... ...... ...... ...... ...... ...... ...... 1 ...... 1 m m m m m m X X X X X Y X X X X X Y X X X X X Y YX YX YX R R R R R R T R R R R R R Funcţia de regresie liniară multiplă are forma: 0 1 1B B ... Bm mY X X . Coeficienţii B0, B1,..., Bm se obţin prin metoda celor mai mici pătrate: 194 Variaţia reziduală 1 2 . ,..., 0 1 1 1 SPA B B ... B minim m n Y X X j j m mj j y x x Anulând derivatele parţiale ale variaţiei reziduale în raport cu B1,..., Bm, B0 obţinem: sau: 2 1 1 1 0 1 1 1 1 1 1 2 1 1 0 1 1 1 1 1 1 B ... B B ................................................................................ B ... B B B ... B n n n n j m j mj j j j j j j j n n n n mj j m mj mj mj j j j j j j m mj j x x x x x y x x x x x y x x 0 1 1 1 B n n n j j j n y (6) Acesta este sistemul de m + 1 ecuaţii normale al regresiei liniare multiple cu m + 1 necunoscute B0, B1,…, Bm. Fie matricea cu n linii şi m+1 coloane: 11 21 1 1 2 ...... 1 X= ...... ...... ...... ...... ...... ...... 1 m n n mn x x x x x x şi fie vectorul-coloană al necunoscutelor 1 0 B m B B B respectiv vectorul-coloană al termenilor liberi 1 Y n y y Sistemul (6) capătă forma matricială: T TX X B=X Y (7) Dacă rang TX X 1m adică Tdet X X 0 sistemul (7) are soluţia matricială: 1 T TB= X X X Y Sistemul (6) se poate aduce la forma: 1 1 2 1 1 1 2 2 1 2 2 1 2 0 1 1 B S B S ... B S S ........................................................ B S B S ... B S S B B ... B m m m m m X X X m X X X Y X X X X m X X Y m mY X X (8) Pentru aceasta, se împarte ultima ecuaţie din (6) cu n adică: 1 0 1 1 1 0 1 1 1 0 1 1 1 2 ( ... ) 0 ................................................................ 2 ( ... ) 0 2 ( ... ) 0 n j j j m mj j n mj j j m mj j n j j m mj j x y B B x B x x y B B x B x y B B x B x 195 1 1 0 1 1 1 1 1 1 B ... B B n n n j m mj j j j j x x y n n n (9) Ecuaţia (9) se înmulţeşte cu 1 1 n j j x în ambii membri şi rezultatul se scade din prima ecuaţie a sistemului (6), obţinând prima ecuaţie a sistemului (8),….., ecuaţia (9) se înmulţeşte cu 1 n mj j x în ambii membri şi rezultatul se scade din a m - a ecuaţie a sistemului (6), obţinând a m - a ecuaţie a sistemului (8). În cazul regresiei fără termen liber (B0 = 0) sistemul de ecuaţii normale are forma: 2 1 1 1 1 1 1 1 2 1 1 1 1 1 B ... B .............................................................. B ... B n n n j m j mj j j j j j n n n mj j m mj mj j j j j x x x x y x x x x y (10) Matricea X0 are m linii şi n coloane, având forma: 11 21 1 0 1 2 ...... X = ...... ...... ...... ...... ...... m n n mn x x x x x x Cu vectorii-coloană 1 B m B B ; 1 Y n y y sistemul (10) capătă forma matricială: T T 0 0 0X X B=X Y şi pentru T0 0det X X 0 , acest sistem are soluţia matricială: 1 T T 0 0 0B= X X X Y Ca şi în demonstraţia teoremei 5.1, se arată că lăţimea fâşiei de încredere este: 1 2 ,..., ; ( 1) GL 2 2 1 1 1 mY X X Y n m n R S t n n m (11) unde 1 2 ... mY X X R este definit mai jos în relaţia (13). Fie 1,..., ; 1ki i m T valoarea minorului de ordin k + 1 din matricea de corelaţie liniară R şi fie 1,..., ki i T valoarea complementului algebric de ordin k din minorul precedent, format cu liniile şi coloanele i1, , ik, unde 1,..., 1,2,...,ki i m . Conform relaţiilor (2) şi (3) definim coeficientul de corelaţie liniară multiplă total între Y şi 1 ,..., ki i X X astfel: 196 11 1 1 ,..., ,..., ; 1 ,..., ,..., SPA 1 1 SPA i i kk i ik k Y X X i i m Y X X Y i i T R T (12) În particular pentru k = m avem coeficientul de corelaţie liniară multiplă total între Y şi toate caracterele X1,…, Xm: 1 1 1,..., ; 1,..., ,..., 1,..., SPA 1 1 SPA m m m mY X X Y X X Y m T R T (13) Ca şi în demonstraţia teoremei 5.7, testarea coeficientului de corelaţie liniară total în populaţie adică verificarea ipotezei 1 ,...,H : 0i ikY X X faţă de alternative 1 ,...,H : 0i ikY X X se face cu variabila Fisher: 1 1 1 2 ,..., ,..., 2 ,..., F : cu ; 1 GL 1 1 i ik k i ik Y X X i i Y X X R k k n k R n k (14) (k = 1, 2,…, m). Conform relaţiei (5) din demonstraţia teoremei 1.7, definim coeficientul de corelaţie liniară multiplu parţial între Y şi 1 ,..., ki i X X când restul de caractere 1 ,..., m kj j X X sunt constanţi: 1 1 1 1 1 1 2 ,..., ,..., ,..., ,..., 2 ,..., ,..., SPA 1 1 1 SPA 1 m m i i j jk m k j j j jm k m k Y X X Y X X YX X X X Y X X Y X X R R R (15) Ca şi în demonstraţia teoremei 5.7, testarea coeficientului de corelaţie liniară parţial în populaţie adică verificarea ipotezei: 1 1 ,..., ,...,H : 0i i j jk m kYX X X X faţă de alternativa 1 1 ,..., ,...,H : 0i i j jk m kYX X X X se face cu variabila Fisher: 1 1 1 1 1 2 ,..., ,..., ,..., 2 ,..., ,..., F : 1 1 cu ; 1 GL i i j jk m k k i i j jk m k YX X X X i i YX X X X R k R n m k n m ; (k = 1, 2,…, m) (16) În continuare vom calcula aporturile variaţiei caracterelor X1,…, Xm şi interacţiunii acestora la variaţia lui Y stabilite de ENE DUMITRU în lucrările 42 şi 48 (vezi Bibliografia). a) Calculăm aporturile totale ale variaţiei caracterelor 1 ,..., ki i X X la variaţia lui Y cu relaţia: 11 2 ,...,,..., A i iki ik Y X XX X R (17) Pe baza acestei relaţii calculăm 2m - 1 aporturi totale: 1Cm aporturi ale câte unui factor: 1 A ,...,A mX X 197 2Cm aporturi ale ansamblurilor a 2 factori: 1 2 1; ; A ,...,A ................................ m mX X X X Ckm aporturi ale ansamblurilor a k factori: 1 1,..., ,..., A ,...,A ....................................... k m k mX X X X C 1mm aporturi ale ansamblurilor a m factori: Cel de al 2 m -lea aport total este aportul erorii: 1E ,..., A 1- A mX X b) Aporturile parţiale ale variaţiei factorilor 1 ,..., ki i X X şi interacţiunilor lor când restul factorilor 1 ,..., m kj j X X sunt constanţi, la variaţia lui Y, vor fi date de relaţiile: 1 1 1 1 1 1 2 1 1 1 1 ... ,..., , ,..., , ,..., , , ,..., , ,..., 1 ,..., A A A ... A A ... A ... 1 A i ik j jm k i j j i j jm k k m k i i j j i i j jm k k k m k m X X X X X X X X X X X X X X X X X X k X X (18) În membrul drept al acestei relaţii, în prima paranteză pătrată avem 0C 1k , aporturi totale cu m - k factori, în a doua paranteză pătrată avem 1Ck aporturi totale cu m – k + 1 factori, în a treia paranteză pătrată avem Ck 2 aporturi totale cu m - k + 2 factori etc., în ultima paranteză pătrată avem C 1kk aporturi totale cu m factori. În total în membrul drept al relaţiei (18) avem în cele k + 1 paranteze pătrate, un număr de 2k aporturi totale. Mai departe avem: 1 1 1 1 2 1 1 1 2 ... ( ,..., ) . ... ... A A A ... A ... ... A A m m m m m m m X X X X X X X X X X X X X X A A adică: 1( ,..., )mX X A 198 1 1 1 2 1 1 2 3 2 1 1 1 2 1 ... , , , , , , ,..., ,..., 1 ,..., A A ... A A ... A A ... A ... ( 1) A A ( 1) A m m m m m m m m m m X X X X X X X X X X X X X X m X X X X m X X (19) Pe baza relaţiilor (18) şi (19) calculăm 2m - 1 aporturi parţiale în care se descompune 1,..., A mX X : 1Cm aporturi parţiale, ale câte unui factor (k = 1) cu relaţia (18): 1 A ,...,A mX X 2Cm aporturi parţiale ale interacţiunilor a câte 2 factori (k = 2) cu relaţia (18): 1 2 1 A ,...,A ................................ m mX X X X Ckm aporturi parţiale ale interacţiunilor a câte k factori, cu relaţia (18): 1 1... ... A ,...,A ....................................... k m k mX X X X C 1mm aporturi parţiale ale interacţiunii celor m factori, cu relaţia (19): 1 ... A mX X Cel de al 2 m -lea aport este: 1E ,..., A 1- A mX X În final se întocmeşte diagrama aporturilor parţiale ale variaţiei factorilor 1,..., mX X şi a interacţiunilor lor câte 2, 3,…, m, la variaţia lui Y presupusă a fi egală cu 100%. Exemplu: X1 = talia plantei de porumb la recoltare (cm) X2 = suprafaţa foliară a plantei de porumb la recoltare (cm 2 ) X3 = numărul de boabe pe plantă la recoltare Y = greutatea boabelor pe plantă la recoltare Date de sondaj de la n = 10 plante: x1 210 215 200 220 218 225 230 226 206 220 x2 2080 2100 2000 2150 2120 2210 2300 2230 2050 2160 x3 315 320 300 340 325 370 400 380 310 350 y 42 44 40 50 46 55 60 58 41 52 199 Se calculează: 1) Vectorul mediilor: 21 2 3217 cm; 2140 cm ; 341 boabe; 48.8 g; X X X Y 2) Matricea de covarianţă: 1 1 2 1 3 1 2 1 2 2 3 2 3 1 3 2 3 3 1 2 2 2 2 S 88.4444; S 821.1111; S 291.1111; S 64.5556 S 821.1111; S 8044.4440; S 2933.3330; S 635.5556 S S 291.1111; S 2933.3330; S 1104.4450; S 239.1111 S 64.5556; S 636.556 X X X X X X Y X X X X X X Y X X X X X X Y YX YX 3 20; S 239.1111; S 52.8444YX Y 3) Matricea de corelaţie liniară: 1 1 1 2 1 3 1 2 1 2 2 2 3 2 3 1 3 2 3 3 3 1 2 3 1; 0.9735; 0.9314; 0.9443 0.9735; 1; 0.9841; 0.9748 0.9314; 0.9841; 1; 0.9898 0.9443; 0.9748; 0.9898; 1 X X X X X X X Y X X X X X X X Y X X X X X X X Y YX YX YX YY R R R R R R R R T R R R R R R R R 4) Calculul şi testarea coeficienţilor de corelaţie totali: - bifactoriali: 1 2 1 2 1 2 1 2 1 2 1 unde: 1 0.9735 0.9443 0.9735 1 0.9748 0.002581 0.9443 0.9748 1 0 0.9735 0.052298 0.9735 1 X X Y Y X X X X X X Y X X T R T T T Rezultă RY.X1X2 = 0.975012 Analog: 2 3 2 3 2 3 0.0006397 şi 0.0315473 deci R 0.989809X X Y X X Y X XT T - trifactorial: 1 3 1 3 1 3 0.002187 şi 0.132494 deci R 0.991712X X Y X X Y X XT T 1 2 3 1 2 3 1 2 3 1 X X X Y Y X X X X X X T R T 200 Dar 1 2 3 det. T 0.00000508X X X YT 1 2 3 1 2 3. 0.00094115 0.997298X X X Y X X XT R Testarea coeficienţilor de corelaţie totali: - monofactoriali: Valorile critice 2 R pentru 8 GL din tabela 10 din Anexă, sunt 0.632; 0.765; 0.872 deci cei trei coeficienţi sunt foarte semnificativi. - bifactoriali: 1 2 1 3 2 3 0.971; R 0.992; R 0.894Y X X Y X X Y X XR 2 2, 2 F : cu 2; n-3 GL dă: 1 3 i j i j i j X X X X X X R R n 1 2 1 3 2 3, , ,F 57.733; F 217.697; F 13.933 cu 2; 7 GLX X X X X X Din tabelele 4, 5, 6 din Anexă, avem valorile critice F cu [2; 7] GL: F0.05 = 19.35; F0.01 = 99.35; F0.0005 = 999.35 deci: - trifactoriali: 1 2 3 1 2 3 1 2 3 1 2 3 2 , , 2 3 0.977; F : 333.834 1 4 Y X X X Y X X X X X X Y X X X R R R n Din tabelele 4, 5, 6 din Anexă, avem valorile critice Fα cu [3; 6] GL: F0.05 = 8.94; F0.01 = 27.91;F0.001 = 132.8 deci: 1 2 3 ***0.997Y X X XR 5) Calculul şi testarea coeficienţilor de corelaţie parţiali: - monofactoriali: 1 2 3 1 2 3 2 3 2 2 1 1 0.985 1 Y X X X YX X X Y X X R R R . În mod analog 2 1 3 3 1 2 0.791 şi R 0.946YX X X YX X XR toţi cu n – 4 = 6 GL. Din tabela 10 din Anexă, avem valorile critice 2 R pentru 6 GL: R0.025 = 0.707; R0.005 = 0.834;R0.0005 = 0.925 deci: 1 2 3 2 1 3 3 1 2 *** * ***0.985 ; R 0.791 şi R 0.946YX X X YX X X YX X XR - bifactoriali: 1 2 3 1 2 3 3 2 2 1 1 0.837 1 Y X X X YX X X YX R R R 1 2 3 *** *** ***0.944 ; R 0.975 ; R 0.990 cu 10-2 8 GL.YX YX YXR 1 2 1 3 2 3 * **0.971 ; R 0.992 ; R 0.894Y X X Y X X Y X XR 201 În mod analog 2 1 3 3 1 2 0.937 şi R 0.972YX X X YX X XR Avem: Din tabelele 4, 5, 6 din Anexă, avem valorile critice Fα cu [2; 6] GL: F0.05 = 19.33; F0.01 = 99.30; F0.001 = 999.30 Rezultă: FX1.X2 = 7.02; FX1.X3 = 21.58; FX2.X3 = 51.33 cu (2; 6) GL deci: 6) Calculul aporturilor totale şi parţiale: a) totale: - monofactoriale: 1 2 31 2 3 2 2 2A 0.891702; A 0.950235; A 0.970704YX YX YXX X XR R R - bifactoriale: 1 2 1 3 2 31 2 1 3 2 3 2 2 2 , , , A 0.950648; A 0.983494; A 0.979723Y X X Y X X Y X XX X X X X XR R R - trifactoriale: 1 2 31 2 3 2 , , A 0.994602Y X X XX X X R b) parţiale: - monofactoriale: - bifactoriale: 1 2 3 1 3 2 3 1 2 3 1 3 2 1 2 3 2 1 2 3 2 3 1 2 1 3 1 1 2 3 . , , , , . , , , , . , , , , A A A A A 0.011089 1.1%; A A A A A 0.014466 1.4%; A A A A A 0.047838 4.8% X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X - trifactorial: 1 2 3 1 2 1 21 2 3 3 1 3 2 3. . ,, , , , A A A A A A A A 0.892426 89.3% X X X X X X XX X X X X X X X 2 . 2 2 F : cu 2; n-4 GL 1 4 k i j i j k i j YX X X X X YX X X R R n 1 2 3 2 1 3 3 1 2 * *0.837; R 0.937 şi R 0.972YX X X YX X X YX X XR 1 2 3 1 2 3 2 1 3 1 2 3 3 1 2 1 2 3 , , , , , , , , , A A A 0.014879 1.5%; A A A 0.011080 1.1%; A A A 0.043954 4.4% X X X X X X X X X X X X X X X X X X 202 Aportul erorii: 7) Calculul funcţiei de regresie liniară şi a fâşiei de încredere: Y = B1X1 + B2X2 + B3X3 ± δα/2 (regresia este fără termen liber: B0 = 0). B1, B2, B3 sunt soluţiile sistemului liniar: 2 1 1 2 1 2 3 1 2 1 1 1 1 1 2 1 2 1 2 2 3 2 3 2 1 1 1 1 2 1 3 1 2 3 2 3 3 3 1 1 1 1 B B B B B B B B B n n n n j j j j j j j j j j j n n n n j j j j j j j j j j j n n n n j j j j j j j j j j j x x x x x x y x x x x x x y x x x x x x y adică: 471686*B1 + 4651190*B2 + 742590*B3 = 106477 4651190*B1 + 45868400*B2 + 7323800*B3 = 1050040 742590*B1 + 7323800*B2 + 1172750*B3 = 168560 de unde: 1 0.4258 g creştere greutate boabe B 1 cm creştere talie când suprafaţa foliară şi numărul de boabe pe plantă sunt constante. 2 2 0.0644 g creştere greutate boabe B 1 cm creştere suprafaţă foliară când talia şi numărul de boabe pe plantă sunt constante. 3 0.2761 g creştere greutate boabe B 1 bob creştere nr. boabe pe plantă când talia şi suprafaţa foliară sunt constante. Lăţimea fâşiei de încredere este: 1 2 3 2 ; ( 4) GL 2 2 2.5% 1 1 3 10 1 1 0.997 52.844 2.45 0.49 g 10 10 3 Y X X X Y n n R S t n n Ecuaţia funcţiei de regresie liniară cu fâşia de încredere 2.5% este: Y = 0.4258X1 - 0.0644X2 + 0.2761X3 ± 0.49 Prognoză: Pentru 21 2 3235 cm; X 2350 cm ; X 420 boabe X avem greutatea aşteptată a boabelor pe plantă: 64.20 g Minima 0.4258 235 0.0644 2350 0.2761 420 0.49 64.69 g Media 65.18 g Maxima Ya În tabelul de mai jos, se găsesc valorile x1i, x2i, x3i, valorile observate yi, valorile aşteptate yai şi diferenţele: Δyi = yi - yai: 1 2, 3E ( , ) A 1 0.00539798 0.5%X X XA 203 x1i x2i x3i yi yai Δyi 210 2080 315 42 42.48 - 0.48 215 2100 320 44 44.70 - 0.70 200 2000 300 40 39.23 0.77 220 2150 340 50 49.14 0.86 218 2120 325 46 46.07 - 0.07 225 2210 370 55 55.69 - 0.69 230 2300 400 60 60.30 - 0.30 226 2230 380 58 57.59 0.41 206 2050 310 41 41.33 - 0.33 220 2160 350 52 51.25 0.75 5.3.3 Corelaţia şi regresia polifactorială polinomială de grad p fără interacţiuni pentru cazul a m + 1 caractere Fie 1 2X ,X ,...,X ,Ym notaţiile pentru m + 1 caractere ale exemplarelor unei populaţii. Efectuăm un sondaj de n ansambluri de valori 1 2, ,..., , ; 1i i mi ix x x y i n . Funcţia de regresie neliniară multiplă are forma: 1 2 1 2, ,..., ; B ,B ,...,B m dY f X X X unde B1, B2,…, Bd sunt d coeficienţi de regresie neliniară multiplă necunoscuţi care vor fi determinaţi prin metoda celor mai mici pătrate (variaţia reziduală a datelor de sondaj este minimă): 1 2 ,..., 1 2 1 2 1 SPA , ,..., ; B ,B ,...,B minim. m n Y X X j j j mj d j y f x x x Derivatele parţiale ale acestei variaţii reziduale în raport cu B1, B2,…, Bd trebuie să fie nule: 1 1 1,..., ,..., ,..., 1 2 SPA SPA SPA 0, 0,..., 0, B B B m m mY X X Y X X Y X X d Am obţinut sistemul de ecuaţii normale care este neliniar şi care furnizează pe B1, B2,…, Bd. Raportul de corelaţie neliniară multiplă se calculează cu formula: 1,..., SPA 1 SPA mY X X c Y R Testarea acestui raport se face cu variabila Fisher: 2 2 1 F : cu -1; GL 1 c c R d d n d n dR Avem m factori X1,…, Xm care acţionează asupra caracterului Y. Dispunem de n seturi de măsurători pentru ansamblul (X1,…, Xm; Y) şi anume: X11,…, Xm 1; Y1 ………………. X1n,…, Xm n; Yn a) Funcţia de regresie are forma: Parametrii necunoscuţi sunt: B11,…, B1p (coeficienţii pentru X1) ………….. Bm1,…, Bmp (coeficienţii pentru Xm) pm m 2 p j i1 i i2 i ip i 0 ij i 0 i 1 i 1 j 1 Y (B X B X ... B X ) B adică Y B X B 204 Numărul acestor parametri este d = p.m + 1 Trebuie să avem n > m.p + 1 de unde: (1) p ≤ Int[(n - 1)/m] În cazul regresiei fără termen liber (B0 = 0) avem p ≤ Int(n/m) Variaţia reziduală este: Condiţia necesară de minim este: ∂E/∂Bij = 0 (1 ≤ i ≤ m; 1 ≤ j ≤ p); ∂E/∂B0 = 0, adică m.p + 1 ecuaţii cu m.p + 1 necunoscute Bij şi B0 de forma: În cazul regresiei fără termen liber (B0 = 0) avem m.p parametri necunoscuţi Bij daţi de m.p ecuaţii: b) După calculul celor m.p + 1 parametri de regresie Bij şi B0, vom calcula raportul de corelaţie neliniară Rc cu formula cunoscută: iar SPAY.X1…Xm este dată de relaţia (2) în care Bij, B0 sunt daţi de sistemul liniar (3) sau (4). unde d = m.p + 1 este numărul parametrilor necunoscuţi Bij, B0. Rezultă că: ceea ce permite testarea semnificaţiei corelaţiei polinomiale multiple fără interacţiuni. În cazul regresiei fără termen liber (B0 = 0) relaţia (6) devine: Cazuri particulare: I. Pentru m = 1; p = 1 obţinem corelaţia şi regresia liniară monofactorială (vezi secţiunea 5.1) II. Pentru m = 1 obţinem corelaţia şi regresia polinomială monofactorială (vezi secţiunea 5.2) III.Pentru p = 1 obţinem corelaţia şi regresia liniară polifactorială (vezi secţiunea 5.3.2) 1 m pn m j Y X ...X ij i 0 1 i 1 j 1 (2) E=SPA y ( B (x ) ) B minim pm n n n j k k k ij i h 0 h h i=1 j=1 1 1 1 pm n n j ij i 0 i=1 j=1 1 1 (3) B (x ) (x ) B (x ) (x ) y ; (h 1,...,m;k 1,...,p) B (x ) B n y pm n n j k k ij i h h i=1 j=1 1 1 (4) B (x ) (x ) (x ) y ;(h 1,...,m;k 1,...,p) 1 m n Y X ...X 2 c Y 1Y SPA (5) R 1 ; SPA (y y) SPA 2 c 2 c R d-1 F : este variabilă Fisher cu (d-1;n-d) grade de libertate n-d1 R 2 c 2 c R m p (6) F : este variabilă Fisher cu (m p;n-m p-1) grade de libertate n-m p-11 R 2 c 2 c R m p-1 (7) F : este variabilă Fisher cu (m p-1;n-m p) grade de libertate n-m p1 R 205 Exemplu: Luăm m = 3 factori şi n = 12 măsurători iar regresia este cu termen liber deci luăm p = 3. X1 = Azotat de amoniu (kg/ha) X2 = Superfosfat (kg/ha) X3 = Sare potasică (kg/ha) Y = Grâu (kg/ha) Date de pe n = 12 parcele experimentale: X1 0 40 80 120 160 200 240 280 320 330 350 400 X2 0 30 60 90 120 150 180 210 240 250 260 270 X3 0 10 20 30 40 50 60 70 80 90 95 100 Y 1500 1700 1900 2200 2400 2700 3100 3600 4000 3700 3500 3000 Rezultate: a) Coeficienţii de regresie polinomială sunt: B11 = - 438.795 (coeficientul lui X1) B12 = - 0.571 (coeficientul lui X1 2 ) B13 = 0 (coeficientul lui X1 3 ) B21 = 360.308 (coeficientul lui X2) B22 = 0.442 (coeficientul lui X2 2 ) B23 = - 0.002 (coeficientul lui X2 3 ) B31 = 693.091 (coeficientul lui X3) B32 = - 13.063 (coeficientul lui X3 2 ) B33 = 0.064 (coeficientul lui X3 3 ) Termenul liber al regresiei polinomiale este B0 = 1503.453 Tabel cu valori observate Y, valori aşteptate Yc şi diferenţe DY: Y 1500 1700 1900 2200 2400 2700 3100 3600 4000 3700 3500 3000 Yc 1503 1698 1911 2150 2424 2741 3108 3536 4030 3693 3507 2999 DY - 3 2 - 11 50 - 24 - 41 - 8 64 - 30 7 - 7 1 b) Variaţia pătratică reziduală a lui Y după X1, X2, X3 este E = 10080.91 iar variaţia pătratică totală a lui Y este SPAY = 7742504 deci conform relaţiei (5) raportul de corelaţie neliniară este Rc = 0.99935 Din relaţia (6) rezultă F = 170.77 cu (9; 2) grade de libertate. Din tabelele 4, 5, 6 pentru (9; 2) GL avem valorile critice F5% = 19.38; F1% = 99.39; F0.1% = 999.4 Deoarece F1% < F < F0.1%, corelaţia polinomială multiplă este distinct semnificativă deci Rc = 0.99935 * * 5.3.4 Corelaţia şi regresia polifactorială polinomială de grad 3 cu interacţiuni pentru cazul a m + 1 caractere Funcţia de regresie polinominală cubică cu interacţiuni are forma: 3 3 2 1 0 1 1 1 1 Y B B B B m m m m i i ij i j i i i i j i X X X X Avem coeficienţii de regresie necunoscuţi B3i, B2ij, B1i şi B0 în număr egal cu d = m + m 2 + m + 1 = (m + 1) 2 . 206 Datele de sondaj au forma 1 ,..., ; ; 1l ml lx x y l m . Ecuaţiile normale care dau coeficienţii de regresie necunoscuţi, vor avea forma: 3 3 3 3 3 2 1 1 1 1 1 1 1 1 3 3 0 1 1 B B B B m n m m n m n i il hl ij il jl hl i il hl i l i j l i l n n hl hl l l l x x x x x x x x x y unde 1 h m ; 3 3 2 1 1 1 1 1 1 1 1 0 1 1 1 ; ;l B B B B y unde m n m m n m n i il hl kl ij il jl hl kl i il hl kl i l i j l i l n n hl kl hl kl l l x x x x x x x x x x x x x x h k m 3 3 2 1 1 1 1 1 1 1 1 0 1 1 B B B B unde 1 m n m m n m n i il hl ij il jl hl i il hl i l i j l i l n n hl hl l l l x x x x x x x x x y h m 3 3 2 1 1 1 1 1 1 1 1 0 1 B B B B m n m m n m n i il ij il jl i il i l i j l i l n l l x x x x n y În total avem d = m + m2 + m + 1 = (m + 1)2 ecuaţii cu (m + 1)2 necunoscute: 211 21 31 3 11 1 0 2 1 2 B ,...,B B ,...,B ; ..................... ; B ,...,B ; B B ,...,B m m m m mm Sumele după l de la 1 la n din parantezele rotunde se calculează pe baza datelor de sondaj. Din cele d = (m + 1) 2 ecuaţii normale precedente, numai 21 5 2 2 2 m m m m d sunt independente, iar 1 2 m m sunt dependente de ele. Din cele d = (m + 1) 2 necunoscute numai 1 2 m m d sunt diferite iar restul de 1 2 m m sunt egale între ele, datorită simetriei 2 2B B ; 1 ; ij ji i j m . Raportul de corelaţie neliniară total se calculează cu formula cunoscută: 1,..., SPA 1 SPA mY X X c Y R 207 Testarea acestui coeficient se face cu valoarea Fisher: 2 2 2 2 2 2 5 2 1 5 2 5 22F : cu ; GL 2 25 21 2 c c m m R m m m m n m mR n Exemplu: X1 = îngrăşământ chimic NPK (zeci Kg/ha) X2 = apă irigaţie (sute m 3 /ha) Y = producţie de porumb (t/ha) Date de sondaj: x1i x2i yi 0 0 3 5 10 4 5 15 4.8 5 20 6.3 10 10 5.8 10 15 6.7 10 20 7.4 15 10 8.5 15 15 9.2 15 20 9.4 20 10 9.7 20 15 9.9 20 20 10 Rezultate: 1) Vectorul mediilor: 3 11.54 sute Kg NPK/ha 13.85 sute m apă/ha 7.28 t porumb/ha x y z 2) Coeficienţi de regresie liniară cubică cu interacţiuni: B0 = 3 B11 = - 0.5865; B12 = 0.1085 B211 = 0.11064; B212 = B221 = - 0.01334; B222 = 0.000310 B31 = - 0.003155; B32 = - 0.000310 3) Tabel cu valorile x1i, x2i, valorile observate yi, valorile aşteptate yai şi diferenţele Δyi: x1i x2i yi Yai ΔyI 0 0 3 3 0 5 10 4 3.89 0.11 5 15 4.8 5.04 -0.24 5 20 6.3 6.97 0.13 10 10 5.8 5.82 -0.02 10 15 6.7 6.64 0.06 10 20 7.4 7.43 -0.03 15 10 8.5 8.56 -0.06 208 15 15 9.2 9.04 0.16 15 20 9.4 9.50 -0.10 20 10 9.7 9.73 -0.03 20 15 9.9 9.88 0.02 20 20 10 10.00 0 4) Raportul de corelaţie neliniară este: c 0.13275 R 1 0.999 68.51685 Valoarea Fisher: 2 2 2 2 5 2F : 5 21 2 c c m m R m mR n , cu m = 2 şi n = 13 devine: F = 356.6 Valorile critice din tabelele 4, 5, 6 din Anexă, cu [7; 5] GL sunt: F0.05 = 3.97; F0.01 = 7.46 şi F0.001 = 16.21, deci Rc = 0.999 * * * 5.4 REZUMAT În acest capitol se prezintă corelaţia şi regresia monofactorială liniară precum şi corelaţiile şi regresiile monofactoriale neliniare exemplificate prin corelaţiile şi regresiile polinomială, trigonometrică şi polinomial-trigonometreică. Se prezintă corelaţia şi regresia polifactorială liniară şi neliniară. Se calculează aporturile factorilor în corelaţia polifactorială liniară. 5.5 ÎNTREBĂRI 1. Ce sunt coeficientul de corelaţie liniară şi coeficienţii de regresie liniară? 2. Ce sunt raportul de corelaţie neliniară şi coeficienţii de regresie neliniară? 3. Ce este autocorelaţia şi cross-corelaţia seriilor de timp? 4. Ce avantaje prezintă corelaţia şi regresia polinomial-trigonometrică? 5. Ce sunt coeficienţii de corelaţie liniară multipli totali şi cum se testează ei? 6. Ce sunt coeficienţii de corelaţie liniară multipli parţiali şi cum se testează ei? 7. Ce sunt coeficienţii de regresie liniară multiplă? 8. Prin ce se deosebesc rapoartele de corelaţie neliniară multiplă de coeficienţii de corelaţie liniară multiplă? 5.6 BIBLIOGRAFIE 1. D. Ene, M. Drăghici, I.N. Alecu: “Statistică aplicată în agricultură”, Ed. Ceres, 2003 2. M. Iosifescu şi col.: “Mică enciclopedie de statistică”, Ed. Ştiinţif. şi Enciclop., 1985 3. Anuarul statistic al României, 1990 – 2009 209 BIBLIOGRAFIE GENERALĂ 1. ANDREI T., STANCU S., PELE D.T.: “Statistică”, Ediţia II, Ed. Economică, 2002 2. ALECU I.N. şi col.: “Management în agricultură”, Ed. Ceres, 1997 3. ANDREESCU E.: “Curs de matematică şi statistică biologică”, AMD, IANB, 1980 4. ANGHELACHE C.: “Statistică generală”, Ed. Economică, 1999 5. ANUARUL STATISTIC AL ROMÂNIEI, 1991 - 2003 6. BARON T., ANGHELACHE C., TIŢAN E.: “Statistică” Ed. Economică, 1996 7. BĂDIŢĂ M., BARON T., KORKA M.: “Statistică pentru afaceri”, Ed. Eficient, Bucureşti, 1998 8. BERCA M.: “Ecologie generală şi protecţia mediului”, Ed. Ceres, 2000 9. BIJI E., NEGURĂ I.: “Aplicaţii statistice în conducerea activităţii din agricultură”, Ed. Ceres, 1980 10. BIJI E.M. şi col.: “Statistica managerială a agentului economic din agricultură”, Ed. Ceres, 1998 11. BIJI M. şi col.: “Tratat de Statistică”, Ed. Economică, 2002 12. CEAPOIU N.: “Metode statistice aplicate în experienţele agricole şi biologice”, Ed. Agrosilvică, 1968 13. CAPANU I., ANGHELACHE C.: “Indicatori economici”, Ed. Economică, 2000 14. CLOCOTICI V., STAN A.: “Statistică aplicată în psihologie”, Ed. Polirom, 2000 15. DAGNELIE P.: “Statistique théorique et appliqueé”, tome 1, 2 De Boeck et Larcier, 1998 16. DAVIES R.G.: “Computer Programming in Quantitative Biology”, Academic Press, 1971 17. DRĂGHICI M., ALECU I.M., DINU T.: “Management general”, Lito AMC, 1999 18. DRĂGHICI M.: “AGR1. Producţie vegetală”, Sistem informatic integrat destinat planificării afacerilor exploataţiei agricole, USAMV, 2003 19. DUMITRESCU M.: “Teoria sondajelor statistice”, Ed. Tehnică, 2003 20. ENE D.: “Calculul şi interpretarea unor indicatori informaţionali în statistica agricolă”, Lucrări ştiinţifice IANB, Seria E, vol. XVII (1974), 92 - 95 21. ENE D.: “Calculul aporturilor variaţiei factorilor în agricultură şi al concentraţiei acestora”, Lucrări ştiinţifice IANB, Seria E, Vol. XX – XXI (1977 - 1978), 25 - 30 22. ENE D.: “Curs de Matematică şi Biometrie”, (Litografiat – Atelierele de material Didactic USAMV), 1979 23. ENE D.: “Asupra unei funcţii de producţie unifactoriale”, Lucrări ştiinţifice IANB, Seria E, vol. XXIV (1981), 89 - 92 24. ENE D.: “Generalizarea unor indicatori statistici de evoluţie”, Lucrări ştiinţifice IANB, Seria E, vol. XXIV (1981), 93 - 96 25. ENE D.: “Programe de calculator pentru funcţia de regresie liniară pe porţiuni”, Lucrări ştiinţifice IANB, Seria E, vol. XXV (l982), 75 - 84 26. ENE D. “Asupra concentrării şi specializării producţiei agricole pe ramuri”, Lucrări ştiinţifice IANB, Seria E, vol. XXV (1982), 85 - 90 27. ENE D.: “Asupra calculului aporturilor variaţiei factorilor în variaţia producţiei agricole”, Lucrări ştiinţifice IANB, Seria E, vol. XXVI (1983), 89 - 92 28. ENE D.: “Aducerea în limite normale a valorii heritabilităţii estimată prin metoda regresiei”, Comunicare la Simpozionul ştiinţific internaţional de Zootehnie, Iaşi, 12 - 13 XII, 1996 29. ENE D., DRĂGHICI M., ALECU I.N.: “Statistică aplicată în agricultură”, Ed. Ceres, 2003 30. ENE D.: “Matematici(I) (Algebră şi programare liniară)”, Ed. Ceres, 2004 31. ENE D. “Matematică cu aplicaţii în biologie şi ştiinţe agricole”, Ed. ALL, 2004 32. ENE D.: “Programe executabile de algebră liniară, analiză numerică, optimizări şi statistică pentru agricultură”, 2005 33. GOGONEA S., ENE D.: “Analiză numerică”, Ed. Cartea Universitară, 2005 34. GROSU H., LUNGU S., KREMER V.D.: “Modele liniare utilizate în ameliorarea genetică a animalelor”, Ed. Coral Sanivet, 1997 210 35. IOSIFESCU M., TĂUTU P.: “Procese stohastice şi aplicaţii în biologie şi medicină”, Ed. Academiei R.S.R., 1968 36. IOSIFESCU M.: “Lanţuri Markov finite şi aplicaţii”, Ed. Tehnică, 1977 37. IOSIFESCU M., MOINEAGU C., TREBICI V., URSIANU E.: “Mică Enciclopedie de Statistică”, Ed. Ştiinţifică şi Enciclopedică, 1985 38. ISAIC-MANIU A., GRĂDINARU A., VOINEAGU V., MITRUŢ C.: “Statistică teoretică şi economică”, Ed. Tehnică, Chişinău, 1994 39. ISAIC-MANIU A., VODĂ GH.V.: “Manualul calităţii”, Ed. Economică, 1997 40. JABA E.: “Statistică”, Ediţia II, Ed. Economică, 2000 41. JOHNSTON J.: “Econometric Methods”, 3rd Edition, McGraw-Hill, 1984 42. KENDALL M.: “Time-Series”, C. Griffin & Co., London, 1976 43. MALIŢA M., ZIDĂROIU C.: “Matematica organizării”, Ed. Tehnică, 1975 44. MARINESCU I.: “Analiză factorială”, Ed. Ştiinţifică şi Enciclopedică, 1984 45. MATHER K.: “The Elements of Biometry”, Meuthen, 1967 46. MERCE E., URS FL., MERCE C.: “Statistică”, Ed. Academic Pres, 2001 47. METCALFE A.V.: “Statistics an Engineering”, Ed. Chapman & Hall, 1994 48. MIHOC GH., URSEANU V.: “Tratat de statistică matematică”, Ed. Academiei R.S.R., 1976 - 1977 49. MONTGOMERY D.C., RUNGER G.C.: “Applied Statistics and Probability For Engineers”, J. Wiley, 1994 50. NEGOESCU GH., CIOBANU R., BONTAŞ C.A: “Bazele statisticii pentru afaceri”, Ed. ALL BECK, 1999 51. OANCEA M.: “Tratat de management în unităţile agricole”, Ed. Ceres, 1999 52. OTIMAN P.I., CREŢ F.: “Elemente de matematici aplicate în economia agroalimentară”, Ed. Agroprint, 2002 53. PECICAN E.S.: “Econometrie”, Ed. ALL, 1994 54. POSTELNICU T., TĂUTU P.: “Metode matematice în medicină şi biologie”, Ed. Tehnică, 1971 55. PURCARU I.: “Informaţie şi corelaţie”, Ed. Ştiinţifică şi Enciclopedică, 1988 56. SANDU GH.: “Modele experimentale în zootehnie”, Ed. Coral Sanivet, 1995 57. SĂNDOIU D.I.: “Tehnică experimentală”, Partea I, Ed. Elisavaros, Bucureşti, 2003 58. SĂULESCU N.A., SĂULESCU N.N.: “Câmpul de experienţă”, Ed. Agro-Silvică, 1967 59. SEARLE S.R.: “Linear Models”, J. Wiley, 1971 60. SNEDECOR C.W.: “Metode statistice aplicate în cercetările de agricultură şi biologie”, Ed. Didactică şi Pedagogică, 1968 61. SORA V., HRISTACHE I., MIHĂESCU C.: “Demografie şi statistică socială”, Ed. Economică, 1996 62. TACU A.: “Metode statistice în zootehnie şi medicină veterinară”, Ed. Agrosilvică, 1968 63. TÂRCOLEA C., FILIPOIU A., BONTAŞ S.: “Tehnici actuale în teoria fiabilităţii”, Ed. Ştiinţifică şi Enciclopedică, 1989 64. TODORAN I.: “Răspunsuri posibile. Corelaţie şi prognoză”, Ed. Dacia, 1989 65. TOMESCU D., MANCIU GH., SCRIPSNIC V.: “Fiabilitatea utilajelor agricole”, Ed. Ceres, 1981 66. VODĂ V.GH.: “Gândirea statistică – un mod de gândire al viitorului”, Ed. Albatros, 1977 67. VOINEAGU V. şi col.: “Statistica economică”, Ed. Tribuna Economică, 2001 68. WALLACE T.D., SILVER J.L.: “Econometrics. An Introduction”, Addison-Wesley, 1988 211 ANEXĂ CU TABELE STATISTICE Tabel 1 Funcţia de repartiţie N(0; 1): F(uα/2) 1 – α/2 Tabel 2 Valorile Student tα/2 şi tα: P(|t| > tα/2) = P(t > tα) = α Tabel 3 Valorile hi pătrat χα 2: P(χ2 > χα 2) = α Tabel 4 Valorile Fisher F0.05: P(F > F0.05) = 0.05 Tabel 5 Valorile Fisher F0.01: P(F > F0.01) = 0.01 Tabel 6 Valorile Fisher F0.001: P(F > F0.001) = 0.001 Tabel 7 Amplitudinea studentizată Tukey T0.05 Tabel 8 Amplitudinea studentizată Tukey T0.01 Tabel 9 Valori critice ale asimetriei şi boltirii Tabel 10 Valori critice Rα/2 ale coeficientului de corelaţie liniară R Tabel 11 Transformarea Fisher z = 0.5 ln [(1 – R)/(1 + R)] Tabel 12 Valori critice pentru fişe de control al calităţii 212 TABEL 1 Funcţia de repartiţie N(0; 1): F(U/2) = 1 - /2 U 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586 0.1 0.53983 0.54379 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57534 0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 O.60257 0.60642 0.61026 0.61409 0.3 0.61791 0.62172 0.62551 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173 0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.64838 0.68793 0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240 0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490 0.7 0.75803 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78523 0.8 0.78814 0.79103 0.79389 0.79673 0.79954 0.80234 0.80510 0.80785 0.81057 0.81327 0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83397 0.83646 0.83891 1.0 0.84134 0.84375 0.84613 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214 1.1 0.86433 0.86650 0.86864 0.87076 0.87285 0.87493 0.87697 0.87900 0.88100 0.88297 1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89616 0.89796 0.89973 0.90147 1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91308 0.91465 0.91621 0.91773 1.4 0.91924 0.92073 0.92219 0.92364 0.92506 0.92647 0.92785 0.92922 0.93056 0.93189 1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408 1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95448 1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327 1.8 0.96407 0.96485 0.96562 0.96637 0.96711 0.96784 0.96856 0.96926 0.96995 0.97062 1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670 2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169 2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574 2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899 2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158 2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361 2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520 2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643 2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736 2.9 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807 2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861 3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99897 0.99900 3.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929 3.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950 3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965 3.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976 3.5 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.99983 3.6 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.99989 3.7 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99992 0.99992 0.99992 0.99992 3.8 0.99993 0.99993 0.99993 0.99994 0.99994 0.99994 0.99994 0.99995 0.99995 0.99995 3.9 0.99995 0.99995 0.99996 0.99996 0.99996 0.99996 0.99996 0.99996 0.99997 0.99997 213 TABEL 2 Valorile Student t/2 şi t: P(|t| > t/2) = P(t > t) = GL↓ → 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005 1 0.325 1.000 3.078 6.314 12.706 31.821 63.657 127.32 318.31 636.62 2 0.289 0.816 1.886 2.920 4.303 6.965 9.925 14.089 23.326 31.598 3 0.277 0.765 1.638 2.353 3.182 4.541 5.841 7.453 10.213 12.924 4 0.271 0.741 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610 5 0.267 0.727 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869 6 0.265 0.718 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959 7 0.263 0.711 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408 8 0.262 0.706 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041 9 0.261 0.703 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781 10 0.260 0.700 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587 11 0.260 0.697 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437 12 0.259 0.695 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318 13 0.259 0.694 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221 14 0.258 0.692 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140 15 0.258 0.691 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073 16 0.258 0.690 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015 17 0.257 0.689 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965 18 0.257 0.688 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922 19 0.257 0.688 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883 20 0.257 0.687 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850 21 0.257 0.686 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819 22 0.256 0.686 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792 23 0.256 0.685 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.767 24 0.256 0.685 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745 25 0.256 0.684 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725 26 0.256 0.684 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707 27 0.256 0.684 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690 28 0.256 0.683 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674 29 0.256 0.683 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659 30 0.256 0.683 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646 40 0.255 0.681 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551 50 0.255 0.679 1.299 1.676 2.009 2.403 2.678 2.937 3.261 3.496 60 0.254 0.679 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460 70 0.254 0.678 1.294 1.667 1.994 2.381 2.648 2.899 3.211 3.435 80 0.254 0.678 1.292 1.664 1.990 2.374 2.639 2.887 3.195 3.416 90 0.254 0.677 1.291 1.662 1.987 2.368 2.632 2.878 3.183 3.402 100 0.254 0.677 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.390 0.253 0.674 1.282 1.645 1.960 2.326 2.576 2.807 3.090 3.291 214 TABEL 3 Valorile hi pătrat (2): P ( 2 > 2) = GL↓ → 0.9995 0.995 0.975 0.05 0.025 0.01 0.005 0.001 0.0005 1 0.0 6 39 0.0 4 39 0.0 3 98 3.84 5.02 6.63 7.88 10.83 12.12 2 0.001 0.01 0.05 5.99 7.38 9.21 10.60 13.82 15.20 3 0.02 0.07 0.22 7.81 9.35 11.34 12.84 16.27 17.73 4 0.06 0.21 0.48 9.49 11.14 13.28 14.86 18.47 20.00 5 0.16 0.41 0.83 11.07 12.83 15.09 16.75 20.51 22.10 6 0.30 0.68 1.24 12.59 14.45 16.81 18.55 22.46 24.10 7 0.48 0.99 1.69 14.07 16.01 16.48 20.28 24.32 26.12 8 0.71 1.34 2.18 15.51 17.53 20.09 21.96 26.12 27.87 9 0.97 1.73 2.70 16.92 19.02 21.67 23.59 27.88 29.67 10 1.26 2.16 3.25 18.31 20.48 23.21 25.19 29.59 31.42 11 1.50 2.60 3.92 19.68 21.92 24.72 26.76 31.26 33.14 12 1.93 3.07 4.40 21.03 23.34 26.22 28.30 32.91 34.82 13 2.30 3.57 5.01 22.36 24.74 27.69 29.82 34.53 36.48 14 2.70 4.07 5.63 23.68 26.12 29.14 31.32 36.12 38.11 15 3.11 4.60 6.87 25.00 27.49 30.58 32.80 37.70 39.72 16 3.54 5.14 6.91 26.20 28.85 32.00 34.27 39.25 41.31 17 3.98 5.70 7.56 27.59 30.19 33.41 35.72 40.79 42.88 18 4.44 6.26 8.23 28.87 31.53 34.81 37.16 42.31 44.43 19 4.91 6.84 8.91 30.14 32.85 36.19 38.58 43.82 45.97 20 5.40 7.43 9.59 31.41 34.17 37.57 40.00 45.31 47.50 21 5.90 8.03 10.28 32.67 35.48 38.93 41.40 46.80 49.01 22 6.40 8.64 10.98 33.92 36.78 40.29 42.80 48.27 50.51 CONTINUARE ÎN PAGINA URMĂTOARE 215 GL↓ → 0.9995 0.995 0.975 0.05 0.025 0.01 0.005 0.001 0.0005 23 6.92 9.26 11.69 35.17 38.08 41.64 44.18 49.73 52.00 24 7.45 9.89 12.40 36.42 39.36 42.98 45.56 51.18 53.48 25 8.00 10.52 13.12 37.65 40.65 44.31 46.93 52.62 54.95 26 8.54 11.16 13.84 38.89 41.92 45.64 48.29 54.05 56.41 27 9.09 11.81 14.57 40.11 43.19 46.96 49.64 55.48 57.86 28 9.66 12.46 15.31 41.34 44.46 48.28 50.99 56.89 59.30 29 10.23 13.12 16.05 42.56 45.72 49.59 52.34 58.30 60.73 30 10.80 13.79 16.79 43.77 46.98 50.89 53.67 59.70 62.16 40 16.91 20.71 24.43 55.76 59.34 63.69 66.77 73.40 76.09 50 23.46 27.99 32.36 67.50 71.42 76.15 79.49 86.66 89.56 60 30.34 35.53 40.48 79.08 83.30 88.38 91.95 99.61 102.69 70 37.47 43.27 48.76 90.53 95.02 100.42 104.21 112.32 115.58 80 44.79 51.17 57.15 101.88 106.63 112.33 116.32 124.84 128.26 90 52.28 59.20 65.65 113.14 118.14 124.16 128.30 137.21 140.78 100 59.90 67.33 74.22 124.34 129.56 135.81 140.17 149.45 153.17 2 1 6 T A B E L 4 V a lo ri le F is h er ( F 0 .0 5 ): P ( F > F 0 .0 5 ) = 0 .0 5 G L 1 → G L 2 ↓ 1 2 3 4 5 6 7 8 9 1 0 1 2 1 5 2 0 2 4 3 0 4 0 6 0 1 2 0 1 1 6 1 .4 1 9 9 .5 2 1 5 .7 2 2 4 .6 2 3 0 .2 2 3 4 .0 2 3 6 .8 2 3 8 .9 2 4 0 .5 2 4 1 .9 2 4 3 .9 2 4 5 .9 2 4 8 .0 2 4 9 .1 2 5 0 .1 2 5 1 .1 2 5 2 .2 2 5 3 .3 2 5 4 .3 2 1 8 .5 1 1 9 .0 0 1 9 .1 6 1 9 .2 5 1 9 .3 0 1 9 .3 3 1 9 .3 5 1 9 .3 7 1 9 .3 8 1 9 .4 0 1 9 .4 1 1 9 .4 3 1 9 .4 5 1 9 .4 5 1 9 .4 6 1 9 .4 7 1 9 .4 8 1 9 .4 9 1 9 .5 0 3 1 0 .1 3 9 .5 5 9 .2 8 9 .1 2 9 .0 1 8 .9 4 8 .8 9 8 .8 5 8 .8 1 8 .7 9 8 .7 4 8 .7 0 8 .6 6 8 .6 4 8 .6 2 8 .5 9 8 .5 7 8 .5 5 8 .5 3 4 7 .7 1 6 .9 4 6 .5 9 6 .3 9 6 .2 6 6 .1 6 6 .0 9 6 .0 4 6 .0 0 5 .9 6 5 .9 1 5 .8 6 5 .8 0 5 .7 7 5 .7 5 5 .7 2 5 .6 9 5 .6 6 5 .6 3 5 6 .6 1 5 .7 9 5 .4 1 5 .1 9 5 .0 5 4 .9 5 4 .8 8 4 .8 2 4 .7 7 4 .7 4 4 .6 8 4 .6 2 4 .5 6 4 .5 3 4 .5 0 4 .4 6 4 .4 3 4 .4 0 4 .3 6 6 5 .9 9 5 .1 4 4 .7 6 4 .5 3 4 .3 9 4 .2 8 4 .2 1 4 .1 5 4 .1 0 4 .0 6 4 .0 0 3 .9 4 3 .8 7 3 .8 4 3 .8 1 3 .7 7 3 .7 4 3 .7 0 3 .6 7 7 5 .5 9 4 .7 4 4 .3 5 4 .1 2 3 .9 7 3 .8 7 3 .7 9 3 .7 3 3 .6 8 3 .6 4 3 .5 7 3 .5 1 3 .4 4 3 .4 1 3 .3 8 3 .3 4 3 .3 0 3 .2 7 3 .2 3 8 5 .3 2 4 .4 6 4 .0 7 3 .8 4 3 .6 9 3 .5 8 3 .5 0 3 .4 4 3 .3 9 3 .3 5 3 .2 8 3 .2 2 3 .1 5 3 .1 2 3 .0 8 3 .0 4 3 .0 1 2 .9 7 2 .9 3 9 5 .1 2 4 .2 6 3 .8 6 3 .6 3 3 .4 8 3 .3 7 3 .2 9 3 .2 3 3 .1 8 3 .1 4 3 .0 7 3 .0 1 2 .9 4 2 .9 0 2 .8 6 2 .8 3 2 .7 9 2 .7 5 2 .7 1 1 0 4 .9 6 4 .1 0 3 .7 1 3 .4 8 3 .3 3 3 .2 2 3 .1 4 3 .0 7 3 .0 2 2 .9 8 2 .9 1 2 .8 5 2 .7 7 2 .7 4 2 .7 0 2 .6 6 2 .6 2 2 .5 8 2 .5 4 1 1 4 .8 4 3 .9 8 3 .5 9 3 .3 6 3 .2 0 3 .0 9 3 .0 1 2 .9 5 2 .9 0 2 .8 5 2 .7 9 2 .7 2 2 .6 5 2 .6 1 2 .5 7 2 .5 3 2 .4 9 2 .4 5 2 .4 0 1 2 4 .7 5 3 .8 9 3 .4 9 3 .2 6 3 .1 1 3 .0 0 2 .9 1 2 .8 5 2 .8 0 2 .7 5 2 .6 9 2 .6 2 2 .5 4 2 .5 1 2 .4 7 2 .4 3 2 .3 8 2 .3 4 2 .3 0 1 3 4 .6 7 3 .8 1 3 .4 1 3 .1 8 3 .8 3 2 .9 2 2 .8 3 2 .7 7 2 .7 1 2 .6 7 2 .6 0 2 .5 3 2 .4 6 2 .4 2 2 .3 8 2 .3 4 2 .3 0 2 .2 5 2 .2 1 1 4 4 .6 0 3 .7 4 3 .3 4 3 .1 1 2 .9 6 2 .8 5 2 .7 6 2 .7 0 2 .6 5 2 .6 0 2 .5 3 2 .4 6 2 .3 9 2 .3 5 2 .3 1 2 .2 7 2 .2 2 2 .1 8 2 .1 3 1 5 4 .5 4 3 .6 8 3 .2 9 3 .0 6 2 .9 0 2 .7 9 2 .7 1 2 .6 4 2 .5 9 2 .5 4 2 .4 8 2 .4 0 2 .3 3 2 .2 9 2 .2 5 2 .2 0 2 .1 6 2 .1 1 2 .0 7 1 6 4 .4 9 3 .6 3 3 .2 4 3 .0 1 2 .8 5 2 .7 4 2 .6 6 2 .5 9 2 .5 4 2 .4 9 2 .4 2 2 .3 5 2 .2 8 2 .2 4 2 .1 9 2 .1 5 2 .1 1 2 .0 6 2 .0 1 1 7 4 .4 5 3 .5 9 3 .2 0 2 .9 6 2 .8 1 2 .7 0 2 .6 1 2 .5 5 2 .4 9 2 .4 5 2 .3 8 2 .3 1 2 .2 3 2 .1 9 2 .1 5 2 .1 0 2 .0 6 2 .0 1 1 .9 6 1 8 4 .4 1 3 .5 5 3 .1 6 2 .9 3 2 .7 7 2 .6 6 2 .5 8 2 .5 1 2 .4 6 2 .4 1 2 .3 4 2 .2 7 2 .1 9 2 .1 5 2 .1 1 2 .0 6 2 .0 2 1 .9 7 1 .9 2 1 9 4 .3 8 3 .5 2 3 .1 3 2 .9 0 2 .7 4 2 .6 3 2 .5 4 2 .4 8 2 .4 2 2 .3 8 2 .3 1 2 .2 3 2 .1 6 2 .1 1 2 .0 7 2 .0 3 1 .9 8 1 .9 3 1 .8 8 2 0 4 .3 5 3 .4 9 3 .1 0 2 .8 7 2 .7 1 2 .6 0 2 .5 1 2 .4 5 2 .3 9 2 .3 5 2 .2 8 2 .2 0 2 .1 2 2 .0 8 2 .0 4 1 .9 9 1 .9 5 1 .9 0 1 .8 4 2 1 4 .3 2 3 .4 7 3 .0 7 2 .8 4 2 .6 8 2 .5 7 2 .4 9 2 .4 2 2 .3 7 2 .3 2 2 .2 5 2 .1 8 2 .1 0 2 .0 5 2 .0 1 1 .9 6 1 .9 2 1 .8 7 1 .8 1 2 2 4 .3 0 3 .4 4 3 .0 5 2 .8 2 2 .6 6 2 .5 5 2 .4 6 2 .4 0 2 .3 4 2 .3 0 2 .2 3 2 .1 5 2 .0 7 2 .0 3 1 .9 8 1 .9 4 1 .8 9 1 .8 4 1 .7 8 2 3 4 .2 8 3 .4 2 3 .0 3 2 .8 0 2 .6 4 2 .5 3 2 .4 4 2 .3 7 2 .3 2 2 .2 7 2 .2 0 2 .1 3 2 .0 5 2 .0 1 1 .9 6 1 .9 1 1 .8 6 1 .8 1 1 .7 6 2 4 4 .2 6 3 .4 0 3 .0 1 2 .7 8 2 .6 2 2 .5 1 2 .4 2 2 .3 6 2 .3 0 2 .2 5 2 .1 8 2 .1 1 2 .0 3 1 .9 8 1 .9 4 1 .8 9 1 .8 4 1 .7 9 1 .7 3 2 5 4 .2 4 3 .3 9 2 .9 9 2 .7 6 2 .6 0 2 .4 9 2 .4 0 2 .3 4 2 .2 8 2 .2 4 2 .1 6 2 .0 9 2 .0 1 1 .9 6 1 .9 2 1 .8 7 1 .8 2 1 .7 7 1 .7 1 2 6 4 .2 3 3 .3 7 2 .9 8 2 .7 4 2 .5 9 2 .4 7 2 .3 9 2 .3 2 2 .2 7 2 .2 2 2 .1 5 2 .0 7 1 .9 9 1 .9 5 1 .9 0 1 .8 5 1 .8 0 1 .7 5 1 .6 9 2 7 4 .2 1 3 .3 5 2 .9 6 2 .7 3 2 .5 7 2 .4 6 2 .3 7 2 .3 1 2 .2 5 2 .2 0 2 .1 3 2 .0 6 1 .9 7 1 .9 3 1 .8 8 1 .8 4 1 .7 9 1 .7 3 1 .6 7 2 8 4 .2 0 3 .3 4 2 .9 5 2 .7 1 2 .5 6 2 .4 5 2 .3 6 2 .2 9 2 .2 4 2 .1 9 2 .1 2 2 .0 4 1 .9 6 1 .9 1 1 .8 7 1 .8 2 1 .7 7 1 .7 1 1 .6 5 2 9 4 .1 8 3 .3 3 2 .9 3 2 .7 0 2 .5 5 2 .4 3 2 .3 5 2 .2 8 2 .2 2 2 .1 8 2 .1 0 2 .0 3 1 .9 4 1 .9 0 1 .8 5 1 .8 1 1 .7 5 1 .7 0 1 .6 4 3 0 4 .1 7 3 .3 2 2 .9 2 2 .6 9 2 .5 3 2 .4 2 2 .3 3 2 .2 7 2 .2 1 2 .1 6 2 .0 9 2 .0 1 1 .9 3 1 .8 9 1 .8 4 1 .7 9 1 .7 4 1 .6 8 1 .6 2 4 0 4 .0 8 3 .2 3 2 .8 4 2 .6 1 2 .4 5 2 .3 4 2 .2 5 2 .1 8 2 .1 2 2 .0 8 2 .0 0 1 .9 2 1 .8 4 1 .7 9 1 .7 4 1 .6 9 1 .6 4 1 .5 8 1 .5 1 6 0 4 .0 0 4 .1 5 2 .7 6 2 .5 3 2 .3 7 2 .2 5 2 .1 7 2 .1 0 2 .0 4 1 .9 9 1 .9 2 1 .8 4 1 .7 5 1 .7 0 1 .6 5 1 .5 9 1 .5 3 1 .4 7 1 .3 9 1 2 0 3 .9 3 3 .0 7 2 .2 9 2 .4 5 2 .2 9 2 .1 7 2 .0 9 2 .0 2 1 .9 6 1 .9 1 1 .8 3 1 .7 5 1 .6 6 1 .6 1 1 .5 5 1 .5 0 1 .4 3 1 .3 5 1 .2 5 3 .8 4 3 .0 0 2 .6 0 2 .3 7 2 .2 1 2 .1 0 2 .0 1 1 .9 4 1 .8 8 1 .8 3 1 .7 5 1 .6 7 1 .5 7 1 .5 2 1 .4 6 1 .3 9 1 .3 2 1 .2 2 1 .0 0 2 1 7 T A B E L 5 V a lo ri le F is h er ( F 0 .0 1 ): P ( F > F 0 .0 1 ) = 0 .0 1 G L 1 → G L 2 ↓ 1 2 3 4 5 6 7 8 9 1 0 1 2 1 5 2 0 2 4 3 0 4 0 6 0 1 2 0 1 4 0 5 2 4 9 9 9 5 4 0 3 5 6 2 5 5 7 6 4 5 8 5 9 5 9 2 8 5 9 8 2 6 0 2 2 6 0 5 6 6 1 0 6 6 1 5 7 6 2 0 9 6 2 3 5 6 2 6 1 6 2 8 7 6 3 1 3 6 3 3 9 6 3 6 6 2 9 8 .5 0 9 9 .0 0 9 9 .1 7 9 9 .2 5 9 9 .3 0 9 9 .3 3 9 9 .3 6 9 9 .3 7 9 9 .3 9 9 9 .4 0 9 9 .4 2 9 9 .4 3 9 9 .4 5 9 9 .4 6 9 9 .4 7 9 9 .4 7 9 9 .4 8 9 9 .4 9 9 9 .5 0 3 3 4 .1 2 3 0 .8 2 2 9 .4 6 2 8 .7 1 2 8 .2 4 2 7 .9 1 2 7 .6 7 2 7 .4 9 2 7 .3 5 2 7 .2 3 2 7 .0 5 2 6 .8 7 2 6 .6 9 2 6 .6 0 2 6 .5 0 2 6 .4 1 2 6 .3 2 2 6 .2 2 2 6 .1 3 4 2 1 .2 0 1 8 .0 0 1 6 .6 9 1 5 .9 8 1 5 .5 2 1 5 .2 1 1 4 .9 8 1 4 .8 0 1 4 .6 6 1 4 .5 5 1 4 .3 7 1 4 .2 0 1 4 .0 2 1 3 .9 3 1 3 .8 4 1 3 .7 5 1 3 .6 5 1 3 .5 6 1 3 .4 6 5 1 6 .2 6 1 3 .2 7 1 2 .0 6 1 1 .3 9 1 0 .9 7 1 0 .6 7 1 0 .4 6 1 0 .2 9 1 0 .1 6 1 0 .0 5 9 .8 9 9 .7 2 9 .5 5 9 .4 7 9 .3 8 9 .2 9 9 .2 0 9 .1 1 9 .0 2 6 1 3 .7 5 1 0 .9 2 9 .7 8 9 .1 5 8 .7 5 8 .4 7 8 .2 6 8 .1 0 7 .9 8 7 .8 7 7 .7 2 7 .5 6 7 .4 0 7 .3 1 7 .2 3 7 .1 4 7 .0 6 6 .9 7 6 .8 8 7 1 2 .2 5 9 .5 5 8 .4 5 7 .8 5 7 .4 6 7 .1 9 6 .9 9 6 .8 4 6 .7 2 6 .6 2 6 .4 7 6 .3 1 6 .1 6 6 .0 7 5 .9 9 5 .9 1 5 .8 2 5 .7 4 5 .6 5 8 1 1 .2 6 8 .6 5 7 .5 9 7 .0 1 6 .6 3 6 .3 7 6 .1 8 6 .0 3 5 .9 1 5 .8 1 5 .6 7 5 .5 2 5 .3 6 5 .2 8 5 .2 0 5 .1 2 5 .0 3 4 .9 5 4 .4 6 9 1 0 .5 6 8 .0 2 6 .9 9 6 .4 2 6 .0 6 5 .8 0 5 .6 1 5 .4 7 5 .3 5 5 .2 6 5 .1 1 4 .9 6 4 .8 1 4 .7 3 4 .6 5 4 .5 7 4 .4 8 4 .4 0 4 .3 1 1 0 1 0 .0 4 7 .5 6 6 .5 5 5 .9 9 5 .6 4 5 .3 9 5 .2 0 5 .0 6 4 .9 4 4 .8 5 4 .7 1 4 .5 6 4 .4 1 4 .3 3 4 .2 5 4 .1 7 4 .0 8 4 .0 0 3 .9 1 1 1 9 .6 5 7 .2 1 6 .2 2 5 .6 7 5 .3 2 5 .0 7 4 .8 9 4 .7 4 4 .6 3 4 .5 4 4 .4 0 4 .2 5 4 .1 0 4 .0 2 3 .9 4 3 .8 6 3 .7 8 3 .6 9 3 .6 0 1 2 9 .3 3 6 .9 3 5 .9 5 5 .4 1 5 .0 6 4 .8 2 4 .6 4 4 .5 0 4 .3 9 4 .3 0 4 .1 6 4 .0 1 3 .8 6 3 .7 8 3 .7 0 3 .6 2 3 .5 4 3 .4 5 3 .3 6 1 3 9 .0 7 6 .7 0 5 .7 4 5 .2 1 4 .8 6 4 .6 2 4 .4 4 4 .3 0 4 .1 9 4 .1 0 3 .9 6 3 .8 2 3 .6 6 3 .5 9 3 .5 1 3 .4 3 3 .3 4 3 .2 5 3 .1 7 1 4 8 .8 6 6 .5 1 5 .5 6 5 .0 4 4 .6 9 4 .4 6 4 .2 8 4 .1 4 4 .0 3 3 .9 4 3 .8 0 3 .6 6 3 .5 1 3 .4 3 3 .3 5 3 .2 7 3 .1 8 3 .0 9 3 .0 0 1 5 8 .6 8 6 .3 6 5 .4 2 4 .8 9 4 .3 6 4 .3 2 4 .1 4 4 .0 0 3 .8 9 3 .8 0 3 .6 7 3 .5 2 3 .3 7 3 .2 9 3 .2 1 3 .1 3 3 .0 5 2 .9 6 2 .8 7 1 6 8 .5 3 6 .2 3 5 .2 9 4 .7 7 4 .4 4 4 .2 0 4 .0 3 3 .8 9 3 .7 8 3 . 6 9 3 .5 5 3 .4 1 3 .2 6 3 .1 8 3 .1 0 3 .0 2 2 .9 3 2 .8 4 2 .7 5 1 7 8 .4 0 6 .1 1 5 .1 8 4 .6 7 4 .3 4 4 .1 0 3 .9 3 3 .7 9 3 .6 8 3 .5 9 3 .4 6 3 .3 1 3 .1 6 3 .0 8 3 .0 0 2 .9 2 2 .8 3 2 .7 5 2 .6 5 1 8 8 .2 9 6 .0 1 5 .0 9 4 .5 8 4 .2 5 4 .0 1 3 .8 4 3 .7 1 3 .6 0 3 .5 1 3 .3 7 3 .2 3 3 .0 8 3 .0 0 2 .9 2 2 .8 4 2 .7 5 2 .6 6 2 .5 7 1 9 8 .1 8 5 .9 3 5 .0 1 4 .5 0 4 .1 7 3 .9 4 3 .7 7 3 .6 3 3 .5 2 3 .4 3 3 .3 0 3 .1 5 3 .0 0 2 .9 2 2 .8 4 2 .7 6 2 .6 7 2 .5 8 2 .4 9 2 0 8 .1 0 5 .8 5 4 .9 4 4 .4 3 4 .1 0 3 .8 7 3 .7 0 3 .5 6 3 .4 6 3 .3 7 3 .2 3 3 .0 9 2 .9 4 2 .8 6 2 .7 8 2 .6 9 2 .6 1 2 .5 2 2 .4 2 2 1 8 .0 2 5 .7 8 4 .8 7 4 .3 7 4 .0 4 3 .8 1 3 .6 4 3 .5 1 3 .4 0 3 .3 1 3 .1 7 3 .0 3 2 .8 8 2 .8 0 2 .7 2 2 .6 4 2 .5 5 2 .4 6 2 .3 6 2 2 7 .9 5 5 .7 2 4 .8 2 4 .3 1 3 .9 9 3 .7 6 3 .5 9 3 .4 5 3 .3 5 3 .2 6 3 .1 2 2 .9 8 2 .8 3 2 .7 5 2 .6 7 2 .5 8 2 .5 0 2 .4 0 2 .3 1 2 3 7 .8 8 5 .6 6 4 .7 6 4 .2 6 3 .9 4 3 .7 1 3 .5 4 3 .4 1 3 .3 0 3 .2 1 3 .0 7 2 .9 3 2 .7 8 2 .7 0 2 .6 2 2 .5 4 2 .4 5 2 .3 5 2 .2 6 2 4 7 .8 2 5 .6 1 4 .7 2 4 .2 2 3 .9 0 3 .6 7 3 .5 0 3 .3 6 3 .2 6 3 .1 7 3 .0 3 2 .8 9 2 .7 4 2 .6 6 2 .5 8 2 .4 9 2 .4 0 2 .3 1 2 .2 1 2 5 7 .7 7 5 .5 7 4 .6 8 4 .1 8 3 .8 5 3 .6 3 3 .4 6 3 .3 2 3 .2 2 3 .1 3 2 .9 9 2 .8 5 2 .7 0 2 .6 2 2 .5 4 2 .4 5 2 .3 6 2 .2 7 2 .1 7 2 6 7 .7 2 5 .5 3 4 .6 4 4 .1 4 3 .8 2 3 .5 9 3 .4 2 3 .2 9 3 .1 8 3 .0 9 2 .9 6 2 .8 1 2 .6 6 2 .5 8 2 .5 0 2 .4 2 2 .3 3 2 .2 3 2 .1 3 2 7 7 .6 8 5 .4 9 4 .6 0 4 .1 1 3 .7 8 3 .5 6 3 .3 9 3 .2 6 3 .1 5 3 .0 6 2 .9 3 2 .7 8 2 .6 3 2 .5 5 2 .4 7 2 .3 8 2 .2 9 2 .2 0 2 .1 0 2 8 7 .6 4 5 .4 5 4 .5 7 4 .0 7 3 .7 5 3 .5 3 3 .3 6 3 .2 3 3 .1 2 3 .0 3 2 .9 0 2 .7 5 2 .6 0 2 .5 2 2 .4 4 2 .3 5 2 .2 6 2 .1 7 2 .0 6 2 9 7 .6 0 5 .4 2 4 .5 4 4 .0 4 3 .7 3 3 .5 0 3 .3 3 3 .2 0 3 .0 9 3 .0 0 2 .8 7 2 .7 3 2 .5 7 2 .4 9 2 .4 1 2 .3 3 2 .2 3 2 .1 4 2 .0 3 3 0 7 .5 6 5 .3 9 4 .5 1 4 .0 2 3 .7 0 3 .4 7 3 .3 0 3 .1 7 3 .0 7 2 .9 8 2 .8 4 2 .7 0 2 .5 5 2 .4 7 2 .3 9 2 .3 0 2 .2 1 2 .1 1 2 .0 1 4 0 7 .3 1 5 .1 8 4 .3 1 3 .8 3 3 .5 1 3 .2 9 3 .1 2 2 .9 9 2 .8 9 2 .8 0 2 .6 6 2 .5 2 2 .3 7 2 .2 9 2 .2 0 2 .1 1 2 .0 2 1 .9 2 1 .8 0 6 0 7 .0 8 4 .9 8 4 .1 3 3 .6 5 3 .3 4 3 .1 2 3 .9 5 2 .8 2 2 .7 2 2 .6 3 2 .5 0 2 .3 5 2 .2 0 2 .1 2 2 .0 3 1 .9 4 1 .8 4 1 .7 3 1 .6 0 1 2 0 6 .8 5 4 .7 9 3 .9 5 3 .4 8 3 .1 7 2 .9 6 2 .7 9 2 .6 6 2 .5 6 2 .4 7 2 .3 4 2 .1 9 2 .0 3 1 .9 5 1 .8 6 1 .7 6 1 .6 6 1 .5 3 1 .3 8 6 .6 3 4 .6 1 3 7 8 3 .3 2 3 .0 2 2 .8 0 2 .6 4 2 .5 1 2 .4 1 2 .3 2 2 .1 8 2 .0 4 1 .8 8 1 .7 9 1 .7 0 1 .5 9 1 .4 7 1 .3 2 1 .0 0 2 1 8 T A B E L 6 V a lo ri le F is h er ( F 0 .0 0 1 ): P ( F > F 0 .0 0 1 ) = 0 .0 0 1 G L 1 → G L 2 ↓ 1 2 3 4 5 6 7 8 9 1 0 1 2 1 5 2 0 2 4 3 0 4 0 6 0 1 2 0 1 4 0 5 3 2 5 0 0 0 2 5 4 0 4 2 5 6 2 5 2 5 7 6 4 2 5 8 5 9 2 5 9 2 9 2 5 9 8 1 2 6 0 2 3 2 6 0 5 6 2 6 1 0 7 2 6 1 5 8 2 6 2 0 9 2 6 2 3 5 2 6 2 6 1 2 6 2 8 7 2 6 3 1 3 2 6 3 4 0 2 6 3 6 6 2 2 9 9 8 .5 9 9 9 .0 9 9 9 .2 9 9 9 .2 9 9 9 .3 9 9 9 .3 9 9 9 .4 9 9 9 .4 9 9 9 .4 9 9 9 .4 9 9 9 .4 9 9 9 .4 9 9 9 .4 9 9 9 .5 9 9 9 .5 9 9 9 .5 9 9 9 .5 9 9 9 .5 9 9 9 .5 3 1 6 7 .0 1 4 8 .5 1 4 1 .1 1 3 7 .1 1 3 4 .6 1 3 2 .8 1 3 1 .6 1 3 0 .6 1 2 9 .9 1 2 9 .2 1 2 8 .3 1 2 7 .4 1 2 6 .4 1 2 5 .9 1 2 5 .4 1 2 5 .0 1 2 4 .5 1 2 4 .0 1 2 3 .5 4 7 4 .1 4 6 1 .2 5 5 6 .1 8 5 3 .4 4 5 1 .7 1 5 0 .5 3 4 9 .6 6 4 9 .0 0 4 8 .4 7 4 8 .0 5 4 7 .4 1 4 6 .7 6 4 6 .1 0 4 5 .7 7 4 5 .4 3 4 5 .0 9 4 4 .7 5 4 4 .4 0 4 4 .0 5 5 4 7 .1 8 3 7 .1 2 3 3 .2 0 3 1 .0 9 2 9 .7 5 2 8 .8 4 2 8 .1 6 2 7 .6 4 2 7 .2 4 2 6 .9 2 2 6 .4 2 2 5 .9 1 2 5 .3 9 2 5 .1 4 2 4 .8 7 2 4 .6 0 2 4 .3 3 2 4 .0 6 2 3 .7 9 6 3 5 .5 1 2 7 .0 0 2 3 .7 0 2 1 .9 2 2 0 .8 1 2 0 .0 3 1 9 .4 6 1 9 .0 3 1 8 .6 9 1 8 .4 1 1 7 .9 9 1 7 .5 6 1 7 .1 2 1 6 .8 9 1 6 .6 7 1 6 .4 4 1 6 .2 1 1 5 .9 9 1 5 .7 5 7 2 9 .2 5 2 1 .6 9 1 8 .7 7 1 7 .1 9 1 6 .2 1 1 5 .5 2 1 5 .0 2 1 4 .6 3 1 4 .3 3 1 4 .0 8 1 3 .7 1 1 3 .3 2 1 2 .9 3 1 2 .7 3 1 2 .5 3 1 2 .3 3 1 2 .1 2 1 1 .9 1 1 1 .7 0 8 2 5 .4 2 1 8 .4 9 1 5 .8 3 1 4 .3 9 1 3 .4 9 1 2 .8 6 1 2 .4 0 1 2 .0 4 1 1 .7 7 1 1 .5 4 1 1 .1 9 1 0 .8 4 1 0 .4 8 1 0 .3 0 1 0 .1 1 9 .9 2 9 .7 3 9 .5 3 9 .3 3 9 2 2 .8 6 1 6 .3 9 1 3 .9 0 1 2 .5 6 1 1 .7 1 1 1 .1 3 1 0 .7 0 1 0 .3 7 1 0 .1 1 9 .8 9 9 .5 7 9 .2 4 8 .9 0 8 .7 2 8 .5 5 8 .3 7 8 .1 9 8 .0 0 7 .8 1 1 0 2 1 .0 4 1 4 .9 1 1 2 .5 5 1 1 .2 8 1 0 .4 8 9 .9 2 9 .5 2 9 .2 0 8 .9 6 8 .7 5 8 .4 5 8 .1 3 7 .8 0 7 .6 4 7 .4 7 7 .3 0 7 .1 2 6 .9 4 6 .7 6 1 1 1 9 .6 9 1 3 .8 1 1 1 .5 6 1 0 .3 5 9 .5 8 9 .0 5 8 .6 6 8 .3 5 8 .1 2 7 .9 2 7 .6 3 7 .3 2 7 .0 1 6 .8 5 6 .6 8 6 .5 2 6 .3 5 6 .1 7 6 .0 0 1 2 1 8 .6 4 1 2 .9 7 1 0 .8 0 9 .6 3 8 .8 9 8 .3 8 8 .0 0 7 .7 1 7 .4 8 7 .2 9 7 .0 0 6 .7 1 6 .4 0 6 .2 5 6 .0 9 5 .9 3 5 .7 6 5 .5 9 5 .4 2 1 3 1 7 .8 1 1 2 .3 1 1 0 .2 1 9 .0 7 8 .3 5 7 .8 6 7 .4 2 7 .2 1 6 .9 8 6 .8 0 6 .5 2 6 .2 3 5 .9 3 5 .7 8 5 .6 3 5 .4 7 5 .3 0 5 .1 4 4 .9 7 1 4 1 7 .1 4 1 1 .7 8 9 .7 3 8 .6 2 7 .9 2 7 .4 3 7 .0 8 6 .8 0 6 .5 8 6 .4 0 6 .1 3 5 .8 5 5 .5 6 5 .4 1 5 .2 5 5 .1 0 4 .9 4 4 .7 7 4 .6 0 1 5 1 6 .5 9 1 1 .3 4 9 .3 4 8 .2 5 8 .5 7 7 .0 9 6 .7 4 6 .4 7 6 .2 6 6 .0 8 5 .8 1 5 .5 4 5 .2 5 5 .1 0 4 .9 5 4 .8 0 4 .6 4 4 .4 7 4 .3 1 1 6 1 6 .1 2 1 0 .9 7 9 .0 0 7 .9 4 7 .2 7 6 .8 1 6 .4 6 6 .1 9 5 .9 8 5 .8 1 5 .5 5 5 .2 7 4 .9 9 4 .8 5 4 .7 0 4 .5 4 4 .3 9 4 .2 3 4 .0 6 1 7 1 5 .7 2 1 0 .6 6 8 .7 3 7 .6 8 7 .0 2 6 .5 6 6 .2 2 5 .9 6 5 .7 5 5 .5 8 5 .3 2 5 .0 5 4 .7 8 4 .6 3 4 .4 8 4 .3 3 4 .1 8 4 .0 2 3 .8 5 1 8 1 5 .3 8 1 0 .3 9 8 .4 9 7 .4 6 6 .8 1 6 .3 5 6 .0 2 5 .7 6 5 .5 6 5 .3 9 5 .1 3 4 .8 7 4 .5 9 4 .4 5 4 .3 0 4 .1 5 4 .0 0 3 .8 4 3 .6 7 1 9 1 5 .0 8 1 0 .1 6 8 .2 8 7 .2 6 6 .6 2 6 .1 8 5 .8 5 5 .5 9 5 .3 9 5 .2 2 4 .9 7 4 .7 0 4 .4 3 4 .2 9 4 .1 4 3 .9 9 3 .8 4 3 .6 8 3 .5 1 2 0 1 4 .8 2 9 .9 5 8 .1 0 7 .1 0 6 .4 6 6 .0 2 5 .6 9 5 .4 4 5 .2 4 5 .0 8 4 .8 2 4 .5 6 4 .2 9 4 .1 5 4 .0 0 3 .8 6 3 .7 0 3 .5 4 3 .3 8 2 1 1 4 .5 9 9 .7 7 7 .9 4 6 .9 5 6 .3 2 5 .8 8 5 .5 6 5 .3 1 5 .1 1 4 .9 5 4 .7 0 4 .4 4 4 .1 7 4 .0 3 3 .8 8 3 .7 4 3 .5 8 3 .4 2 3 .2 6 2 2 1 4 .3 8 9 .6 1 7 .8 0 6 .8 1 6 .1 9 5 .7 6 5 .4 4 5 .1 9 4 .9 9 4 .8 3 4 .5 8 4 .3 3 4 .0 6 3 .9 2 3 .7 8 3 .6 3 3 .4 8 3 .3 2 3 .1 5 2 3 1 4 .1 9 9 .4 7 7 .6 7 6 .6 9 6 .0 8 5 .6 5 5 .3 3 5 .0 9 4 .8 9 4 .7 3 4 .4 8 4 .2 3 3 .9 6 3 .8 2 3 .6 8 3 .5 3 3 .3 8 3 .2 2 3 .0 5 2 4 1 4 .0 3 9 .3 4 7 .5 5 6 .5 9 5 .9 8 5 .5 5 5 .2 3 4 .9 9 4 .8 0 4 .6 4 4 .3 9 4 .1 4 3 .8 7 3 .7 4 3 .5 9 3 .4 5 3 .2 9 3 .1 4 2 .9 7 2 5 1 3 .8 8 9 .2 2 7 .4 5 6 .4 9 5 .8 8 5 .4 6 5 .1 5 4 .9 1 4 .7 1 4 .5 6 4 .3 1 4 .0 6 3 .7 9 3 .6 6 3 .5 2 3 .3 7 3 .2 2 3 .0 6 2 .8 9 2 6 1 3 .7 4 9 .1 2 7 .3 6 6 .4 1 5 .8 0 5 .3 8 5 .0 7 4 .8 3 4 .6 4 4 .4 8 4 .2 4 3 .9 9 3 .7 2 3 .5 9 3 .4 4 3 .3 0 3 .1 5 2 .9 9 2 .8 2 2 7 1 3 .6 1 9 .0 2 7 .2 7 6 .3 3 5 .7 3 5 .3 1 5 .0 0 4 .7 6 4 .5 7 4 .4 1 4 .1 7 3 .9 2 3 .6 6 3 .5 2 3 .3 8 3 .2 3 3 .0 8 2 .9 2 2 .7 5 2 8 1 3 .5 0 8 .9 3 7 .1 9 6 .2 5 5 .6 6 5 .2 4 4 .9 3 4 .6 9 4 .5 0 4 .3 5 4 .1 1 3 .8 6 3 .6 0 3 .4 6 3 .3 2 3 .1 8 3 .0 2 2 .8 6 2 .6 9 2 9 1 3 .3 9 8 .8 5 7 .1 2 6 .1 9 5 .5 9 5 .1 8 4 .8 7 4 .6 4 4 .4 5 4 .2 9 4 .0 5 3 .8 0 3 .5 4 3 .4 1 3 .2 7 3 .1 2 2 .9 7 2 .8 1 2 .6 4 3 0 1 3 .2 9 8 .7 7 7 .0 5 6 .1 2 5 .5 3 5 .1 2 4 .8 2 4 .5 8 4 .3 9 4 .2 4 4 .0 0 3 .7 5 3 .4 9 3 .3 6 3 .2 2 3 .0 7 2 .9 2 2 .7 6 2 .5 9 4 0 1 2 .6 1 8 .2 4 6 .6 0 5 .7 0 5 .1 3 4 .7 3 4 .4 4 4 .2 1 4 .0 2 3 .8 7 3 .6 4 3 .4 0 3 .1 5 3 .0 1 2 .8 7 2 .7 3 2 .5 7 2 .4 1 2 .2 3 6 0 1 1 .9 7 7 .7 6 6 .1 7 5 .3 1 4 .7 6 4 .3 7 4 .0 9 3 .8 7 3 .6 9 3 .5 4 3 .3 1 3 .0 8 2 .8 3 2 .6 9 2 .5 5 2 .4 1 2 .2 5 2 .0 8 1 .8 9 1 2 0 1 1 .3 8 7 .3 2 5 .7 9 4 .9 5 4 .4 2 4 .0 4 3 .7 7 3 .5 5 3 .3 8 3 .2 4 3 .0 2 2 .7 8 2 .5 3 2 .4 0 2 .2 6 2 .1 1 1 .9 5 1 .7 6 1 .5 4 1 0 .8 3 6 .9 1 5 .4 2 4 .6 2 4 .1 0 3 .7 4 3 .4 7 3 .2 7 3 .1 0 2 .9 6 2 .7 4 2 .5 1 2 .2 7 2 .1 3 1 .9 9 1 .8 4 1 .6 6 1 .4 5 1 .0 0 2 1 9 T A B E L 7 A m p li tu d in ea s tu d en ti za tă T u k ey T (0 .0 5 ) c m G L E 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 5 3 .6 4 4 .6 0 5 .2 2 5 .6 7 6 .0 3 6 .3 3 6 .5 8 6 .8 0 6 .9 9 7 .1 7 7 .3 2 7 .4 7 7 .6 0 7 .7 2 7 .8 3 7 .9 3 8 .0 3 8 .1 2 8 .2 1 6 3 .4 6 4 .3 4 4 .9 0 5 .3 1 5 .6 3 5 .8 9 6 .1 2 6 .3 2 6 .4 9 6 .6 5 6 .7 9 6 .9 2 7 .0 3 7 .1 4 7 .2 4 7 .3 4 7 .4 3 7 .5 1 7 .5 9 7 3 .3 4 4 .1 6 4 .6 8 5 .0 6 5 .3 6 5 .6 1 5 .8 2 6 .0 0 6 .1 6 6 .3 0 6 .4 3 6 .5 5 6 .6 6 6 .7 6 6 .8 5 6 .9 4 7 .0 2 7 .0 9 7 .1 7 8 3 .2 6 4 .0 4 4 .5 3 4 .8 9 5 .1 7 5 .4 0 5 .6 0 5 .7 7 5 .9 2 6 .0 5 6 .1 8 6 .2 9 6 .3 9 6 .4 8 6 .5 7 6 .6 5 6 .7 3 6 .8 0 6 .8 7 9 3 .2 0 3 .9 5 4 .4 2 4 .7 6 5 .0 2 5 .2 4 5 .4 3 5 .6 0 5 .7 4 5 .8 7 5 .9 8 6 .0 9 6 .1 9 6 .2 8 6 .3 6 6 .4 4 6 .5 1 6 .5 8 6 .6 4 1 0 3 .1 5 3 .8 8 4 .3 3 4 .6 5 4 .9 1 5 .1 2 5 .3 0 5 .4 6 5 .6 0 5 .7 2 5 .8 3 5 .9 3 6 .0 3 6 .1 1 6 .2 0 6 .2 7 6 .3 4 6 .4 0 6 .4 7 1 1 3 .1 1 3 .8 2 4 .2 6 4 .5 7 4 .8 2 5 .0 3 5 .2 0 5 .3 5 5 .4 9 5 .6 1 5 .7 1 5 .8 1 5 .9 0 5 .9 9 6 .0 6 6 .1 4 6 .2 0 6 .2 6 6 .3 3 1 2 3 .0 8 3 .7 7 4 .2 0 4 .5 1 4 .5 7 4 .9 5 5 .1 2 5 .2 7 5 .4 0 5 .5 1 5 .6 2 5 .7 1 5 .8 0 5 .8 8 5 .9 5 6 .0 3 6 .0 9 6 .1 5 6 .2 1 1 3 3 .0 6 3 .7 3 4 .1 5 4 .4 5 4 .6 9 4 .8 8 5 .0 5 5 .1 9 5 .3 2 5 .4 3 5 .5 3 5 .6 3 5 .7 1 5 .7 9 5 .8 6 5 .9 3 6 .0 0 6 .0 5 6 .1 1 1 4 3 .0 3 3 .7 0 4 .1 1 4 .4 1 4 .6 4 4 .8 3 4 .9 9 5 .1 3 5 .2 5 5 .3 6 5 .4 6 5 .5 5 5 .6 4 5 .7 2 5 .7 9 5 .8 5 5 .9 2 5 .9 7 6 .0 3 1 5 3 .0 1 3 .6 7 4 .0 8 4 .3 7 4 .6 0 4 .7 8 4 .9 4 5 .0 8 5 .2 0 5 .3 1 5 .4 0 5 .4 9 5 .5 8 5 .6 5 5 .7 2 5 .7 9 5 .8 5 5 .9 0 5 .9 6 1 6 3 .0 0 3 .6 5 4 .0 5 4 .3 3 4 .5 6 4 .7 4 4 .9 0 5 .0 3 5 .1 5 5 .2 6 5 .3 5 5 .4 4 5 .5 2 5 .5 9 5 .6 6 5 .7 2 5 .7 9 5 .8 4 5 .9 0 1 7 2 .9 8 3 .6 3 4 .0 4 .3 0 4 .5 2 4 .7 1 4 .8 6 4 .9 9 5 .1 1 5 .2 1 5 .3 1 5 .3 9 5 .4 7 5 .5 5 5 .6 1 5 .6 8 5 .7 4 5 .7 9 5 .8 4 1 8 2 .9 7 3 .6 1 4 .0 0 4 .2 8 4 .4 9 4 .6 7 4 .8 2 4 .9 6 5 .0 6 5 .1 7 5 .2 7 5 .3 5 5 .4 3 5 .5 0 5 .5 7 5 .6 3 5 .6 9 5 .7 4 5 .7 9 1 9 2 .9 6 3 .5 9 3 .9 8 4 .2 5 4 .4 7 4 .6 5 4 .7 9 4 .9 2 5 .0 4 5 .1 4 5 .2 3 5 .3 2 5 .3 9 5 .4 6 5 .5 3 5 .5 9 5 .6 5 5 .7 0 5 .7 5 2 0 2 .9 5 3 .5 8 3 .9 6 4 .2 3 4 .4 5 4 .6 2 4 .7 7 4 .9 0 5 .0 1 5 .1 1 5 .2 0 5 .2 8 5 .3 6 5 .4 3 5 .4 9 5 .5 5 5 .6 1 5 .6 6 5 .7 1 2 4 2 .9 2 3 .5 3 3 .9 0 4 .1 7 4 .3 7 4 .5 4 4 .6 8 4 .8 1 4 .9 2 5 .0 1 5 .1 0 5 .1 8 5 .2 5 5 .3 2 5 .3 8 5 .4 4 5 .5 0 5 .5 4 5 .5 9 3 0 2 .8 9 3 .4 9 3 .8 4 4 .1 0 4 .3 0 4 .4 6 4 .6 0 4 .7 2 4 .8 3 4 .9 2 5 .0 0 5 .0 8 5 .1 5 5 .2 1 5 .2 7 5 .3 3 5 .3 8 5 .4 3 5 .4 8 4 0 2 .8 6 3 .4 4 3 .7 9 4 .0 4 4 .2 3 4 .3 9 4 .5 2 4 .6 3 4 .7 4 4 .8 2 4 .9 1 4 .9 8 5 .0 5 5 .1 1 5 .1 6 5 .2 2 5 .2 7 5 .3 1 5 .3 6 6 0 2 .8 3 3 .4 0 3 .7 4 3 .9 8 4 .1 6 4 .3 1 4 .4 4 4 .5 5 4 .6 5 4 .7 3 4 .8 1 4 .8 8 4 .9 4 5 .0 0 5 .0 6 5 .1 1 5 .1 6 5 .2 0 5 .2 4 1 2 0 2 .8 0 3 .3 6 3 .6 9 3 .9 2 4 .1 0 4 .2 4 4 .3 6 4 .4 8 4 .5 6 4 .6 4 4 .7 2 4 .7 8 4 .8 4 4 .9 0 4 .9 5 5 .0 0 5 .0 5 5 .0 9 5 .1 3 ∞ 2 .7 7 3 .3 1 3 .6 3 3 .8 6 4 .0 3 4 .1 7 4 .2 9 4 .3 9 4 .4 7 4 .5 5 4 .6 2 4 .6 8 4 .7 4 4 .8 0 4 .8 5 4 .8 9 4 .9 3 4 .9 7 5 .0 1 2 2 0 T A B E L 8 A m p li tu d in ea s tu d en ti za tă T u k ey T (0 .0 1 ) m G L E 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 5 5 .7 0 6 .9 7 7 .8 0 8 .4 2 8 .9 1 9 .3 2 9 .6 7 9 .9 7 1 0 .2 4 1 0 .4 8 1 0 .7 0 1 0 .8 9 1 1 .0 8 1 1 .2 4 1 1 .4 0 1 1 .5 5 1 1 .6 8 1 1 .8 1 1 1 .9 3 6 5 .2 4 6 .3 3 7 .0 3 7 .5 6 7 .9 7 8 .3 2 8 .6 1 8 .8 7 9 .1 0 9 .3 0 9 .4 9 9 .6 5 9 .8 1 9 .9 5 1 0 .0 8 1 0 .2 1 1 0 .3 2 1 0 .4 3 1 0 .5 4 7 4 .9 5 5 .9 2 6 .5 4 7 .0 1 7 .3 7 7 .6 8 7 .9 4 8 .1 7 8 .3 7 8 .5 5 8 .7 1 8 .8 6 9 .0 0 9 .1 2 9 .2 4 9 .3 5 9 .4 6 9 .5 5 9 .6 5 8 4 .7 4 5 .6 3 6 .2 0 6 .6 3 6 .9 6 7 .2 4 7 .4 7 7 .6 8 7 .8 7 8 .0 3 8 .1 8 8 .3 1 8 .4 4 8 .5 5 8 .6 6 8 .7 6 8 .8 5 8 .9 4 9 .0 3 9 4 .6 0 5 .4 3 5 .9 6 6 .3 5 6 .6 6 6 .9 1 7 .1 3 7 .3 2 7 .4 9 7 .6 5 7 .7 8 7 .9 1 8 .0 3 8 .1 3 8 .2 3 8 .3 2 8 .4 1 8 .4 9 8 .5 7 1 0 4 .4 8 5 .2 7 5 .7 7 6 .1 4 6 .4 3 6 .6 7 6 .8 7 7 .0 5 7 .2 1 7 .3 6 7 .4 8 7 .6 0 7 .7 1 7 .8 1 7 .9 1 7 .9 9 8 .0 7 8 .1 5 8 .2 2 1 1 4 .3 9 5 .1 4 5 .6 2 5 .9 7 6 .2 5 6 .4 8 6 .6 7 6 .8 4 6 .9 9 7 .1 3 7 .2 5 7 .3 6 7 .4 6 7 .5 6 7 .6 5 7 .7 3 7 .8 1 7 .8 8 7 .9 5 1 2 4 .3 2 5 .0 4 5 .5 0 5 .8 4 6 .1 0 6 .3 2 6 .5 1 6 .6 7 6 .8 1 6 .9 4 7 .0 6 7 .1 7 7 .2 6 7 .3 6 7 .4 4 7 .5 2 7 .5 9 7 .6 6 7 .7 3 1 3 4 .2 6 4 .9 6 5 .4 0 5 .7 3 5 .9 8 6 .1 9 6 .3 7 6 .5 3 6 .6 7 6 .7 9 6 .9 0 7 .0 1 7 .1 0 7 .1 9 7 .2 7 7 .3 4 7 .4 2 7 .4 8 7 .5 5 1 4 4 .2 1 4 .8 9 5 .3 2 5 .6 3 5 .8 8 6 .0 8 6 .2 6 6 .4 1 6 .5 4 6 .6 6 6 .7 7 6 .8 7 6 .9 6 7 .0 5 7 .1 2 7 .2 0 7 .2 7 7 .3 3 7 .3 9 1 5 4 .1 7 4 .8 3 5 .2 5 5 .5 6 5 .8 0 5 .9 9 6 .1 6 6 .3 1 6 .4 4 6 .5 5 6 .6 6 6 .7 6 6 .8 4 6 .9 3 7 .0 0 7 .0 7 7 .1 4 7 .2 0 7 .2 6 1 6 4 .1 3 4 .7 8 5 .1 9 5 .4 9 5 .7 2 5 .9 2 6 .0 8 6 .2 2 6 .3 5 6 .4 6 6 .5 6 6 .6 6 6 .7 4 6 .8 2 6 .9 0 6 .9 7 7 .0 3 7 .0 9 7 .1 5 1 7 4 .1 0 4 .7 4 5 .1 4 5 .4 3 5 .6 6 5 .8 5 6 .0 1 6 .1 5 6 .2 7 6 .3 8 6 .4 8 6 .5 7 6 .6 6 6 .7 3 6 .8 0 6 .8 7 6 .9 4 7 .0 0 7 .0 5 1 8 4 .0 7 4 .7 0 5 .0 9 5 .3 8 5 .6 0 5 .7 9 5 .9 4 6 .0 8 6 .2 0 6 .3 1 6 .4 1 6 .5 0 6 .5 8 6 .6 5 6 .7 2 6 .7 9 6 .8 5 6 .9 1 6 .9 6 1 9 4 .0 5 4 .6 7 5 .0 5 5 .3 3 5 .5 5 5 .7 3 5 .8 9 6 .0 2 6 .1 4 6 .2 5 6 .3 4 6 .4 3 6 .5 1 6 .5 8 6 .6 5 6 .7 2 6 .7 8 6 .8 4 6 .8 9 2 0 4 .0 2 4 .6 4 5 .0 2 5 .2 9 5 .5 1 5 .6 9 5 .8 4 5 .9 7 6 .0 9 6 .1 9 6 .2 9 6 .3 7 6 .4 5 6 .5 2 6 .5 9 6 .6 5 6 .7 1 6 .7 6 6 .8 2 2 4 3 .9 6 4 .5 4 4 .9 1 5 .1 7 5 .3 7 5 .5 4 5 .6 9 5 .8 1 5 .9 2 6 .0 2 6 .1 1 6 .1 9 6 .2 6 6 .3 3 6 .3 9 6 .4 5 6 .5 1 6 .5 6 6 .6 1 3 0 3 .8 9 4 .4 5 4 .8 0 5 .0 5 5 .2 4 5 .4 0 5 .5 4 5 .6 5 5 .7 6 5 .8 5 5 .9 3 6 .0 1 6 .0 8 6 .1 4 6 .2 0 6 .2 6 6 .3 1 6 .3 6 6 .4 1 4 0 3 .8 2 4 .3 7 4 .7 0 4 .9 3 5 .1 1 5 .2 7 5 .3 9 5 .5 0 5 .6 0 5 .6 9 5 .7 7 5 .8 4 5 .9 0 5 .9 6 6 .0 2 6 .0 7 6 .1 2 6 .1 7 6 .2 1 6 0 3 .7 6 4 .2 8 4 .6 0 4 .8 2 4 .9 9 5 .1 3 5 .2 5 5 .3 6 5 .4 6 5 .5 3 5 .6 0 5 .6 7 5 .7 3 5 .7 9 5 .8 4 5 .8 9 5 .9 3 5 .9 8 6 .0 2 1 2 0 3 .7 0 4 .2 0 4 .5 0 4 .7 1 4 .8 7 5 .0 1 5 .1 2 5 .2 1 5 .3 0 5 .3 8 5 .4 4 5 .5 1 5 .5 6 5 .6 1 5 .6 6 5 .7 1 5 .7 5 5 .7 9 5 .8 3 ∞ 3 .6 4 4 .1 2 4 .4 0 4 .6 0 4 .7 6 4 .8 8 4 .9 9 5 .0 8 5 .1 6 5 .2 3 5 .2 9 5 .3 5 5 .4 0 5 .4 5 5 .4 9 5 .5 4 5 .5 7 5 .6 1 5 .6 5 221 TABEL 9 Valori critice ale asimetriei şi boltirii ASIMETRIA A BOLTIREA B n ↓ → 0.05 0.01 0.99 0.95 0.05 0.01 50 0.533 0.787 1.95 2.13 4.01 4.92 100 0.389 0.567 2.18 2.35 3.77 4.40 150 0.321 0.464 2.30 2.45 3.66 4.14 200 0.280 0.403 2.37 2.51 3.57 3.98 250 0.251 0.360 2.42 2.55 3.51 3.87 300 0.230 0.329 2.46 2.59 3.47 3.79 350 0.213 0.305 2.50 2.62 3.44 3.72 400 0.200 0.285 2.52 2.64 3.41 3.67 450 0.188 0.269 2.55 2.66 3.39 3.63 500 0.179 0.255 2.57 2.67 3.37 3.60 550 0.171 0.243 2.58 2.69 3.35 3.57 600 0.163 0.233 2.60 2.70 3.34 3.54 650 0.157 0.224 2.61 2.71 3.33 3.52 700 0.151 0.215 2.62 2.72 3.31 3.50 750 0.146 0.208 2.64 2.73 3.30 3.48 800 0.142 0.202 2.65 2.74 3.29 3.46 850 0.138 0.196 2.66 2.74 3.28 3.45 900 0.134 0.190 2.66 2.75 3.28 3.43 950 0.130 0.185 2.67 2.76 3.27 3.42 1000 0.127 0.180 2.68 2.76 3.26 3.41 1500 0.104 0.147 2.73 2.80 3.22 3.33 2000 0.090 0.127 2.77 2.83 3.18 3.28 2500 0.080 0.114 2.79 2.85 3.16 3.25 3000 0.073 0.104 2.81 2.86 3.15 3.22 3500 0.068 0.096 2.82 2.87 3.14 3.21 4000 0.064 0.090 2.83 2.88 3.13 3.19 4500 0.060 0.085 2.84 2.88 3.12 3.18 5000 0.057 0.081 2.85 2.89 3.12 3.17 222 TABEL 10 Valori critice R/2 ale coeficientului de corelaţie liniară R GL↓ → 0.05 0.01 0.001 GL ↓ → 0.05 0.01 0.001 1 0.997 0.999 1.000 24 0.388 0.496 0.608 2 0.950 0.990 0.999 25 0.381 0.487 0.597 3 0.878 0.959 0.991 26 0.374 0.478 0.588 4 0.811 0.917 0.974 27 0.367 0.470 0.579 5 0.754 0.874 0.951 28 0.361 0.463 0.571 6 0.707 0.834 0.925 29 0.355 0.456 0.563 7 0.666 0.798 0.898 30 0.349 0.449 0.554 8 0.632 0.765 0.872 35 0.325 0.418 0.519 9 0.602 0.735 0.847 40 0.304 0.393 0.490 10 0.576 0.708 0.823 45 0.288 0.372 0.465 11 0.553 0.684 0.801 50 0.273 0.354 0.443 12 0.532 0.661 0.780 60 0.250 0.325 0.408 13 0.514 0.641 0.760 70 0.232 0.302 0.380 14 0.497 0.623 0.742 80 0.217 0.283 0.357 15 0.482 0.606 0.725 90 0.202 0.267 0.338 16 0.468 0.590 0.708 100 0.195 0.254 0.321 17 0.456 0.575 0.693 125 0.174 0.228 0.293 18 0.444 0.561 0.679 150 0.159 0.208 0.260 19 0.433 0.549 0.665 200 0.138 0.181 0.230 20 0.423 0.537 0.652 300 0.113 0.148 0.190 21 0.413 0.526 0.641 400 0.098 0.128 0.160 22 0.404 0.515 0.630 500 0.088 0.115 0.150 23 0.396 0.505 0.619 1000 0.062 0.081 0.110 2 2 3 T a b el 1 1 T ra n sf o rm a re a F is h er : Z = 0 .5 l n [ (1 + R )/ (1 - R )] R 0 .0 0 0 .0 1 0 .0 2 0 .0 3 0 .0 4 0 .0 5 0 .0 6 0 .0 7 0 .0 8 0 .0 9 0 .0 0 .0 0 0 0 0 .0 1 0 0 0 .0 2 0 0 0 .0 3 0 0 0 .0 4 0 0 0 .0 5 0 1 0 .0 6 0 1 0 .0 7 0 1 0 .0 8 0 2 0 .0 9 0 2 0 .1 0 .1 0 0 3 0 .1 1 0 5 0 .1 2 0 6 0 .1 3 0 8 0 .1 4 0 9 0 .1 5 1 1 0 .1 6 1 4 0 .1 7 1 7 0 .1 8 2 0 0 .1 9 2 3 0 .2 0 .2 0 2 7 0 .2 1 3 2 0 .2 2 3 7 0 .2 3 4 2 0 .2 4 4 8 0 .2 5 5 4 0 .2 6 6 1 0 .2 7 6 9 0 .2 8 7 7 0 .2 9 8 6 0 .3 0 .3 0 9 5 0 .3 2 0 6 0 .3 3 1 7 0 .3 4 2 8 0 .3 5 4 1 0 .3 6 5 4 0 .3 7 6 9 0 .3 8 8 4 0 .4 0 0 1 0 .4 1 1 8 0 .4 0 .4 2 3 6 0 .4 3 5 6 0 .4 4 7 7 0 .4 5 9 9 0 .4 7 2 2 0 .4 8 4 7 0 .4 9 7 3 0 .5 1 0 1 0 .5 2 3 0 0 .5 3 6 1 0 .5 0 .5 4 9 3 0 .5 6 2 7 0 .5 7 6 3 0 .5 9 0 1 0 .6 0 4 2 0 .6 1 8 4 0 .6 3 2 8 0 .6 4 7 5 0 .6 6 2 5 0 .6 7 7 7 0 .6 0 .6 9 3 1 0 .7 0 8 9 0 .7 2 5 0 0 .7 4 1 4 0 .7 5 8 2 0 .7 7 5 3 0 .7 9 2 8 0 .8 1 0 7 0 .8 2 9 1 0 .8 4 8 0 0 .7 0 .8 6 7 3 0 .8 8 7 2 0 .9 0 7 6 0 .9 2 8 7 0 .9 5 0 5 0 .9 7 3 0 0 .9 9 6 2 1 .0 2 0 3 1 .0 4 5 4 1 .0 7 1 4 0 .8 1 .0 9 8 6 1 .1 2 7 0 1 .1 5 6 8 1 .1 8 8 1 1 .2 2 1 2 1 .2 5 6 2 1 .2 9 3 3 1 .3 3 3 1 1 .3 7 5 8 1 .4 2 1 9 0 .9 1 .4 7 2 2 1 .5 2 7 5 1 .5 8 9 0 1 .6 5 8 4 1 .7 3 8 0 1 .8 3 1 8 1 .9 4 5 9 2 .0 9 2 3 2 .2 9 7 6 2 .6 4 6 7 0 .9 9 2 .6 4 6 7 2 .6 9 9 6 2 .7 5 8 7 2 .8 2 5 7 2 .9 0 3 1 2 .9 9 4 5 3 .1 0 6 3 3 .2 5 0 4 3 .4 5 3 4 3 .8 0 0 224 TABEL 12 Valori critice pentru fişe de control al calităţii Vol. sondaj n w‾ δ D1 D2 2 1.128 1.880 0 3.267 3 1.693 1.023 0 2.575 4 2.059 0.729 0 2.282 5 2.326 0.577 0 2.115 6 2.534 0.483 0 2.004 7 2.704 0.419 0.076 1.924 8 2.847 0.373 0.136 1.864 9 2.970 0.337 0.184 1.816 10 3.078 0.308 0.223 1.777 11 3.173 0.285 0.256 1.744 12 3.258 0.266 0.284 1.716 13 3.336 0.249 0.308 1.692 14 3.407 0.235 0.329 1.671 15 3.472 0.223 0.348 1.652 16 3.532 0.212 0.364 1.636 17 3.588 0.203 0.379 1.621 18 3.640 0.194 0.392 1.608 19 3.689 0.187 0.404 1.596 20 3.735 0.180 0.414 1.586 21 3.778 0.173 0.425 1.575 22 3.819 0.167 0.434 1.566 23 3.858 0.16 0.443 1.557 24 3.895 0.157 0.452 1.548 25 3.931 0.153 0.459 1.541