Analize complexe 2 Note de curs Relaţiile între variabile. • • Distingem între relaţii funcţionale şi relaţii statistice. Relaţia funcţională între două variabile este exprimată printr-o formulă matematică. Dacă X denotă variabila independentă şi Y variabila dependentă, relaţia funcţională este de forma Y = f(X). Relaţia statistică între două variabile. O relaţie statistică, spre deosebire de o relaţie funcţională, nu este una perfectă. În general, observaţiile pentru o relaţie statistică nu trebuie să cadă direct pe curba de relaţie. Două evaluări: evaluările de la sfârşitul anului sunt luate drept variabile dependente sau variabile răspuns Y şi evaluările de la mijlocul anului ca variabile independente, explicativă, sau predictori X. Figura practică care ia naştere din vizualizarea în plan a punctelor X şi Y este numită diagramă de împrăştiere sau plan(grafic) de împrăştiere. Deşi nu are exactitatea unei relaţii funcţionale, relaţia statistică este folosită de multe ori, ea exprimând o tendinţă generală de asociere a celor două variabile. Pe lângă relaţii liniare, există şi relaţii curbilinii. Alegerea formei funcţionale a relaţiei de regresie este legată de alegerea variabilei predictor. Uneori, teoria relevantă poate să indice forma funcţională adecvată. Mai frecvent, totuşi, forma funcţională a relaţiei de regresie nu este cunoscută în avans trebuie să fie decisă empiric după ce datele au fost culese. Funcţiile de regresie liniare sau pătratice sunt adesea folosite ca o primă aproximare satisfăcătoare a funcţiilor de regresie de natură necunoscută. Într-adevăr, aceste tipuri simple de funcţii de regresie poate fi folosită egal când teoria furnizează formă funcţională relevantă, îndeosebi când forma cunoscută este extrem de complexă, însă poate fi rezonabil aproximată printr-o funcţie de regresie liniară sau pătratică. Scopul modelului. În formularea unui model de regresie, noi avem nevoie de obicei de a restricţiona riscurile modelului la câteva regiuni sau intervale de valori ale variabilei predictor (sau variabilelor predictor). Scopul este determinat fie cu designul investigaţiei, fie prin seria de date la îndemână. 1 • • • • Strategia tipică pentru analiza de regresie Start Analiza exploratoriea datelor Dezvoltarea uneia sau m m ai ultor m odele de reg resie R evizia m odelelor sau cons ţia truc unui m odel nou nou NU Es unul sau m m te ai ulte m odele de reg resie adecvat pentru datele la îndem ă? ân D a S iden ă m m e tific ai ulte m odele adecvate S fac inferenţe pe baza m e odelului de reg resie Michael H. Kuthner, J ohn Netter, William Li Christopher J . Nachtsheim, Applied Linear Statistical Models, McGraw-Hill International Edition, New York ,2005). P. 14 S top Modelele în psihologie • Ceea ce diferenţiază teoriile de modele este, în primul rând, gradul lor de generalitate: un model este o reprezentare logică-matematică a unui ansamblu limitat de fenomene în condiţii riguros definite; o teorie ştiinţifică se aplică la un ansamblu mult mai vast de fenomene Teoria ştiinţifică poate fi considerată ca un model de ordin superior din care pot fi derivate modele locale, adică realizări specifice, care se aplică la anumite obiecte particulare şi la anumite clase definite de situaţii • Modelul formal Un model formal rezultă din aplicarea unui sistem formal la un subansamblu de obiecte ale realităţii în scopul de a permite o interpretare în termeni de valoare de adevăr. Astfel, un model trebuie să posede o sintaxă(aceea a sistemului formal şi o semantică(rezultând din proiecţia sistemului formal într-o realitate cu sens). Sintaxa sistemului formal este definită printr-un ansamblu de condiţii(un limbaj): Definiţia simbolurilor elementare ale sistemului, a expresiilor sistemului, a regulilor de formare a expresiilor şi a expresiilor corect formate ale sistemului(formulele sistemului); 2 Un sistem formal trebuie, de asemenea, să definească un procedeu de demonstraţie formalizată(axiome, relaţii între formule şi reguli de inferenţă, teoreme) Sintaxa sistemului formal include formalizarea limbajului şi formalizarea demonstraţiei. Elaborarea unui sistem formal este o activitate de tip logic sau matematic. Există sisteme formale logice(logica propoziţională) şi sisteme formale matematice(exemplu algebra) care au exercitat o mare influenţă asupra modelizării psihologice. Funcţii Indiferent care ar fi dificultăţile precedente, interesul unui model formal este incontestabil prin faptul că el utilizează o sintaxă, logic sau matematic încercată, pentru descrierea şi interpretarea unui sector din realitate. Dacă interfaţa între sintaxa sistemului formal şi semantica modelului este o sursă de probleme , o analiză „agramaticală” a realului va avea consecinţe încă mai grave. Modelul are funcţii pozitive, inutil de subestimat sau negat. În ciuda caracterului uneori semantic aproximativ, modelul are următoarele avantaje: Este specific(în privinţa unei situaţii); Este explicit(privitor la postulatele şi axiomele sale); Este condensator( prin raport cu complexitatea datelor); Uşor modificabil(prin modificarea postulatelor sale) Un model formal poate fi definit ca un sistem relaţional, de formă, de structură şi de funcţii între două obiecte, dintre care unul este un sistem formal şi altul, ansamblul limitat de obiecte pe care cineva doreşte să le descrie şi să le interpreteze. Remarcă • Este frecventă situaţia de a compara două obiecte naturale între ele şi de a sugera că unul dintre ele este modelul altuia(model animal de învăţare umană, de exemplu). Este la fel de posibil de a compara un obiect artificial la un obiect natural(ex: modelul informatic al memoriei umane). Cele două tipuri de comparaţii nu sunt 3 echivalente, deoarece în primul caz nu se dispune de sisteme formale de referinţă pe când obiectul artificial al celei de-a doua comparaţii este, în mod precis, realizarea materială a unui sistem formal Clasificare • În fapt, un model ştiinţific poate fi construit în scopul de a da seama de funcţionare unui obiect complex sau în scopul de a descrie structura unui astfel de obiect. Autorul articolului califică primele modele drept funcţionaliste sau funcţionale şi pe cele secunde modele structuraliste sau structurale.. Este clar faptul că anumite modele sunt tentate de a descrie simultan structurile şi legile de funcţionare ale obiectelor studiate. A doua clasă o califică modele mixte Explicaţii • Estimarea lui Y ˆ Y = .0,20 + .0,13C redint a psy + 0,07Schizotipi− 0,05 R eligiozitat e e 4 • În ecuaţie se pot introduce valori pentru fiecare persoană a eşantionului cu volum de 401subiecţi, şi prin aceasta valori de estimare a experienţei cu practici oculte. În coeficientul de regresie din ecuaţia anterioară se indică cum se transformă puternic variabila dependentă, când variabila independentă corespunzătoare creşte cu o unitate, în timp ce restul variabilelor independente corespunzătoare rămâne constant. În datele prezente ia naştere punctajul individual pentru cuprinderea tulburărilor schizotipice de personalitate în numărul itemilor răspunşi în sensul caracteristicii. În sensul ecuaţiei prezentate mai sus a coeficientului de regresie pentru această variabilă independentă se poate interpreta şi în aşa fel că experienţa creşte cu 0,07 practici, când un item următor al scalei a fost răspuns în sensul caracteristicii. Condiţiile necesare pentru a aplica ANOVA simplă Există o singură variabilă dependentă cu consistenţă scalară de interval; Există o singură variabilă independentă, având consistenţă scalară nominală sau ordinală cu cel puţin 3 modalităţi sau niveluri; Variabila dependentă trebuie să fie normal distribuită pentru fiecare dintre modalităţile sau nivelurile. În cazul în care nu este normal distribuită sau grupele experimentale conţin un număr prea redus de subiecţi(sub 10) se recomandă aplicarea testelor nonparametrice, (exemplu Kruskal Wallis); Varianţele trebuie să fie relativ egale pentru fiecare dintre grupele supuse comparaţiei(unii autori consideră că această exigenţă poate fi încălcată) Fiecare subiect trebuie să fie măsurat o singură dată(independenţa măsurătorilor) Ipoteze • Ipoteza nulă H0 – vom testa, cu un risc de eroare de 5 %, dacă mediile provin din aceeaşi populaţie părinte. În acest caz: 6,87 = 9,20 = 8,87 =10,40 = 10,40.Ele sunt cu siguranţă diferite, dar se estimează că diferenţele rezultă din fluctuaţii „normale” de eşantionaj. 5 • Ipoteza alternativă H1 va spune că mediile nu sunt egale. În acest caz: 6,87≠ 9,20 ≠8,87 ≠10,40 ≠ 10,40. Mediile rezultă din populaţii părinte diferite. Diferenţele observate nu sunt semnificative T abelul ANOVA Sursa de variaţie Variaţia Grade de libertate F Varianţa Intergrup 127,44 4 31,86 12,16 Intragrup 183,49 70 2,62 Total 310,93 74 4,20 Observaţii asupra tabelului privind rezultatul testului ANOVA simplă • • Variaţia totală este egală cu variaţia intergrup şi variaţia intragrup; Se calculează sumele pătratelor variaţiilor ambelor situaţii(variaţia inter şi variaţia intra); Gradele de libertate sunt egale în cazul dispersiei intergrup cu numărul acestora minus unu (5-1), şi în cazul dispersei intragrup cu numărul total de subiecţi minus numărul grupelor(75-5); Raportul dintre cele două medii pătratice este rezultatul final F; F-ul se interpretează asemănător cu celelalte teste statistice. În cazul în care valoarea lui F este semnificativă statistic(p0,05), atunci condiţia de sfericitate este îndeplinită. În cazul în care nu se îndeplineşte condiţia de sfericitate, avem la dispoziţie două alternative: ajustăm gradele de libertate în citirea valorillor F din ANOVA(folosind corecţiile Greenhouse-Geisser sau Huynh-Feldt; 17 fie folosim analiza de varianţă multivariată(MANOVA ). În cadrul acestei tehnici vom apela la teste de contrast sau la teste post-hoc., deoarece testul F global testează doar dacă există diferenţe între diferitele condiţii experimentale. Testele de contrast disponibile sunt doar cele standardizate, iar testele post-hoc sunt LSD, Bonferroni şi Sidak(cel mai recomandat fiind testul Bonferroni. Surse de variabilitate Variabilitate intra-grup Variabilitate inter-grup Eroare Diferen ţe individuale Variabile parazite Eroare Diferen ţe individuale Variabile parazite Efectele de tratament. F ăr ă efect al tratamentului. Cele dou ă variabilităţi sunt aproape identice. Variabilitate Intra-grup Variabilitate inter-grup Variabilitate Intra-grup Variabilitatea Inter-grup 18 Efect al tratamentului. Variabilitatea intragrup este slabă faţă de variabilitatea inter grup Variabilitate Intra-grup Variabilitate inter-grup Variabilitate Intra-grup Variabilitatea Inter-grup ANOVA factorială cu măsurători repetate Exemplu. Un cercetător a fost interesat în studierea abilităţilor adulţilor în vârstă pentru a îmbunătăţi memoria lor verbală folosind tehnica mnemonică „method of loci” . Metoda presupune asocierea fiecărui item de memorat cu o locaţie specifică dintr-o secvenţă de locaţii extrem de familiare, precum camera unei case personale(exemplu pentru cuvântul pălărie, persoana poate să vizualizeze o pălărie atârnând pe cârligul din faţa holului). Din cauza faptului că metoda este legată cu uşurinţă de abilitatea de a manipula imagini vizuale, este de aşteptat ca persoanele în vârstă care sunt sau au fost implicate(incluse) în artele vizuale de desenare, pictură, sculptură, design-grafic vor fi mai bune în utilizarea unei astfel de metode. Pentru a examina această posibilitate, cercetătorii administrează un test de memorie verbală la 50 de artişti adulţi în vârstă şi la 50 de adulţi în vârstă ne-artişti , scorul de interes este exprimat prin procentajul corect. După o evaluare de bază, ambele grupe sunt antrenate cu metoda loci şi sunt retestate de patru ori la interval de o săptămână. Grup de medii la aceste cinci măsurători. 19 Tabelul 11.1 ilustrează o variabil ă W-S(timp) şi o variabil ă B -S(grup). Saptamâna Nr 1 2 3 4 5 6 Etc ……… 99 100 Media 0 42 38 27 27 34 39 …. ….. 8 25 34,06 1 47 39 41 24 36 44 …. …… 18 34 36,97 2 55 37 45 31 32 37 ……. …… 23 43 40,48 3 59 28 58 36 31 44 …… …. 35 49 43,48 4 65 30 70 33 39 43 ….. …. 36 65 47,30 Media 53,6 34,4 48,2 30,2 34.4 41,4 ……. ….. 24,0 43,2 40,46 Ab st. 14,57 13,74 14,94 17,45 22,04 14,39 Imaginea 11.1. Performan ţele medii la memorie. Variabile Whithin-Subjects şi Between-Subjects Figura 11.1 ilustrează o variabilă W-S(timp) şi o variabilă B-S(grup). Există două ipoteze de cercetare a priori: 20 Metoda loci îmbunătăţeşte în timp memoria oamenilor în vârstă.; Rata de ameliorare va fi mai mare pentru artiştii vizuali decât pentru participanţii în vârstă care nu sunt artişti vizuali. Întrebări: Diferă scorurile (cresc) pe parcursul celor 5 evaluări? O examinarea mediilor din tabelul 11.1 sugerează că acestea sunt diferite de la una la alta, însă nu se ştie dacă sunt statistic semnificative. Care este motivul pentru care nu se realizează un simplu ANOVA ONE WAY pentru a testa dacă mediile pentru fiecare punct diferă? Sunt două răspunsuri la această întrebare. ANOVA One Way presupune că observaţiile sunt independente. Asumpţia este violată din cauza faptului că fiecare participant la studiu contribuie mai mult decât cu un scor corect la setul de date. 1. A doua raţiune constă în faptul că One way ignoră informaţia utilă setul de date, anume diferenţele sistematice între indivizi, cum arată coloana cea mai din dreapta. Aceste diferenţe între indivizi în scorurile lor medii sunt contate ca „erori” în One way ANOVA. Se poate asuma faptul că diferenţele de scoruri nu sunt simple erori întâmplătoare, mai degrabă ele se produc ca un rezultat al faptului că unii oameni au o memorie mai bună decât alţii. O cale de a acomoda violarea stării de independenţă şi prezenţa de diferenţe individuale în scorurile memoriei este de a folosi persoana ca o variabilă independentă dea lungul timpului. A face aceasta , înseamnă că „persoana „ este considerată un efect întâmplător şi timpul un efect fixat. Efectele întâmplătoare sunt cele în care nivelurile variabilei sunt selectate la întâmplare dintr-o populaţie de niveluri. În cazul metodei de studiu loci, cei 100 de participanţi pot fi gândiţi ca selectaţi întâmplător dintr-o populaţie de oameni în vârstă. 2. Modelul Pe această cale, 100 de participanţi reprezintă fiecare 100 de niveluri ale factorului întâmplător, persoana. Timpul este considerat un efect fix, din cauza faptului că experimentatorul are 5 puncte temporale pentru scopul acestui studiu. Dacă se pune problema replicării acestui studiu, se vor folosi aceleaşi puncte temporale pentru evaluare(din cauză că timpul este fixat) însă se vor folosi diferite eşantioane întâmplătoare de participanţi(din cauză că persoana este aleatorie). Modelul final ANOVA este cunoscut ca un model fix, din cauza faptului că el conţine o combinaţie de factori fixaţi şi factori aleatori 21 Calcularea testului statistic. Pentru a determina dacă mediile pentru fiecare nivel de timp diferă, s-a folosit un test F omnibuz(sau global) pentru a evalua H0 (după care mediile populaţiei nu diferă pe parcursul celor 5 puncte temporale). Testul F poate fi considerat şi prin raportare la varianţă. Varianţele sunt măsurători ale diferenţelor între scoruri, şi cercetătorii sunt interesaţi în explicarea acestor diferenţe. Exemplu: cineva poate să se întrebe dacă toate scorurile corecte în setul de date al metodei loci nu sunt aceleaşi. O posibilitate : există diferenţe între scorurile corecte din cauza faptului că există diferenţe între scorurile medii pentru fiecare din punctele temporale. Se determină dacă varianţa explicată prin factorul timp este semnificativ mai mare decât 0. Aceasta este însoţită prin compararea varianţei care este datorată efectului cu varianţa care este datorată erorii. În cazul măsurărilor repetate ANOVA, testul F pentru efectul timp este bazat pe următorul raport de varianţe: efectul timp/(persoana x interacţiunea). Acest raport capătă sens intuitiv dacă se consideră să aibă un total de varianţă semnificativ care este datorat interacţiunii persoană x timp. Interacţiunea specifică că diferenţa între cele 5 puncte temporale poate să varieze în dependenţă de fiecare persoană. Ex: scorul persoanei 1 pare să crească în timp, în timp ce scorul persoanei 2 pare să descrească. Deci diferenţele între punctele de timp sunt diferite pentru persoana 1 şi persoana 2. În alte cuvinte , interacţiunea persoană x timp evaluează inconsistenţe în efectul timp între oameni. Ideal, concluziile despre efectul timpului ar trebui să fie acelaşi pentru toţi subiecţii aflaţi sub studiu. În consecinţă, dacă creşterea varianţei care este datorată interacţiunii persoană x timp depinde mult de varianţa care este datorată efectului timp, cineva poate conchide că există prea multă variaţie de la persoană la persoană pentru a face inferenţe semnificative despre diferenţele mediilor de grup pentru cele cinci puncte temporale. Nu este cazul pentru aceste date din cauza faptului că testul pentru efectul timpului dă următoarea ecuaţie: F(4,496) = 28,77, p