`` `` `` ``

Statistica

Statistica Bivariata
Alla unita' statistica (es. una persona) vengono associati piu' caratteri statistici: qui non si raccolgono/rappresentano/riassumono informazioni su un singolo carattere statistico (es. la media delle altezze) ma su coppie di variabili statistiche (es. dimensione della gallina/dimensione del suo uovo oppure altezza persona/reddito familiare )

Rappresentazione Congiunta ovvero diagramma a dispersione grafico (nelle sue varie forme) di tutte le coppie dei due caratteri statistici (uno per unita' statistica): esempio (1.82 m, 50000 $),(1.70 m,30000 $), etc....
I caratteri possono essere {} qualitativi; {}^ qualitativi ordinabili ;N quantitativi discreti; R quantitativi continui
I diagrammi a dispersione sono:
{}x{} bolleij o tabella a doppia entrata (le pij)
{}xR colonne di punti sparsi
RxR grafico X,Y classico (poi --> covarianza, correlazione, a,b,R)
distribuzione marginale il vettore di pi ottenuto sommando per riga o per colonna (in pratica la freq. relativa di un carattere senza tenere in considerazione il secondo e quindi sommando su tutti i casi del secondo.
frequenze congiunte p(xi,yj) o p('qualsiasi frase che prenda in considerazione i due caratteri' es. in cui un carattere Ë il doppio dell'altro)
frequenze subordinate p(x|y): si fissa una sottopopolazione indotta dalla scelta di una modalita' di un carattere e si considera la distribuzione delle modalita' dell'altro (es p(altezze|reddito=100000$) ATTENZIONE A RINORMALIZZARE LE FREQUENZE RELATIVE CHE DEVONO DIVENTARE RELATIVE ALLA SOTTOPOPOLAZIONE (si ottiene dividendo per il valore della marginale relativo alla subordinazione es. la popolazione che ha reddito 100000$ sono l'1% allora le p(altezza) vanno divise per l'1% (0.01).
In breve le distribuzioni subordinate sono le righe o le colonne rinormalizzate!!!
Due caratteri possono essere o meno connessi se sono statisticamente indipendenti allora p(xi,yj) =p(xi) · p(yj) equivalente a dire che p(x|y) = p(x) nel senso che l'essere entrati nella sottopopolazione y non incide sulla distribuzione relativa degli x. (cosa probabile per i redditi e le altezze forse ma non per le uova e le galline)
Se non sono statisticamente indipendenti in qualche modo (per almeno una coppia) la contingenza c(xi,yj) Ë la misura della differenza dal valore 'se fossero indipendenti'
cij=pij vero - pij teo se indip. ; tutto cio' va' sommato per dare un dato sulla intera distribuzione (al quadrato per non dare valori nulli laddove magari invece c'Ë differenza; inoltre per ottenere un valore che dia una misura in qualche modo relativa e non dipendente dai valori bisogna pesarlo su quanto Ë grande il valore teo se indip. per quella coppia Tutto questo sommare la distanza dal "valore teo se indipendenti " quadrato e relativizzato ci da' in qualche modo la misura della indipendenza o (tecnicamente):
CONNESSIONE j2=S ij(D/pij teo se indip.)=Sij([pij vero- pij teo se indip.]2 / pij teo se indip. )
Tuttavia in base alla dimensione della tabella 2entrata la connessione puo' essere piu' o meno grande si usa allora la massima connessione j2max=min(h,k)-1 con h,k numero delle modalita' dei due caratteri:

j(tilde) 2 =j 2 /j2max : 0 non connesse (indip.!) 1 max connesse (Y=Y(X) o X=X(Y) nel senso stretto di funzione, cioè Y completamente identificata da X o viceversa)

correlazione se 'grandi' con 'grandi' e 'piccoli' con 'piccoli' o viceversa: fisso assi delle medie su diagramma a dispersione e analizzo i quattro quadranti covarianza
cov=media(SX · SY) pero' anche = media del prodotto - prodotto delle medie: cov(X,Y)=m(XY) · m(X) · m(Y) se cov positiva relazione diretta ; nulla indifferenza; positiva diretta; se relativizzata ai sigma x e sigma y divente r indice di correlazione lineare

r(X,Y)= cov(X,Y)/ [sx sy] se 1 perfetta relazione lineare se 0 non in relazione lineare
Regressione la media di un carattere in funzione dell'altro ovvero mY=m(Y| X=x*) è una serie di puntoni non ancora una funzione analitica; la media y 'regredisce' al variare di X (positivamente o negativamente)
interpolazione lineare cerco la funzione di regressione come retta: cerco a,b minimizzando il prodotto dei quadrati degli scarti tra i valori veri (di y) in base ai teorici (ottenuti dagli x con la interpolazioney=a+bx )

b=cov(X,Y)/ s2x 'covarianza su varianza x'

a= media(y)-b media(x) ottenibile mnemonicamente da media(y=a+bx)

Coefficiente di determinazione R2=[dispersione del modello / dispersione totale = SQM / SQT ] = [1 - SQE/SQT quanto dispersione degli errori vale rispetto alla dispersione totale di suo.]

SQE=Somma quadrati dell'errore

SQT = somma dei quadrati dalla (media totale)

SQM = somma dei quadrati del modello dalla (media totale del modello)
R=1 BENE
R=0 NO BENE








giovanni - 16/2/05 - 11:58 pm
giovanni - 8/2/05 - 01:32 pm
giovanni - 8/2/05 - 01:31 pm

indice - tutti i nodi - modifica - login