Read Microsoft Word - StatWork_1.doc text version

Statistic multivariat

Lucrarea nr. 1 -- Statistic descriptiv (Excel)

A. Noiuni teoretice

Variabil -- o caracteristic ale crei valori se modific dup elementele studiate (este modelat printr-o variabil aleatorie). Statistica este inutil în analiza caracteristicilor constante în domeniul observat. Observaie -- valorile unei mulimi de variabile msurate pentru un element studiat. Statistic descriptiv -- 1. Valoare care reprezint o sintez, un rezumat al valorilor unei caracteristici pentru un eantion sau care evalueaz relaia dintre dou variabile. 2. Parte a statisticii care privete descrierea variabilelor (calcularea indicatorilor statistici descriptivi ­ statisticile descriptive ­, reprezentri grafice etc.). Statistic inferenial -- Parte a statisticii care cuprinde procedurile prin intermediul crora se pot obine aseriuni asupra populaiei studiate din observaiile efectuate asupra unui eantion din acea populaie. Msurare --atribuirea de valori la elemente, observaii potrivit unei reguli; este procesul prin care se obin valorile variabilelor. Scal de msur -- regula prin care se atribuie o valoare numeric în procesul de msurare. Niveluri de msurare-- clasificarea variabilelor dup proprietile numerice asociate scalelor pe care se msoar valorile. Variabile nominale (nivelul nominal) ­ variabile care pot lua un numr finit de valori neordonate; variabile calitative, permit doar clasificarea observaiilor. De observat c nivelul de msurare nu se modific prin utilizarea unei codificri numerice. Variabilele calitative care au exact dou valori sunt denumite dihotomice sau binare. Codificarea prin 0/1 permite utilizarea acestor variabile în proceduri dedicate nivelurilor mai înalte de msurare (ordinal, interval). Variabile ordinale (nivelul ordinal) ­ variabile ale cror valori sunt ordonate dar nu este definit (nu se poate defini) distana dintre dou valorile posibile. Variabile de interval (nivelul interval) ­ variabile cu valori ordonate i pentru care este definit o distan (se poate gândi c valorile posibile sunt similare gradaiilor unei rigle uzuale). Dac exist o valoare zero adevrat, variabila se zice de raport Variabilele de interval sunt cele mai complexe i majoritatea tehnicilor statistice au fost dezvoltate tocmai pentru aceste variabile. Variabile continue ­ variabile care odat cu dou valori pot lua orice valoare intermediar; pot lua orice valori din domeniul lor. Variabilele de interval (raport) sunt, de regul, continue. Variabile discrete ­ variabile care nu sunt continue. Variabilele nominale i cele ordinale sunt variabile discrete. Distribuia unei variabile -- toate valorile unei variabile pentru fiecare caz (element) studiat/cunoscut. Tipuri de distribuie: 1. valorile pentru un eantion sau populaie (distribuie empiric), 2. distribuia de sondaj a unei statistici (distribuie teoretic), 3. distribuia privit ca structur a datelor, ilustrat numeric sau grafic.

Descrierea distribuiilor

1. Tabelar a. listarea datelor fr nicio ordonare prealabil

b. tablouri ordonate - cu cât numrul de observaii este mai mare, cu atât este mai greu de intuit structura. c. distribuii de frecvene absolute - se pot utiliza pentru toate tipurile de variabile, dar utilizarea cea mai frecvent este pentru datele discrete (nominale, ordinale). d. distribuii de frecvene relative (procentuale) - evideniaz valorile mai frecvente, sunt utile pentru comparaii. e. distribuii cumulate - atât pentru frecvene absolute, cât i relative. 2. Grafic (tipurile uzuale) a. grafice cu bare pentru date discrete. b. histograme pentru date continue. c. grafice arie pentru date cumulate. Caracterizarea unei distribuii - trebuie s surprind trei aspecte a. tendina central (referit uzual ca "medie" dei poate fi vorba de indicatori statistici diferii) b. împrtierea (cât de mult sunt repartizate sau deprtate valorile)

c. forma distribuiei (simetria - asimetrie, aplatizare)

Rezumate pentru evaluarea tendinei centrale - ofer o valoare de prognoz, încrederea depinde de gradul de împrtiere a valorilor 1. Mod - cea mai frecvent valoare; este utilizat în special pentru date discrete. Pentru date continue se obinuiete gruparea datelor i mijlocul intervalului modal. 2. Mediana - valoarea care depete jumtate dintre observaii (quantila de ordin 0.5); este o valoare "negociat" pentru date ordinale (valoarea care împarte cel mai bine observaiile). Deoarece presupune ordine între valori, nu se aplic datelor nominale. Este un indicator de tendin central preferat în locul mediei pentru distribuii continue asimetrice. 3. Media - este media aritmetic a valorilor msurate, utilizat pentru date continue. Rezumate pentru evaluarea împrtierii 1. IQV (indicele de variaie calitativ), Entropia - sunt utilizate în cazul datelor discrete 2. Quantile - utilizate pentru datele ordonate (ordinale, de interval) 3. Domeniul (amplitudinea) - pentru date continue 4. Intervalul interquartilic - adecvat pentru date ordonate (dar utilizat prin abuz pentru date ordinale), reprezint domeniul centrat pe median i care conine jumtate dintre valorile msurate. 5. Dispersia (variana), abaterea standard - sunt indicatorii uzuali de caracterizare a împrtierii datelor continue. Interpretarea uzual a abaterii standard este aceea c, pentru o variabil distribuit normal - aceast ipotez se omite uneori, prin exces - , circa 68% dintre valori difer de medie cu cel mult o abatere standard i circa 95% dintre valori difer de medie cu cel mult dou abateri standard. Împreun cu media (aritmetic) sunt indicatorii statistici cei mai des invocai in analiza datelor continue (de interval sau de raport).

B. Instrumente Excel

Pentru prelucrarea unui set de date memorat într-un document Excel se pot utiliza atât funciile statistice ale aplicaiei, cât i proceduri obinute prin Tools ­ Data Analysis. Funciile statistice uzuale sunt (în ordine alfabetic):

AVEDEV ­ abaterea medie absolut AVERAGE ­ media aritmetic BINOMDIST ­ funcia de repartiie binomial CHIDIST ­ funcia de repartiie 2 CHIINV ­ inversa funciei de repartiie 2 CHITEST ­ aplicarea testului 2 CONFIDENCE ­ intervalul de încredere pentru medie FDIST ­ funcia de repartiie F FINV ­ inversa funciei de repartiie F FTEST ­ aplicarea testului F HARMEAN ­ media armonic KURT ­ coeficientul de aplatizare MIN, MAX ­ valorile extreme din list MEDIAN ­ mediana MODE ­ valoarea mod NORMDIST ­ funcia de repartiie normal NORMINV ­ inversa funciei de repartiie normal NORMSDIST ­ funcia de repartiie normal standard NORMSINV ­ inversa funciei de repartiie normal standard PERCENTILE ­ quantile QUARTILE ­ quartile RANK ­ rangul argumentului într-o list SKEW ­ coeficientul de asimetrie STANDARDIZE ­ valoarea standardizat a argumentului STDEV ­ abaterea standard TDIST ­ funcia de repartiie Student, t TINV ­ inversa funciei de repartiie Student TTEST ­ aplicarea testului Student VAR ­ dispersia

Pentru a utiliza procedurile statistice, trebuie ca prin Tools ­ AddIns s se verifice dac este instalat utilitarul Analysis ToolPak. În caz afirmativ, comanda Tools ­ Data Analysis va deschide dialogul Data Analysis din care sunt accesibile o serie de prelucrri statistice conduse de dialogurile asociate. Astfel, Descriptive Statistics va produce indicatorii statistici ai unei variabile continue. Tot în partea de descriere statistic poate fi încadrat i metoda de creare a cuburilor OLAP prin Data ­ Pivot Table, metod prin care se obin distribuiile simple sau multivariate ale unor variabile discrete sau indicatorii statistici eseniali ai subpopulaiilor. De asemenea, nu trebuie uitat c toate procedurile legate de reprezentrile grafice, iniiate prin Insert - Chart (sau uneltele corespunztoare) sunt o parte a prelucrrii statistice descriptive oferind grafice, histograme etc.

C. Lucrarea practic

1. Se va importa în Excel fiierul de date http://thor.info.uaic.ro/~val/statistica/Admitere.txt care conine datele de la un examen de admitere la facultatea de informatic, pe vremea când examenul includea i o prob scris. 2. Se va stabili tipul fiecrei variabile (nominal, ordinal, interval) · Legitimatie - numrul legitimaiei (eliberate în ordinea înscrierii) · Bacalaureat - media la bacalaureat · Optiune - proba la alegere (A - analiz matematic, C programare C, P - programare Pascal) · Sala - sala de examen · Scris - media la scris

3. 4. 5. 6. 7.

Final - media final Situatie - situaia dup examen (1 - fr taxa, 2 - cu tax, 3 respins, 4 - în ateptare) Se vor caracteriza variabilele cu ajutorul indicatorilor statistici adecvai. Se vor realiza grafice de ilustrare a distribuiilor variabilelor. Se vor identifica subpopulaiile pentru care este de interes s se realizeze prelucrri separate. S se creeze tablourile de frecvene încruciate dintre variabilele Opiune i Situaie, incluzând i calculul frecvenelor relative. Utilizând atât indicatori statistici cât i reprezentri grafice, se vor compara subpopulaiile atât dup repartiiile unor variabile discrete, cât i a unor variabile continue. Se va decide: i. dac a fost mai avantajos s se dea examen la analiz sau la programare; la analiz, la programare C sau la programare Pascal; ii. care candidai i-au depit ateptarea dat de media la bacalaureat; iii. dac s-au obinut note mai mari la scris de ctre cei care au susinut proba în sli de examen mai mari; iv. dac se poate spune c acei candidai care s-au înscris în primele zile au avut rezultate mai bune.

· ·

Information

Microsoft Word - StatWork_1.doc

4 pages

Report File (DMCA)

Our content is added by our users. We aim to remove reported files within 1 working day. Please use this link to notify us:

Report this file as copyright or inappropriate

647838


Notice: fwrite(): send of 201 bytes failed with errno=104 Connection reset by peer in /home/readbag.com/web/sphinxapi.php on line 531