Procedure per calcolare la distribuzione di frequenze univariata

Nella scorsa lezione abbiamo visto come mediante lo Stream Reader o il Text Field Parse siamo in grado di leggere un file cvs di dati organizzati in unità statistiche di interesse (righe) e caratteri (colonne) e di trasformare questa matrice in una lista di oggetti che contiene quelle osservazioni. Il singolo oggetto di quella lista sarà l’istanza di una classe che rappresenta un’ unità statistica. Adesso vedremo come tradurre questa lista di oggetti in una distribuzione di frequenza. Quindi da un punto di vista concettuale il file csv potrà essere considerato come un dataset multivariato ma, almeno per adesso ci limiteremo ad analizzar una distribuzione univariata per determinare la distribuzione di frequenza: suddivido il dataset in classi distinte e conto quante unità statistiche cadono in ognuna di esse. Questa distribuzione si presenta come una tabella a due colonne in cui nella prima sono presenti le classi (class intervall) e nella seconda avremo le relative frequenze: queste due colonne insieme rappresentano la frequency distribution. In generale potremmo calcolare la distribuzione di frequenza per ogni carattere purché sia sensato (non conviene farlo per caratteri che restituirebbero frequenze unitarie). Per determinare le classi posso indicare il valore minimo assunto dalle unità per il carattere che sto studiando e l’ampiezza delle classi. Per contare
frequenza relativa ad ogni classe ricordiamo che le unità appartengono ad una lista e perciò potrei osservare singolarmente ogni valore per determinare a quale classe
appartiene. Questo è un approccio naive che equivale ad un loop di osservazioni e per ciascuna di esse avrò un loop di classi. Un approccio migliore è il seguente: per prima
cosa ordino le unità e poi, visto che la distribuzione viene costruita da un certo minimo e via via aggiungendo intervalli, le posso esaminare mentre costruisco la distribuzione: quindi via via che costruisco le classi intervallari posso anche contare quante unità statistiche appartengono ad ogni classe e così facendo elimino un loop.

Condividi:

Correlati

Lascia un commento Cancella risposta