domingo, 15 de mayo de 2011

Estadística   

                                                                                                                                                                                                       
                            
Introducción. Cuando el hombre se interesa en investigar científicamente un suceso, algún fenómeno o estudio aplicado sobre alguna área de interés hace uso de la Estadística. La Estadística es una ciencia que estudia la recolección, análisis e interpretación de datos, ya sea para ayudar en la resolución de la toma de decisiones o para explicar condiciones regulares o irregulares del motivo de estudio.  

                               
Pensamiento estadístico relacionado con la administración moderna.
Durante la década de 1990 el nacimiento de una economía global generó  un énfasis creciente en la calidad de los productos manufacturados y los servicios prestados. Fue el trabajo de un experto en Estadística, W. Edwards Deming más  que cualquier otra persona el que desarrolló  este cambio en el ambiente de negocios. Una parte integral del enfoque administrativo que contiene este énfasis en la calidad, (administración de la calidad total) es la aplicación de ciertos métodos estadísticos y el uso del pensamiento .estadístico por parte de los administradores de una compañía. El pensamiento estadístico se puede definir como el conjunto de procesos del pensamiento que se orientan a la forma de entender, administrar, y reducir la variación. El pensamiento estadístico incluye el reconocimiento de que los datos son intrínsicamente variables (no hay dos cosas o dos personas exactamente iguales en todos los sentidos) y que la identificación, medición, control y reducción de la variación proporcionan oportunidades para mejorar la calidad. Los métodos estadísticos pueden ser el medio que permite aprovechar esas oportunidades. El papel de los métodos estadísticos se puede comprender mejor si se analiza el modelo de mejoramiento de la calidad, donde si pensamos en un triangulo el cual esta integrado por tres partes:    en el vértice superior se encuentra la filosofía administrativa y en los otros vértices están los métodos estadísticos y las herramientas de comportamiento.


                                                                                                                                               

FILOSOFIA ADMINISTRATIVA






 METODOS ESTADISTICOS                         HERRAMIENTA DE COMPORTAMIENTO



Las tablas, graficas y estadística descriptiva figuran entre los métodos estadísticos más útiles para mejorar la calidad.

Fases de la Estadística:

- Recolección de datos

- Organización de datos.

- Representación numérica y grafica de los datos.

- Análisis.

-  Conclusiones e inferencias.


La estadística se divide en dos grandes áreas:
La Estadística descriptiva, se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente.
La Estadística inferencial, se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Estudia como sacar conclusiones generales para toda la población a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos.
Conceptos de Estadística                               
Población.  Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.
Individuo   Un individuo o unidad estadística es cada uno de los elementos que componen la población.
Muestra   Una muestra es un conjunto representativo de la población de referencia, el número de individuos de una muestra es menor que el de la población.
Muestreo   Proceso mediante el cual seleccionamos los sujetos que vamos a medir para recopilar la data que necesitamos. Es la reunión de datos que se desea estudiar, obtenidos de una porción reducida y representativa de la población.
Valor    Un valor es cada uno de los distintos resultados que se pueden obtener en un estudio estadístico.
Dato .   Un dato es cada uno de los valores que se ha obtenido al realizar un estudio.
Variable estadística. Una variable estadística es cada una de las características cualidades que poseen los individuos de una población.
EJEMPLO DE LOS CONCEPTOS ANTES MENCIONADOS:
Suponga que el rector de una universidad quiere realizar una encuesta y recoger la opinión de los estudiante con relación a la calidad de vida en el campus. En este caso la población  o universo, serian todos los estudiantes matriculados actualmente, mientras que la muestra estaría integrada solamente por los estudiantes que fueron seleccionados para participar en el estudio. El objetivo seria describir las diferentes actitudes o características de toda la población (variables).
Métodos usados para la obtención de datos:
Localización de datos publicados por fuentes gubernamentales, industriales o individuales.
- Se puede hacer experimentos científicos.                                      
- Se puede realizar una encuesta.
 - Se puede hacer un estudio observación.

Para que necesitamos los datos?                                                                           
- Para la entrada de una encuesta.
- Para la entrada de un estudio.
- Para medir el desempeño de un servicio.
- Para medir un proceso de producción en marcha.                       
-  Para evaluar la conformidad de los estándares
- Para la formulación de estrategias alternativas en un proceso de toma de decisiones.                
- Para satisfacer la curiosidad.

Tipos de variables estadísticas
 Variable cualitativa:  se refieren a características o cualidades que no pueden ser medidas con números. Podemos distinguir dos tipos:
       Variable cualitativa nominal:   es la que presenta modalidades no numéricas que no admiten un criterio de orden. Por ejemplo: El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo.
        Variable cualitativa ordinal:   presenta modalidades no numéricas, en las que existe un orden. Por ejemplo: La nota en un examen: suspenso, aprobado, notable, sobresaliente. Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...
Variable cuantitativa:  es la que se expresa mediante un número, por tanto se pueden realizar operaciones aritméticas con ella. Podemos distinguir dos tipos:
    Variable discreta:  es aquella que toma valores aislados, es     decir no admite valores intermedios entre dos valores específicos. Por ejemplo:El número de hermanos de 5 amigos: 2, 1, 0, 1, 3.
      Variable continua:   es aquella que puede tomar valores comprendidos entre dos números. Por ejemplo: La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75. En la práctica medimos la altura con dos decimales, pero también se podría dar con tres decimales.
                               

 MUESTREO.-                                

El muestreo se debe usar porque:

1.- Una muestra requiere menos tiempo que un censo.

2.- Cuesta menos administrar una muestra que un censo.

3.- Administrar una muestra es menos tedioso y más  práctico  que administrar el
     censo de una población determinada.

TIPOS BASICOS.-

1.- MUESTRA NO PROBABILISTICA.
      Cuando la muestra se elige sin considerar la probabilidad de ocurrencia.

Ventajas: Conveniencia, rapidez y bajo costo.

Desventajas: Falta de precisión, falta de capacidad para generalizar.

Este tipo de muestreo se usa generalmente cuando se quiere aproximaciones de bajo costo como para satisfacer la curiosidad acerca de un tema en particular.

2.- MUESTRA PROBABILISTICA.
      Cuando la muestra se elige de acuerdo con las probabilidades conocidas.

Ventajas: - Se usa reglas matemáticas por lo que la probabilidad de selección de cada unidad es conocida de antemano.
-Es posible calcular el error muestral.

Desventajas: - Requieren mas cuidado en su preparación.
-Se necesita una lista precisa de la población.
- Puede ser costosa si los miembros de la muestra están geográficamente dispersos.

La Muestras probabilísticas se dividen en:
                       1.- Muestra aleatoria simple.
                       2.- Muestra sistemática.
                       3.- Muestra estratificada.
                       4.- Muestra conglomerada.

MUESTRA ALEATORIA SIMPLE.

Es aquella en la cual cada individuo o elemento de una población tiene la misma oportunidad de ser elegido. Es la técnica de muestreo más elemental y constituye la base para los otras
                                                                                                                                
técnicas probabilísticas. Esto da mas garantía de seguridad en la selección de la muestra que hacerlo simplemente escogiendo al primero de los miembros de la población que se encuentra en el camino.

Para seleccionar los miembros hay varios métodos:

·    Por sorteo. Todos los miembros de la población se escriben en papelitos y como en una tómbola se sacan al azar aquellos que formaran parte de la muestra.


·    Usando una tabla de números aleatorios. Estas tablas de números aleatorios presentan una secuencia de números sin ninguna relación u orden. Cada digito tiene la misma oportunidad de estar en la tabla. La probabilidad de cada digito no es afectada por el numero precedente.

·    Usando EXCEL. Se emplea la función generación de números aleatorios provistos por MS EXCEL. Este programa permite la generación de números aleatorios por medio de función RAND. Multiplicando la formula RAND por un número  se obtiene el limite máximo de los números aleatorios.

·    Usando Internet. Existen programas y/o sitios que crean tablas de números aleatorios.



Selección de una muestra usando una tabla de números aleatorios:
1.- Haga un listado de todos los miembros de una población y asigne un número
     a cada uno de ellos. Supongamos un ejemplo de 500 estudiantes de los
    cuales vamos a seleccionar 50.
2.- Imprima una tabla de números aleatorios.
3.- Empleando un lápiz y con los ojos cerrados elija cualquiera de las filas o columnas de la tabla.
4.- Anote los tres primeros dígitos del numero seleccionado (la tabla puede traer
     5 dígitos. Note que seleccionamos solo tres dígitos por que nuestra población tiene como máximo 3 dígitos (500).
5.- Moviéndose en cualquier dirección siga anotando los números que resulten.
6.- Use esa lista de números para la identificación los miembros de la muestra seleccionada de forma aleatoria

Selección del tamaño de la muestra.                                                                                               
El tamaño de la muestra depende de la precisión que se quiera conseguir en la estimación que se realice a partir de ella. Para su determinación se requieren técnicas estadísticas superiores donde se considera la probabilidad de que la población presente esas características, el error admisible en el estudio, un índice de confiabilidad. Resulta sorprendente cómo, con muestras notablemente pequeñas, se pueden conseguir resultados suficientemente precisos. Por ejemplo, con muestras de unos pocos miles de personas se pueden estimar con muchísima precisión los resultados de

ORGANIZAR (ORDENAR) LOS DATOS.                                                       

Arreglo ordenado. Es la secuencia ordenada que se obtiene cuando se ordenan de menor a mayor los datos obtenidos de las observaciones aun sin procesar.
Aunque sea útil ordenar los datos brutos antes de desarrollar tablas y graficas o de calcular medidas descriptivas, cuanto mas grande es el número  de observaciones en un conjunto de datos, mas útil será organizarlas en un diagrama de  TALLO Y HOJA.

Diagrama tallo y hoja.
                                      Es una herramienta valiosa y versátil para organizar un conjunto de datos y entender la distribución y agrupación de los valores dentro del intervalo de observaciones en el conjunto. Este tipo de diagrama separa los datos en dígitos guía, o tallos, y dígitos que les siguen, u hojas.
Ejemplo:


Tallo
Hoja
   1
2,4,5
   2
6,9
   3
3,9
   4
0

 Se pregunta a 8 niños entre 6 a 10 años
¿Qué tiempo en minutos ven televisión por día?
Las respuestas fueron: 14, 15, 29, 33,12, 39, 26, 40  minutos                                                                                                                  
Solución:
-Se ordenan los datos de mayor a menor: 12, 14, 15, 26, 29, 33, 39, 40.
- El tallo esta formado por el digito de las decenas, los cuales se los coloca
   en la columna de la izquierda.
-Las hojas están formadas por los dígitos correspondientes a las unidades,
 los cuales se los coloca en la columna de la derecha.
 Podemos observar que la mayor frecuencia fue en el tallo 1 con 3 números
 que van caen en la decena desde el 10 al 19.
 La menor frecuencia fue en el tallo 4 donde
 solo un número  en la decena del 40 al 49.


DISTRIBUCION DE LOS DATOS.                                                                 
Para organizar los datos, a medida que el número de observaciones crece, es necesario condensar más los datos. Una manera práctica de hacerlo es agruparlos en tablas apropiadas, a fin de
 presentar, analizar o interpretar los resultados en la forma correcta
 Se puede agrupar los datos en clases (o categorías) de acuerdo con divisiones establecidas que convienen al intervalo de las observaciones. Este arreglo de los datos en forma tabular se llama distribución de frecuencias.
Dos métodos de uso común  para organizar datos son:
-     Distribución de frecuencias.                                                                                    
-     Frecuencias acumuladas.

DISTRIBUCION DE FRECUENCIA.
Es una tabla de resumen en la cual los datos se colocan en grupos o categorías establecidas en forma conveniente de clases ordenadas numéricamente.
Cuando las observaciones se agrupan o condensan en tablas de distribución de frecuencias, el proceso de análisis e interpretación de los datos es mucho mas manejable y significativo.
                                     



Tabla 2: Peso de un grupo de estudiantes

Grupos o clases
Frecuencia
Relativa
Frecuencia
Acumulativa
151 - 155
         6
         6
156 - 160
         8
         14
161 - 165
         9
         23
166 - 170
         11
         34
171 - 175
         1
         35

N =                           35

En la tabla se puede observar:
-     Tiene una numeración.
-     Tiene un titulo.
-     El número de intervalos (grupos) debe estar entre 5 y 15.
La ventaja principal que se obtiene al utilizar esta tabla de resumen es que el lector observa de inmediato las características principales de los datos.
La mayor desventaja es que no muestra la distribución de los datos individuales dentro del un intervalo de clase en particular, pues no se tiene acceso a los datos originales.
Otro ejemplo:









Tabla: 3                    Edad de visitantes al Departamento de Hacienda


Fronteras


Limites
Punto Medio
P.M.

Tally
frecuencia
Absoluta
      f
Frecuencia
Acumulada
       F
frecuencia
absoluta relativa
    f.r.
Frecuencia acumulada
Relativa
    F,R.










































Pasos a seguir para preparar una tabla de distribución de frecuencias:                                    9                         

1.- Determinar el numero de clases K.
      Este número depende de la cantidad de datos observados. Mientras mas datos observados,
      Mayor debe ser el valor de K. Se recomienda  que no sea mayor de 15 ni menor de 5.

2.- Determinar el intervalo o tamaño de las clases C.
      Buscar dentro de los datos observados cual es el dato mayor y el dato menor.
      Restar el dato mayor y el menor’ A esta diferencia se conoce como Recorrido R.
      Buscar el multiplo de K que le sigue a R
    
       C = Multipo de K que le sigue a R
                                    K    
3.- Determinar con que valor empezar.

      Restamos el múltiplo de K que le sigue al Recorrido R y si da un numero par se divide entre
      dos pero si da un numero impar, primero se le resta 1 y luego se divide entre 2.
      Si el resultado anterior es 2 o menos significa que voy a comenzar con el valor del dato
      menor o sea el límite inferior de mi primera clase, pero si es mayor de 2 se le resta esa
      cantidad al dato menor y ese seria el limite inferior de mi primera clase.

Ejemplo:
               Usaremos los datos brutos relacionados a las edades de las personas (muestra) que visitaron el lunes pasado al Departamento de Hacienda.
:
32     48      54      56      39       49      46
41     55      60       44      48       51      56
42     49      49      52      55       59      37
35     43      44      54

Paso 1: K= 5    Valor dado

Paso 2: Buscamos el dato menor y el mayor. Son 32 y 60.

Paso3:   R= 60 – 32 = 28       Restamos el dato mayor menos el dato menor.

Paso 4: El múltiplo de K que  le sigue a 28 es 30
                  múltiplo de 5  que le sigue a 28 es 30

Paso 5:      C = 30  =   6       es el tamaño de la clase.
                         5
                 
Paso 6:   Determinamos con que valor empezamos en la tabla.
               Restamos 30 – 28 = 2 dividido para 2 = 1
               Como el resultado es uno significa que comienzo con el dato menor, o sea el límite
                 inferior de primera clase va a ser el dato menor que es 32.
                                                                                                                                               



Fronteras


Limites
Punto Medio
P.M.

Tally
frecuencia
Absoluta
      f
Frecuencia
Acumulada
       F
frecuencia
absoluta relativa
    f.r.
Frecuencia acumulada
Relativa
    F,R.

32 - 37








































El dato menor es 32 y llega hasta 37 porque el intervalo de clases o valor de C = 6 .
De 32 hasta 37 hay 6 valores.
Luego establezco las fronteras que se determinan restando 0.5 al limite inferior y sumando 0.5 al limite superior para determinar las fronteras correspondientes.

Calculo también el punto medio de cada uno de los valores. Ejemplo 31.5 + 37.5 = 69/2 =34.5




Fronteras


Limites
Punto Medio
P.M.

Tally
frecuencia
Absoluta
      f
Frecuencia
Acumulada
       F
frecuencia
absoluta relativa
    f.r.
Frecuencia acumulada
Relativa
    F,R.
31.5 - 37.5
32 - 37
  34.5
| | |
      3



37.5 – 43.5
38 - 43
  40.5
| | | |
      4



43.5 – 49.5
44 - 49
  46.5
| | | | | | | |
      8



49.5 – 55.5
50 - 55
  52.5
| | | | | |
      6



55.5 – 55.5
56 - 60
  58.5
| | | |
      4




                                                                    Total= 25

Luego uso la columna del tally para ir registrando la cantidad de veces que los datos están ubicado en cada uno de los intervalos. Por ejemplo en el primer intervalo existen tres valores de los datos que están ubicados entre estos limites: 32, 35 y 37. Entonces marco 3 rayitas.
Una vez terminado este conteo registro el numero de rayitas en la columna de la frecuencia absoluta.  Luego al sumar verticalmente todos los valores debe coincidir con el total de los datos brutos.

Luego calculamos la frecuencia acumuladas, pasando la primera igual que la absoluta y luego esa acumulada, le sumamos la segunda frecuencia absoluta y obtenemos la segunda frecuencia acumulada y así sucesivamente.
                                                                                                                                                11



Fronteras


Limites
Punto Medio
P.M.

Tally
frecuencia
Absoluta
      f
Frecuencia
Acumulada
       F
frecuencia
absoluta relativa
    f.r.
Frecuencia acumulada
Relativa
    F,R.
31.5 - 37.5
32 - 37
  34.5
| | |
      3
      3
    0.1200
   0.1200
37.5 – 43.5
38 - 43
  40.5
| | | |
      4
      7
    0.1600
   0.2800
43.5 – 49.5
44 - 49
  46.5
| | | | | | | |
      8
      15
    0.3200
   0.6000
49.5 – 55.5
50 - 55
  52.5
| | | | | |
      6
      21
    0.2400
   0.8400
55.5 – 55.5
56 - 60
  58.5
| | | |
      4
      25
    0.1600
   1.0000


                                                                Total= 25                                1.0000

Luego obtenemos la frecuencia absoluta relativa f.r.  Para lograrlo dividimos los valores respectivos encontrados para el número total de datos N que en este caso son 25. El resultado de la división debe redondearse a cuatro decimales. El primero seria: 3/25 = 0.1200. La suma de todos los valores deberá ser igual a 1.
Para obtener la frecuencia acumulada relativa se procede igual que el paso anterior dividiendo cada  uno de los valores de la frecuencia acumulada para el numero total de datos, que es 25. Como se puede observar este valor debe coincidir con el valor de la frecuencia absoluta relativa que es igual a 1.
Ahora que la tabla esta terminada estamos listos para contestar algunas preguntas como las siguientes:
1.- Diga cuanto es el numero de personas entre 38 y 43 años que visitaron el Departamento de    Hacienda.                                                                                       Respuesta:  4 personas
2.-¿ Entre qué  edades se encontraban las personas que con mayor frecuencia visitaron el Departamento de Hacienda?                                                           Respuesta:     8 personas
3.- ¿Cuál es el porcentaje de personas que se encuentran entre 56 a 61 años, que visitaron el Departamento de Hacienda?                                                           Respuesta:     4 personas
4.- ¿Cuántas personas de las observadas tienen hasta 55 años?      Respuesta:    21 personas
5.- ¿Cuantas personas visitaron el Departamento de Hacienda?    Respuesta:     25 personas

MEDIDAS DE TENDENCIA CENTRAL                             

Introducción.                                                          
                       La estadística descriptiva permite la presentación de grandes cantidades de datos en forma resumida. Al analizar la forma como los datos se organizan y distribuyen nos permite conocer de forma resumida y rápida las características de un conjunto de datos.

En cualquier análisis o interpretación se pueden usar muchas medidas descriptivas que representan las propiedades de tendencia central, variación y forma para resumir las características importantes de un conjunto de datos.

Las medidas de tendencia central indican de forma resumida el punto central de los datos.
Existen cinco tipos de medidas de tendencia central:

Media aritmética: Es la que se usa con mayor frecuencia, también conocida como promedio. Se calcula sumando todos los valores y luego se los divide para el número de valores.
Ejemplo: Calcule la media aritmética para un conjunto de datos de una muestra que tiene 7 valores. Estos son:
29, 36, 31, 26, 28, 30, 31.
                            __
Media aritmética  X: __29+36+31+26+28+30+31__= 211  = 30.1
7                             7

Debido a que el cálculo del promedio aritmético se basa en todas las observaciones, cualquier valor extremo en el conjunto de datos afecta mucho esta medida, especialmente cuando la muestra es pequeña. En este caso la media aritmética es una representación distorsionada de lo que transmiten los datos, entonces la media aritmética no es el mejor promedio para describir o resumir un conjunto de datos que tienen valores extremos.


Cuando los datos han sido agrupados en una tabla de distribución de frecuencias, podemos usar una fórmula  diferente.
                             __
Media aritmética   X =   Suma de_xf  
                                               n 
Ejemplo: Calcular la media aritmética (Promedio)  de la siguiente tabla de valores:


Limites
   f
  6 - 8
   5
 9 - 11
   8
12 - 14
  12
15 - 17
   6
18 - 20
   9


  
Para resolver este ejercicio debemos preparar la siguiente tabla:                                          pag 13

Limites              f            P.M.(x)         xf

6 – 8                 5               7                 35            x = punto medio
9 – 11               8              10                80
12 –14             12             13              156             f = frecuencia absoluta
15-17                6              16                96
18-20                9              19               171           n = total de datos( suma de frecuencia absoluta)
__________________________________
40                                538

Media aritmética =  Suma de xf =  538 = 13.4
                                       n                40    

Otro ejemplo:
Calcular la media aritmética o promedio de la siguiente tabla:

Limites               f                                         

40-45                 9
46-51                 3
52-57                 1
58-63                 12
64-69                 4


Mediana.-
                     La mediana es el valor medio de un arreglo ordenado de datos. Es el valor que divide a los datos en dos partes iguales (por encima de la mediana y por debajo de la mediana).
Ninguna observación extrema en un conjunto de datos afecta a la mediana. En consecuencia, siempre que una observación extrema este presente, es adecuado usar la median en lugar de la media para describir el conjunto de datos.  

Para calcular la mediana de un conjunto de datos:
1.- Se organizan los datos en un arreglo ordenado.
2.- Luego se determina el valor que esta en medio de los datos ordenados.

Ejemplo:
              Hallar la mediana para los datos: 20, 30, 21, 15, 18, 15, 18, 21, 26, 30.
1.- Ordenamos los datos: 15. 15. 18. 18. 21. 21. 26. 26. 30. 30
2.- Podemos observar que en este caso el valor  21  divide en dos partes iguales a los datos. cuatro valores antes y cuatro valores después.


Ejercicio: Hallar la mediana de los siguientes datos:                                             pag 14                                        
29, 41, 36, 27, 28, 21, 20, 25:                                                                                         
1.- Ordenamos los datos: 20, 21, 25, 27, 28, 29, 36, 41
2.- Determinamos el valor medio:                                                                                         
 En este caso, son dos valores los que están en medio, 27, y 28. El valor medio estaría entre estos dos valores. Entonces sumamos los resultados y dividimos entre  2.       O sea  27+28= 55/2 = 27.5     La mediana es 27.5

Mediana de datos agrupados.-
                                                             Usamos la formula:

Md = frontera inferior  + ( Frecuencia acumulada max/2  -  Frecuencia acumulada anterior )(C)
                                                                            frecuencia absoluta

C = intervalo de clase

Ejemplo:
               Determinar la mediana para la siguiente distribución de datos que han sido agrupados en las siguientes clases:

Clases         frecuencia absoluta
   C                          f
15-17                     10
18-20                       5
21-23                      18
24-26                      23
27-29                      19

Solución:
Preparamos la tabla de distribución de Frecuencias acumuladas:

Clases       frecuencia absoluta               Frecuencia acumulada
15-17                     10                                             10
18-20                       5                                             15
21-23                      18                                            33
24-26                      23                                            56
27-29                     _19_                                          75
                                 75
El valor máximo de la Frecuencia acumulada 75 se lo divide para 2 porque esta buscando la mediana que divide la distribución en dos partes iguales.
75/2 = 37.5  Este valor nos sirve para seleccionar la línea de clase que usaremos para el calculo.
Con este valor de 37.5 buscamos en la columna de Frecuencia acumulada y si no aparece escogemos la inmediata superior.  En este caso escogemos la línea correspondiente la frecuencia acumulada de 56. Esa será la línea de referencia para continuar con los cálculos.
Entonces:
Frontera inferior = 23.5 (recuerde que se restaba 0.5 al valor menor.    24 – 0.5 = 23.5)
Frecuencia acumulada máxima/2:     75/2 = 37.5                                                        pag 15                                            
Frecuencia acumulada anterior: 33
 frecuencia absoluta:  23
Intervalo de clase: del 24 al 26 hay    3         C=3                                                                 
Remplazamos en la fórmula:
               
   Md = frontera inferior  + ( Frecuencia acumulada max/2  -  Frecuencia acumulada anterior )(C)
                                                                            frecuencia absoluta

    Md=     23.5 + (75/2 -33) (3)
                                   23
    Md = 24.09


Moda.-
             La moda es el valor que aparece con mayor frecuencia en un conjunto de datos.
Cuando son dos los valores que más se repiten, la muestra es bimodal. Cuando se repiten por igual más de dos valores la muestra se llama multimodal.

A diferencia de la media aritmética, la ocurrencia de algún valor extremo no afecta a la moda. Sin embargo la moda solo se usa para fines descriptivos.
Para calcular la moda simplemente nos fijamos cual es el valor que mas se repite.

Ejemplo: Halle la moda en la siguiente distribución: 18, 18, 16, 18, 14, 19, 23, 21, 24,
                La moda es 18 ya que es el valor que mas se repite.

Ejemplo: Encuentre la moda en la siguiente distribución: 40, 26, 29, 31, 40, 36, 41, 39, 38, 36
                En este caso hay dos modas: 36 y 40. Es una muestra bimodal.

Moda en datos agrupados.
Para calcular la moda en datos agrupados en clases o límites se busca la frecuencia absoluta  f   más alta y se calcula el punto medio (P.M).
Ejemplo:
              Calcule la moda de los siguientes datos agrupados:

Limites        frecuencia absoluta
9-13                        5                     En este caso se identifica la clase con frecuencia absoluta mas
14-16                      9                     alta  (24-26) y se determina el punto medio de esa clase:                   
19-23                     16      
24-26                     20                           P.M.= 24 + 26 = 52  =  26
29-33                       2                                            2          2

La moda en este caso es 26.




NOTA: Precaución con las distribuciones bimodales o multimodales.                       Pag 16
     
Las distribuciones multimodales presentan dificultades particulares de análisis. Existen muy pocas pruebas y recursos estadísticos para examinarlas. Es recomendable examinar los datos para tratar de descubrir las causas de la multimodalidad.
 Así podría ser posible dividir los datos en dos mas grupos unimodales y examinarlos mas apropiadamente.

Caso real: Un empresario examinaba reportes estadísticos sobre el peso de los sacos de un producto de una de sus plantas. Al preguntar porque de una distribución bimodal, se descubrió que los sacos se llenaban en una de dos maquinas en la planta. Al separar la información se produjeron dos distribuciones unimodales. Se identifico la máquina  que estaba fuera de calibración y se continuo con el estudio.


Rango medio.-
                         Es el promedio de la observación más pequeña y la observación más grande en un conjunto de datos.
Con cierta frecuencia el rango medio se utiliza como una medida de resumen tanto para análisis financieros como para reportes metereológicos, porque puede proporcionar una medida adecuada, rápida y sencilla que caracteriza a todo  el conjunto de datos. Sin embargo, a pesar de estas ventajas, el rango medio debe utilizarse con cuidado.

Para calcular el rango medio se suman los valores mayor y menor del conjunto de datos y se divide entre dos.

Rango medio = Valor menor_+_Valor_mayor
                                                2
                                               
Ejemplo: Hallar el rango medio en la siguiente distribución: 10, 16, 19, 25, 31, 42, 50.

Rango medio = 10_+_50  = 60  =  30
2           2
Rango medio: 30

 Cuartiles y eje medio.

Los cuartiles son una de las medidas de posición. Las medidas de posición son aquellos valores numéricos que nos permiten o bien dar alguna medida de tendencia central, dividiendo el recorrido de la variable en dos, o bien fragmentar la cantidad de datos en partes iguales.
Como ya vimos la mediana,  separa en dos mitades el conjunto ordenado de observaciones. Podemos aun dividir cada mitad en dos de tal manera que resulten cuatro partes iguales. Cada una de esas divisiones se conoce como cuartil y lo simbolizamos con la letra Q agregando un subíndice según a cual de los cuatro cuartiles nos estamos refiriendo.

                                                                                                                                            Pag 17
Se llama primer cuartil Q1 a la mediana de la mitad que contiene los datos más  pequeños. Este cuartil, corresponde al menor valor que supera – o que deja por debajo de el – a la cuarta parte de los datos.
Se llama tercer cuartil Q3 a la mediana de la mitad formada por las observaciones mas grandes. El tercer cuartil es el menor valor que supera – o que deja por debajo de el – a las tres cuartas partes de las observaciones.
Siguiendo esta terminología, la mediana es el segundo cuartil Q2 y el cuarto cuartil Q4 coincide con el valor que toma el último dato, luego de ordenados.

Los cuartiles son las medidas de posición “no central” que se utiliza con mayor frecuencia (también se conocen como cuartiles o fractiles) y se emplean sobre todo para resumir o describir las propiedades de conjuntos grandes de datos numéricos.
Mientras que la mediana es un valor que parte del arreglo ordenado por la mitad (50 % de las observaciones son mayores y 50% son menores), los cuartiles son medidas descriptivas que parten los datos ordenados en cuatro cuartos. Otros medidas similares que se utilizan a menudo son los deciles, que separan los datos ordenados en diez partes, y lo percentiles que los dividen en cien partes.

El primer cuartil es un valor tal que un 25% de las observaciones son menores y un 75% son mayores.

Q1 = (n + 1)/4 donde n es el numero total de datos. Para una observación ordenada en la posición.
        

Ejemplo: Hallar el primer cuartil Q1  de la siguiente distribución:
                 10, 28, 29, 30, 32, 33, 35, 37, 38                     Son  n = 9 valores

Q1= (9+1)/4 = 2.5 quiere decir que la observación esta entre la segunda y la tercera posición.

Q1 = (28 + 29)/ 2 = 28.5.  El valor del primer cuartil es 28.5


El tercer cuartil es un valor tal que el 75% de las observaciones son menores y un 25% son mayores.

Q3 = 3(n + 1)/4     n  es el número  total de datos. 
   Para una observación ordenada en la posición.

Ejemplo: Use la misma distribución de datos del ejemplo anterior para calcular  Q3.

Q3 = 3(9+1)/4 = 7.5  La observación esta entre la séptima y la octava posición.

Q3 = (35+37)/4 = 36           El valor del tercer cuartil es 36


Eje medio.-                                                                                                     pag 18
                      El eje medio es una mediada de resumen que se usa para superar posibles problemas que introducen los valores extremos en los datos.
Se calcula realizando el promedio del primer y tercer cuartil de un conjunto de datos.

Eje medio = (Q1 + Q3)/2

Ejemplo: Usando el ejercicio anterior donde calculamos Q1 y Q3

Eje medio =  (28.5 + 36)/2 = 32.25

Es importante indicar que los valores extremos potenciales no afectan el eje medio o al promedio de Q1 y Q3 ya que ambas son medidas de posición no central, porque no se considera ninguna observación menor que Q1 y Q3.

Las medidas de resumen como el eje medio y la mediana, que no dependen de valores extremos, se llaman medidas robustas.



                      

























No hay comentarios:

Publicar un comentario