Estadística Descriptiva Univariada
La estadística descriptiva
está constituida por un conjunto de técnicas cuyo objetivo es clasificar, presentar, describir, resumir y analizar los datos relativos a una o más características de los individuos de una población, a partir de la información sobre todos y cada uno de ellos. Para cubrir estos objetivos se vale de tablas, gráficos y resúmenes estadísticos.
La estadística descriptiva univariante se centra en el análisis de una única característica o cualidad del individuo. Las características a analizar presentan modalidades, exhaustivas y mutuamente excluyentes.
proporciona una serie de herramientas para describir, tabular, representar y sacar gráficos de una variable de la manera más útil y eficaz posible a fin de obtener información relevante.
Medidas Tendencia Central es un número situado hacia el centro de la distribución de los valores de una serie de observaciones (medidas), en la que se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda. sirven como puntos de referencia para interpretar las calificaciones que se obtienen en una prueba
Media aritmética o promedio es el valor característico de una serie de datos cuantitativos, el valor se obtiene al sumar todos los datos y dividir el resultado entre el número total de datos. la idea general se mantiene en todos los tipos de media: queremos saber un valor promedio. Al ser una media de tendencia central , lo que busca es aportarnos información sobre el centro.
La Mediana La mediana es un estadístico de posición central que parte la distribución en dos, es decir, deja la misma cantidad de valores a un lado que a otro. Es el valor medio cuando un conjunto de datos se ordena de menor a mayor, para calcular la mediana es importante que los datos estén ordenados de mayor a menor, o al contrario de menor a mayor.
La Moda es una medida de tendencia central que indica el valor que más se repite en un grupo de números. En un mismo estudio puede haber más de una moda, esto ocurre cuando dos (bimodal) o más números (multimodal) se repiten la misma cantidad de veces siendo este es el máximo número de veces del conjunto.
La moda es el valor que tiene mayor frecuencia absoluta, se representa por .
Aplicaciones del software estadístico para medidas de tendencia central, dispersión, parcentiles, correlación y regresión lineal:
Según Forbes , los seres humanos de hoy generan aproximadamente 2,5 exabytes o 2500 petabytes de datos por día. Eso es gran cantidad de datos . Sin las mejores herramientas de software estadístico y análisis de datos, resulta casi imposible analizar con precisión este mar creciente de datos. Los programas informáticos estadísticos son herramientas que se utilizan para el análisis estadístico de la recopilación, organización, análisis, interpretación y presentación de datos. Las estadísticas empresariales les ayudan a descubrir los patrones y tendencias de los clientes y otra información útil que les ayuda a tomar decisiones.
Python: es mucho más que un lenguaje de programación popular. Se sitúa como una excelente herramienta de análisis de datos. Le ayuda a realizar muchos procedimientos avanzados y es compatible con el desarrollo de modelos sofisticados.
SAS: La herramienta fue desarrollada por SAS Institute entre 1966 y 1976 en la Universidad Estatal de Carolina del Norte. Aprovecha el increíble poder de la inteligencia artificial para convertirse posiblemente en la herramienta de análisis de datos más inteligente jamás creada.
STATA: La herramienta es un paquete de software para todo uso que siempre arroja resultados confiables. El software cuenta con una gran cantidad de características estadísticas sorprendentes para que pueda analizar sus datos como un profesional.
NVIVO: NVIVO fue desarrollado por QSR International . La herramienta ayuda a los investigadores a obtener significado de material de investigación cargado de gran cantidad de información multimedia y basada en texto. La herramienta permite a los investigadores profundizar y analizar exhaustivamente sus datos.
Microsoft Excel: Es una aplicación para hojas de cálculo. Este programa de Microsoft es utilizado normalmente en tareas financieras, contables y estadísticas. Excel cuenta con un paquete funciones estadísticas que permiten un ágil y efectivo análisis estadístico.
Spss: Puede trabajar con bases de datos de gran tamaño. . Además, de permitir la recodificación de las variables y registros según las necesidades del usuario. El programa consiste en un modulo base y módulos anexos que se han ido actualizando constantemente con nuevos procedimientos estadísticos.
S_plus: Incluye dentro de sus principales características: análisis multivariado de datos, análisis de sobrevivencia, escalamiento multidimensional, regresión no paramétrica. Entre los estadísticos de cálculo habituales incluye: pruebas de hipótesis y construcción de intervalos de confianza, análisis de variedad, análisis exploratorio de datos, entre otros.
Minitab: Permite calcular la mayoría de metodologías estadísticas habituales, entre las que se cuentan: análisis exploratorio de datos, gráficos estadísticos, control de calidad, estadística no paramétrica, regresión y sus variantes, análisis multivariado de datos, etc.
statgraphics: Es un programa de estadística de fácil manejo y una buena herramienta para la enseñanza de la estadística en secundaria y para la investigación en educación.
Statsoft: destaca la variedad de gráficos y la facilidad en el manejo de bases de datos.
Ph-stat: Destaca la posibilidad de poder crear gráficos de control de calidad, diagramas de tallos y hojas, cajas de dispersión, intervalos de confianza en estimación, análisis de varianza, entre otros.
software libres como:
Guadalinex: Es de distribucion de linux desarrollada para la junta de Andalucía para facilitar el acceso a todos los ciudadanos del software libre
R calculo estadístico en linux: Altamente recomendado por lo robusto y potente que de las rutinas que tiene implementadas, pero poco amigable si no se tiene un conocimiento básico de programación
Stadis: Aplicación sencilla para trabajar la estadística descriptiva, contempla variables estadísticas cualitativas y cuantitativas (discretas o continuas), permite ordenar datos, calcular medidas de tendencia central y hallar parámetros de dispersión, análisis de dos variables y medidas de forma.
Estaplus: EstaPlus es un programa centrado en la estadística descriptiva creado por Alejandro Vergara Massa que permite realizar análisis y diagramas utilizando datos distribuidos en variables unidimensionales o bidimensionales, en modo discreto o continuo.
Medidas de dispersión: Las medidas de dispersión es el grado en que una distribución se estira o exprime. Las medidas de dispersión se contrastan con la ubicación o la tendencia central, y juntas son las propiedades más utilizadas de las distribuciones.
Rango: Mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más bajo.
Desvió: Es una medida de la diferencia entre el valor observado de una variable y algún otro valor, a menudo la media de esa variable.
La varianza: La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones.
Desviación típica: La desviación típica es otra medida que ofrece información de la dispersión respecto a la media. Su cálculo es exactamente el mismo que la varianza, pero realizando la raíz cuadrada de su resultado. Es decir, la desviación típica es la raíz cuadrada de la varianza.
Interpretación y comprensión de la desviación estándar: La desviación estándar es un índice numérico de la dispersión de un conjunto de datos (o población). Mientras mayor es la desviación estándar, mayor es la dispersión de la población. La desviación estándar es un promedio de las desviaciones individuales de cada observación con respecto a la media de una distribución. Así, la desviación estándar mide el grado de dispersión o variabilidad.
Regla practica del intervalo: Una herramienta rudimentaria pero sencilla para comprender la desviación estándar es la regla práctica del intervalo, que se basa en el principio de que, para muchos conjuntos de datos, la vasta mayoría (tanto como el 95%) de los valores muestrales se ubican dentro de dos desviaciones estándar a partir de la media.
El siguiente ejemplo es particularmente importante como ilustración de una forma de interpretar el valor de una desviación estándar.
Ejemplo pulso cardíaco de las mujeres: los resultados de una encuesta dieron resultado que el pulso cardíaco (latidos por minuto) tiene una media de 76.0 y una desviación estándar de 12.5 se utilizo la regla del intervalo para calcular las frecuencias máximas y mínimas "comunes"
valor mínimo "común"=(media)-2x(desviación estándar)
=76.0 -2(12.5)= 51 latidos por minuto
valor máximo "común"=(media)+2x(desviación estándar)
= 76.5 +2(12.5)=101 latidos por minuto
y como base de resultado esperamos que la mujer común tengo un pulso cardíaco de entre 51 y 101 latidos por minuto
Valores comunes e infrecuentes: sirven para sintetizar o resumir la información dada por una tabla o por una gráfica. En otras palabras, dados unos pocos parámetros estadísticos se puede tener una idea general de la distribución de la información. Los valores infrecuentes, son puntuaciones menores que menos dos y puntuaciones mayores que dos o sea, puntuaciones < -2 o Puntuación Z> 2. Una puntuación Z de menos 3, indica que un valor esta a 3 desviaciones estándar por debajo de la media.
Teorema de chebyshev: Es un teorema utilizado en estadística que proporciona una estimación conservadora (intervalo de confianza) de la probabilidad de que una variable aleatoria con varianza finita se sitúe a una cierta distancia de su esperanza matemática o de su media.
En la literatura, a este tipo de desigualdades, cuya característica es la comparación de la probabilidad de la cola de la distribución y su valor esperado, se le conoce como desigualdades tipo Chebyshov. Estas desigualdades son la herramienta básica para demostrar resultados como la ley de los grandes números, entre otros. Además de que tienen aplicaciones en estadística, así como en otras áreas de las matemáticas.
Estandarización: Es la transformación de escala de la distribución de una variable con el objetivo de poder hacer comparaciones respecto a conjuntos de elementos y a la media mediante la eliminando los efectos de influencias.
En otras palabras,son proporciones sin unidades de medida (adimensionales o invariantes de escala) que nos permiten poder comparar elementos de distintas variables y distintas unidades de medida.
Puntucacines "z" y valores infrecuentes: es el número de desviaciones estándar que hay por encima o por debajo de la media de población. Como regla general, las puntuaciones Z inferiores a -1,96 o superiores a 1,96 se consideran poco corrientes e interesantes. Es decir, son valores atípicos significativos desde el punto de vista estadístico.
Coeficiente de variación "C.V": Es una medida estadística que nos informa acerca de la dispersión relativa de un conjunto de datos. Es decir, nos informa al igual que otras medidas de dispersión, de si una variable se mueve mucho, poco, más o menos que otra.
Su fórmula expresa la desviación estándar como porcentaje de la media aritmética, mostrando una interpretación relativa del grado de variabilidad, independiente de la escala de la variable, a diferencia de la desviación típica o estándar.
Medidas de orden: Estas medidas indican como reflejan el orden de posición de una observación entre los valores de una variable, para cálculo estas medidas debemos ordenar de forma ascendente los valores de la muestra, el resultado de dicha reubicación de los valores se le conoce como Muestra Ordenada Mínimo. El mínimo es el valor menor. Máximo: El máximo es el valor mayor
Percentiles en serie de datos ordenados: Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden las características tales como peso, altura, etc.
Perceltiles en datos tabulados: Para datos no agrupados los percentiles se ubican, aproximadamente, ordenando y dividiendo el total de datos en 100 grupos con igual número de datos. Para ello se multiplica el total de datos por la fracción correspondiente a cada percentil. Si el resultado no es un entero se redondea al entero inmediato superior y se ubica ese dato, si el resultado es entero se ubica ese dato y se promedia con el dato siguiente a el.
percentiles en datos agrupados: Son aquellos que se encuentran agrupados en una tabla de frecuencia, y se calculan mediante la formula:
K ( N )
Pk=Lk +----------------- *C
FxDentiles: son puntuaciones que dividen la distribución en diez partes. El Decil 9 (D9), por ejemplo, es la puntuación que deja por bajo las nueve décimas partes de la distribución.
Cuartiles: son puntuaciones que dividen la distribución en cuatro partes. El Cuartil 1 (Q1), por ejemplo, es la puntuación que deja por debajo la cuarta parte de la distribución.
Correlación: Se denomina correlación al vínculo recíproco o correspondiente que existe entre dos o más elementos. El concepto se emplea de diferentes maneras de acuerdo al contexto.
La correlación alude a la proporcionalidad y la relación lineal que existe entre distintas variables. Si los valores de una variable se modifican de manera sistemática con respecto a los valores de otra, se dice que ambas variables se encuentran correlacionadas.
Tipos de correlación: Hay tres tipos de correlación positiva, negativa y nula
La positiva: ocurre cuando una variable aumenta y la otra también. Por ejemplo, la altura de una persona y el tamaño de su pie; mientras aumenta la altura, el pie también.
La negativa: Es cuando una variable aumenta y la otra disminuye. El tiempo de estudio y el tiempo que pasas jugando videojuegos, tienen una correlación negativa, ya que cuando tu tiempo de estudio aumenta, no te queda tanto tiempo para jugar videojuegos.
Nula: No hay una relación aparente entre las variables. Los puntos en tus videojuegos y tu talla de zapato no parece tener ninguna correlación; mientras una aumenta, la otra no tiene ningún efecto.
Proporcionalidad: Es la medida de estadística descriptiva que más se usa. Es el número de observaciones con una característica en particular entre la población de referencia. El numerador siempre está incluido en el denominador. Se expresa en porcentaje.
Diagrama de dispersión: Se emplea cuando una o varias variables está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente y habitualmente se representa a lo largo del eje horizontal (eje de las abscisas).
Coeficiente de correlación de pearson: Es una medida de dependencia lineal entre dos variables aleatorias cuantitativas. De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas y continuas
Coeficinte de correlacion de spearman: En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias (tanto continuas como discretas). Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.
Intensidad de la correlación: correlación emplea métodos para medir la significación del grado o intensidad de asociación entre dos o más variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión. El concepto de correlación está estrechamente vinculado al concepto de regresión, pues, para que una ecuación de regresión sea razonable los puntos muéstrales deben estar ceñidos a la ecuación de regresión.
Regresión lineal: En estadística, la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia. Es una técnica estadística para modelar e investigar la relación entre dos o más variables. Este método es aplicable en muchas situaciones en las que se estudia la relación entre dos o más variables o predecir un comportamiento, algunas incluso sin relación con la tecnología.
Recta de regresión lineal: Se denomina regresión lineal cuando la función es lineal, es decir, requiere la determinación de dos parámetros: la pendiente y la ordenada en el origen de la recta de regresión, y=ax+b.
La recta de ajuste tendrá por ecuación y = ax + b, donde los coeficientes a y b se calculan teniendo en cuenta que:
La recta debe pasar por el punto ( ).
La separación de los puntos de la gráfica de dispersión con respecto a la recta de regresión debe ser mínima.
Proyección de variable: En el ámbito de proyección son múltiple las alternativas metodologías existentes para estimar el comportamiento futuro de alguna de las variables del proyecto, esta obliga al analista a tomar en consideración un conjunto de elemento de cada método.
La validez de los resultados de la proyección que están íntimamente relacionada con la calidad de los datos de entrada que sirvieron de base para los pronósticos.
La elección del método, esta dependerá principalmente de la cantidad y calidad de los antecedente disponibles, también de los resultados esperado. La efectividad del método elegido se evaluara en función de su precisión, sensibilidad y objetividad..
Precisión se percibe en cualquier error en su pronostico porque tendrá asociado un costo. Aunque obviamente no podrá exigirse una certeza total a alguno de los métodos, de esta forma podrá exigírsele que garantice una reducción al mínimo del costo del error en su proyección.
Sensibilidad, se percibe al situarse en un medio cambiante, la cual debe ser lo suficientemente estable para enfrentar cambios agudos.
Objetividad, la información que se tome como base de la proyección debe garantizar su validez y oportunidad en una situación histórica.
Integrantes:
Ángel Castro SECCIÓN 301521
C.I: 29871451
Jesús Castro SECCIÓN 301521
C.I:29871452
Yoseidy Herrera SECCIÓN 301531
C.I:29600185
Comentarios
Publicar un comentario