El término "estadística" es utilizado en el lenguaje en muchos sentidos dependiendo de un énfasis en particular:
- Publicaciones de censos
- Cuadros o gráficos de diarios
- Estadísticas de fútbol
En un sentido general de la definición:
"Conjunto de datos numéricos que han sido organizados, resumidos y presentados para mostrar las características o evolución de un cierto fenómeno de interés"
Dato estadístico: conjunto de números referidos a una misma característica, recogidos de tal manera que se puedan comparar, analizar o interpretar.
Los datos aislados en la estadística no cobran relevancia. Se requieren conjuntos de datos para poder recabar conclusiones acerca de ellos al compararlos.
Como disciplina científica está dedicada al desarrollo y aplicación de la teoría y las técnicas apropiadas para la recolección, clasificación, presentación, análisis e interpretación de información cuantitativa obtenida por observación o experimentación.
El análisis estadístico se lleva a cabo con base en observaciones correspondientes a una cierta característica y realizado en unidades estadísticas elementales o de estudio.
Ejemplo:
Estimación de salario mensual de profesores de una provincia por medio de encuesta.
Unidad estadística elemental: profesor de la provincia.
Característica: salario mensual en la moneda de la provincia.
Observaciones: conjunto de cada uno de los salarios mensuales (observación) recabados durante la encuesta.
Población de estudio: conjunto de unidades de estudio (personas, animales, organizaciones, etc)
Las poblaciones pueden ser finitas o infinitas.
La población la constituyen no las unidades estadísticas propiamente, sino los valores numéricos asociados a ellas. Un mismo conjunto de unidades de estudio puede dar origen a diferentes poblaciones, o sea, a distintos grupos numéricos, según sea la característica que concierna.
Se utiliza el muestreo para simplificar o abaratar el costo de estudiar una población entera, para luego generalizar los resultados a toda la población de la cual fue seleccionada. Se corre el riesgo que la parte seleccionada no sea representativa, y por tanto, la generalización no sea precisa o tenga un margen de error.
Cuanto más homogénea sea una población, menor es la muestra (i.e. las muestras de sangre).
Existen tres formas de selección de muestras:
- Aleatorias: se da a cada uno de los elementos de la población una probabilidad conocida y no nula de incluirse en la muestra.
- Intencional: utilizar el juicio de un experto.
- Conveniencia: escoger por disponibilidad o facilidad para conseguir.
Los sesgos son errores sistemáticos, o sea, en un solo sentido, y pueden ser de selección o medición. De selección solo aplican en los muestreos. Los sesgos de muestreo aplican para la selección intencional.
Los errores de muestreo son de naturaleza aleatoria, y no son predecibles individualmente, pero sí pueden estudiarse y evaluarse por medio de modelos matemáticos que brinda la teoría de las probabilidades. Además el error se puede reducir tan pequeño como se quiera aumentando el tamaño de la muestra.
La preferencia es elegir muestreo aleatorio porque elimina los sesgos de selección y produce errores aleatorios que se pueden medir con modelos probabilísticos. Cuando se utiliza una muestra más pequeña, la selección intencional resulta más apropiada.
Tablas de números al azar: tabla con un gran número de dígitos, los cuales han sido generados por un proceso mecánico o electrónico, usando una fórmula o algoritmo matemático que garantiza que cada dígito es el resultado de un procedimiento aleatorio, es decir, independiente de los dígitos previamente seleccionados.
Existen dos tipos de variables: cuantitativas y cualitativas (o atributos). Son cuantitativas si son medibles. Normalmente las cualitativas toman ciertos valores enumerados en categorías. Dentro de las cuantitativas tenemos las continuas y discretas. Continuas si pueden tomar cualquier valor dentro de un intervalo de números reales (peso en kg). Discretas si sus valores son numerables (total de hijos).
Ejemplos de variables:
- Peso de un estudiante
- Valor de una casa
- Duración en horas de un bombillo
- Experiencia en años de un maestro
Ejemplos de atributos:
- Clase de alumno (regular-especial-oyente)
- Condición de un bombillo (Defectuoso-no defectuoso)
- Estado civil
- Sexo
Estadística descriptiva: hace referencia a aquellas técnicas o instrumentos empleados cuando el interés primordial es describir un conglomerado de datos, sin importar la profundidad y detalle con que se haga, pues no se pretende hacer generalizaciones o inferencias para un conjunto mayor.
Estadística inferencial o inductiva: hace referencia a aquellas técnicas o instrumentos empleados cuando el propósito perseguido es no solo describir los datos, sino generalizar lo observado en ellos para un conjunto o universo mayor del cual fueron tomados y analizados.
Cuando la muestra ha sido escogida aleatoriamente y es posible medir el error de muestreo, se tiene una inferencia estadística.