Estatística Descritiva em Python – Média, Mediana, Variância e Desvio-Padrão
Estatística Descritiva em Python
Problema:
Escreva um programa em Python que calcule a média aritmética, mediana, variância e desvio-padrão para um conjunto de dados de salários de funcionários de uma empresa (ou seja, script para estatística descritiva em Python).
Os salários devem estar armazenados em um arquivo CSV de nome salarios.csv.
Logo após, plotar um histograma com a distribuição de frequência dos salários, usando a biblioteca matplotlib.
Código:
Para este script, vamos empregar, além do pacote matplotlib para plotar um gráfico, também as bibliotecas NumPy e Pandas para a realização dos cálculos necessários.
import pandas as pd import numpy as np import matplotlib.pyplot as plt # Carregar os dados do arquivo CSV data = pd.read_csv('salarios.csv') # Calcular a média aritmétia, mediana, variância e desvio-padrão mediana = np.median(data) media = np.mean(data) desv_pad = np.std(data) variancia = np.var(data) # Mostrar os resultados print('Mediana: ', mediana) print('Média: ', media) print('Desvio Padrão: ', desv_pad) print('Variância: ', variancia) # Plotar Histograma plt.hist(data, bins=5) plt.xlabel('Salários') plt.ylabel('Frequência') plt.title('Distribuição Salarial') plt.show()
Resultado:
Mediana: 5000.0
Média: 6300 5261.578947
Desvio Padrão: 6300 1795.650485
Variância: 6300 3.224361e+06
Funcionamento
Este programa primeiro carrega os dados do arquivo “salarios.csv” usando a biblioteca pandas. Em seguida, calcula a mediana, a média aritmética, o desvio padrão e a variância usando o módulo numpy. Por fim, plota um histograma dos dados usando a biblioteca matplotlib.
Observe que especifiquei 5 compartimentos para o histograma passando o parâmetro bins para a função plt.hist(). É possível ajustar o número de compartimentos conforme necessário para visualizar melhor os dados.
O arquivo de dados para testar o código pode ser baixado no GitHub da Bóson Treinamentos: salarios.csv.
Escreva um comentário