Desenvolvido por: Marylaine Nascimento e Marcus Nunes
O histograma se assemelha a um gráfico de colunas, mas sua estrutura informa mais do que a frequência dos dados. A estrutura de um histograma é exibida na figura abaixo, em que temos os mesmos dados das notas em ciências da natureza no ENEM 2015 por sexo utilizados para produzir os boxplots da aba “como interpretar um boxplot”. Observe que há dois grupos de colunas, um rosa e um azul, representando o sexo feminino e o sexo masculino, respectivamente. Cada grupo de colunas é um histograma. Eles estão sobrepostos e a cor mais escura é a interseção entre eles.
As classes são as colunas do histograma. Cada classe representa um intervalo dos dados. Não há espaçamento entre as classes, pois o eixo horizontal representa o intervalo onde os valores da variável são observados. Portanto, o fim de uma classe é o início da classe seguinte. É comum que o eixo vertical do histograma represente a frequência ou a densidade dos dados. Neste trabalho optamos pelo uso da proporção no eixo vertical, pois desta forma é possível fazer comparação entre grupos de tamanhos diferentes. As amplitudes das classes de um histograma podem variar e a área do retângulo formado é proporcional à unidade de medida do eixo vertical. Optamos pelo uso de amplitudes iguais nas classes, pois com a base igual podemos olhar somente para altura do retângulo como a unidade de medida escolhida no eixo vertical.
Tendo os eixos e grupos identificados, vemos que o histograma do sexo masculino se encontra mais à direita que o histograma do sexo feminino, alcançando notas mais altas e com frequências maiores. Entre 0 e 25 pontos e entre 475 e 500 pontos a proporção entre os sexos é próxima. Entretanto, o histograma do sexo feminino tem maiores proporções nas classes que antecedem 475 pontos. Consequentemente, o sexo masculino apresenta maiores proporções nas classes posteriores, desta forma, constatamos que o sexo masculino teve melhor desemprenho nas notas de ciências da natureza no ENEM 2015. Uma observação é o vazio entre a primeira e a segunda colunas a aparecerem entre 0 e 25 pontos e 325 e 350 pontos. Note que o histograma não ignora a ausência de observações entre 25 e 325 pontos, ele mantém o eixo horizontal em sua sequência. Perceba que no histograma podemos ver que valores acima de 750 e entre zero e 25 têm uma proporção muito baixa. Isso pode ser um indicativo de outliers e podemos confirmar vendo o boxplot correspondente.
O boxplot, ou gráfico de caixa, recebe esse nome pelo seu formato. Sua aparência retangular e com hastes não é intuitiva de interpretar. É necessário entender sua estrutura. Para isto, vamos utilizar o boxplot das notas em ciências da natureza no ENEM 2015 segundo o sexo, como exibido na figura abaixo. A seguir, vamos explicar algumas definições e detalhar cada uma das componentes de um boxplot.
Quartil: Um quartil é um dos três valores que dividem algo inteiro em quatro partes iguais.
Amplitude interquartil (AIQ): É a diferença entre o terceiro e o primeiro quartil. Esse valor nos informa sobre a dispersão dos valores observados.
Intervalo interquartil: é o intervalo que contém os valores entre o primeiro e o terceiro quartil. Note que 50% dos valores centrais observados se encontram nesse intervalo e que esse intervalo é o tamanho da caixa.
1º quartil (Q1): Os valores abaixo deste valor correspondem à 25% dos dados.
2º quartil ou Mediana (Q2): O quartil que divide os dados pela metade é conhecido como mediana.
3º quartil (Q3): Os valores abaixo deste valor correspondem à 75% dos dados.
Limite inferior (LI): O limites inferior é determinado pela fórmula: LI = Q1 - k*AIQ, em que k é um número real. Optamos por k = 1,5, pois este valor capta mais de 99% dos dados. Portanto, o cálculo do limite inferior ficou:
LI = Q1 - 1,5*AIQ
Limite superior (LS): De forma similar ao limite inferior, obtemos o limite superior através da seguinte fórmula:
LS = Q3 + 1,5*AIQ
Outliers: São valores atípicos, ou seja, muito distantes dos demais valores observados. A detecção de outliers é muito importante, pois esses valores raros nos dados causam tendências em parâmetros e estimadores. Imagine que desejamos obter a média de . Os outliers podem ser muito menores ou muito maiores que os demais valores observados e a identificação é feita baseada nos limites inferior e superior. Portanto, se um um valor é menor que o limite inferior ou é maior que o limite superior, então ele é um outlier.
Inicialmente identificamos que o horizontal vertical representa as notas observadas e o eixo vertical a identificação do grupo. Observe que o boxplot do sexo masculino está acima do boxplot do sexo feminino e que a caixa e as hastes são mais compridas em relação ao grupo feminino. O grupo feminino possui 75% das observações um pouco acima de 500 pontos e os valores raros (exceto zero) variam entre 625 e 875 pontos, aproximadamente. O grupo masculino tem metade das observações próximas de 500 pontos, o primeiro quartil do grupo está próximo da mediana do grupo feminino, o limite superior ultrapassa 680 pontos e seus valores raros variam deste ponto até cerca de 875 pontos. Portanto, o grupo masculino teve melhor desempenho na prova de ciências da natureza no ENEM 2015. Para valores exatos, consulte a tabela auxiliar.
Obs.: Ambos os grupos possuem outliers, veja que a nota zero ocorre nos dois grupos, mas é raro entre as notas observadas. Existem sequências de outliers imediatamente após os limites superiores. O grande número de outliers sequenciais e sobrepostos (a cor mais escura indica que há sobreposição de pontos) deu essa aparência de uma haste mais espessa. Perceba que os outliers são valores próximos um dos outros e que possuem mais de uma observação, no entanto são classificados como valores raros. Isso ocorre devido ao grande número de observações que temos, o que significa que os valores encontrados entre os limites inferior e superior possuem muito mais casos. Desta forma, os valores mais extremos tornam-se casos raros.
É o resultado do trabalho de conclusão do curso de Estatística de Marylaine Nascimento.
Tem como objetivo facilitar a visualização dos resultados do ENEM apresentando as médias gerais e as notas por área de conhecimento dos inscritos no ENEM de 2010 a 2015. O aplicativo apresenta as notas através de boxplots e histogramas, acompanhados de tabela com alguns parâmetros. Além disso, as notas poderão ser visualizadas separadas por sexo, região, sexo e região e renda, onde as categorias de renda são as mesmas utilizadas pelo INEP. Para atender o público leigo em estatística o aplicativo conta com uma aba para auxiliar o entendimento e interpretação dos gráficos.
A monografria pode ser acessada neste link: http://monografias.ufrn.br/jspui/handle/123456789/5427
Os scripts utilizados estão disponíveis neste link: https://github.com/Marylaine/Visualiza-o-dos-Resultados-do-ENEM-2010-a-2015-.git
Marylaine Nascimento é graduanda em estatística na UFRN. Possui interesse em visualização de dados, business intelligence, Big Data e esferas magnéticas.
Contato: marylainen@gmail.com
Marcus Nunes é Professor Adjunto na Universidade Federal do Rio Grande do Norte. É Doutor em Estatística e tem interesse nas áreas de modelos lineares generalizados, machine learning, visualização de dados e divulgação científica.
Site: http://marcusnunes.me/
O Inep atribui nota zero na redação mesmo para os ausentes, exceto na edição de 2012, isso pode explicar a alta proporção na primeira classe dos histogramas da média da redação.
Na edição de 2010, o estado de residência do inscrito não era uma pergunta obrigatória. Logo, os inscritos sem identificação na região foram ignorados na geração dos gráficos com o grupo região e o grupo sexo e região. Enquanto que na tabela estes casos constam como NA na coluna região.
Os histogramas por sexo e região mostram pouca diferença na proporção de notas entre os sexos dentro de cada região. Parecia ser um erro no ggplot, mas foi verificado e o resultado é este de fato. (Veja Paradoxo de Simpson)
Apesar do nosso esforço em acelerar a geração dos gráficos, na opção “Todos os anos” poderá apresentar alguma demora no carregamento, isso devido à maior quantidade de dados, visto que inclui todos os seis anos disponíveis.
Os histogramas da renda para todos os anos não seguem a mesma legenda, pois o Inep altera a classificação todos os anos.