Calcular outliers

Autor: Charles Brown
Data De Criação: 8 Fevereiro 2021
Data De Atualização: 1 Julho 2024
Anonim
Calcular valores atípicos (outliers)
Vídeo: Calcular valores atípicos (outliers)

Contente

UMA ponto fora da curva ou ponto fora da curva nas estatísticas é um ponto de dados que difere significativamente dos outros pontos de dados em uma amostra. Freqüentemente, os valores discrepantes apontam para discrepâncias ou erros nas medições para os estatísticos, após o que eles podem remover o valor discrepante do conjunto de dados. Se eles realmente escolherem remover os outliers do conjunto de dados, isso pode produzir mudanças significativas nas conclusões tiradas do estudo. É por isso que é importante calcular e determinar valores discrepantes se você quiser interpretar os dados estatísticos de maneira adequada.

Dar um passo

  1. Aprenda como detectar possíveis outliers. Antes de podermos decidir se devemos remover valores anômalos de um determinado conjunto de dados, devemos, é claro, primeiro identificar os possíveis outliers no conjunto de dados. Em geral, outliers são os pontos de dados que se desviam significativamente da tendência que forma os outros valores no conjunto - em outras palavras, eles atirar dos outros valores. Geralmente é fácil reconhecer isso em tabelas e (especialmente) em gráficos. Se o conjunto de dados for representado graficamente visualmente, os outliers estarão "longe" dos outros valores. Por exemplo, se a maioria dos pontos em um conjunto de dados formar uma linha reta, os valores discrepantes não estarão em conformidade com esta linha.
    • Vamos dar uma olhada em um conjunto de dados que mostra as temperaturas de 12 objetos diferentes em uma sala. Se a temperatura de 11 dos objetos flutua alguns graus no máximo em torno de 21 ° C, enquanto um objeto, um forno, tem uma temperatura de 150 ° C, você pode ver rapidamente que o forno é provavelmente um outlier.
  2. Classifique todos os pontos de dados do menor ao maior. A primeira etapa no cálculo de outliers é encontrar o valor médio (ou o valor médio) do conjunto de dados. Essa tarefa se torna muito mais fácil se os valores do conjunto estiverem em ordem do menor para o maior. Portanto, antes de continuar, classifique os valores em seu conjunto de dados assim.
    • Vamos continuar com o exemplo acima. Aqui está nosso conjunto de dados mostrando as temperaturas em graus Fahrenheit de diferentes objetos em uma sala: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Se classificarmos os valores no conjunto do menor para o maior, este se tornará nosso novo conjunto: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Calcule a mediana do conjunto de dados. A mediana de um conjunto de dados é o ponto de dados em que metade dos dados está acima e metade dos dados abaixo - é, na verdade, o "centro" do conjunto de dados. Se o conjunto de dados contém um número ímpar de pontos, a mediana é fácil de encontrar - a mediana é o ponto com tantos pontos acima quanto abaixo. Se houver um número par de pontos, porque não há um centro, você deve tirar a média dos dois pontos centrais para encontrar a mediana. No cálculo dos outliers, a mediana costuma ser referida pela variável Q2 - porque se situa entre Q1 e Q3, o primeiro e o terceiro quartis. Determinaremos essas variáveis ​​mais tarde.
    • Não se confunda com conjuntos de dados com um número par de pontos - a média dos dois pontos intermediários geralmente é um número que não está no próprio conjunto de dados - tudo bem. No entanto, se os dois pontos médios forem iguais, a média, é claro, também será esse número - também é OK.
    • Em nosso exemplo, temos 12 pontos. Os dois termos do meio são os pontos 6 e 7 - 70 e 71, respectivamente. Portanto, a mediana do nosso conjunto de dados é a média desses dois pontos: ((70 + 71) / 2) =70,5.
  4. Calcule o primeiro quartil. Este ponto, que denotamos com a variável Q1, é o ponto de dados abaixo do qual se encontram 25 por cento (ou um quarto) das observações. Em outras palavras, este é o centro de todos os pontos em seu conjunto de dados abaixo de a mediana. Se houver um número par de valores abaixo da mediana, você deve novamente tirar a média dos dois valores intermediários para encontrar Q1, como você mesmo poderia ter feito para determinar a mediana.
    • Em nosso exemplo, seis pontos estão acima da mediana e seis pontos abaixo dela. Portanto, para encontrar o primeiro quartil, temos que calcular a média dos dois pontos intermediários nos seis pontos inferiores. Os pontos 3 e 4 dos seis últimos são 70, então sua média é ((70 + 70) / 2) =70. Portanto, nosso valor para Q1 é 70.
  5. Calcule o terceiro quartil. Este ponto, que denotamos com a variável Q3, é o ponto de dados acima do qual 25 por cento dos dados se encontram. Encontrar Q3 é praticamente o mesmo que encontrar Q1, exceto que estamos olhando para os pontos neste caso acima de a mediana.
    • Continuando com o exemplo acima, vemos que os dois pontos médios dos seis pontos acima da mediana são 71 e 72. A média desses dois pontos é ((71 + 72) / 2) =71,5. Portanto, nosso valor para Q3 é 71,5.
  6. Encontre o intervalo interquartil. Agora que determinamos Q1 e Q3, temos que calcular a distância entre essas duas variáveis. Você pode encontrar a distância entre Q1 e Q3 subtraindo Q1 de Q3. O valor que você obtém para o intervalo interquartil é crucial para determinar os limites dos pontos não divergentes em seu conjunto de dados.
    • Em nosso exemplo, os valores para Q1 e Q3 são 70 e 71,5, respectivamente. Para encontrar o intervalo interquartil, calculamos Q3 - Q1: 71,5 - 70 =1,5.
    • Isso funciona mesmo se Q1, Q3 ou ambos os números forem negativos. Por exemplo, se nosso valor para Q1 fosse -70, o intervalo interquartil seria 71,5 - (-70) = 141,5, o que está correto.
  7. Encontre os "Limites internos" do conjunto de dados. Você pode reconhecer valores discrepantes determinando se eles se enquadram em vários limites numéricos; os chamados "limites internos" e "limites externos". Um ponto que está fora dos limites internos do conjunto de dados é classificado como um outlier leve, e um ponto fora dos limites externos é classificado como um extremo outlier. Para encontrar os limites internos de seu conjunto de dados, primeiro multiplique o intervalo interquartil por 1,5. Adicione o resultado a Q3 e subtraia de Q1. Os dois resultados são os limites internos de seu conjunto de dados.
    • Em nosso exemplo, o intervalo interquartil é (71,5 - 70), ou 1,5. Multiplique isso por 1,5 para obter 2,25. Adicionamos esse número a Q3 e o subtraímos de Q1 para encontrar os limites internos da seguinte forma:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Portanto, as fronteiras internas são 67,75 e 73,75.
    • Em nosso conjunto de dados, apenas a temperatura do forno - 300 graus Fahrenheit - está fora dessa faixa. Portanto, este pode ser um outlier leve. No entanto, ainda temos que determinar se essa temperatura é um outlier extremo, então não vamos tirar conclusões precipitadas ainda.
  8. Encontre os "limites externos" do conjunto de dados. Você faz isso da mesma maneira que com os limites internos, com a única diferença de que você multiplica a distância interquartil por 3 em vez de 1,5. Em seguida, você adiciona o resultado a Q3 e subtrai de Q1 para encontrar os valores do limite externo.
    • Em nosso exemplo, multiplicamos a distância interquartil por 3 para obter (1,5 * 3) ou 4,5. Agora podemos encontrar os limites externos da mesma forma que os limites internos:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Portanto, os limites externos são 65,5 e 76.
    • Os pontos de dados que ficam fora dos limites externos são considerados outliers extremos. Em nosso exemplo, a temperatura do forno, 300 graus Fahrenheit, está bem além dos limites externos. Então a temperatura do forno é certamente um outlier extremo.
  9. Use uma avaliação qualitativa para determinar se você deve "descartar" os valores discrepantes. Com o método acima, você pode determinar se certos pontos são outliers moderados, outliers extremos ou nenhum outliers. Mas não se engane - reconhecer um ponto como um outlier o torna apenas um candidato a ser removido do conjunto de dados, e não imediatamente um ponto que é removido devo transformar-se em. O razão por que um outlier difere do resto dos pontos no conjunto é crucial para determinar se o outlier deve ser removido. Geralmente, outliers causados ​​por algum erro - um erro nas medidas, nos registros ou no desenho experimental, por exemplo - são removidos. Em contraste, outliers que não são causados ​​por erros e que revelam informações ou tendências novas e imprevisíveis geralmente tornam-se não excluído.
    • Outro critério a ser considerado é se os outliers afetam a média de um conjunto de dados de uma forma distorcida ou enganosa. Isso é especialmente importante se você planeja tirar conclusões a partir da média de seu conjunto de dados.
    • Vamos julgar nosso exemplo. Desde o Altíssima É improvável que o forno tenha atingido uma temperatura de 300 ° F devido a alguma força imprevista da natureza, em nosso exemplo podemos concluir com quase 100% de certeza que o forno foi acidentalmente ligado, causando uma leitura de temperatura anormalmente alta. Além disso, se não removermos o outlier, a média do nosso conjunto de dados sairá para (69 + 69 + 70 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, enquanto a média sem o outlier sai para (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Como o valor discrepante foi causado por erro humano e como é incorreto dizer que a temperatura ambiente média estava próxima a 32 ° C, devemos escolher usar nosso valor discrepante. remover.
  10. Compreenda a importância de (às vezes) reter valores discrepantes. Embora alguns outliers devam ser removidos de um conjunto de dados porque são o resultado de erros ou porque distorcem os resultados de maneira enganosa, outros outliers devem ser preservados. Por exemplo, se um outlier foi obtido corretamente (e, portanto, não o resultado de um erro) e / ou se o outlier oferece uma nova visão do fenômeno a ser medido, ele não deve ser removido imediatamente. Os experimentos científicos são situações particularmente sensíveis quando se trata de lidar com outliers - remover erroneamente um outlier pode significar jogar fora informações importantes sobre uma nova tendência ou descoberta.
    • Por exemplo, imagine que estejamos desenvolvendo um novo medicamento para aumentar o tamanho dos peixes de uma piscicultura. Vamos usar nosso antigo conjunto de dados ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), com a diferença de que cada ponto agora representa a massa de um peixe (em gramas ) após o tratamento com outro medicamento experimental desde o nascimento. Em outras palavras, a primeira droga deu a um peixe uma massa de 71 gramas, a segunda deu a outro peixe uma massa de 70 gramas e assim por diante. Nesta situação, 300 ainda um grande outlier, mas não devemos removê-lo agora. Porque, se assumirmos que o outlier não é o resultado de um erro, ele representa um grande sucesso em nosso experimento. A droga que produziu 300 gramas de peixe funcionou melhor do que qualquer outra droga, então é isso a maioria pontos de dados importantes em nosso conjunto, em vez do ao menos pontos de dados importantes.

Pontas

  • Se você encontrar outliers, tente explicá-los antes de removê-los do conjunto de dados; eles podem indicar erros de medição ou desvios na distribuição.

Necessidades

  • Calculadora