Como calcular as emissões

Autor: Janice Evans
Data De Criação: 23 Julho 2021
Data De Atualização: 1 Julho 2024
Anonim
Como medir con tazas y gramos en la Repostería correctamente
Vídeo: Como medir con tazas y gramos en la Repostería correctamente

Contente

Nas estatísticas, outliers são valores que diferem nitidamente de outros valores no conjunto de dados coletado. Um outlier pode indicar anomalias na distribuição de dados ou erros de medição, portanto, outliers são frequentemente excluídos do conjunto de dados. Ao eliminar outliers do conjunto de dados, você pode chegar a conclusões inesperadas ou mais precisas. Portanto, é necessário ser capaz de calcular e estimar outliers para garantir um entendimento adequado das estatísticas.

Passos

  1. 1 Aprenda a reconhecer potenciais discrepantes. Os outliers potenciais devem ser identificados antes de excluir os outliers do conjunto de dados. Valores discrepantes são valores muito diferentes da maioria dos valores no conjunto de dados; em outras palavras, os valores discrepantes estão fora da tendência da maioria dos valores. Isso é fácil de encontrar em tabelas de valores ou (principalmente) em gráficos. Se os valores no conjunto de dados forem plotados, os outliers ficarão longe da maioria dos outros valores. Se, por exemplo, a maioria dos valores cair em uma linha reta, então os outliers estão em ambos os lados dessa linha reta.
    • Por exemplo, considere um conjunto de dados que representa as temperaturas de 12 objetos diferentes em uma sala. Se 11 objetos têm aproximadamente 70 graus, mas o décimo segundo objeto (possivelmente uma fornalha) é 300 graus, então uma rápida olhada nos valores pode indicar que a fornalha é uma provável explosão.
  2. 2 Classifique os dados em ordem crescente. A primeira etapa para determinar outliers é calcular a mediana do conjunto de dados. Esta tarefa é bastante simplificada se os valores no conjunto de dados forem organizados em ordem crescente (do menor para o maior).
    • Continuando com o exemplo acima, considere o seguinte conjunto de dados que representa as temperaturas de vários objetos: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Este conjunto deve ser ordenado da seguinte forma: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. 3 Calcule a mediana do conjunto de dados. A mediana de um conjunto de dados é o valor no meio do conjunto de dados. Se o conjunto de dados contiver um número ímpar de valores, a mediana será o valor antes e depois do qual haverá o mesmo número de valores no conjunto de dados. Mas se o conjunto de dados contém um número par de valores, você precisa encontrar a média aritmética das duas médias. Observe que, ao calcular outliers, a mediana é geralmente referida como Q2, pois fica entre Q1 e Q3, os quartis inferior e superior, que definiremos mais tarde.
    • Não tenha medo de trabalhar com conjuntos de dados que possuem um número par de valores - a média aritmética das duas médias será um número que não está no conjunto de dados; isto é normal. Mas se os dois valores médios são o mesmo número, então a média aritmética é igual a este número; isso também está na ordem das coisas.
    • No exemplo acima, os 2 valores do meio são 70 e 71, então a mediana é ((70 + 71) / 2) = 70,5.
  4. 4 Calcule o quartil inferior. Este valor, referido como Q1, está abaixo do qual 25% dos valores do conjunto de dados se encontram. Em outras palavras, é a metade dos valores até a mediana. Se houver um número par de valores do conjunto de dados antes da mediana, você precisará encontrar a média aritmética das duas médias para calcular Q1 (isso é semelhante ao cálculo da mediana).
    • Em nosso exemplo, 6 valores estão localizados após a mediana e 6 valores - antes dela. Isso significa que, para calcular o quartil inferior, precisamos encontrar a média aritmética das duas médias dos seis valores que estão antes da mediana. Aqui, os valores médios são 70 e 70. Assim, Q1 = ((70 + 70) / 2) = 70.
  5. 5 Calcule o quartil superior. Este valor, referido como Q3, está acima do qual se encontram 25% dos valores do conjunto de dados. O processo de cálculo de Q3 é semelhante ao processo de cálculo de Q1, mas aqui são considerados os valores após a mediana.
    • No exemplo acima, as duas médias dos seis após a mediana são 71 e 72. Portanto, Q3 = ((71 + 72) / 2) = 71,5.
  6. 6 Calcule o intervalo interquartil. Tendo calculado Q1 e Q3, é necessário encontrar a distância entre esses valores. Para fazer isso, subtraia Q1 de Q3. O valor do intervalo interquartil é extremamente importante para determinar os limites dos valores que não são outliers.
    • Em nosso exemplo, Q1 = 70 e Q3 = 71,5. O intervalo interquartil é 71,5 - 70 = 1,5.
    • Observe que isso também se aplica a valores Q1 e Q3 negativos. Por exemplo, se Q1 = -70, o intervalo interquartil é 71,5 - (-70) = 141,5.
  7. 7 Encontre os "limites internos" dos valores no conjunto de dados. Os valores discrepantes são determinados pela análise dos valores - se eles se enquadram ou não nos chamados "limites internos" e "limites externos". Um valor fora dos “limites internos” é classificado como “outlier menor”, ​​enquanto um valor fora dos “limites externos” é classificado como “outlier significativo”. Para encontrar os limites internos, você precisa multiplicar o intervalo interquartil por 1,5; o resultado deve ser adicionado a Q3 e subtraído de Q1. Os dois números encontrados são os limites internos do conjunto de dados.
    • Em nosso exemplo, o intervalo interquartil é (71,5 - 70) = 1,5. Além disso: 1,5 * 1,5 = 2,25. Este número deve ser adicionado ao Q3 e subtraído do Q1 para encontrar os limites internos:
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • Assim, os limites internos são 67,75 e 73,75.
    • Em nosso exemplo, apenas a temperatura do forno - 300 graus - está fora desses limites e pode ser considerada uma emissão insignificante. Mas não tire conclusões precipitadas - temos que determinar se essa temperatura é um valor discrepante significativo.
  8. 8 Encontre os "limites externos" do conjunto de dados. Isso é feito da mesma maneira que para limites internos, exceto que o intervalo interquartil é multiplicado por 3 em vez de 1,5. O resultado deve ser adicionado a Q3 e subtraído de Q1. Os dois números encontrados são os limites externos do conjunto de dados.
    • Em nosso exemplo, multiplique o intervalo interquartil por 3: 1,5 * 3 = 4,5. Calcule os limites externos:
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • Portanto, os limites externos são 65,5 e 76.
    • Quaisquer valores que estejam fora dos limites externos são considerados emissões significativas. Em nosso exemplo, uma temperatura de forno de 300 graus é considerada um blowout significativo.
  9. 9 Use uma estimativa qualitativa para determinar se outliers devem ser excluídos do conjunto de dados. O método descrito acima permite determinar se alguns valores são outliers (menores ou significativos). No entanto, não se engane - um valor classificado como um outlier é apenas um “candidato” a uma exceção, o que significa que você não precisa excluí-lo. A causa do outlier é o principal fator que influencia a decisão de excluir o outlier. Como regra, os outliers que ocorrem devido a erros (em medições, registros, etc.) são excluídos. Por outro lado, outliers associados não a erros, mas a novas informações ou tendências, geralmente são deixados no conjunto de dados.
    • É igualmente importante avaliar o efeito de outliers na mediana do conjunto de dados (se eles o distorcem ou não). Isso é especialmente importante quando você está tirando conclusões da mediana de um conjunto de dados.
    • No nosso exemplo, é extremamente improvável que o forno aqueça até uma temperatura de 300 graus (a menos que levemos em consideração as anomalias naturais). Portanto, pode-se concluir (com um alto grau de certeza) que tal temperatura é um erro de medição que precisa ser excluído do conjunto de dados. Além disso, se você não descartar o outlier, a mediana do conjunto de dados será (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 graus, mas se você excluir o outlier, a mediana será (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 graus.
      • Os valores discrepantes geralmente são o resultado de erro humano, portanto, os valores discrepantes precisam ser excluídos dos conjuntos de dados.
  10. 10 Compreenda a importância dos (às vezes) valores discrepantes deixados no conjunto de dados. Alguns outliers devem ser excluídos do conjunto de dados, pois são devidos a erros e problemas técnicos; outros outliers devem ser deixados no conjunto de dados. Se, por exemplo, um outlier não for o resultado de um erro e / ou fornecer uma nova compreensão do fenômeno em teste, ele deve ser deixado no conjunto de dados. Os experimentos científicos são especialmente sensíveis a outliers - ao eliminar erroneamente um outlier, você pode estar perdendo alguma nova tendência ou descoberta.
    • Por exemplo, estamos desenvolvendo um novo medicamento para aumentar o tamanho dos peixes na pesca. Usaremos o conjunto de dados antigo ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), mas desta vez cada valor representará o peso do peixe (em gramas) após a ingestão do medicamento experimental. Em outras palavras, a primeira droga leva a um aumento no peso dos peixes até 71 g, a segunda droga - até 70 ge assim por diante. Nessa situação, 300 é um valor discrepante significativo, mas não devemos descartá-lo; se presumirmos que não houve erros de medição, esse valor discrepante será um sucesso significativo no experimento. A droga, que aumentou o peso do peixe para 300 gramas, funciona muito melhor do que outras drogas; portanto, 300 é o valor mais importante no conjunto de dados.

Pontas

  • Quando forem encontrados outliers, tente explicar sua presença antes de excluí-los do conjunto de dados. Eles podem indicar erros de medição ou anomalias de distribuição.

O que você precisa

  • Calculadora