Winsorização

Origem: Wikipédia, a enciclopédia livre.

Winsorização é a transformação de estatísticas limitando valores extremos nos dados estatísticos para reduzir o efeito de valores atípicos possivelmente espúrios. Recebeu o nome do engenheiro que se tornou bioestatístico Charles P. Winsor (1895–1951). O efeito é o mesmo que o corte no processamento de sinal.

A distribuição de muitas estatísticas pode ser fortemente influenciada por outliers. Uma estratégia típica é definir todos os valores discrepantes para um percentil especificado dos dados; por exemplo, uma winsorização de 90% veria todos os dados abaixo do 5º percentil definidos como o 5º percentil e os dados acima do 95º percentil definidos como o 95º percentil. Os estimadores winsorizados são geralmente mais robustos para outliers do que suas formas mais padronizadas, embora existam alternativas, como trimming, que alcançarão um efeito semelhante.

Exemplo[editar | editar código-fonte]

Considere o conjunto de dados composto por:

{92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41}     (N = 20, média = 101,5)

Os dados abaixo do 5º percentil situam-se entre −40 e −5, enquanto os dados acima do 95º percentil situam-se entre 101 e 1053 (valores pertinentes mostrados em negrito); portanto, uma winsorização de 90% resultaria no seguinte:

{92, 19, 101, 58, 101, 91, 26, 78, 10, 13, -5, 101, 86, 85, 15, 89, 89, 28, -5, 41}     (N = 20, média = 55,65)

Após a winsorização, a média caiu para quase a metade do valor anterior e, consequentemente, está mais alinhada com os dados que representa.

O Python pode winsorizar dados usando a biblioteca SciPy:

import numpy as np
from scipy.stats.mstats import winsorize
winsorize(np.array([92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41]), limits=[0.05, 0.05])

R pode winsorizar dados usando o pacote DescTools: [1]

library(DescTools)
a<-c(92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41)
DescTools::Winsorize(a, probs = c(0.05, 0.95))

Distinção de corte[editar | editar código-fonte]

Observe que winsorizar não é equivalente a simplesmente excluir dados, que é um procedimento mais simples, chamado trimming ou truncation, mas é um método de censurar dados.

Usos[editar | editar código-fonte]

A winsorização é usada no contexto da metodologia de pesquisa para "aparar" pesos extremos de não resposta da pesquisa. [2]

Também é usada na construção de alguns índices de ações ao observar a gama de certos fatores (por exemplo, crescimento e valor) para determinadas ações. [3]

Referências[editar | editar código-fonte]

  1. Andri Signorell et al. (2021). DescTools: Tools for descriptive statistics. R package version 0.99.41.
  2. Lee, Brian K., Justin Lessler, and Elizabeth A. Stuart. "Weight trimming and propensity score weighting." PLOS ONE 6.3 (2011): e18174. link
  3. MSCI Global Investable Market Value and Growth Index Methodology 2.2.1 link