Casa > O > O Que É Uma Explicação Clara Da Escassez De Dados?

O que é uma explicação clara da escassez de dados?

Sparsidade e Densidade andam de mãos dadas:

Se os dados são significativos / úteis / não aleatórios, você terá regiões onde os pontos de dados se juntam e se agrupam, e você terá áreas que evitam se juntar.

Uma maneira de pensar em sparsity é como o espaço está vazio (60%), enquanto 40% do espaço é denso, ou cheio.

Então bons dados se parecem com queijo suíço. Grandes bolhas de nada!

A vida é boa quando você tem grandes regiões gordas de nada, porque então você tem grandes regiões gordas de clusters que são algo.

Agora isso é importante, porque à medida que mais e mais variáveis são adicionadas a uma base de dados, mais e mais ruído é introduzido. Isto torna as bolhas cada vez menores até que os dados sejam totalmente uniformes, com espaço uniforme entre cada ponto. Neste ponto, tudo parece o mesmo e as estatísticas dizem's o mesmo e você realmente pode't fazer qualquer coisa com ele.

Esta é a "maldição da multidimensionalidade" apesar de ser por outros nomes.

Então os Data Scientists irão procurar maneiras de maximizar a sparsity para que eles possam obter bons clusters ou respostas bem definidas para suas perguntas.

Você tem uma aplicação ou contexto específico em mente? It'é uma pergunta um pouco ampla. Nós podemos tentar falar sobre especificidades.

De Salvadore

Artigos semelhantes

Quais são algumas imprecisões científicas no filme The Core? :: Qual é a diferença entre totalmente desbloqueado e desbloqueado para o XS Max?