O que é uma explicação clara da escassez de dados?
Sparsidade e Densidade andam de mãos dadas:
Se os dados são significativos / úteis / não aleatórios, você terá regiões onde os pontos de dados se juntam e se agrupam, e você terá áreas que evitam se juntar.
Uma maneira de pensar em sparsity é como o espaço está vazio (60%), enquanto 40% do espaço é denso, ou cheio.
Então bons dados se parecem com queijo suíço. Grandes bolhas de nada!
A vida é boa quando você tem grandes regiões gordas de nada, porque então você tem grandes regiões gordas de clusters que são algo.
Agora isso é importante, porque à medida que mais e mais variáveis são adicionadas a uma base de dados, mais e mais ruído é introduzido. Isto torna as bolhas cada vez menores até que os dados sejam totalmente uniformes, com espaço uniforme entre cada ponto. Neste ponto, tudo parece o mesmo e as estatísticas dizem's o mesmo e você realmente pode't fazer qualquer coisa com ele.
Esta é a "maldição da multidimensionalidade" apesar de ser por outros nomes.
Então os Data Scientists irão procurar maneiras de maximizar a sparsity para que eles possam obter bons clusters ou respostas bem definidas para suas perguntas.
Você tem uma aplicação ou contexto específico em mente? It'é uma pergunta um pouco ampla. Nós podemos tentar falar sobre especificidades.
Artigos semelhantes
- Porque é que a Apple enfrenta uma escassez de mini displays LED?
- O que significa ter uma mentalidade de escassez no namoro?
- Por que há uma tonalidade magenta muito clara às vezes em alguma parte do visor AMOLED quando se mostra fundo branco?
- Todos os índios do Norte são de pele clara, e todos os índios do Sul são de pele escura (não se pretende racismo)?