Qual é a diferença entre a convolução dilatada e a convolução+tride?
|| Convolução dilatada || são aplicadas à imagem de entrada com gaps definidos nos kernels. Vamos entendê-la melhor usando a taxa de dilatação. Se a taxa de dilatação é 1, significa que o kernel convolucional é normal, se a taxa de dilatação é 2, então há saltar de um pixel por entrada. Em geral, se houver uma taxa de dilatação de n, salte de n-1 pixel por entrada. Algumas observações importantes retiradas da dilatação convolucional são listadas abaixo.
- Campo receptor irá aumentar conforme a taxa de dilatação for aumentada.
- Número de elementos do filtro permanece o mesmo, mas com o aumento da taxa de dilatação, eles irão cobrir mais cobertura.
Uma das aplicações que eles atendem (servem) é a segmentação de imagem onde cada pixel é rotulado por sua classe e tamanho de saída (de rede) deve ser o mesmo da imagem de entrada. Uma das outras aplicações é na WaveNet (text to speech) onde fornece uma visão global da imagem com menos parâmetros. Em resumo, ela ajuda a capturar mais contexto global a partir da entrada sem aumentar o tamanho dos parâmetros. Em algum momento não se pode ir para múltiplos kernels convolucionais ou maiores. Nesses casos, a dilatação convolucional pode servir para o propósito. A arquitetura de dilatação é baseada na arquitetura que suporta expansão exponencial do campo receptivo sem perda de resolução ou cobertura. Assim, os benefícios gerais da dilatação incluem maior campo receptivo, computação eficiente e menor consumo de memória.
||| Strided Convolutional |||: O parâmetro Stride significa o comprimento do passo em stride. Aumentar o tamanho da passada faz saltar alguns valores de entrada enquanto executa operações convolucionais. Além disso, o aumento do valor da stride diminui a dimensão da saída após a operação convolucional. Em geral, esta operação é uma troca entre o consumo de recursos e a recuperação de informações. Por exemplo, se o valor da etapa = 1, nenhum valor de entrada é deixado na operação convolucional. Às vezes, ela também é chamada de convolucional não-volucional. Há outro ponto que estou mencionando aqui se stride = 1, então ocorre uma grande sobreposição e o modelo será invariante translacional. (objeto pode estar em qualquer lugar na imagem) Esta é uma das características chave para manter o stride igual a 1.