Casa > Q > Quais São Alguns Serviços/Apis/Ferramentas De Classificação De Urls Recomendados?

Quais são alguns serviços/APIs/ferramentas de classificação de URLs recomendados?

TL;Versão DR - Links no final

A primeira pergunta a fazer é para que serve o serviço/ferramentas de classificação de URL, deixe-me delinear algumas utilizações comuns:

<
  • Controle parental - A classificação URL é necessária para bloquear o acesso a sites que não são seguros para crianças, ou que devem ser limitados durante o dia (por exemplo, sites de jogos)li>li> Prevenção de vazamento de dados (DLP) - A classificação URL é necessária para bloquear o acesso a sites que não devem ser acessados no trabalho como sites sociais ou sites de streaming, e também sites que representam risco para dados corporativos, tais como: sites de vírus, sites de hospedagem de arquivos e sites de webmail.>Advertisement, Real Time Bidding (RTB) - URL Classification pode fornecer a categoria da página, permitindo ao anunciante segmentar a página com o anúncio certo, pagar a quantia certa, ou decidir passar na página se não for adequado, quando se trabalha com publicidade o serviço URL Classification normalmente fornece a taxonomia IAB1 ou IAB2>li>Advertisement, Brand Safety - Anunciantes são exigidos pela conformidade para evitar certos tipos de sites, por exemplo, não colocar o anúncio em nenhum site orientado para adultos, ou site de discurso de ódio, também há alguns anúncios que você pode colocar mas não gostaria, por exemplo um anúncio de férias em um artigo sobre um acidente de avião, com a URL Classification você pode obter a categoria da página e decidir se você quer estar nela ou não>li>Advertisement, Segmentation - URL Classification permite que você saiba qual é a preferência dos seus usuários, com base em seus hábitos de navegação, isto permite que os usuários sejam direcionados com anúncios com base em sua preferência.

Existem vários tipos de serviços/ferramentas de Classificação de URLs e antes de decidir qual deles é o correto, vou explicar em geral o que as ferramentas existentes fazem:

<
  • Domain Classification Database - Uma lista estática/base de dados de domínios e suas categorias que pode ser armazenada localmente, pode ser atualizada programática ou manualmente, algumas bases de dados são pequenas e desatualizadas com cerca de dois milhões de domínios, algumas são altamente mantidas com mais de cem milhões de domínios, só podem categorizar domínios, não podem categorizar páginas ou palavras-chave. Isto não deve ser confundido com o SDK do banco de dados, que fornece acesso a um banco de dados que não é hospedado localmente, e faz o download dos dados para um cache local, e é na verdade: "URL Classification API".
  • URL Classification Database - Um banco de dados estático/lista de URLs e sua categoria, isto é útil para sites com muitos subtópicos, por exemplo: sites de notícias, Wikipedia. Esses tipos de sites podem conter muitas categorias, e para algumas implementações a classificação URL é necessária no topo da classificação do domínio.
  • URL Classification API - API baseada na Web que permite consultar um serviço de remoção, você fornece o domínio, URL, ou Keyword e a API retornará a classificação desse domínio ou URL, em sua maioria utilizado a partir de endpoints, a API pode ser acessada a partir de qualquer linguagem de programação que tenha acesso à web.>li>URL Classification server - Fornece o servidor e os dados para o cliente para hospedá-lo localmente, geralmente necessário por causa de SLA/Privacy reason.>li>Security - Fornece feed de segurança para bloquear sites de Phishing e malware, algumas empresas fornecem apenas classificação de Segurança, outras como um serviço adicional.

O próximo passo é entender o que pode ser classificado:

>ul> Nível de Domínio - Olha para o domínio em si, independentemente de qualquer conteúdo nas sub-páginas, por exemplo a categoria cnn será "notícia", independentemente se o artigo for sobre dinheiro ou celebs.Nível de Página - Olha para a página em si, então usando nosso exemplo anterior um artigo sobre dinheiro no cnn seria classificado como: "news,finance", uma coisa é notar que a classificação de nível de página é pesada porque você precisa ou rastejar e armazenar todas essas URLs, ou obtê-las dinamicamente em tempo real e ser capaz de lidar com a largura de banda e carga de CPU. Temos notado algum material de marketing vendendo classificação no nível de página, mas quando testado é na verdade classificação no nível de domínio. Nível de Pesquisa - Ao fazer uma pesquisa em um mecanismo de pesquisa, é possível classificar a pesquisa com base na palavra-chave, mesmo antes da pesquisa ser feita.Nível de palavra-chave - Obtenha a classificação de uma palavra-chave, ou uma frase. Classificação do documento - Classifique um documento ou um parágrafo num documento para obter a sua classificação.

A última peça do puzzle é: queremos ou não pagar por ela, se não houver um número de bases de dados de URLs gratuitas por aí, com várias actualizações, e uma contagem de domínios diferente, você confere: Shalla Secure Services KG

Para solução paga a questão é qual é a sua indústria, e quão profundo você precisa do serviço para ser, você precisa por domínio ou por classificação de página:

>ul>li>Controle Parental/DLP - Usa a classificação URL API, alguns para nível de domínio, alguns para nível de página.>li>li>Advertisement - Utiliza o URL Classification API, para segurança geral da marca utiliza classificação a nível de domínio, para RTB deve ter nível de página e IAB1/2 taxonomias>li>Para controle parental/DLP em uma grande empresa - Algumas vezes eles optam por uma solução hospedada localmente, como uma base de dados ou o servidor real.

algumas empresas a analisar (há mais empresas, eu não endosso nenhuma delas, você possui a devida diligência agora que sabe que perguntas fazer):

>ul>>li>Netsweeper | Filtragem Web para escolas, governos e ISPs>BrightCloud® Threat Intelligence Tools & Support>li>AI-Powered Content Categorization, Malicious & Phishing Detection | OEM>li>https://url-classification.io (a empresa em que trabalho)>ul>p>Questões para perguntar a um fornecedor antes de decidir com quem trabalhar:>ul>>li>li>Você fornece a classificação por domínio ou por página, ou ambos?li>li>Se você fornecer a classificação por página, você tem uma base de dados estática, capacidade dinâmica para classificar páginas ou ambos?li>li>Posso hospedar os dados/servidor localmente?Which daily/monthly query volume can you process?Can you classify keywords or search queries?Do you provide a security feed?How fast do you change a site that is mis-classified?Do you classify new sites, if so, is it dynamic or manually, and how fast?

De Stevens

Os videojogos de mundo aberto estão a ficar demasiado grandes para o seu próprio bem? :: Você conhece um jogo que é um mundo aberto realista de sobrevivência? (Sem enredo ou pelo menos sem obrigação de segui-lo)