Casa > O > Onde Posso Encontrar Grandes Conjuntos De Dados Abertos Ao Público?

Onde posso encontrar grandes conjuntos de dados abertos ao público?

I'vou tentar restringir minhas respostas a conjuntos de dados maiores que 1 GB de tamanho, e ordenar minhas respostas pelo tamanho do conjunto de dados.

Mais de 1 TB

>ul>>li> O projeto 1000 Genomes disponibiliza 260 TB de dados do genoma humano [13] O Arquivo da Internet está disponibilizando um crawl web de 80 TB para pesquisa [17] A conferência TREC disponibilizou o conjunto de dados ClueWeb09 [3] há alguns anos. Você'terá que assinar um acordo e pagar uma taxa não trivial (até $610) para cobrir a transferência de dados da sneakernet. Os dados são cerca de 5 TB compactados.ClueWeb12 [21] agora está disponível, assim como as anotações Freebase, FACC1 [22]CNetS na Universidade de Indiana disponibiliza um conjunto de dados de 2,5 TB clicados [19]ICWSM disponibilizou um grande corpus de posts de blogs para a sua conferência de 2011 [2]. Você'terá que se registrar (um formulário atual, não um formulário online), mas ele's gratuito. It's about 2.1 TB compressed.O conjunto de dados do Yahoo News Feed é 1.5 TB compressed, 13.5 TB uncompressed>li>O Proteome Commons disponibiliza vários grandes conjuntos de dados. O maior, o Projeto Genoma Pessoal [11], é de 1,1 TB de tamanho. Existem vários outros com mais de 100 GB de tamanho.

Mais de 1 GB

>ul> O Conjunto de Dados de Desagregação de Energia de Referência [12] tem dados sobre o uso de energia doméstica; ele's cerca de 500 GB comprimidos. O conjunto de dados Tiny Images [10] tem 227 GB de dados de imagens e 57 GB de metadados. O conjunto de dados ImageNet [18] é bastante grande.conjunto de dados MOBIO [14] é de cerca de 135 GB de dados de vídeo e áudio>li>li> O programa Yahoo! Webscope [7] disponibiliza vários conjuntos de dados de 1 GB+ para pesquisadores acadêmicos, incluindo um conjunto de dados de 83 GB de recursos de imagens do Flickr e o conjunto de dados usado para a Copa KDD 2011 [9], do Yahoo! Music, que é um pouco mais de 1 GB.Google fez um conjunto de dados mapeando palavras para URLs da Wikipedia (ou seja conceitos) [15]. O conjunto de dados é cerca de 10 GB comprimido.Yandex disponibilizou recentemente um conjunto de dados muito grande de cliques de busca na web [1]. Você'terá que se registrar online para o concurso para fazer o download. It's cerca de 5.6 GB compressed.Freebase torna disponíveis lixeiras de dados regulares [5]. O maior é o seu Quad dump [4], que é cerca de 3,6 GB comprimido. O Open American National Corpus [8] é cerca de 4,8 GB não comprimido.Wikipedia disponibilizou um conjunto de dados contendo informações sobre edições para um recente concurso de Kaggle [6]. O conjunto de dados de treinamento é de cerca de 2,0 GB descomprimido.A Administração de Pesquisa e Tecnologia Inovadora (RITA) disponibilizou um conjunto de dados sobre o desempenho pontual dos vôos domésticos operados por grandes companhias aéreas. The ASA compressed this dataset and makes it available for download [16].The wiki-links data made available by Google is about 1.75 GB total [20].

[1] http://imat-relpred.yandex.ru/en/datasets

[2] http://www.icwsm.org/2011/data.php

[3] http://lemurproject.org/clueweb09.php/

[4] http://wiki.freebase.com/wiki/Data_dumps

[5] http://download.freebase.com/datadumps/latest

[6] http://www.kaggle.com/c/wikichallenge/Data

[7] http://webscope.sandbox.yahoo.com/index.php

[8] http://americannationalcorpus.org/OANC/index.html

[9] http://kddcup.yahoo.com/datasets.php

[10] http://horatio.cs.nyu.edu/mit/tiny/data/index.html

[11] https://proteomecommons.org/dataset.jsp?i=72639

[12] http://redd.csail.mit.edu/

[13] http://www.1000genomes.org/ftpsearch/

[14] https://www.idiap.ch/dataset/mobio

[15] http://www-nlp.stanford.edu/pubs/crosswikis-data.tar.bz2/

[16] http://stat-computing.org/dataexpo/2009/the-data.html

[17] http://blog.archive.org/2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/

[18] http://www.image-net.org/index

[19] http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset

[20] wiki-links - Wikipedia Links Data - Google Project Hosting

[21] The ClueWeb12 Dataset

[22] ClueWeb12 Related Data:

De Adelice

Como detectar uma imagem rodada e fixá-la de volta à sua posição correta usando Python/OpenCV :: Que smartphone de jogo prefere, o Lenovo Legion Duet ou o Asus ROG 3?