paint-brush
20 melhores conjuntos de dados PyTorch para criar modelos de aprendizado profundopor@datasets
4,817 leituras
4,817 leituras

20 melhores conjuntos de dados PyTorch para criar modelos de aprendizado profundo

Muito longo; Para ler

As duas estruturas de aprendizado de máquina de código aberto mais usadas para treinar e criar modelos de aprendizado profundo são TensorFlow e PyTorch. Essas estruturas têm diferenças exclusivas em sua abordagem para construir e treinar modelos. A escolha dos frameworks depende das necessidades e preferências específicas do usuário. Este artigo analisa os melhores conjuntos de dados do PyTorch para criar modelos de aprendizado profundo.
featured image - 20 melhores conjuntos de dados PyTorch para criar modelos de aprendizado profundo
Open Datasets Compiled by HackerNoon HackerNoon profile picture

As duas estruturas de aprendizado de máquina de código aberto mais usadas para treinar e criar modelos de aprendizado profundo são TensorFlow e PyTorch.


Essas estruturas têm diferenças exclusivas em sua abordagem para construir e treinar modelos. Enquanto o TensorFlow usa um gráfico estático e programação declarativa, que oferece melhores oportunidades de otimização e permite treinamento distribuído, o PyTorch usa um gráfico computacional dinâmico e programação imperativa, que permite um processo de depuração mais flexível e fácil. A escolha dos frameworks depende das necessidades e preferências específicas do usuário.


Este artigo analisa os melhores conjuntos de dados PyTorch para criar modelos de aprendizado profundo disponíveis hoje.

Lista definitiva de conjuntos de dados Open PyTorch


1. Penn Treebank

O Penn Treebank é uma coleção de textos anotados em inglês, que é extensivamente estudado na comunidade de pesquisa de processamento de linguagem natural (PNL). Compreende mais de 4,5 milhões de palavras de texto de vários gêneros, como revistas, artigos de notícias e histórias de ficção. O conjunto de dados também consiste em informações anotadas manualmente sobre títulos de nomes, parte das tags de fala e estrutura sintática, usadas para treinar e avaliar uma ampla gama de modelos de NLP, incluindo modelos de linguagem, analisadores e sistemas de tradução automática.


Para baixar este conjunto de dados, clique em aqui .

2. Conjunto de dados de resposta a perguntas de Stanford (SQUAD)

O SQuAD (Stanford Question Answering Dataset) é um conjunto de dados de referência popular em processamento de linguagem natural (NLP) que compreende mais de 100.000 pares de perguntas e respostas, extraídos de um conjunto de artigos da Wikipédia. Ele é usado para avaliar o desempenho de vários modelos de NLP criados usando PyTorch ou outras estruturas de aprendizado profundo. Os intervalos de resposta têm um comprimento médio de 3,6 palavras e há 11,0 palavras nas passagens correspondentes em média.


Aqui estão alguns detalhes extras sobre o SQUAD:


SQUAD 1.0 - Contém mais de 100.000 pares de perguntas e respostas em 536 artigos da Wikipédia em inglês.


SQUAD 2.0 - Contém mais de 150.000 pares de perguntas e respostas em mais de 100.000 artigos da Wikipedia, com perguntas adicionais sem resposta para testar a capacidade do modelo de se abster de responder.


O objetivo do conjunto de dados é fornecer uma tarefa desafiadora para os modelos de aprendizado de máquina responderem a perguntas sobre uma determinada passagem de texto. Clique aqui para baixar o última versão (SQUAD 2.0) .

3. Lung Image Database Consortium e Image Database Resource Initiative (LIDC-IDRI)

Este conjunto de dados PyTorch é um conjunto de dados público de imagens de tomografia computadorizada do tórax anotadas para nódulos pulmonares por vários radiologistas. Compreende 1.018 tomografias computadorizadas coletadas de várias instituições e contém mais de 23.000 nódulos anotados.

Cada varredura no conjunto de dados é acompanhada por anotações de quatro radiologistas experientes que fornecem informações sobre forma, tamanho, localização e textura do nódulo. O conjunto de dados foi criado para apoiar a pesquisa no desenvolvimento de sistemas de diagnóstico auxiliado por computador (CAD) para triagem e diagnóstico de câncer de pulmão.


Observação: o conjunto de dados está disponível publicamente, mas está sujeito a certas restrições e requisitos de uso.


Clique aqui baixar.

4. Moda-MNIST

O conjunto de dados PyTorch Fashion MNIST foi criado pela Zalando Research como um substituto para o conjunto de dados MNIST original e está disponível em um formato compatível com PyTorch. O conjunto de dados PyTorch Fashion MNIST compreende 70.000 imagens em escala de cinza de itens de vestuário, incluindo 60.000 imagens de treinamento e 10.000 imagens de teste.


As imagens têm tamanho de 28 x 28 pixels e representam 10 classes diferentes de itens de vestuário, incluindo camisetas/blusas, calças, pulôveres, vestidos, casacos, sandálias, camisas, tênis, bolsas e botins. É semelhante ao conjunto de dados MNIST original, mas com tarefas de classificação mais desafiadoras devido à maior complexidade e variedade dos itens de vestuário.


O conjunto de dados pode ser baixado aqui .

5. Avaliações do Yelp

O conjunto de dados Yelp Reviews é uma extensa coleção de mais de 5 milhões de avaliações de empresas locais de 11 áreas metropolitanas nos Estados Unidos. Cada avaliação no conjunto de dados contém informações como classificação por estrelas, categoria de negócios, texto da avaliação, data e local. É um recurso valioso interessado em construir modelos de aprendizado profundo com o PyTorch.


Por favor , inscreva - se e clique aqui para baixar o conjunto de dados .

6. Cães de Stanford

Este conjunto de dados PyTorch compreende uma coleção de 20.580 imagens de alta qualidade de 120 raças diferentes de cães, cada uma rotulada com informações sobre a raça do cão na imagem. Pode ser usado para classificação de imagens e reconhecimento de objetos. Com o conjunto de dados fornecido em formato JPEG e anotações em um arquivo de texto, as imagens são de tamanho 224x224 pixels. As raças no conjunto de dados variam de raças comuns, como Golden Retrievers e Labradores, a raças mais obscuras, como Otterhound e Sussex Spaniel.


Você pode baixar o conjunto de dados aqui.


7. Caltech 101

Embora o número limitado de imagens por categoria possa ser um desafio, as anotações detalhadas tornam o conjunto de dados PyTorch Caltech 101 um recurso valioso para avaliar modelos de aprendizado profundo. O conjunto de dados é um conjunto de dados de visão computacional rotulado com 9.144 imagens de alta qualidade de objetos em 101 categorias. Ele também cobre uma ampla gama de categorias de objetos e as imagens foram obtidas de várias fontes. Cada imagem é rotulada com a categoria de objeto e imagem, o que simplifica o uso com uma variedade de estruturas de aprendizado profundo.


Clique aqui para download .

8. STS-B (Referência de Similaridade Textual Semântica)

O conjunto de dados STS-B (Semantic Textual Similarity Benchmark) é um conjunto de dados em inglês usado nas tarefas STS organizadas no contexto do SemEval entre 2012 e 2017. Compreende 8628 pares de frases com pontuações de similaridade atribuídas por humanos em uma escala de 1 a 5. Extraído de várias fontes, como artigos de notícias, postagens em fóruns, imagens com legendas e cobrindo uma ampla gama de tópicos, é um conjunto de dados popular usado com o PyTorch para avaliar o desempenho dos modelos na determinação da semelhança semântica entre duas sentenças. O conjunto de dados STS-B está disponível em vários formatos, incluindo formatos compatíveis com PyTorch, já que PyTorch é uma estrutura de aprendizagem profunda para treinar e avaliar modelos neste conjunto de dados.

\Para baixar este conjunto de dados, clique em aqui .


9. WMT'14 inglês-alemão

Este conjunto de dados PyTorch é um conjunto de dados de referência para tradução automática entre inglês e alemão criado por Stanford em 2015. Ele compreende corpora paralelos de textos alinhados a frases em inglês e alemão, que são usados para construir e avaliar modelos de aprendizado profundo. Enquanto os conjuntos de teste contêm 3.000 pares de sentenças cada, o conjunto de treinamento consiste em aproximadamente 4,5 milhões de pares de sentenças e o comprimento médio das sentenças é de 26 palavras em inglês e 30 palavras em alemão, com um tamanho de vocabulário de cerca de 160.000 palavras para inglês e 220.000 palavras para Alemão.


Você pode rolar para baixo e baixá-lo aqui .

10. CelebA

Este conjunto de dados é um conjunto de dados popular de atributos faciais em larga escala que compreende mais de 200.000 imagens de celebridades. Foi lançado pela primeira vez por pesquisadores da Universidade Chinesa de Hong Kong em 2015. Uma imagem no CelebA consiste em 40 atributos faciais, como idade, cor do cabelo, expressão facial e sexo. Além disso, essas imagens foram recuperadas da internet e abrangem uma ampla gama de aparências faciais, incluindo diferentes raças, idades e gêneros. Anotações de caixa delimitadora para a localização do rosto em cada imagem, bem como 5 pontos de referência para os olhos, nariz e boca.


Observação: o conjunto de dados CelebA está sob a licença Creative Commons Attribution-Noncommercial-Share, que permite que seja usado para fins de pesquisa não comercial, desde que seja dado o devido crédito.


Para usar o conjunto de dados CelebA no PyTorch, você pode usar a classe torchvision.datasets.CelebA , que faz parte do módulo torchvision . Você pode baixar o conjunto de dados do local na rede Internet ou aqui .

11. UCF101

O conjunto de dados UFC101 é amplamente utilizado para classificação de vídeo no campo da visão computacional. Compreende 13.230 vídeos de ações humanas de 101 categorias de ação, cada uma contendo cerca de 100 a 300 vídeos. O conjunto de dados PyTorch UCF101 é uma versão pré-processada do UCF101 original que está pronto para uso no PyTorch. O conjunto de dados pré-processado compreende quadros de vídeo que foram normalizados e redimensionados, incluindo rótulos correspondentes para cada vídeo. Também é dividido em três conjuntos: treinamento, validação e teste, com aproximadamente 9.500, 3.500 e 3.000 vídeos, respectivamente.


Para baixar o conjunto de dados, clique em aqui .

12. HMDB51

O conjunto de dados HMDB51 é uma coleção de vídeos recuperados de várias fontes, incluindo filmes, programas de TV e vídeos online, compreendendo 51 classes de ação, cada uma com pelo menos 101 videoclipes. Foi criado por pesquisadores da University of Central Florida em 2011 para pesquisa em reconhecimento de ação humana. Os vídeos estão no formato AVI e têm resolução de 320x240 pixels, com anotações de terreno para cada vídeo, incluindo o rótulo da classe de ação e os quadros inicial e final da ação dentro do vídeo. Cada vídeo no conjunto de dados representa uma pessoa realizando uma ação na frente de uma câmera estática. As ações incluem uma ampla gama de atividades diárias, como pular, acenar, beber e escovar os dentes, além de ações complexas como tocar violão e andar a cavalo.


Nota: É utilizado em concomitância com o UCF101 conjunto de dados, que contém um número maior de classes de ação, mas com menos vídeos por classe.


Você pode baixar o conjunto de dados aqui .

13. ActivityNet

A ActivityNet é um conjunto de dados de compreensão de vídeo em grande escala que compreende mais de 20.000 vídeos de um conjunto diversificado de categorias, como culinária, esportes, dança etc. Os vídeos têm uma duração média de 3 minutos e são anotados com uma média de 1,41 segmentos de atividade. Está disponível no PyTorch, que é fácil de usar em estruturas de aprendizado profundo. A versão PyTorch oferece recursos pré-processados extraídos dos quadros RGB e campos de fluxo óptico de cada vídeo, bem como anotações de verdade para os segmentos temporais e rótulos de atividade.


Você pode baixar o conjunto de dados aqui .

14. Conjunto de dados VOC (Visual Object Classes)

O conjunto de dados VOC (Visual Object Classes) foi introduzido pela primeira vez em 2005 como parte do PASCAL VOC Challenge, que visava o avanço do estado da arte em reconhecimento visual. Consiste em imagens de 20 categorias diferentes de objetos, incluindo animais, veículos e objetos domésticos comuns. Cada uma dessas imagens é anotada com as localizações e classificações dos objetos dentro da imagem. As anotações incluem caixas delimitadoras e máscaras de segmentação em nível de pixel. O conjunto de dados é dividido em dois conjuntos principais: os conjuntos de treinamento e validação. O conjunto de treinamento contém aproximadamente 5.000 imagens com anotações, enquanto o conjunto de validação contém cerca de 5.000 imagens sem anotações. Além disso, o conjunto de dados também inclui um conjunto de teste com aproximadamente 10.000 imagens, mas as anotações desse conjunto não estão disponíveis publicamente.


Para baixar o conjunto de dados recente, você pode baixá-lo do local na rede Internet , carregue-o em Python por meio de nosso código-fonte aberto Deep Lake com apenas uma linha de código ou faça o download em Kaggle .


15. Vídeo YCB

Este conjunto de dados é uma coleção de modelos de objetos 3D e sequências de vídeo projetadas para tarefas de reconhecimento de objetos e estimativa de pose. Ele contém 21 itens domésticos do dia a dia, com cada objeto capturado em várias condições de iluminação e pontos de vista da câmera. O conjunto de dados fornece anotações de verdade em nível de pixel e é comumente usado para avaliar algoritmos de visão computacional e sistemas robóticos.


Clique aqui para baixar o conjunto de dados .

16. KITTI

O conjunto de dados KITTI é uma coleção de dados de visão computacional para pesquisa de direção autônoma. Inclui mais de 4.000 imagens de alta resolução, nuvens de pontos LIDAR e dados de sensor de um carro equipado com vários sensores. O conjunto de dados fornece anotações para detecção, rastreamento e segmentação de objetos, bem como mapas de profundidade e parâmetros de calibração. O conjunto de dados KITTI é amplamente utilizado para treinar e avaliar modelos de aprendizado profundo para direção autônoma e robótica.


Para baixar o conjunto de dados recente, você pode baixá-lo do local na rede Internet , GitHub ou baixe-o de Kaggle .

17. BraTS

O conjunto de dados BRATS PyTorch é uma coleção de exames de ressonância magnética (MRI) para segmentação de tumores cerebrais. Consiste em mais de 200 imagens cerebrais 3D de alta resolução, cada uma com quatro modalidades (T1, T1c, T2 e FLAIR) e correspondentes máscaras de segmentação binária. O conjunto de dados é comumente usado para treinar e avaliar modelos de aprendizado profundo para detecção e segmentação automatizada de tumores cerebrais.


Você pode baixar este conjunto de dados no Kaggle clicando em aqui .

18. Análise multi-humana

O conjunto de dados PyTorch de análise multi-humana é um conjunto de dados de imagem humana em grande escala com anotações em nível de pixel para análise de peças humanas. Ele contém mais de 26.000 imagens de seres humanos, cada uma segmentada em 18 rótulos de partes humanas. O conjunto de dados é usado para treinar e avaliar modelos de aprendizado profundo para estimativa de pose humana, segmentação e reconhecimento de ação.


Para baixar o conjunto de dados, clique em aqui .

19. Charadas

Este conjunto de dados é um conjunto de dados de vídeo em grande escala para reconhecimento e localização de ações. São mais de 9.800 vídeos de atividades diárias, como cozinhar, limpar e socializar, com duração média de 30 segundos por vídeo. O conjunto de dados fornece anotações detalhadas para cada vídeo, incluindo limites temporais para ações e conceitos visuais atômicos, tornando-o adequado para treinamento e avaliação de modelos de aprendizado profundo para reconhecimento, detecção e segmentação de ações.


O Charades PyTorch Dataset é amplamente utilizado na comunidade de pesquisa de visão computacional e está disponível gratuitamente para download E use.

20. TU Berlim

Este conjunto de dados é uma rica coleção de imagens de alta resolução e poses de objetos 3D para detecção de objetos e estimativa de pose. Ele contém mais de 11.000 imagens de 60 categorias de objetos, com anotações para poses 2D e 3D. Com seu grande tamanho e diversas categorias de objetos, o conjunto de dados TU Berlin PyTorch fornece um excelente banco de testes para o desenvolvimento de detecção robusta e precisa de objetos e modelos de estimativa de pose.


Você pode obter o conjunto de dados diretamente do site clicando em aqui .



Casos de uso comuns para conjuntos de dados PyTorch

Processamento de linguagem natural

Visão Computacional

Análise de Imagens Médicas

Reconhecimento de Atividade Humana

Pensamentos finais

O PyTorch é útil para pesquisa e experimentação, onde o foco geralmente está no desenvolvimento de modelos de aprendizado profundo e na exploração de novas abordagens. Além disso, o PyTorch ganhou reputação como uma estrutura focada em pesquisa com uma comunidade crescente de desenvolvedores e pesquisadores que contribuem para o ecossistema.

Esses conjuntos de dados têm aplicações em vários campos e também estão disponíveis para download e uso gratuito por qualquer pessoa.



A imagem principal deste artigo foi gerada por meio do modelo AI Stable Diffusion do HackerNoon usando o prompt 'PyTorch superimposed images'.