paint-brush
20 bộ dữ liệu PyTorch tốt nhất để xây dựng mô hình học sâutừ tác giả@datasets
4,817 lượt đọc
4,817 lượt đọc

20 bộ dữ liệu PyTorch tốt nhất để xây dựng mô hình học sâu

từ tác giả Open Datasets Compiled by HackerNoon10m2023/02/26
Read on Terminal Reader

dài quá đọc không nổi

Hai khung máy học mã nguồn mở được sử dụng rộng rãi nhất để đào tạo và xây dựng các mô hình học sâu là TensorFlow và PyTorch. Các khung này có sự khác biệt độc đáo trong cách tiếp cận để xây dựng và đào tạo các mô hình. Việc lựa chọn các khung tùy thuộc vào nhu cầu và sở thích cụ thể của người dùng. Bài viết này xem xét Bộ dữ liệu PyTorch tốt nhất để xây dựng các mô hình học sâu.
featured image - 20 bộ dữ liệu PyTorch tốt nhất để xây dựng mô hình học sâu
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Hai khung máy học nguồn mở được sử dụng rộng rãi nhất để đào tạo và xây dựng các mô hình học sâu là TensorFlow và PyTorch.


Các khung này có sự khác biệt độc đáo trong cách tiếp cận để xây dựng và đào tạo các mô hình. Trong khi TensorFlow sử dụng biểu đồ tĩnh và lập trình khai báo, mang lại cơ hội tối ưu hóa tốt hơn và cho phép đào tạo phân tán, thì PyTorch sử dụng biểu đồ tính toán động và lập trình bắt buộc, cho phép quy trình gỡ lỗi linh hoạt và dễ dàng hơn. Việc lựa chọn các khung tùy thuộc vào nhu cầu và sở thích cụ thể của người dùng.


Bài viết này xem xét Bộ dữ liệu PyTorch tốt nhất để xây dựng các mô hình học sâu hiện có.

Danh sách cuối cùng của bộ dữ liệu PyTorch mở


1. Ngân hàng Penn Tree

Penn Treebank là một tập hợp các văn bản tiếng Anh có chú thích, được nghiên cứu rộng rãi trong cộng đồng nghiên cứu về xử lý ngôn ngữ tự nhiên (NLP). Nó bao gồm hơn 4,5 triệu từ văn bản thuộc nhiều thể loại khác nhau như tạp chí, tin tức và truyện hư cấu. Bộ dữ liệu cũng bao gồm thông tin được chú thích thủ công về quyền của tên, một phần của thẻ lời nói và cấu trúc cú pháp, được sử dụng để đào tạo và đánh giá một loạt các mô hình NLP bao gồm mô hình ngôn ngữ, trình phân tích cú pháp và hệ thống dịch máy.


Để tải xuống tập dữ liệu này, hãy nhấp vào đây .

2. Bộ dữ liệu trả lời câu hỏi của Stanford (SQuAD)

SQuAD (Bộ dữ liệu trả lời câu hỏi Stanford) là bộ dữ liệu điểm chuẩn phổ biến trong xử lý ngôn ngữ tự nhiên (NLP) bao gồm hơn 100.000 cặp câu hỏi-câu trả lời, được trích xuất từ một tập hợp các bài viết trên Wikipedia. Nó được sử dụng để đánh giá hiệu suất của các mô hình NLP khác nhau được xây dựng bằng PyTorch hoặc các khung học sâu khác. Các khoảng câu trả lời có độ dài trung bình là 3,6 từ và trung bình có 11,0 từ trong các đoạn văn tương ứng.


Dưới đây là một số chi tiết bổ sung về SQuAD:


Đội hình 1.0 - Nó chứa hơn 100.000 cặp câu hỏi-câu trả lời trên 536 bài viết từ Wikipedia tiếng Anh.


Đội hình 2.0 - Nó chứa hơn 150.000 cặp câu hỏi-câu trả lời trên hơn 100.000 bài viết trên Wikipedia, với các câu hỏi bổ sung không thể trả lời để kiểm tra khả năng từ chối trả lời của mô hình.


Mục tiêu của bộ dữ liệu là cung cấp một nhiệm vụ đầy thách thức cho các mô hình máy học để trả lời các câu hỏi về một đoạn văn bản nhất định. Nhấn vào đây để tải về phiên bản mới nhất (SQuAD 2.0) .

3. Hiệp hội cơ sở dữ liệu hình ảnh phổi và Sáng kiến tài nguyên cơ sở dữ liệu hình ảnh (LIDC-IDRI)

Tập dữ liệu PyTorch này là tập dữ liệu công khai gồm các hình ảnh chụp cắt lớp vi tính ngực đã được nhiều bác sĩ X quang chú thích cho các nốt phổi. Nó bao gồm 1.018 lần quét CT được thu thập từ các tổ chức khác nhau và chứa hơn 23.000 nốt sần được chú thích.

Mỗi lần quét trong bộ dữ liệu được kèm theo các chú thích từ bốn bác sĩ X quang có kinh nghiệm cung cấp thông tin về hình dạng, kích thước, vị trí nốt sần và kết cấu. Bộ dữ liệu được tạo ra để hỗ trợ nghiên cứu phát triển hệ thống chẩn đoán có sự hỗ trợ của máy tính (CAD) để sàng lọc và chẩn đoán ung thư phổi.


Lưu ý: Bộ dữ liệu được cung cấp công khai nhưng phải tuân theo các hạn chế và yêu cầu nhất định đối với việc sử dụng.


Nhấp chuột đây Tải về.

4. Thời trang-MNIST

Bộ dữ liệu MNIST Thời trang PyTorch do Zalando Research tạo ra để thay thế cho bộ dữ liệu MNIST ban đầu và có sẵn ở định dạng tương thích với PyTorch. Bộ dữ liệu PyTorch Fashion MNIST bao gồm 70.000 hình ảnh thang độ xám của các mặt hàng quần áo, bao gồm 60.000 hình ảnh đào tạo và 10.000 hình ảnh thử nghiệm.


Hình ảnh có kích thước 28x28 pixel và đại diện cho 10 loại mặt hàng quần áo khác nhau, bao gồm áo phông/áo, quần tây, áo chui đầu, váy, áo khoác, xăng đan, áo sơ mi, giày thể thao, túi xách và bốt đến mắt cá chân. Nó tương tự như bộ dữ liệu MNIST ban đầu, nhưng với các nhiệm vụ phân loại khó khăn hơn do sự phức tạp và đa dạng hơn của các mặt hàng quần áo.


Bộ dữ liệu có thể được tải xuống đây .

5. Đánh giá trên Yelp

Bộ dữ liệu Yelp Reviews là một tập hợp rộng lớn gồm hơn 5 triệu bài đánh giá về các doanh nghiệp địa phương từ 11 khu vực đô thị ở Hoa Kỳ. Mỗi đánh giá trong bộ dữ liệu chứa thông tin như xếp hạng sao, danh mục doanh nghiệp, nội dung đánh giá, ngày tháng và địa điểm. Đây là một nguồn tài nguyên quý giá quan tâm đến việc xây dựng các mô hình học sâu với PyTorch.


Vui lòng đăng ký và nhấp vào đây để tải xuống tập dữ liệu .

6. Chó Stanford

Bộ dữ liệu PyTorch này bao gồm một bộ sưu tập gồm 20.580 hình ảnh chất lượng cao về 120 giống chó khác nhau, mỗi hình ảnh được gắn nhãn thông tin về giống chó trong hình ảnh. Nó có thể được sử dụng để phân loại hình ảnh và nhận dạng đối tượng. Với bộ dữ liệu được cung cấp ở định dạng JPEG và chú thích trong tệp văn bản, hình ảnh có kích thước 224x224 pixel. Các giống trong bộ dữ liệu bao gồm từ các giống phổ biến như Golden Retrievers và Labradors đến các giống khó hiểu hơn như Otterhound và Sussex Spaniel.


Bạn có thể tải về tập dữ liệu đây.


7. Công nghệ 101

Mặc dù số lượng hình ảnh hạn chế cho mỗi danh mục có thể là một thách thức, nhưng các chú thích chi tiết làm cho bộ dữ liệu PyTorch Caltech 101 trở thành một nguồn tài nguyên quý giá để đánh giá các mô hình học sâu. Bộ dữ liệu là một bộ dữ liệu thị giác máy tính được dán nhãn với 9.144 hình ảnh chất lượng cao của các đối tượng trên 101 danh mục. Nó cũng bao gồm nhiều loại đối tượng và hình ảnh được lấy từ nhiều nguồn khác nhau. Mỗi hình ảnh được gắn nhãn với danh mục đối tượng và hình ảnh, giúp sử dụng dễ dàng hơn với nhiều khung học sâu khác nhau.


Bấm vào đây để Tải xuống .

8. STS-B (Điểm chuẩn tương tự văn bản ngữ nghĩa)

Bộ dữ liệu STS-B (Điểm chuẩn độ tương tự văn bản ngữ nghĩa) là một bộ dữ liệu tiếng Anh được sử dụng trong các tác vụ STS được tổ chức theo ngữ cảnh của SemEval từ năm 2012 đến năm 2017. Bộ dữ liệu này bao gồm 8628 cặp câu với điểm tương đồng do con người chỉ định trên thang điểm từ 1 đến 5. Được rút ra từ nhiều nguồn khác nhau, chẳng hạn như các bài báo, bài đăng trên diễn đàn, hình ảnh có chú thích và bao gồm nhiều chủ đề khác nhau, đây là bộ dữ liệu phổ biến được sử dụng với PyTorch để đánh giá hiệu suất của các mô hình trong việc xác định sự giống nhau về ngữ nghĩa giữa hai câu. Bộ dữ liệu STS-B có sẵn ở nhiều định dạng, bao gồm các định dạng tương thích với PyTorch, vì PyTorch là một khung học sâu để đào tạo và đánh giá các mô hình trên bộ dữ liệu này.

\Để tải xuống tập dữ liệu này, hãy nhấp vào đây .


9. WMT'14 Anh-Đức

Bộ dữ liệu PyTorch này là bộ dữ liệu điểm chuẩn cho dịch máy giữa tiếng Anh và tiếng Đức do Stanford tạo ra vào năm 2015. Nó bao gồm kho văn bản song song gồm các văn bản được căn chỉnh theo câu bằng cả tiếng Anh và tiếng Đức, được dùng để xây dựng và đánh giá các mô hình học sâu. Trong khi các bộ kiểm tra chứa 3.000 cặp câu, mỗi bộ đào tạo bao gồm khoảng 4,5 triệu cặp câu và độ dài câu trung bình là 26 từ trong tiếng Anh và 30 từ trong tiếng Đức, với kích thước từ vựng khoảng 160.000 từ cho tiếng Anh và 220.000 từ cho tiếng Đức. Tiếng Đức.


Bạn có thể cuộn xuống và tải xuống đây .

10. Người nổi tiếng

Tập dữ liệu này là tập dữ liệu thuộc tính khuôn mặt quy mô lớn phổ biến bao gồm hơn 200.000 hình ảnh người nổi tiếng. Nó được các nhà nghiên cứu tại Đại học Hồng Kông Trung Quốc công bố lần đầu tiên vào năm 2015. Một hình ảnh trong CelebA bao gồm 40 thuộc tính khuôn mặt như tuổi, màu tóc, nét mặt và giới tính. Ngoài ra, những hình ảnh này đã được lấy từ internet và bao gồm nhiều diện mạo trên khuôn mặt, bao gồm các chủng tộc, độ tuổi và giới tính khác nhau. Chú thích hộp giới hạn cho vị trí của khuôn mặt trong mỗi hình ảnh, cũng như 5 điểm mốc cho mắt, mũi và miệng.


Lưu ý: Tập dữ liệu CelebA theo giấy phép của Creative Commons Ghi công-Phi thương mại-Chia sẻ, cho phép nó được sử dụng cho các mục đích nghiên cứu phi thương mại miễn là được cung cấp tín dụng phù hợp.


Để sử dụng tập dữ liệu CelebA trong PyTorch, bạn có thể sử dụng lớp torchvision.datasets.CelebA , đây là một phần của mô-đun torchvision . Bạn có thể tải xuống tập dữ liệu từ trang mạng hoặc đây .

11.UCF101

Bộ dữ liệu UFC101 được sử dụng rộng rãi để phân loại video trong lĩnh vực thị giác máy tính. Nó bao gồm 13.230 video về hành động của con người từ 101 danh mục hành động, mỗi danh mục chứa khoảng 100 đến 300 video. Bộ dữ liệu PyTorch UCF101 là phiên bản tiền xử lý của UCF101 ban đầu đã sẵn sàng để sử dụng trong PyTorch. Tập dữ liệu được xử lý trước bao gồm các khung hình video đã được chuẩn hóa và thay đổi kích thước, bao gồm các nhãn tương ứng cho từng video. Nó cũng được chia thành ba bộ: đào tạo, xác nhận và kiểm tra, với khoảng 9.500, 3.500 và 3.000 video tương ứng.


Để tải xuống tập dữ liệu, hãy nhấp vào đây .

12. HMDB51

Bộ dữ liệu HMDB51 là tập hợp các video được lấy từ các nguồn khác nhau, bao gồm phim, chương trình truyền hình và video trực tuyến, bao gồm 51 lớp hành động, mỗi lớp có ít nhất 101 video clip. Nó được tạo ra bởi các nhà nghiên cứu tại Đại học Trung tâm Florida vào năm 2011 để nghiên cứu về nhận dạng hành động của con người. Các video này ở định dạng AVI và có độ phân giải 320x240 pixel, với các chú thích xác thực cho mỗi video, bao gồm nhãn lớp hành động cũng như khung bắt đầu và kết thúc của hành động trong video. Mỗi video trong bộ dữ liệu đại diện cho một người thực hiện một hành động trước camera tĩnh. Các hành động bao gồm một loạt các hoạt động hàng ngày, chẳng hạn như nhảy, vẫy tay, uống nước và đánh răng, cũng như các hành động phức tạp như chơi ghi-ta và cưỡi ngựa.


Lưu ý: Nó được sử dụng đồng thời với UCF101 tập dữ liệu, chứa nhiều lớp hành động hơn nhưng có ít video hơn cho mỗi lớp.


Bạn có thể tải xuống tập dữ liệu đây .

13. Mạng lưới hoạt động

ActivityNet là một bộ dữ liệu hiểu biết về video quy mô lớn bao gồm hơn 20.000 video từ nhiều danh mục khác nhau như nấu ăn, thể thao, khiêu vũ, v.v. Các video có thời lượng trung bình là 3 phút và được chú thích với trung bình 1,41 phân đoạn hoạt động. Nó có sẵn trong PyTorch, rất dễ sử dụng trong các khung học sâu. Phiên bản PyTorch cung cấp các tính năng được xử lý trước được trích xuất từ các khung RGB và trường luồng quang học của mỗi video, cũng như các chú thích thực tế cơ bản cho các phân đoạn thời gian và nhãn của hoạt động.


Bạn có thể tải xuống tập dữ liệu đây .

14. Bộ dữ liệu VOC (Lớp đối tượng trực quan)

Bộ dữ liệu VOC (Lớp đối tượng trực quan) được giới thiệu lần đầu tiên vào năm 2005 như một phần của Thử thách PASCAL VOC, nhằm nâng cao trình độ nghệ thuật trong nhận dạng hình ảnh. Nó bao gồm hình ảnh của 20 loại đối tượng khác nhau, bao gồm động vật, xe cộ và các đồ vật thông thường trong gia đình. Mỗi hình ảnh này được chú thích với các vị trí và phân loại của các đối tượng trong hình ảnh. Các chú thích bao gồm cả hộp giới hạn và mặt nạ phân đoạn cấp độ pixel. Tập dữ liệu được chia thành hai tập chính: tập huấn luyện và tập xác nhận. Tập huấn luyện chứa khoảng 5.000 hình ảnh có chú thích, trong khi tập hợp lệ chứa khoảng 5.000 hình ảnh không có chú thích. Ngoài ra, bộ dữ liệu cũng bao gồm một bộ thử nghiệm với khoảng 10.000 hình ảnh, nhưng các chú thích cho bộ này không có sẵn công khai.


Để tải xuống tập dữ liệu gần đây, bạn có thể tải xuống từ trang mạng , tải nó bằng Python thông qua nguồn mở Deep Lake của chúng tôi chỉ bằng một dòng mã hoặc tải xuống từ kaggle .


15. YCB-Video

Tập dữ liệu này là tập hợp các mô hình đối tượng 3D và chuỗi video được thiết kế cho các tác vụ ước tính và nhận dạng đối tượng. Nó chứa 21 vật dụng gia đình hàng ngày, với mỗi đối tượng được chụp trong các điều kiện ánh sáng và góc nhìn máy ảnh khác nhau. Bộ dữ liệu cung cấp các chú thích sự thật mặt đất ở cấp độ pixel và thường được sử dụng để đánh giá các thuật toán thị giác máy tính và hệ thống rô-bốt.


Nhấn vào đây để tải về tập dữ liệu .

16. KITTI

Bộ dữ liệu KITTI là tập hợp dữ liệu thị giác máy tính cho nghiên cứu lái xe tự hành. Nó bao gồm hơn 4000 hình ảnh có độ phân giải cao, các đám mây điểm LIDAR và dữ liệu cảm biến từ một chiếc ô tô được trang bị nhiều cảm biến khác nhau. Bộ dữ liệu cung cấp các chú thích để phát hiện, theo dõi và phân đoạn đối tượng, cũng như bản đồ độ sâu và các tham số hiệu chuẩn. Bộ dữ liệu KITTI được sử dụng rộng rãi để đào tạo và đánh giá các mô hình học sâu cho lái xe tự động và người máy.


Để tải xuống tập dữ liệu gần đây, bạn có thể tải xuống từ trang mạng , GitHub hoặc tải xuống từ kaggle .

17. Áo ngực

Bộ dữ liệu BRATS PyTorch là tập hợp các bản quét chụp cộng hưởng từ (MRI) để phân đoạn khối u não. Nó bao gồm hơn 200 hình ảnh não 3D có độ phân giải cao, mỗi hình ảnh có bốn phương thức (T1, T1c, T2 và FLAIR) và các mặt nạ phân đoạn nhị phân tương ứng. Bộ dữ liệu thường được sử dụng để đào tạo và đánh giá các mô hình học sâu nhằm phát hiện và phân đoạn khối u não tự động.


Bạn có thể tải xuống tập dữ liệu này trên Kaggle bằng cách nhấp vào đây .

18. Phân tích cú pháp nhiều người

Bộ dữ liệu PyTorch phân tích cú pháp nhiều người là một bộ dữ liệu hình ảnh con người quy mô lớn với các chú thích ở cấp độ pixel để phân tích cú pháp bộ phận con người. Nó chứa hơn 26.000 hình ảnh của con người, mỗi hình ảnh được phân chia thành 18 nhãn bộ phận con người. Bộ dữ liệu được sử dụng để đào tạo và đánh giá các mô hình học sâu để ước tính tư thế con người, phân đoạn và nhận dạng hành động.


Để tải xuống tập dữ liệu, hãy nhấp vào đây .

19. Trò chơi đố chữ

Tập dữ liệu này là tập dữ liệu video quy mô lớn để nhận dạng và bản địa hóa hành động. Nó bao gồm hơn 9.800 video về các hoạt động hàng ngày, chẳng hạn như nấu ăn, dọn dẹp và giao tiếp xã hội, với thời lượng trung bình là 30 giây cho mỗi video. Bộ dữ liệu cung cấp các chú thích chi tiết cho từng video, bao gồm ranh giới thời gian cho các hành động và khái niệm trực quan nguyên tử, khiến bộ dữ liệu này phù hợp để đào tạo và đánh giá các mô hình học sâu để nhận dạng, phát hiện và phân đoạn hành động.


Bộ dữ liệu Charades PyTorch được sử dụng rộng rãi trong cộng đồng nghiên cứu thị giác máy tính và được cung cấp miễn phí cho Tải xuống Và sử dụng.

20. TU Berlin

Tập dữ liệu này là một bộ sưu tập phong phú các hình ảnh có độ phân giải cao và tư thế đối tượng 3D để phát hiện đối tượng và ước tính tư thế. Nó chứa hơn 11.000 hình ảnh thuộc 60 danh mục đối tượng, với chú thích cho các tư thế 2D và 3D. Với kích thước lớn và các danh mục đối tượng đa dạng, bộ dữ liệu TU Berlin PyTorch cung cấp một cơ sở thử nghiệm tuyệt vời để phát triển các mô hình ước lượng và phát hiện đối tượng mạnh mẽ và chính xác.


Bạn có thể lấy tập dữ liệu trực tiếp từ trang web bằng cách nhấp vào đây .



Các trường hợp sử dụng phổ biến cho bộ dữ liệu PyTorch

Xử lý ngôn ngữ tự nhiên

Tầm nhìn máy tính

Phân tích hình ảnh y tế

Nhận dạng hoạt động của con người

Suy nghĩ cuối cùng

PyTorch rất hữu ích cho nghiên cứu và thử nghiệm, trong đó trọng tâm thường là phát triển các mô hình học sâu và khám phá các phương pháp mới. Ngoài ra, PyTorch đã nổi tiếng là một khuôn khổ tập trung vào nghiên cứu với cộng đồng ngày càng tăng gồm các nhà phát triển và nhà nghiên cứu đóng góp cho hệ sinh thái.

Các bộ dữ liệu này có ứng dụng trong nhiều lĩnh vực và cũng có sẵn cho mọi người tải xuống và sử dụng miễn phí.



Hình ảnh chính của bài viết này được tạo thông qua mô hình Khuếch tán ổn định AI của HackerNoon bằng cách sử dụng lời nhắc 'hình ảnh xếp chồng PyTorch'.

L O A D I N G
. . . comments & more!

About Author

Open Datasets Compiled by HackerNoon HackerNoon profile picture
Open Datasets Compiled by HackerNoon@datasets
A library of open datasets for data analytics/machine learning compiled by HackerNoon.

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...