Tạo biểu đồ cảnh tổng quan, hay còn gọi là PSG, là một nhiệm vụ bài toán mới nhằm tạo ra một biểu đồ biểu đồ toàn diện hơn của một hình ảnh hoặc cảnh dựa trên phân đoạn toàn cảnh thay vì các hộp giới hạn. Nó có thể được sử dụng để hiểu hình ảnh và tạo ra các câu mô tả những gì đang xảy ra. Đây có thể là nhiệm vụ khó khăn nhất đối với một AI! Tìm hiểu thêm trong video ...
►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/psg/
►Yang, J., Ang, YZ, Guo, Z., Zhou, K., Zhang, W. và Liu, Z., 2022.
Panoptic Scene Graph Generation. arXiv bản in trước arXiv: 2207.11247.
►Mã: https://github.com/Jingkang50/OpenPSG
► Trang dự án (tập dữ liệu PSG): https://psgdataset.org/
►Hãy thử: https://replicate.com/cjwbw/openpsg , https://huggingface.co/spaces/ECCV2022/PSG
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/
0:00
bạn có thể sử dụng ai để xác định những gì trong một
0:02
hình ảnh như tìm hiểu xem có
0:04
mèo hay không trong cảnh này nếu có
0:07
bạn có thể sử dụng ai khác để tìm nó ở đâu
0:10
có trong hình ảnh và bạn có thể tìm thấy nó
0:12
chính xác những tác vụ này được gọi là hình ảnh
0:15
phân loại đối tượng phát hiện và
0:17
cuối cùng là phân đoạn ví dụ rồi bạn
0:20
có thể xây dựng các ứng dụng thú vị để giải nén
0:23
con mèo của bạn từ một hình ảnh và đưa nó vào một
0:25
thẻ quà tặng vui nhộn hoặc một meme nhưng nếu bạn thì sao
0:27
muốn một ứng dụng hiểu được
0:29
cảnh và hình ảnh không chỉ có thể
0:32
xác định xem có một đối tượng và
0:34
nó ở đâu nhưng điều gì đang xảy ra với bạn
0:36
không muốn xác định nếu có một
0:38
khách hàng hay không trong cửa hàng của bạn nhưng bạn
0:40
có thể muốn xác định xem khách hàng
0:42
trong câu hỏi là ăn cắp bạn liệu
0:44
sử dụng giám sát như vậy là có đạo đức
0:46
chính xác hay không là một câu hỏi hoàn toàn khác
0:49
bạn cũng cần phải xem xét vẫn giả sử
0:51
chúng tôi tập trung vào việc tìm hiểu những gì đang xảy ra
0:53
trong một cảnh hoặc một hình ảnh cụ thể trong đó
0:56
trường hợp bạn muốn sử dụng một nhiệm vụ được gọi là
0:58
tạo đồ thị cảnh nơi có các đối tượng
1:01
được hướng dẫn bằng cách sử dụng các hộp giới hạn như được hiển thị
1:04
trước đây với tính năng phát hiện đối tượng mà
1:06
sau đó được sử dụng để tạo một biểu đồ với mỗi
1:09
mối quan hệ của đối tượng với nhau
1:11
phản đối về cơ bản nó sẽ cố gắng
1:13
hiểu những gì đang xảy ra từ tất cả
1:15
các đối tượng chính của cảnh nó hoạt động
1:17
khá tốt và tìm ra những chính
1:19
đặc điểm của hình ảnh nhưng có
1:21
một vấn đề lớn nó dựa vào sự liên kết
1:23
độ chính xác của hộp và hoàn toàn không quan tâm
1:26
nền thường quan trọng trong
1:28
hiểu những gì đang xảy ra hoặc tại
1:30
ít nhất là đưa ra một bản tóm tắt thực tế hơn
1:33
thay vào đó, bạn có thể muốn sử dụng cái mới này
1:35
nhiệm vụ được gọi là biểu đồ cảnh toàn cảnh
1:38
thế hệ hay psg psg là một vấn đề mới
1:42
nhiệm vụ nhằm tạo ra nhiều hơn
1:43
biểu diễn đồ thị toàn diện của một
1:46
hình ảnh hoặc cảnh dựa trên toàn cảnh
1:49
phân đoạn chứ không phải hộp liên kết
1:52
điều gì đó chính xác hơn nhiều
1:54
tính tất cả các pixel của một hình ảnh như chúng ta đã thấy
1:57
và những người tạo ra nhiệm vụ này đã không
1:58
chỉ phát minh ra nó nhưng họ cũng tạo ra một
2:01
tập dữ liệu cũng như mô hình cơ sở để
2:03
kiểm tra kết quả của bạn với
2:05
thực sự tuyệt vời, nhiệm vụ này có rất nhiều
2:07
tiềm năng như hiểu những gì là
2:09
xảy ra trong một hình ảnh là vô cùng
2:11
hữu ích và phức tạp cho cả máy móc
2:14
mặc dù con người làm điều đó một cách tự động
2:16
mang lại một số loại trí thông minh cần thiết
2:18
với những cỗ máy tạo ra sự khác biệt
2:20
giữa việc trở thành một ứng dụng vui nhộn thú vị như
2:23
snapchat vào một sản phẩm mà bạn sử dụng để lưu
2:25
thời gian hoặc hoàn thành một nhu cầu như
2:27
hiểu khi nào con mèo của bạn muốn
2:29
chơi và sử dụng rô bốt để chơi với nó
2:31
tự động để nó không bị nhàm chán tất cả
2:33
thời gian
2:34
hiểu một cảnh thực sự rất tuyệt nhưng
2:36
làm thế nào một máy có thể làm tốt điều đó bạn cần
2:39
hai thứ một tập dữ liệu và một
2:42
mô hình mà chúng tôi biết rằng chúng tôi đã có
2:44
tập dữ liệu kể từ khi họ xây dựng nó cho chúng tôi bây giờ
2:47
điều thứ hai làm thế nào để học từ điều này
2:50
tập dữ liệu có nghĩa là cách xây dựng tập dữ liệu này
2:52
ai mô hình và nó nên làm gì ở đó
2:55
nhiều cách để tiếp cận vấn đề này
2:58
và tôi mời bạn đọc bài báo của họ để
3:00
tìm hiểu thêm nhưng đây là một cách để làm
3:02
nó
3:03
trước khi tham gia hãy cho tôi một ít
3:05
vài giây để trở thành nhà tài trợ của riêng tôi và nói chuyện
3:07
về cộng đồng của chúng tôi kể từ khi bạn là
3:09
xem video này tôi biết bạn sẽ thích
3:11
vì nó về cơ bản được tạo ra cho bạn
3:13
tất nhiên chúng tôi có cộng đồng youtube
3:15
mà bạn chắc chắn nên tham gia
3:17
nhấp vào nút đăng ký nhỏ và
3:19
bình luận bên dưới chẳng hạn tôi rất thích
3:21
để biết bạn nghĩ gì về nhiệm vụ này
3:23
và nếu nó thú vị hay không đối với ai
3:25
cộng đồng tôi cũng muốn chia sẻ
3:28
cộng đồng bất hòa tìm hiểu ai cùng nhau
3:31
một nơi để kết nối với những người đồng nghiệp
3:33
những người đam mê từ bất kỳ cấp độ kỹ năng nào tìm thấy
3:35
mọi người để học với tìm người để làm việc
3:37
với việc đặt câu hỏi của bạn hoặc thậm chí tìm
3:40
những lời mời làm việc thú vị mà chúng tôi đang tổ chức
3:42
rất nhiều sự kiện rất thú vị và như thế
3:44
cái mà chúng tôi hiện đang chạy cùng
3:46
các nhà tổ chức rl của mỏ từ deepmind và
3:49
openai liên kết có trong mô tả
3:51
bên dưới và tôi rất muốn thấy bạn tham gia
3:53
trao đổi với chúng tôi ở đó
3:55
như chúng tôi đã nói, mô hình cần tìm
3:57
lớp cho mỗi pixel của hình ảnh
3:59
nghĩa là nó phải xác định mọi
4:01
pixel của hình ảnh trong giai đoạn đầu tiên của
4:04
người mẫu sẽ chịu trách nhiệm cho việc này
4:06
nó sẽ là một mô hình được gọi là fpn toàn cảnh
4:09
đã được đào tạo để phân loại từng pixel
4:12
một mô hình như vậy đã có sẵn trực tuyến
4:14
và khá mạnh mẽ, nó sẽ chụp ảnh
4:17
và trả lại cái mà chúng tôi gọi là mặt nạ với mỗi
4:19
pixel khớp với một đối tượng hiện có như
4:22
một quả bóng người hoặc cỏ trong trường hợp này bạn
4:25
bây giờ có phân đoạn và bạn biết
4:28
những gì trong hình ảnh và nếu bạn ở đâu
4:30
không quen với cách hoạt động của một mô hình như vậy
4:32
tôi mời bạn xem một trong những video
4:34
tôi đã thực hiện bao gồm các cách tiếp cận tương tự như
4:36
cái này bước tiếp theo là tìm hiểu
4:38
chuyện gì đang xảy ra với những đồ vật đó
4:41
ở đây bạn đã biết đó là một người đàn ông đang chơi
4:43
bóng đá trên sân nhưng máy
4:45
thực sự không có ý tưởng điều duy nhất nó
4:48
biết rằng có một người đàn ông là một quả bóng và
4:50
một lĩnh vực với rất nhiều sự tự tin nhưng nó
4:53
không hiểu bất cứ điều gì và không thể
4:55
kết nối các dấu chấm như chúng ta làm một cách dễ dàng
4:58
cần một mô hình thứ hai được đào tạo chỉ để lấy
5:00
những đối tượng đó và tìm ra lý do tại sao chúng
5:03
trong cùng một bức tranh đây là
5:05
bước tạo đồ thị cảnh trong đó a
5:07
modal sẽ học cách kết hợp một
5:09
từ điển từ và khái niệm
5:12
bao gồm nhiều đối tượng có thể
5:13
quan hệ với các đối tượng trong một cảnh bằng cách sử dụng
5:16
thông tin được trích xuất từ đầu tiên
5:19
giai đoạn học cách cấu trúc
5:21
các đối tượng với nhau đối tượng và thì đấy
5:25
bạn kết thúc với một biểu đồ rõ ràng rằng bạn
5:27
có thể sử dụng để xây dựng câu bao trùm
5:29
những gì đang xảy ra trong hình ảnh của bạn, bạn có thể
5:31
bây giờ hãy sử dụng cách tiếp cận này trong lần tiếp theo của bạn
5:32
ứng dụng và cung cấp một vài điểm iq cho
5:35
cách tiếp cận của bạn đưa nó đến gần hơn
5:37
một cái gì đó thông minh nếu bạn muốn
5:39
tìm hiểu thêm về nhiệm vụ mới này tôi
5:41
mạnh mẽ mời bạn đọc bài báo
5:43
liên kết bên dưới cảm ơn bạn đã xem
5:45
cho đến khi kết thúc và tôi sẽ gặp bạn tiếp theo
tuần với một bài báo tuyệt vời khác