TLDR: Họ tái tạo lại âm thanh bằng cách sử dụng máy ảnh và chùm tia laze trên bất kỳ bề mặt rung nào, cho phép họ cô lập các nhạc cụ, tập trung vào một loa cụ thể, loại bỏ tiếng ồn xung quanh và nhiều ứng dụng tuyệt vời hơn.
►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/cvpr-2022-best-paper /
►Sheinin, Mark và Chan, Dorian và O'Toole, Matthew và Narasimhan,
Srinivasa G., 2022, Cảm biến rung quang học màn trập kép, Proc. IEEE
CVPR.
► Trang dự án: https://imaging.cs.cmu.edu/vibration/
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/
0:00
năm nay tôi có cơ hội ở cvpr
0:02
trực tiếp và tham dự những điều tuyệt vời nhất
0:05
giấy trao giải với cái này
0:07
tờ giấy tuyệt vời mà tôi đã phải phủ lên
0:09
kênh được gọi là màn trập kép quang học
0:12
cảm nhận rung động bởi mark shanin dorian
0:15
chan mathew o'toole và srinivasa
0:18
narasimhan trong một câu họ
0:21
tái tạo lại âm thanh bằng cách sử dụng máy ảnh trong một
0:23
tia laze trên bất kỳ bề mặt rung động nào
0:26
cho phép họ tách biệt âm nhạc
0:28
nhạc cụ tập trung vào một người nói cụ thể
0:30
loại bỏ tiếng ồn xung quanh và nhiều hơn nữa
0:33
các ứng dụng tuyệt vời, chúng ta hãy đi sâu vào cách
0:35
họ đạt được điều đó và nghe thấy một số điều điên rồ
0:37
kết quả nhưng trước tiên hãy cho phép tôi một phút
0:40
thời gian của bạn để giới thiệu bạn với một
0:41
công ty tuyệt vời nhà tài trợ cho điều này
0:44
video lắp ráp ai lắp ráp ai là một
0:47
công ty cung cấp apis chính xác cho
0:49
lời nói thành văn bản và âm thanh thông minh
0:52
bạn có thể sử dụng apis của họ để tự động
0:54
phiên âm và hiểu âm thanh và
0:56
dữ liệu video chỉ trong một vài dòng mã
0:58
và tự động chuyển đổi không đồng bộ
1:00
và các luồng âm thanh trực tiếp thành văn bản
1:03
một cái gì đó cực kỳ khó khăn để làm
1:05
và thường yêu cầu mạnh mẽ và
1:07
các mô hình đắt tiền tất nhiên nó không dừng lại
1:10
ở đây lắp ráp ai cũng sẽ xử lý
1:12
dữ liệu âm thanh và có tính năng cung cấp thông tin
1:15
đại diện cho phép bạn dễ dàng
1:17
thêm các tính năng dựa trên văn bản như
1:19
chủ đề kiểm duyệt nội dung tóm tắt
1:21
phát hiện và hơn thế nữa tất cả trong một nếu bạn
1:24
cần hiểu hoặc phiên âm âm thanh
1:26
hoặc dữ liệu video thử lắp ráp ai với
1:29
liên kết đầu tiên bên dưới
1:33
hãy bắt đầu bằng cách lắng nghe ví dụ này
1:35
về những gì phương pháp có thể đạt được
1:38
[Âm nhạc]
1:53
bạn có thể nghe rõ cả hai
1:54
guitar riêng lẻ trong mỗi bản âm thanh
1:57
điều này được thực hiện bằng cách sử dụng không phải âm thanh được ghi lại
2:00
nhưng được trang bị một tia laser và hai máy ảnh
2:02
với cảm biến màn trập cuộn và toàn cục
2:05
tương ứng nó có vẻ như giải quyết điều này
2:08
nhiệm vụ thông qua tầm nhìn làm cho nó dễ dàng hơn nhiều
2:10
hơn là cố gắng tách các bản âm thanh
2:12
sau khi ghi lại nó cũng có nghĩa là chúng ta có thể
2:15
ghi lại bất cứ điều gì qua kính và từ
2:18
bất kỳ vật thể rung động nào ở đây họ đã sử dụng
2:21
phương pháp của họ trên chính diễn giả
2:23
cách ly loa trái và phải
2:25
trong khi micrô sẽ tự động
2:27
ghi lại cả hai và trộn các bản âm thanh
2:41
[Âm nhạc]
2:45
điển hình là loại công nghệ gián điệp
2:48
được gọi là đo rung hình ảnh yêu cầu
2:51
điều kiện ánh sáng hoàn hảo và
2:52
máy ảnh tốc độ cao trông giống như một
2:54
lính bắn tỉa ngụy trang để chụp tốc độ cao
2:56
rung động lên đến 63 kilohertz ở đây
3:00
họ đạt được kết quả tương tự với
3:02
cảm biến được xây dựng chỉ cho 60 và 130 hertz
3:06
và thậm chí tốt hơn họ có thể xử lý
3:08
nhiều đối tượng cùng một lúc vẫn còn đây là một
3:11
nhiệm vụ rất khó khăn đòi hỏi nhiều
3:13
kỹ thuật và những ý tưởng tuyệt vời để tạo ra nó
3:16
xảy ra, họ không chỉ ghi lại
3:18
dụng cụ và gửi video đến một
3:20
mô hình tự động tạo và
3:22
tách âm thanh đầu tiên họ cần
3:24
hiểu tia laser mà họ nhận được và
3:26
xử lý nó một cách chính xác họ định hướng một tia laser
3:29
trên bề mặt để nghe sau đó điều này
3:32
tia laze phản xạ từ bề mặt vào một
3:34
mặt phẳng tiêu điểm mặt phẳng tiêu điểm này là nơi chúng ta
3:37
sẽ lấy thông tin của chúng tôi từ
3:39
các công cụ hoặc đồ vật chính vì vậy chúng tôi
3:42
sẽ phân tích những rung động nhỏ của
3:44
đối tượng quan tâm thông qua tia laser
3:46
phản hồi tạo ra một đại diện như
3:49
đây
3:50
phản ứng laser hai chiều này
3:52
mô hình được cắt bởi máy ảnh của chúng tôi được gọi là
3:54
đốm sau đó được xử lý trên toàn cầu
3:58
và cục bộ sử dụng hai máy ảnh của chúng tôi
4:01
máy ảnh cục bộ hoặc màn trập lăn
4:03
máy ảnh sẽ chụp khung hình chỉ ở 60
4:06
fps nên nó sẽ chụp nhiều ảnh
4:08
và cuộn chúng trên trục y để có được
4:11
thực sự ồn ào và không chính xác 63 kilohertz
4:14
đại diện đây là nơi toàn cầu
4:16
máy ảnh màn trập là cần thiết vì
4:18
sự ngẫu nhiên trong hình ảnh lốm đốm
4:21
do độ nhám của vật thể
4:23
bề mặt và chuyển động của nó, nó sẽ
4:25
về cơ bản chụp ảnh màn hình toàn cầu về
4:27
cùng một hình ảnh đốm mà chúng tôi đã sử dụng với
4:29
máy ảnh đầu tiên và sử dụng hình ảnh mới này làm
4:32
một hệ quy chiếu chỉ để cô lập
4:34
rung động liên quan từ lăn
4:37
chụp màn trập
4:38
máy ảnh màn trập lăn sẽ lấy mẫu
4:40
cảnh từng hàng cao
4:42
tần số trong khi màn trập toàn cầu
4:44
máy ảnh sẽ lấy mẫu toàn bộ cảnh tại
4:47
một lần để phục vụ như một hệ quy chiếu và
4:49
chúng tôi lặp lại quá trình này cho toàn bộ
4:51
video
4:52
và thì đó là cách họ có thể
4:55
tách âm thanh từ trích xuất ghi âm
4:57
chỉ một công cụ duy nhất loại bỏ môi trường xung quanh
5:00
tiếng ồn hoặc thậm chí tái tạo lại bài phát biểu từ
5:02
rung động của một túi khoai tây chiên
5:05
mary có một con cừu nhỏ chiếc lá này là
5:08
trắng như tuyết tất nhiên đây chỉ là một
5:10
tổng quan đơn giản về bài báo tuyệt vời này và
5:12
tôi thực sự mời bạn đọc nó cho
5:14
thêm thông tin xin chúc mừng
5:16
chính quyền cho danh dự đề cập đến tôi
5:18
rất vui khi tham dự sự kiện và thấy
5:21
bài thuyết trình trực tiếp tôi rất vui mừng
5:23
các ấn phẩm trong tương lai bài báo này sẽ
5:25
thúc đẩy tôi cũng mời bạn tăng gấp đôi
5:27
kiểm tra tất cả các túi khoai tây chiên bạn có thể
5:29
để gần cửa sổ hoặc một số
5:31
mọi người có thể lắng nghe những gì bạn nói cảm ơn
5:34
bạn đã xem toàn bộ video và hãy
5:36
tôi biết bạn áp dụng công nghệ này như thế nào
5:38
và nếu bạn thấy bất kỳ rủi ro tiềm ẩn nào hoặc
5:40
các trường hợp sử dụng thú vị mà tôi muốn thảo luận
5:42
những điều này với bạn và một lời cảm ơn đặc biệt tới
5:45
cvpr vì đã mời tôi tham gia sự kiện đó là
5:47
thực sự tuyệt vời khi ở đó trong orleans mới
5:49
với tất cả các nhà nghiên cứu và công ty tôi
5:52
Hẹn gặp lại bạn vào tuần sau với một người khác
giấy tuyệt vời