paint-brush
Nhìn vào bên trong Trình thu thập dữ liệu web của OpenAI và những sai lầm liên tục của FTCtừ tác giả@viggybala
1,160 lượt đọc
1,160 lượt đọc

Nhìn vào bên trong Trình thu thập dữ liệu web của OpenAI và những sai lầm liên tục của FTC

từ tác giả Viggy Balagopalakrishnan11m2023/08/18
Read on Terminal Reader

dài quá đọc không nổi

OpenAI khởi chạy trình thu thập thông tin chọn tham gia mặc định để thu thập dữ liệu trên Internet, trong khi FTC theo đuổi một cuộc điều tra lừa đảo người tiêu dùng mơ hồ
featured image - Nhìn vào bên trong Trình thu thập dữ liệu web của OpenAI và những sai lầm liên tục của FTC
Viggy Balagopalakrishnan HackerNoon profile picture
0-item
1-item

OpenAI khởi chạy trình thu thập thông tin chọn tham gia mặc định để thu thập thông tin trên Internet, trong khi FTC theo đuổi một cuộc điều tra lừa đảo người tiêu dùng mơ hồ

Tuần trước, Open AI (nhà sản xuất ChatGPT) đã chính thức công bố trình thu thập dữ liệu web của họ — đây là một phần mềm thu thập nội dung từ tất cả các trang web trên internet, sau đó được sử dụng để đào tạo mô hình AI.


Sự tồn tại của trình thu thập dữ liệu không có gì đáng ngạc nhiên và ngày nay có một số trình thu thập dữ liệu web hợp pháp, bao gồm cả trình thu thập dữ liệu của Google lập chỉ mục toàn bộ internet.


Tuy nhiên, đây là lần đầu tiên OpenAI công bố rõ ràng về sự tồn tại của nó và cũng cung cấp một cơ chế để các trang web từ chối loại bỏ.


Lưu ý rằng trình thu thập thông tin được chọn tham gia theo mặc định , tức là bạn cần thay đổi một cách rõ ràng một đoạn mã trên trang web của mình để yêu cầu trình thu thập thông tin không lấy dữ liệu của bạn. Mặc định chọn tham gia/không tham gia là cố định và thường xác định hành vi của đa số là gì vì hầu hết mọi người không nỗ lực thay đổi mặc định.


Đó cũng chính là lý do tại sao những thay đổi về quyền riêng tư trên iOS14 của Apple đã có tác động lớn đến ngành quảng cáo kỹ thuật số.


OpenAI Web Crawler (Nguồn: OpenAI)


Vì vậy, tại sao thậm chí cung cấp từ chối? Đây có thể là một động thái phủ đầu từ OpenAI để đáp lại các vụ kiện gần đây chống lại công ty cáo buộc rằng bản quyền của chủ sở hữu nội dung đã bị vi phạm (bài viết sâu hơn về thu thập dữ liệu nếu bạn muốn tìm hiểu thêm).


Đối thủ cạnh tranh của ChatGPT Google Bard phải đối mặt với thách thức tương tự nhưng Google vẫn chưa công bố giải pháp tương đương — họ đã đưa ra yêu cầu nhận xét về cách nâng cấp robots.txt để giải quyết vấn đề này (được viết bằng một số thủ pháp PR gọn gàng ).


Trong bài viết này, chúng ta sẽ đi sâu vào:


  • Ý nghĩa của trình thu thập dữ liệu của OpenAI đối với chủ sở hữu nội dung


  • Cuộc điều tra hiện tại của FTC về OpenAI


  • Bối cảnh pháp lý ngày nay mà chúng tôi hoạt động


  • Tại sao cách tiếp cận của FTC theo đuổi OpenAI lại (lại là một) bước đi sai lầm

Ý nghĩa của Trình thu thập dữ liệu của OpenAI đối với chủ sở hữu nội dung

Mặc dù thông báo cung cấp tùy chọn cho các nhà quảng cáo để chặn trình thu thập thông tin của OpenAI thu thập dữ liệu của họ, nhưng có một số điều không tốt:


  1. Theo mặc định, nó được chọn tham gia, điều đó có nghĩa là OpenAI có thể tiếp tục tìm kiếm cho đến khi các trang web yêu cầu họ không tham gia một cách rõ ràng.


  2. Chưa có phán quyết pháp lý rõ ràng theo cách này hay cách khác về quyền của chủ sở hữu nội dung khi dữ liệu của họ bị thu thập để đào tạo người mẫu mà không có sự đồng ý (điều này về cơ bản sẽ xảy ra với bất kỳ ai bị buộc phải chọn tham gia mặc định)


Ngày nay, có hai cấu trúc pháp lý xác định liệu các mô hình ngôn ngữ có được phép lấy tất cả dữ liệu này mà không có sự đồng ý hay không — Bản quyền và Sử dụng hợp pháp .


Bản quyền cung cấp sự bảo vệ cho các loại nội dung cụ thể nhưng cũng có các ngoại lệ/ngoại lệ:


Bảo vệ bản quyền tồn tại, theo tiêu đề này, trong các tác phẩm gốc của tác giả được cố định trong bất kỳ phương tiện biểu đạt hữu hình nào, hiện được biết đến hoặc được phát triển sau này, từ đó chúng có thể được nhận biết, sao chép hoặc truyền đạt theo cách khác, trực tiếp hoặc với sự trợ giúp của một máy hoặc thiết bị.


Tác phẩm của tác giả bao gồm các loại sau: (1) tác phẩm văn học; (2) các tác phẩm âm nhạc, bao gồm cả các từ đi kèm; (3) các tác phẩm kịch, bao gồm cả âm nhạc kèm theo; (4) kịch câm và tác phẩm vũ đạo; (5) tác phẩm hội họa, đồ họa và điêu khắc; (6) phim ảnh và tác phẩm nghe nhìn khác; (7) bản ghi âm; và (8) công trình kiến trúc.


(b) Trong mọi trường hợp, việc bảo vệ bản quyền đối với tác phẩm gốc của tác giả mở rộng đối với bất kỳ ý tưởng, quy trình, quy trình, hệ thống, phương thức hoạt động, khái niệm, nguyên tắc hoặc khám phá nào , bất kể dưới hình thức mô tả, giải thích, minh họa , hoặc thể hiện trong công việc như vậy


Ví dụ: bản quyền bảo vệ hầu hết tác phẩm gốc (ví dụ: nếu bạn viết một bài báo gốc trên blog hoặc sách về một chủ đề) nhưng không bảo vệ các ý tưởng rộng (ví dụ: bạn không thể tuyên bố rằng mình là người đầu tiên viết về cách AI tác động đến quyền dữ liệu , và do đó ý tưởng thuộc về bạn).


Một loại bỏ/ngoại lệ khác đối với bảo vệ Bản quyền là Sử dụng hợp pháp:


Việc sử dụng hợp pháp một tác phẩm có bản quyền, bao gồm cả việc sử dụng bằng cách sao chép thành các bản sao hoặc bản ghi âm hoặc bằng bất kỳ phương tiện nào khác được chỉ định bởi phần đó, cho các mục đích như phê bình, bình luận, báo cáo tin tức, giảng dạy (bao gồm nhiều bản sao để sử dụng trong lớp học), học bổng, hoặc nghiên cứu, không phải là vi phạm bản quyền.


Khi xác định liệu việc sử dụng một tác phẩm trong bất kỳ trường hợp cụ thể nào có phải là sử dụng hợp pháp hay không, các yếu tố được xem xét sẽ bao gồm (1) mục đích và đặc điểm của việc sử dụng, bao gồm cả việc sử dụng đó có tính chất thương mại hay là vì mục đích giáo dục phi lợi nhuận ; (2) bản chất của tác phẩm có bản quyền; (3) số lượng và thực chất của phần được sử dụng liên quan đến toàn bộ tác phẩm có bản quyền; và (4) ảnh hưởng của việc sử dụng đối với thị trường tiềm năng hoặc giá trị của tác phẩm có bản quyền.


Ví dụ: nếu bạn lấy nội dung từ một bài báo nghiên cứu và viết một bài phê bình về nội dung đó, điều đó không sao cả và bạn không vi phạm bản quyền của chủ sở hữu nội dung. Tình huống tương tự xảy ra khi tôi liên kết một bài viết khác từ trang này và thêm văn bản trích dẫn từ bài viết đó.


Cả hai khái niệm này được tạo ra để bảo vệ quyền của chủ sở hữu nội dung đồng thời cho phép luồng thông tin tự do, đặc biệt là trong bối cảnh giáo dục, nghiên cứu và phê bình.


Tôi không phải là một chuyên gia pháp lý nhưng dựa trên nghiên cứu/hiểu biết của tôi về ngôn ngữ ở trên, nơi điều này trở nên mờ nhạt với nội dung đào tạo cạo mô hình AI là:


  • Các công ty AI thường thu thập toàn bộ văn bản từ trang web của chủ sở hữu nội dung (điều này được bảo vệ bởi Bản quyền), đào tạo các mô hình để tìm hiểu “ý tưởng”/“khái niệm”/“nguyên tắc” (điều này không được bảo vệ bởi Bản quyền), và cuối cùng là các mô hình phun ra văn bản khác nhau. Trong trường hợp này, chủ sở hữu nội dung có được bảo vệ Bản quyền hay không?


  • Vì các mô hình ngôn ngữ được đào tạo hiện cuối cùng được sử dụng cho mục đích thương mại (ví dụ: ChatGPT Plus là sản phẩm trả phí), điều đó có vi phạm Bản quyền của chủ sở hữu nội dung không (vì ngoại lệ Sử dụng hợp lý không còn áp dụng)?


Vẫn chưa có phán quyết nào của tòa án về vấn đề này, vì vậy thật khó để dự đoán nơi này sẽ hạ cánh. Quan điểm không phải là luật sư của tôi là cách thứ hai có lẽ dễ tiếp cận hơn: OpenAI đã thu thập dữ liệu và sử dụng nó để tạo ra một sản phẩm thương mại và do đó, họ không nhận được ngoại lệ theo Sử dụng hợp lý.


Tôi sẽ tưởng tượng điều đầu tiên (người mẫu đã đào tạo về một “ý tưởng” hay chỉ là văn bản gốc) là phỏng đoán của bất kỳ ai.


Lưu ý rằng cả hai dấu đầu dòng đó cần phải có lợi cho chủ sở hữu nội dung để họ giành chiến thắng, nghĩa là chủ sở hữu nội dung chỉ giành chiến thắng nếu cả hai ngoại lệ ở trên (ngoại lệ "ý tưởng" hoặc ngoại lệ Sử dụng hợp lý) không áp dụng cho OpenAI.


Tôi đưa ra sắc thái này bởi vì trong phạm vi rủi ro AI (không đầy đủ) — từ quyền của chủ sở hữu nội dung đến gian lận khuếch đại đến công việc được tự động hóa đến AGI / sự hủy diệt loài người — vấn đề cấp bách nhất trong ngắn hạn là quyền của chủ sở hữu nội dung , bằng chứng là hàng loạt vụ kiện và tác động đến nền tảng nội dung (ví dụ: câu chuyện StackOverflow ).


Mặc dù các cơ quan quản lý như FTC có thể cân nhắc về các vấn đề thực sự dài hạn và đưa ra các cách giả thuyết/sáng tạo để giải quyết những rủi ro này, nhưng tiềm năng ngắn hạn thực sự của họ nằm ở khả năng giải quyết các rủi ro sẽ ảnh hưởng đến chúng ta trong 5–10 năm tới đường chân trời. Như vi phạm bản quyền.


Điều này đưa chúng ta đến những gì FTC đang làm về nó.

Cuộc điều tra hiện tại của FTC về OpenAI

Vào giữa tháng 7, FTC đã thông báo rằng họ đang điều tra OpenAI. Điều khiến nó trở nên thú vị (và bực bội) là lý do FTC đang điều tra chúng về tên miền .


Nhà sản xuất ChatGPT đang bị điều tra để đánh giá liệu công ty có vi phạm bất kỳ luật bảo vệ người tiêu dùng nào hay không bằng cách gây rủi ro cho danh tiếng và dữ liệu cá nhân .


Không có ý nghĩa? Bạn không cô đơn. Hãy trình bày thêm một số thông tin cơ bản về việc điều này đã xảy ra như thế nào.


Lập trường mạnh mẽ nhất của FTC về quy định AI được đưa ra vào tháng 4: “Không có sự miễn trừ AI đối với luật trên sách và FTC sẽ thực thi mạnh mẽ luật để chống lại các hành vi gian dối hoặc lừa đảo hoặc các phương pháp cạnh tranh không lành mạnh.”


Sau đó, xảy ra một số vấn đề liên quan đến phỉ báng: Người dẫn chương trình phát thanh Mark Walters đã kiện OpenAI sau khi ChatGPT cáo buộc anh ta lừa gạt một tổ chức phi lợi nhuận và một giáo sư luật đã bị ChatGPT cáo buộc sai về hành vi quấy rối tình dục .


Cả hai kịch bản này đều gây hại cho những người liên quan và tôi đồng cảm với điều đó. Tuy nhiên, có một thực tế là các mô hình ngôn ngữ (như GPT) và các sản phẩm được xây dựng trên chúng (như ChatGPT) “ảo giác” và thường không chính xác.


Nửa đầu tiền đề của FTC cho cuộc điều tra là — ChatGPT gây ảo giác và do đó tạo ra tổn hại về mặt uy tín.


Trong một phiên điều trần sôi nổi trước Quốc hội, một đại diện (đúng ra phải) hỏi FTC tại sao họ lại theo đuổi hành vi phỉ báng và phỉ báng, những hành vi thường được xử lý theo luật tiểu bang. Chủ tịch FTC Lina Khan đưa ra một lập luận phức tạp :


Khan trả lời rằng phỉ báng và phỉ báng không phải là trọng tâm của việc thực thi FTC, nhưng việc lạm dụng thông tin cá nhân của mọi người trong đào tạo AI có thể là một hình thức gian lận hoặc lừa dối theo Đạo luật FTC.


“Chúng tôi tập trung vào, 'Có thương tích đáng kể cho mọi người không?' Chấn thương có thể trông muôn hình vạn trạng,” Khan nói.


Để kết thúc lập luận đầy đủ — FTC đang nói rằng ảo giác của ChatGPT tạo ra thông tin không chính xác (bao gồm cả phỉ báng), sau đó có thể là một hình thức lừa dối người tiêu dùng .


Ngoài ra, thông tin cá nhân nhạy cảm của người dùng có thể đã bị sử dụng/rò rỉ (dựa trên một lỗi mà OpenAI đã nhanh chóng khắc phục).


Là một phần của cuộc điều tra, FTC đã yêu cầu một danh sách dài những thứ từ OpenAI — từ chi tiết về cách mô hình của họ được đào tạo đến nguồn dữ liệu họ sử dụng cho đến cách họ định vị sản phẩm của mình cho khách hàng đến các tình huống mà việc phát hành mô hình đã bị tạm dừng vì của các rủi ro đã xác định.


Câu hỏi đặt ra là - Có phải cách tiếp cận tốt nhất để FTC điều chỉnh những gì được cho là sẽ trở thành một trong những công ty AI lớn nhất, đặc biệt là với bối cảnh pháp lý hiện tại?

Bối cảnh pháp lý ngày nay mà chúng tôi hoạt động

Để phê bình chiến lược của FTC với OpenAI, thật hữu ích khi hiểu bối cảnh pháp lý mà chúng ta đang hoạt động ngày nay. Chúng ta sẽ không đi sâu vào chi tiết, nhưng hãy làm điều này một cách ngắn gọn với lịch sử chống độc quyền làm ví dụ:


  • Vào những năm 1900, các tập đoàn lớn (“quỹ tín thác”) ra đời và cán cân quyền lực công-tư chuyển sang các công ty này.


  • Đáp lại, Đạo luật Sherman năm 1890 đã được thông qua để tăng cường kiểm tra quyền lực tư nhân và duy trì sự cạnh tranh; luật này được sử dụng để kiện tụng và phá vỡ các “quỹ tín thác” tham gia vào các hoạt động chống cạnh tranh (định giá theo kiểu săn mồi, thỏa thuận giữa các tập đoàn, độc quyền phân phối).


  • Vào khoảng những năm 1960, các thẩm phán phải đối mặt với nhiều phản ứng dữ dội vì xét xử dựa trên tinh thần của luật thay vì văn tự của luật; ví dụ: diễn giải luật Sherman để xác định xem một nhóm công ty “hạn chế thương mại một cách bất hợp lý” có liên quan đến tính chủ quan hay không và các thẩm phán bị buộc tội tham gia vào hoạt động tư pháp.


  • Để giới thiệu tính khách quan, Trường phái Chicago đã đi tiên phong trong tiêu chuẩn phúc lợi của người tiêu dùng - “tòa án chỉ nên được hướng dẫn bởi phúc lợi của người tiêu dùng” (ví dụ: việc độc quyền tăng giá một cách trắng trợn là sai nhưng đối với các hoạt động khác, trách nhiệm chứng minh thuộc về các cơ quan quản lý chứng minh tác hại của người tiêu dùng.)


  • Điều này tiếp tục là tiêu chuẩn ngày nay và là một trong những lý do khiến FTC và DOJ gặp khó khăn trong việc hạ bệ công nghệ lớn — ví dụ: FTC không thể đưa ra lập luận rằng Google đang tăng giá vì hầu hết các sản phẩm của họ đều miễn phí, ngay cả khi Google đang tham gia vào các hoạt động chống cạnh tranh khác.


Bài học rút ra từ điều này là - ngày nay chúng tôi tiếp tục hoạt động trong bối cảnh các vụ việc được kiện tụng chủ yếu dựa trên “văn bản luật” chứ không phải “tinh thần luật”. Điều này, cùng với thành phần của Tòa án Tối cao Hoa Kỳ ngày nay, đã dẫn đến những diễn giải luật khá bảo thủ.


Điều này có ý nghĩa gì đối với FTC là nắm bắt thực tế của bối cảnh này và tìm ra cách để thắng kiện . Mô hình hoạt động của FTC và DOJ (đúng như vậy) là theo đuổi một số vụ án lớn và đưa ra các biện pháp thực thi khắc nghiệt để phần lớn các công ty phải suy nghĩ kỹ trước khi vi phạm pháp luật.


Để làm được điều đó, FTC cần thắng lớn trong một số vấn đề và FTC cần có một chiến lược thắng lợi trong những hạn chế của bối cảnh pháp lý hiện tại .

Tại sao cách tiếp cận của FTC theo đuổi OpenAI lại là một bước đi sai lầm

FTC đã có một chuỗi thua lỗ trước Big Tech và tôi cho rằng tất cả những tổn thất đó đều có thể là do chiến lược “chúng tôi ghét mọi thứ công nghệ lớn” thất bại, “chúng tôi ghét mọi thứ công nghệ lớn”, không dùng dao mổ để tiếp nhận các công ty này.


Ví dụ: FTC đã thực hiện một cách tiếp cận vũ phu để ngăn chặn thương vụ mua lại Microsoft-Activision trị giá 69 tỷ đô la và bị mất (tôi muốn nói là khá tệ). FTC lập luận rằng việc Microsoft mua lại Activision sẽ giết chết sự cạnh tranh trên thị trường game.


Thẩm phán đã viết một phán quyết khá thẳng thừng loại bỏ tất cả các lập luận của FTC; đây là một trong những nhận xét của thẩm phán:


Không có tài liệu nội bộ, email hoặc cuộc trò chuyện nào mâu thuẫn với ý định đã nêu của Microsoft là không biến Call of Duty trở thành độc quyền cho bảng điều khiển Xbox. Mặc dù đã hoàn thành việc khám phá sâu rộng trong thủ tục hành chính của FTC, bao gồm việc sản xuất gần 1 triệu tài liệu và 30 bản ký gửi, FTC vẫn chưa xác định được một tài liệu nào mâu thuẫn với cam kết đã tuyên bố công khai của Microsoft về việc cung cấp Call of Duty trên PlayStation (và Nintendo Switch). ).


Một trường hợp bạo lực khác là nỗ lực của FTC nhằm ngăn chặn việc Meta mua lại công ty VR Inside và họ đã thua . Tại sao họ theo đuổi điều này? Họ muốn thử nghiệm để xem liệu có muốn ngăn chặn việc mua lại trước khi một thị trường cụ thể trở nên lớn hay không và với bối cảnh pháp lý hiện tại, điều đó không có gì đáng ngạc nhiên.


Vấn đề với cuộc điều tra OpenAI của FTC cũng tương tự:

  1. Họ đang theo đuổi (theo ý kiến của tôi) là một vấn đề khá tầm thường và là hạn chế đã biết của các mô hình ngôn ngữ - ảo giác; thay vào đó, họ nên tập trung vào các vấn đề AI thực tế quan trọng trong khoảng thời gian 5–10 năm, chẳng hạn như Bản quyền.


  2. Mặc dù có nhiều cách tiếp cận pháp lý “sáng tạo” bị loại bỏ trong bối cảnh pháp lý hiện tại, nhưng họ đang cố gắng lập luận một cách sáng tạo khác: ảo giác → phỉ báng → lừa dối người tiêu dùng.


Cách giải thích hào phóng về hành động của họ là họ muốn tạo tiền lệ cho lập trường “AI không được miễn trừ khỏi các luật hiện hành” và cuộc rượt đuổi ngông cuồng này mang lại cho họ một lượng lớn dữ liệu tự báo cáo từ OpenAI (FTC phát hành 20 trang của hỏi ).


Tuy nhiên, với hồ sơ theo dõi của họ về việc liên tục theo đuổi bạo lực/bất kỳ thứ gì thuộc về công nghệ lớn đều là cách tiếp cận không có tính cạnh tranh + kết hợp những điều đó với lập luận sáng tạo liên tục bị bác bỏ tại tòa án, tôi tin rằng FTC đã không đạt được lợi ích từ sự nghi ngờ trong trường hợp này.

Phần kết luận

Tôi hoàn toàn nghĩ rằng OpenAI nên được quy định. Không phải vì LLM của họ bị ảo giác (tất nhiên là có) mà vì họ ngang nhiên sử dụng nội dung của người sáng tạo mà không được phép. Không phải vì nó sẽ thay đổi quá khứ mà vì nó sẽ giúp chủ sở hữu nội dung thiết lập một tương lai lành mạnh, nơi bản quyền của họ không thể bị vi phạm một cách trắng trợn.


Nhưng FTC đang lặp lại những bước đi sai lầm của mình với cách tiếp cận không dùng búa. Có một tiền lệ rõ ràng về những thành công chống lại công nghệ lớn bằng cách tiếp cận dao mổ, trong đó đáng chú ý nhất là Cơ quan Cạnh tranh và Thị trường của Vương quốc Anh.


Hai vụ kiện lớn mà họ thắng Google đều tập trung vào các cơ chế chống cạnh tranh cụ thể: ngăn Google cung cấp ưu đãi cho sản phẩm của chính họ trong ngăn xếp AdTech và cho phép các nhà cung cấp dịch vụ thanh toán khác thanh toán trong ứng dụng.


Nếu FTC tiếp tục đi theo con đường hiện tại, chuỗi thua lỗ của nó sẽ khuyến khích các công ty công nghệ tiếp tục làm bất cứ điều gì họ muốn vì họ biết rằng họ có thể thắng trước tòa. Đã đến lúc FTC phản ánh về những thất bại của mình, học hỏi từ những thành công của các cơ quan quản lý khác và sửa chữa.


🚀 Nếu bạn thích tác phẩm này, hãy cân nhắc đăng ký nhận bản tin hàng tuần của tôi . Mỗi tuần, tôi xuất bản một bài phân tích chuyên sâu về chủ đề công nghệ/chiến lược sản phẩm hiện tại dưới dạng bài đọc 10 phút.


Tốt nhất, Viggy.


Cũng được xuất bản ở đây

L O A D I N G
. . . comments & more!

About Author

Viggy Balagopalakrishnan HackerNoon profile picture
Viggy Balagopalakrishnan@viggybala
Product person at heart. Writing weekly in-depth analyses of tech/business topics at thisisunpacked.substack.com.

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...