1,187 판독값

OpenAI의 웹 크롤러와 FTC의 지속적인 실수 살펴보기

~에 의해 Viggy Balagopalakrishnan11m2023/08/18

너무 오래; 읽다

OpenAI는 인터넷을 긁어내기 위해 기본 옵트인 크롤러를 출시하고 FTC는 모호한 소비자 사기 조사를 진행합니다.

featured image - OpenAI의 웹 크롤러와 FTC의 지속적인 실수 살펴보기

OpenAI는 인터넷을 긁어내기 위해 기본 옵트인 크롤러를 출시하고 FTC는 모호한 소비자 사기 조사를 진행합니다.

지난주 Open AI(ChatGPT 제조사)는 공식적으로 웹 크롤러를 발표했습니다. 이는 인터넷상의 모든 웹사이트에서 콘텐츠를 스크랩한 후 AI 모델 훈련에 사용하는 소프트웨어입니다.

크롤러의 존재는 놀라운 일이 아니며 오늘날 전체 인터넷을 색인화하는 Google 크롤러를 포함하여 여러 가지 합법적인 웹 크롤러가 존재합니다.

그러나 OpenAI가 그 존재를 명시적으로 발표한 것은 이번이 처음이며 웹사이트가 스크랩을 거부할 수 있는 메커니즘도 제공했습니다.

크롤러는 기본적으로 선택되어 있습니다 . 즉, 크롤러에게 데이터를 스크랩하지 않도록 요청하려면 웹사이트의 코드를 명시적으로 변경해야 합니다. 선택/해제 기본값은 고정되어 있으며 대부분의 사람들이 기본값을 변경하려는 노력을 기울이지 않기 때문에 대다수의 행동이 무엇인지 결정하는 경우가 많습니다.

Apple의 iOS14 개인 정보 보호 정책 변경이 디지털 광고 산업에 큰 영향을 미친 이유도 마찬가지입니다.

그렇다면 왜 옵트아웃 기능을 제공합니까? 이는 콘텐츠 소유자의 저작권이 침해되었다고 주장하는 회사를 상대로 최근 제기된 소송 에 대응하여 OpenAI의 선제적인 조치일 가능성이 높습니다(자세한 내용은 데이터 스크래핑 에 대한 자세한 기사 참조).

ChatGPT 경쟁자인 Google Bard도 비슷한 문제에 직면해 있지만 Google은 아직 동등한 솔루션을 발표하지 않았습니다. 그들은 이 문제를 해결하기 위해 robots.txt를 업그레이드하는 방법에 대한 의견 요청을 제출했습니다(일부 깔끔한 PR 서체 로 작성됨).

이 기사에서는 다음 사항에 대해 자세히 알아볼 것입니다.

콘텐츠 소유자를 위한 OpenAI 크롤러의 의미

OpenAI에 대한 FTC의 현재 조사

오늘날 우리가 활동하는 법적 환경

OpenAI를 추구하는 FTC의 접근 방식이 (아직 또 다른) 실수인 이유

콘텐츠 소유자를 위한 OpenAI 크롤러의 의미

이번 발표에서는 광고주가 OpenAI 크롤러의 데이터 수집을 차단할 수 있는 옵션을 제공하지만 다음과 같은 몇 가지 사항은 좋지 않습니다.

기본적으로 선택되어 있습니다. 즉, OpenAI는 사이트에서 명시적으로 그렇게 하지 말라고 지시할 때까지 계속해서 스크래핑할 수 있습니다.
동의 없이 모델 교육을 위해 데이터를 스크랩하는 경우 콘텐츠 소유자의 권리에 대해 어떤 식으로든 명확한 법적 판결이 없습니다 (본질적으로 기본 선택을 강요받는 모든 사람의 경우에 해당).

오늘날 언어 모델이 동의 없이 이 모든 데이터를 가져오는 것이 괜찮은지 여부를 결정하는 두 가지 법적 구조, 즉 저작권과 공정한 사용이 있습니다.

저작권은 특정 유형의 콘텐츠에 대한 보호를 제공하지만 분할/예외도 있습니다.

저작권 보호는 이 제목에 따라 현재 알려져 있거나 향후 개발될 유형의 표현 매체에 고정된 저작물의 원본 저작물에 존재하며, 이를 통해 직접적으로 또는 다른 도구의 도움을 받아 인식, 복제 또는 기타 방식으로 전달될 수 있습니다. 기계나 장치.

저작물에는 다음 범주가 포함됩니다. (1) 문학 작품; (2) 동반 가사를 포함한 음악 작품; (3) 반주 음악을 포함한 연극 작품; (4) 무언극 및 안무 작품; (5) 회화, 그래픽, 조각 작품; (6) 영화 및 기타 시청각 저작물 (7) 녹음물; (8) 건축저작물.

(b) 어떠한 경우에도 저작자의 원본 작품에 대한 저작권 보호는 기술, 설명, 예시의 형식에 관계없이 아이디어, 절차, 프로세스, 시스템, 작동 방법, 개념, 원리 또는 발견에까지 적용되지 않습니다. , 또는 그러한 작업에 구현됨

예를 들어, 저작권은 대부분의 독창적인 저작물(예: 특정 주제에 대해 독창적인 블로그 기사나 책을 쓴 경우)을 보호하지만 광범위한 아이디어는 보호하지 않습니다 (예: AI가 데이터 권리에 미치는 영향에 대해 처음으로 글을 쓴 사람이라고 주장할 수 없음) , 따라서 아이디어는 귀하의 것입니다).

저작권 보호의 또 다른 분리/예외는 공정 사용입니다.

비평 , 논평, 뉴스 보도, 교육(수업용 다중 사본 포함), 장학금, 또는 연구는 저작권 침해가 아닙니다.

특정 경우에 저작물의 사용이 공정 사용인지 여부를 결정할 때 고려해야 할 요소는 다음을 포함해야 합니다. (1) 해당 사용이 상업적 성격인지 또는 비영리 교육 목적인지 여부를 포함하여 사용의 목적과 성격 ; (2) 저작물의 성격; (3) 전체 저작물과 관련하여 사용된 부분의 양과 실질량; (4) 저작물의 잠재적 시장 또는 가치에 대한 사용의 효과.

예를 들어, 연구 논문에서 콘텐츠를 선택하여 이에 대한 비평을 작성했다면 괜찮으며 콘텐츠 소유자의 저작권을 침해하지 않습니다. 이 페이지의 다른 기사를 링크하고 해당 기사에서 인용문을 추가하는 경우에도 마찬가지입니다.

이 두 개념은 모두 콘텐츠 소유자의 권리를 보호하는 동시에 특히 교육, 연구 및 비평의 맥락에서 정보의 자유로운 흐름을 허용하기 위해 만들어졌습니다.

저는 법률 전문가는 아니지만 위의 언어에 대한 연구/이해를 토대로 AI 모델이 교육 콘텐츠를 스크랩하는 경우 다음과 같이 모호해집니다 .

AI 회사는 일반적으로 콘텐츠 소유자의 웹사이트(저작권으로 보호됨)에서 전체 텍스트를 긁어내고 모델을 훈련시켜 "아이디어"/"개념"/"원리"(저작권으로 보호되지 않음)를 학습한 다음 최종적으로 모델을 학습시킵니다. 다른 텍스트를 뱉어보세요. 이 경우 콘텐츠 소유자는 저작권 보호를 받을 수 있나요?

학습된 언어 모델이 이제 결국 상업적 목적으로 사용되므로(예: ChatGPT Plus는 유료 제품임) 이는 콘텐츠 소유자의 저작권을 위반하는 것입니까(공정 사용 예외가 더 이상 적용되지 않기 때문에)?

아직 이에 대한 법원 판결이 나오지 않아 어떤 결과가 나올지 예측하기는 어렵습니다. 변호사가 아닌 내 의견은 두 번째가 아마도 착륙하기 더 쉽다는 것입니다. OpenAI는 데이터를 스크랩하여 이를 상용 제품을 만드는 데 사용했기 때문에 공정 사용에 따라 예외를 받지 않습니다.

나는 첫 번째 것(모델이 "아이디어"에 대해 훈련했는가 아니면 그냥 원본 텍스트에 대해 훈련했는가)은 누구나 추측할 것이라고 상상합니다.

콘텐츠 소유자가 승리하려면 두 항목 모두 콘텐츠 소유자에게 유리해야 합니다. 즉, 콘텐츠 소유자는 위의 두 예외("아이디어" 예외 또는 공정 사용 예외)가 모두 OpenAI에 적용되지 않는 경우에만 승리합니다.

콘텐츠 소유자의 권리에서 사기 증폭, 작업 자동화, AGI/인류 파괴에 이르기까지 다양한 AI 위험(비포괄적)에서 가장 시급한 단기 문제는 콘텐츠 소유자의 권리이기 때문에 이러한 미묘한 차이를 언급합니다. 급증하는 소송과 콘텐츠 플랫폼(예: StackOverflow 스토리 )에 미치는 영향이 이를 입증합니다.

FTC와 같은 규제 기관은 실제로 장기적인 문제에 대해 숙고하고 이러한 위험을 해결하기 위한 가상적이고 창의적인 방법을 생각해 낼 수 있지만, 실제 단기 잠재력은 5~10년 내에 우리에게 영향을 미칠 위험을 해결할 수 있는 데 있습니다. 수평선. 저작권 침해 같아요.

FTC가 이에 대해 무엇을 하고 있는지 살펴보겠습니다.

OpenAI에 대한 FTC의 현재 조사

지난 7월 중순 FTC는 OpenAI를 조사 중이라고 발표했습니다. 흥미롭고 실망스러운 점은 FTC가 .

ChatGPT 제작자는 회사가 개인 평판과 데이터를 위험에 빠뜨려 소비자 보호법을 위반했는지 여부를 평가하기 위해 조사를 받고 있습니다.

말이 안 되나요? 당신은 혼자가 아닙니다. 이것이 어떻게 발생했는지에 대한 배경을 좀 더 설명하겠습니다.

AI 규제에 대한 FTC의 가장 강력한 입장은 지난 4월에 나왔습니다. "장부상의 법률에는 AI 면제가 없으며 FTC는 불공정하거나 기만적인 관행 또는 불공정한 경쟁 방법에 맞서기 위해 법을 적극적으로 집행할 것입니다."

그런 다음 몇 가지 명예훼손 관련 문제가 발생했습니다. 라디오 진행자 Mark Walters는 ChatGPT가 OpenAI를 비영리 단체를 속였다고 고발한 후 OpenAI 를 고소했고 법학 교수는 ChatGPT에서 성희롱 혐의로 허위 고발을 받았습니다.

이 두 시나리오 모두 관련된 사람들에게 좋지 않은 일이며 저는 이에 공감합니다. 그러나 언어 모델(예: GPT)과 그 위에 구축된 제품(예: ChatGPT)이 "환각"을 일으키고 종종 부정확하다는 것은 알려진 사실입니다.

FTC의 조사 전제 중 전반부는 ChatGPT가 환각을 일으키고 그에 따라 평판에 해를 끼친다는 것입니다.

열띤 의회 청문회에서 한 대표는 (정당하게) FTC에 일반적으로 주법에 의해 처리되는 명예훼손과 명예훼손을 추구하는 이유를 묻습니다 . FTC 의장 Lina Khan은 다음과 같이 복잡한 주장을 펼치고 있습니다.

Khan은 명예훼손과 명예훼손이 FTC 집행의 초점이 아니지만 AI 훈련에서 사람들의 개인정보를 오용하는 것은 FTC법에 따라 사기나 기만의 형태가 될 수 있다고 답했습니다.

“우리는 '인명 피해가 심각한가?'에 초점을 맞췄습니다. 부상은 온갖 종류의 것처럼 보일 수 있습니다.”라고 Khan은 말했습니다.

전체 주장을 종합하자면 FTC 는 ChatGPT의 환각이 잘못된 정보(명예훼손 포함)를 생성하며 이는 소비자기만의 한 형태일 수 있다고 말합니다.

또한 민감한 사용자 개인 정보가 사용/유출될 수 있었습니다(OpenAI가 신속하게 수정한 버그 하나 에 근거함).

조사의 일환으로 FTC는 OpenAI에 모델 훈련 방법에 대한 세부 정보부터 사용하는 데이터 소스, 제품을 고객에게 포지셔닝하는 방법, 모델 릴리스가 일시 중지된 상황에 이르기까지 다양한 항목을 요청했습니다. 식별된 위험의

문제는 FTC가 특히 현재의 법적 환경을 고려할 때 가장 큰 AI 회사 중 하나가 될 기업을 규제하는 최선의 접근 방식이냐는 것입니다.

오늘날 우리가 사업을 운영하는 법적 환경

OpenAI를 활용한 FTC의 전략을 비판하려면 오늘날 우리가 운영하는 법적 환경을 이해하는 것이 유용합니다. 너무 자세히 설명하지는 않겠지만, 독점금지의 역사를 예로 들어 간략하게 살펴보겠습니다.

1900년대에는 대규모 대기업('신탁')이 등장했고, 민관 권력의 균형이 이들 기업으로 옮겨갔습니다.

이에 대응하여 1890년 셔먼법(Sherman Act)이 통과되어 민간 권력에 대한 견제를 강화하고 경쟁을 보존했습니다. 이 법은 반경쟁적 관행(약탈적 가격 책정, 카르텔 거래, 유통 독점)에 연루된 "신탁"을 소송하고 파기하는 데 사용되었습니다.

1960년대를 전후해 판사들은 법문이 아닌 법의 정신에 따라 재판을 한다는 이유로 많은 반발을 받았다. 예를 들어, 일련의 회사가 "부당하게 거래를 제한"하는지 여부를 결정하기 위해 셔먼 법을 해석하는 것은 주관성을 포함하고 판사는 사법 활동에 연루된 혐의로 기소되었습니다.

객관성을 도입하기 위해 시카고 학파는 소비자 복지 기준을 개척했습니다. "법원은 소비자 복지에 의해서만 지침을 받아야 합니다." 소비자 피해를 입증합니다.)

이는 오늘날에도 계속해서 표준이 되고 있으며 FTC와 DOJ가 거대 기술 기업을 무너뜨리기 위해 애쓰는 이유 중 하나입니다. Google은 기타 반경쟁적 관행에 참여하고 있습니다.

이것에서 얻을 수 있는 점은 — 우리는 사건이 “법의 정신”이 아닌 “법의 문자”에 따라 크게 소송이 제기되는 환경에서 오늘날에도 계속 운영되고 있다는 것입니다. 이는 오늘날 미국 대법원의 구성과 함께 법에 대해 상당히 보수적인 해석을 가져왔습니다.

이것이 FTC에게 의미하는 바는 이러한 현실을 받아들이고 소송에서 승리할 수 있는 방법을 찾는 것 입니다. FTC와 DOJ의 운영 모델(당연히 그렇습니다)은 소수의 큰 사건을 조사하고 가혹한 집행을 내려 기업의 롱테일(Long tail)이 법을 위반하기 전에 두 번 생각하도록 하는 것입니다.

이를 실현하려면 FTC는 몇 가지 문제에서 큰 승리를 거두어야 하며 현재 법적 환경의 제약 내에서 승리하는 전략이 필요합니다.

OpenAI를 추구하는 FTC의 접근 방식이 (또 다른) 실수인 이유

FTC는 거대 기술 기업에 대해 연속적인 손실을 입었고, 저는 그 손실이 모두 "우리는 거대 기술을 모두 싫어합니다", 즉 이들 기업을 인수하는 망치가 아닌 망치 전략의 실패에 기인할 수 있다고 주장하고 싶습니다.

예를 들어, FTC는 690억 달러 규모의 Microsoft-Activision 인수를 막기 위해 무차별적인 접근 방식을 취했지만 패 했습니다(아주 나쁘다고 말하고 싶습니다). FTC는 마이크로소프트가 액티비전을 인수하면 게임 시장에서 경쟁이 사라질 것이라고 주장했다.

판사는 FTC의 주장을 모두 배격하는 상당히 직설적인 판결을 내렸습니다. 판사의 의견 중 하나는 다음과 같습니다.

Call of Duty를 Xbox 콘솔 전용으로 만들지 않겠다는 Microsoft의 명시적인 의도와 모순되는 내부 문서, 이메일 또는 채팅은 없습니다. 약 100만 개의 문서 작성과 30개의 증언을 포함하여 FTC 행정 절차에서 광범위한 발견이 완료되었음에도 불구하고 FTC는 PlayStation(및 Nintendo Switch)에서 Call of Duty를 제공하겠다는 Microsoft의 공개 약속과 모순되는 단 하나의 문서도 확인하지 못했습니다. ).

또 다른 무차별 대입 사건은 FTC가 Meta의 VR 회사 Within 인수를 막으려는 시도였으며 그들은 패소했습니다 . 그들은 왜 이것을 추구했는가? 그들은 특정 시장이 커지기 전에 인수를 차단하려는 욕구가 있는지 확인하기 위해 물을 테스트하고 싶었고 현재의 법적 환경을 고려할 때 당연히 폐기되었습니다.

FTC의 OpenAI 조사 문제도 비슷합니다.

현재의 법적 환경에서 여러 가지 "창의적인" 법적 접근 방식이 폐기되고 있음에도 불구하고 그들은 환각 → 명예 훼손 → 소비자기만이라는 또 다른 창의적인 주장을 시도하고 있습니다.

그들의 행동에 대한 관대 한 해석은 그들이 "AI는 기존 법률에서 면제되지 않는다"는 입장에 대한 선례를 만들고 싶어하며 이러한 기습을 통해 OpenAI에서 자체 보고된 많은 양의 데이터를 얻는다는 것입니다(FTC는 20페이지의 보고서를 발행합니다). 묻는다 ).

그러나 반복적으로 무차별 대입/큰 기술을 추구하는 것은 비경쟁적인 접근 방식 + 법원에서 반복적으로 기각되고 있는 창의적인 주장과 결합한 기록을 고려할 때 FTC가 이 사건에서 의심의 이점을 얻지 못했다고 생각합니다.

결론

그러나 FTC는 망치가 아닌 메스 접근 방식으로 실수를 반복하고 있습니다. 메스 접근 방식으로 거대 기술 기업을 상대로 성공을 거둔 명확한 선례가 있으며, 가장 주목할만한 것은 영국의 경쟁 및 시장 당국입니다.

Google을 상대로 승리한 두 가지 큰 소송은 Google이 AdTech 스택에서 자체 제품에 우대를 제공하는 것을 막고 다른 결제 제공업체에서 인앱 결제를 허용하는 구체적인 반경쟁 메커니즘에 초점을 맞췄습니다.

FTC가 현재의 길을 계속 간다면, 연이은 손실로 인해 기술 회사들은 법정에서 승리할 수 있다는 것을 알기 때문에 원하는 것은 무엇이든 계속할 수 있도록 대담해질 것입니다. 이제 FTC가 자신의 실패를 반성하고, 다른 규제 기관의 성공에서 교훈을 얻어 방향을 바로잡을 때입니다.

🚀 이 글이 마음에 드셨다면 제 주간 뉴스레터 구독을 고려해 보세요. 매주 저는 현재 기술 주제/제품 전략에 대한 심층 분석을 10분 분량의 읽기 형식으로 게시합니다.

최고야, 비기.

여기에도 게시됨