paint-brush
훈련 데이터가 형편없다면 AI 자체도 형편없다~에 의해@mytiki
751 판독값
751 판독값

훈련 데이터가 형편없다면 AI 자체도 형편없다

~에 의해 mytiki.com5m2023/05/31
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

훈련 데이터가 너무 많아서 짜증나. 훈련 데이터 수집과 질레트 면도기 판매 사이의 상관 관계를 파헤친 적은 없지만 거기에 뭔가가 있을 것이라고 상상합니다. 게다가 가격도 비싸다.

People Mentioned

Mention Thumbnail
featured image - 훈련 데이터가 형편없다면 AI 자체도 형편없다
mytiki.com HackerNoon profile picture
0-item
1-item
2-item

한 남자가 불면증에 타협하고 오전 4시 30분에 침대에서 굴러나옵니다. 태양이 매일 데뷔하려면 몇 시간이 남았지만, 이 남자에게는 그런 것이 중요하지 않습니다. 면도할 필요가 없습니다. 그는 4일 동안 집에 없었어요. 그는 즉시 담배에 불을 붙입니다. 원산지가 알려지지 않은 손으로 말아 만든 담배입니다. 그는 라디오를 켰다. 즉시 꺼집니다. 이 순간은 침묵할 가치가 있습니다. 거울을 응시합니다. 적나라한. 벌거벗은 벅. 자기 자신을 들여다본다. 자신에게 깊이. 담배를 손등에 비비고 변기에 던진다. 마침내, 그의 뇌 속에서 덜컥거리는 말이 그의 입술 사이로 격분하여 중얼거렸다. "우리 훈련 데이터가 존나 형편없어."


그리고 가격도 비싸다!


보세요, 모두와 그들의 할머니는 AI가 거대하다는 것을 알고 있습니다. 아마도 당신의 할머니는 당신보다 Snapchat AI와 더 많이 대화할 것입니다. 어느 쪽이든 AI는 확실히 엔터테인먼트 요소를 제공하지만 무엇보다도 완전히 유용 할 수 있습니다. 그리고 기업들은 전례 없는 속도로 AI 이니셔티브를 채택하고 있습니다. 나는 세상에 AI의 성장에 대한 또 다른 블로그가 필요하지 않다는 것을 알고 있지만 잠시 후에 혼합하겠습니다.


먼저, 1923년에는 기업의 0%만이 인공 지능을 조직의 최우선 순위로 여겼습니다. 우와. 2020년까지 설문조사에 참여한 IT 전문가 중 54%가 AI에 높은 우선순위를 두었습니다. 2022년 말까지 그 수치는 69%(좋음)로 증가했는데 , 이는 불과 2년 만에 15% 증가한 수치입니다.


그러나 AI/ML 사용자의 거의 절반(47%)이 지난 2년 동안 이니셔티브를 시작했으며 조사 대상자의 78%가 아이디어 단계를 거쳐 실행에 들어갔습니다. 이것은 무엇을 의미 하는가? 통계적으로 말하면, AI 프로그램과 이니셔티브를 실행하는 기업 중에는 해당 분야에 완전히 초보자이고 자신이 무엇을 하고 있는지 전혀 모르는 기업이 많이 있습니다. 그 47% 중 몇 퍼센트가 저 늙은 개 화학자 밈인가요? 글쎄, 나는 당신을 위해 대답할 수 없습니다. 제가 말씀드릴 수 있는 것은 기업의 AI/ML 여정에서 보고된 가장 큰 과제는 숙련된 인재 부족(67%)이고, 알고리즘 및 모델 실패(61%)라는 것입니다. AI 도입 시 가장 많이 보고되는 장벽은 구현 비용입니다. 그리고 AI 예산의 가장 큰 부분을 차지하는 것은 무엇입니까? 훈련 데이터를 소싱하고 구현하며 예산의 13%를 확인합니다.


많은 데이터가 완전히 불량 합니다. 신뢰할 수 없고 관리하기 어려우며 AI가 세탁된 데이터에 대해 훈련을 받는 것이 전적으로 가능합니다. 즉, 모델을 훈련하는 데 사용되는 데이터가 이미 개략적인 데이터에 대해 훈련된 다른 AI 모델에서 가져온 것임을 의미합니다. 이 용어를 소개한 Olga Mack 에게 감사의 말을 전하세요.


따라서 데이터는 나쁘고 비용이 많이 들며 중고품 가게에서 구입한 오타가 있는 티셔츠(내 친구의 Nomar "Garciapara" Red Sox 셔츠라고 외침)와 같을 수 있으며 AI를 구현하는 수많은 기업이 새로운 것입니다. 지속 가능한 상태를 유지하는 것은 고사하고 일을 작동시키는 데 필요한 자원과 재능도 부족합니다.


이를 위해 무려 87%의 경영진이 더 높은 품질의 교육 데이터에 더 많은 비용을 지불할 의향이 있으며 , 66%는 교육 데이터에 대한 필요성이 증가할 것으로 예측한 반면, 0%는 감소할 것으로 예측했습니다. 이는 제가 1923년에 실시한 가상 설문 조사에 비해 0% 증가한 수치입니다.


더 많은 숫자를 말씀하시나요? 더 많은 전화번호를 받게 됩니다. 2022년 인공지능에 대한 전 세계 지출은 약 1,180억 달러였습니다 . 2026년에는 그 규모가 3000억 달러에 이를 것으로 예상된다. 3000억 달러의 13%는…390억 달러입니다. 이제 나는 이것이 정확히 통계가 작동하는 방식이 아니라는 것을 알고 있으므로 나를 괴롭히지 마십시오. 그러나 간단히 말해서 AI 훈련 데이터에 대한 글로벌 지출은 수십억 달러 규모의 산업입니다. 이들 임원 중 66%가 교육 데이터에 대한 필요성이 증가할 것으로 예상하고 87%가 더 높은 품질의 데이터를 위해 더 많은 비용을 지출할 의향이 있다는 점을 고려하면…글쎄, 요점을 알 수 있습니다.

더 많은 요인

게다가 2023년에는 신뢰할 수 있는 데이터를 확보하는 능력이 과거보다 훨씬 더 어려워졌습니다. GDPR 및 CCPA와 같은 개인 정보 보호 계획은 소비자 데이터를 보호하는 것을 목표로 합니다. Google 및 Apple과 같은 주요 기술 기업은 제3자 데이터 수집을 점점 더 어렵게 만들고 있습니다. 진행 중인 법적 싸움은 AI 훈련 데이터를 최우선으로 하고 있으며, AI 훈련을 위해 웹 데이터를 스크랩하고 이를 "공정한 사용"이라고 주장하는 것이 과거의 일이 될 위험에 처해 있다는 대중적인 정서가 있습니다. 적절한 비교는 2000년대 초반의 Napster 사태를 들 수 있습니다. 당시 Napster가 저작권 자료와 지적 재산의 불법 공유에 의해 구동되었다는 것이 분명했지만 AI를 사용하는 기업은 유사한 궤적을 고려해야 합니다. 모래는 모래시계를 통해 걸러질 수 있으며, Metallica의 "To Whom the Bell Tolls"는 AI 계획의 미래를 보장하기 위한 노력을 기울이지 않은 사람들을 위해 재생될 가능성이 높습니다.

새로운 스포티파이

그렇다면 해결책은 무엇입니까? 글쎄, 그것은 복잡하다. 그러나 Napster의 잿더미에서 Kazaa와 Limewire가 Spotify를 탄생시켰습니다. Spotify는 불법 복제보다 더 나은 것을 구축한다는 전제하에 운영되었습니다. 여기에는 Spotify 플랫폼에서 스트리밍되는 콘텐츠에 대한 라이선스를 적절하게 부여하기 위해 음반사 및 대행사와의 거래가 포함되었습니다. AI에도 같은 일이 가능할까? 우리는 그렇게 생각합니다. 소비자의 85%는 쿠폰이나 할인을 위해 데이터를 교환합니다. 이는 사용자의 참여를 장려하는 데이터 수집 모델의 길을 열어 AI 교육을 포함하여 다양한 용도로 사용할 수 있는 귀중한 제로 파티 데이터를 생성합니다. 우리는 제로 파티 데이터에 라이선스를 부여하는 무언가를 구축했으며 기업이 라이선스가 부여된 제로 파티 데이터를 다시 나열할 수 있도록 Snowflake와 협력하여 기능도 구축했습니다. 더 높은 품질의 훈련 데이터에 대한 욕구를 바탕으로, 이는 고객 충성도를 구축할 수 있는 추가 수익원에 대한 엄청난 기회가 될 수 있습니다. 하지만 브랜드 같은 것은 충분합니다. 여기에서 자세한 내용을 알아볼 수 있습니다.

요약하자면…

훈련 데이터가 너무 많아서 짜증나. 나는 훈련 데이터 수집과 질레트 면도기 판매 사이의 상관 관계를 파헤치지 않았지만 거기에 뭔가가 있을 것이라고 상상합니다. 게다가 가격도 비싸다. 점점 더 많은 기업이 AI 구현에 시간과 리소스를 투자하고 있지만, 이들 중 많은 기업이 이 분야에 익숙하지 않고 이니셔티브를 최적화하기 위한 적절한 팀, 인프라, 품질 데이터가 부족합니다. 법적 분쟁으로 인해 AI 훈련 데이터 소싱 및 수집의 "기존 방식"이 엉망이 되었고, 개인 정보 보호 정책으로 인해 기업이 비즈니스를 촉진하는 데 필요한 데이터를 수집하는 것이 점점 더 어려워졌습니다. 스포티파이 같은 기업에서 영감을 얻으려고 하면 법적 측면을 극복할 수 있는 것으로 알려져 있다. 데이터 공유에 대한 소비자의 정서와 브랜드 경험의 더 많은 개인화 및 맞춤화에 대한 욕구를 고려하여 우리는 재판매를 위한 제로 파티 데이터 라이선스에 대한 거대한 시장을 인식했습니다(다른 많은 사용 사례 중에서). 3000억 달러의 13%는 또 얼마죠?


작성자: Shane Faria, 공동 창립자 @TIKI