주요 시사점
- 소셜 미디어 플랫폼은 개인 정보 보호 문제에도 불구하고 생성 AI 모델 교육을 위해 AI 회사에 사용자 데이터를 판매하고 있습니다.
- Meta, Reddit, Tumblr, WordPress.com과 같은 플랫폼은 AI 훈련을 위한 데이터 라이선스 계약에 적극적으로 참여하고 있습니다.
- 사용자는 개인 정보 보호 설정 조정, 공유 거부, 온라인 게시 내용 주의 등 데이터를 보호하기 위해 몇 가지 작은 조치를 취할 수 있습니다.
소셜 미디어 회사가 사용자 데이터로 수익을 창출하는 최신 방법 중 하나는 AI 회사와의 거래를 통해서입니다. 하지만 일반 사용자가 자신의 데이터와 콘텐츠를 보호하기 위해 할 수 있는 일이 있을까요?
생성적 AI 모델을 훈련하기 위해 소셜 미디어 데이터를 사용하는 것은 논란의 여지가 있지만 이것이 소셜 미디어 회사가 사용자 데이터를 배포하는 것을 막지는 못하는 것 같습니다.
Meta는 이미 소셜 미디어 데이터를 사용하여 2023년 Meta Connect에서 발표된 생성 AI 기능을 훈련합니다. 여기에는 Meta AI와 WhatsApp에서 AI 생성 스티커 만들기와 같은 기능이 포함됩니다.
Meta의 제품 관리 이사인 Mike Clark는 다음과 같이 말했습니다. 메타뉴스룸 게시물:
“사진과 텍스트를 포함하여 Instagram과 Facebook에서 공개적으로 공유된 게시물은 우리가 Connect에서 발표한 기능의 기반이 되는 생성 AI 모델을 훈련하는 데 사용된 데이터의 일부였습니다.”
이러한 추세는 2024년에도 둔화될 것으로 보이지 않습니다. 로이터Reddit은 소셜 미디어 플랫폼의 콘텐츠를 AI 모델 교육에 사용할 수 있도록 하기 위해 Google과 계약을 체결했습니다.
Reddit의 S-1 제출 2024년 2월 22일에 제출된 IPO를 통해 회사가 라이선스 계약을 모색하고 있음을 확인했습니다. 서류에는 다음과 같이 명시되어 있습니다.
“Reddit 데이터는 현재 AI 기술과 많은 LLM 구축의 기초가 되는 부분입니다. 우리는 Reddit의 방대한 대화 데이터 및 지식 모음이 LLM 교육 및 개선에 계속해서 역할을 할 것이라고 믿습니다.”
이는 Reddit이 LLM을 교육하기 위해 “우리 플랫폼에서 과거 및 실시간 데이터를 검색, 분석 및 표시할 수 있는 액세스 권한을 제3자에게 허용하는 초기 단계에 있다”고 명시합니다.
Meta와 Reddit은 소셜 미디어에서 가장 큰 이름 중 일부이지만 AI 교육을 위해 소셜 미디어 데이터를 사용하는 유일한 플랫폼은 아닙니다. 에 따르면 404미디어의 보도Tumblr 및 WordPress.com은 Midjourney 및 OpenAI에 사용자 데이터를 판매할 준비를 하고 있습니다.
Facebook, Instagram, Reddit, Tumblr 또는 WordPress.com을 사용하는 경우 공개적으로 사용 가능한 콘텐츠가 이미 LLM 교육에 사용되었을 가능성이 있습니다.
예를 들어, 워싱턴 포스트의 검색 도구 Bard 교육의 일부로 사용된 Google의 C4 데이터 세트에 어떤 사이트가 포함되었는지 확인하려면 Reddit.com이 790만 개의 토큰을 차지하는 것을 볼 수 있습니다.
Tumblr.com은 160만 개의 토큰을 보유하고 있습니다. WordPress.com을 사용하는 내 소규모 웹사이트는 14,000개의 토큰을 차지하므로 소규모 개인 블로그가 데이터 세트에 포함되었을 수 있습니다.
AI 기업과 소셜 미디어 기업 사이에 진행 중인 거래와 함께 라이선스 계약은 이 데이터가 웹에서 단순히 스크랩되는 것이 아니라 적극적으로 판매된다는 것을 의미합니다.
하지만 향후 처리에 관해서는 어떻게 할 수 있습니까? 메타가 도입한 생성적 AI 데이터 주체 권리 양식 이를 통해 귀하는 Meta의 생성 AI 모델 교육을 위해 제3자가 귀하의 개인 데이터를 처리하는 것에 반대하거나 제한할 수 있습니다.
특히, 이 옵션을 사용하면 생성 AI 훈련을 위해 Meta가 자체적으로 데이터를 처리하는 것에 반대할 수 없습니다. 또한, 양식을 사용하여 내 개인 데이터 사용에 반대하는 티켓을 제출했을 때 지원 티켓에는 내 개인 정보가 이미 Meta의 생성 AI 결과에 나타나고 있음을 증명하도록 요구했습니다.
Tumblr는 블로그 설정을 사용하여 공개 블로그 콘텐츠를 제3자와 공유하지 않도록 선택할 수 있는 옵션도 도입했습니다. 블로그를 클릭하고 공개 설정까지 아래로 스크롤하여 설정에서 찾을 수 있습니다. 그런 다음 블로그에 대한 제3자 공유 방지를 선택합니다.
Instagram과 같은 플랫폼의 경우 데이터 사용을 방지하기 위해 Instagram 계정을 비공개로 전환할 수 있습니다. 이것이 귀하의 데이터가 사용되지 않는다는 것을 보장하지는 않지만 LLM에 대한 데이터 스크래핑은 공개 데이터에 초점을 맞추는 것처럼 보이므로 잠재적인 보호 장치가 될 수 있습니다.
X(Twitter) 계정을 비공개로 설정할 수도 있지만 이는 잠재적인 보호 수단일 뿐이며 데이터가 비공개로 유지된다는 보장은 없습니다.
ㅏ 공동 성명 다양한 국가 정보 위원회와 전 세계 전문가들은 AI 회사의 데이터 스크랩으로 인한 개인 정보 보호 위험을 최소화하려는 개인을 위한 몇 가지 조치를 제안했습니다. 조언에는 다음이 포함됩니다.
- 귀하의 개인정보가 어떻게 공유되는지 알아보려면 해당 웹사이트의 이용약관 및 개인정보 보호정책을 읽어보세요.
- 온라인에 게시하는 정보, 특히 민감한 정보를 제한하세요.
- 개인 정보 보호 설정을 관리하세요.
- 온라인에서 공유하는 정보에 대해 장기적으로 생각해 보세요.
- 귀하의 데이터가 부적절하게 삭제되었다고 생각되면 소셜 미디어 회사나 웹사이트에 문의하세요. 답변이 만족스럽지 않은 경우 관련 데이터 보호 당국에 불만사항을 제기하세요.
제3자가 특정 정보에 액세스하는 것이 불편할 경우 온라인에서 특정 정보를 삭제할 수도 있습니다. 단, 귀하의 프로필에서 공개적으로 사용 가능한 정보는 이미 삭제되었을 수 있습니다.
안타깝게도 일반 사용자가 AI 회사로부터 데이터를 보호하기 위해 할 수 있는 일은 한계가 있습니다. 이 정보에 대한 실질적인 통제는 규제 기관의 도움을 통해서만 이루어질 수 있습니다.