컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
ITWorld 언론사 이미지

끝나지 않은 대역폭 악몽…생성형 AI 크롤러가 불러온 비용 재앙

ITWorld
원문보기

온라인 스크레이퍼 봇이 생성형 AI 모델 학습을 위해 웹을 뒤지며 콘텐츠를 수집하고 있다는 사실은 더 이상 놀랍지 않다. 이 과정에서 크롤링을 거부한 기업조차 막대한 대역폭 요금을 부담하게 되는 상황이 이어지고 있다. 놀라운 사실은 LLM 개발사가 신원이 확인되지 않는 브라우저나 기타 다양한 우회 수단을 동원해 책임을 회피하려 한다는 점이다.


이런 상황 자체도 심각하지만, 그 이면에는 더 중대한 문제가 존재한다. 웹 초창기부터 수십 년간 지속된 불평등 구조다. 문제 자체는 단순하지만, 해결은 결코 쉽지 않다. 오랫동안 기업은 비즈니스 측면의 이유로 이 문제를 외면하고 있다.


웹 초창기부터 호스팅 기업은 사용량 기반으로 기업에 대역폭 요금을 부과했다. 겉으로 보기에는 공정한 방식이다. 그러나 문제는 기업이 대역폭 사용을 통제할 수 있는 방법이 제한적이며, 동시에 한정된 예산 안에서 운영해야 한다는 데 있다.


즉, 기업의 대역폭 예산은 일반적인 트래픽 수준을 기준으로 책정된다. 그러나 소셜미디어에서 누군가가 게시물을 올리고, 그것이 바이럴을 타면서 대규모 방문자가 사이트로 몰리면 대역폭 비용이 급등하게 된다. 이렇게 되면 기업은 무한정의 비용 부담을 떠안아야 하는 것일까?


여기서부터 문제는 복잡해진다. 다양한 산업 분야의 기업은 대규모 트래픽 증가가 매출 증가로 이어질 것이라는 기대감으로 이 상황을 감내했다. 따라서 대부분 기업은 그동안 대역폭 비용 증가에 크게 문제를 제기하지 않았다.


그러나 이후 검색 엔진 스파이더가 등장했다. (스파이더, 브라우저, 크롤러는 모두 동일한 개념으로, 웹을 자동으로 탐색하고 정보를 수집하는 봇을 의미한다.) 검색 엔진 스파이더 역시 대역폭을 소모했지만, 당시 기업은 검색 트래픽이 도움이 될 것이라는 전제로 이를 받아들였다. 고객과 신규 잠재 고객을 사이트로 유입시키는 효과가 있었기 때문이다.


대부분의 검색 엔진 스파이더는 웹사이트 소유자가 방문 가능 여부와 크롤링 할 수 있는 페이지를 명시한 robots.txt 지침을 존중했다. 검색 서비스 업체들은 대부분 사이트가 자신의 방문을 환영한다는 점을 알고 있었기 때문에, 이런 제한 규정을 어느 정도 준수했다.


이제 오늘날 상황을 보자. 현재 LLM 개발사는 여러 은밀한 기술적 수단을 동원해 사이트 소유자가 내건 ‘접근 금지’ 신호를 무시하고 있다. LLM 개발사의 크롤러는 인간 방문자나 기존 검색 엔진 스파이더처럼 사이트에 긍정적인 가치를 제공하지 않는다. 기업 사이트에 신규 고객이나 잠재 고객을 유입시키는 대신, 데이터를 무단으로 수집하고 이를 자사 애플리케이션 개발에 활용해 타사에 판매하는 데 사용한다.


이런 크롤링으로 인해 웹사이트 소유자는 대역폭 사용량 증가에 따른 비용 부담만 커질 뿐, 실질적인 이득은 얻지 못한다. 주요 LLM 개발사 대부분은 이런 행위를 부인하고 있다. 실제로 공식적으로 등록되지 않은 크롤러를 통해 주요 작업을 수행하고 있기 때문이다. 또한 최근 보도한 바와 같이, 이들은 법적 책임을 교묘하게 피하도록 설계된 방식으로 데이터를 수집한다.


이 문제를 해결하려는 움직임도 있다. 대표적으로 클라우드플레어(Cloudflare)는 무단 크롤러를 유인하고 차단하는 허니팟(honey pot) 솔루션을 제공해 큰 인기를 얻고 있다.


그러나 다시 강조하자면, 진정한 문제는 기업이 자신들이 통제할 수 없는 대역폭에 무한정의 비용을 지불하는 것에 사실상 동의해 왔다는 점이다. 수십 년 동안 묵인해 온 문제를 이제 와서 해결하는 것은 쉽지 않다.


만약 무단 크롤러들이 대역폭 비용을 부담하도록 강제된다면, 상황은 빠르게 해결될 수 있다. 또는 클라우드 서비스 업체들이 이를 대신 청구할 수도 있다. 하지만 흥미롭게도 아마존, 구글, 마이크로소프트 등 주요 대형 클라우드 서비스 업체는 무단 크롤러를 운영하는 주체이기도 하다. 우연의 일치일까?


더 중요한 사실은 이것이 명백한 이해 상충을 초래한다는 점이다.


이 문제는 쉽게 해결하기 어렵다. 대부분의 명확한 해결책은 현실적으로 적용할 수 없다. 예를 들어, 한 웹사이트가 대역폭 예산 한도를 X달러로 설정한다고 가정해 보자. 그렇다면 해당 한도에 도달했을 때 어떤 일이 벌어질까? 월마트나 체이스은행 같은 대형 기업이 “이번 달은 대역폭을 모두 소진했으니 다음 달까지 서비스 중단”을 선언할 수 있을까?


물론 그럴 리가 없다.


이제 문제는 대역폭 사용 증가의 원인을 분석하고 책임 대상을 특정하는 작업으로 넘어간다. 기업 입장에서는 일반적인 수준을 크게 초과하는 대역폭 사용 증가를 인지할 수 있다. 그러나 그 기간 사이트에는 수백만 명의 실제 사용자뿐 아니라, 검색 엔진과 생성형 AI 크롤러를 포함한 다양한 기업의 수많은 봇이 방문한다.


이처럼 실제 방문자와 봇이 뒤섞인 상황에서 대부분 사이트의 분석 툴은 특정 방문자가 초래한 대역폭 증가를 정확히 추적하는 데 한계를 보인다. 일부는 추적하더라도 가장 큰 문제는 공식적으로 등록되지 않은 봇이나 운영 중인 기업을 식별하기 어려운 봇의 존재다. 일부는 중국, 러시아, 북한 등과 같이 미국 법규를 잘 준수하지 않는 국가에서 유입되기도 한다.


그럼에도 불구하고 기업의 IT팀은 호스팅 업체 또는 해당 업무를 대행하는 비즈니스 파트너와 함께 무단 대역폭 사용으로 인한 비용 문제를 해결하기 위한 논의에 본격적으로 나서야 한다. 최근 여러 보고서에서 봇 트래픽이 실제 사람의 트래픽을 넘어섰다는 분석이 나오고 있는 만큼, 조속히 시작해야 한다.


dl-itworldkorea@foundryco.com



Evan Schuman editor@itworld.co.kr
저작권자 Foundry & ITWorld, 무단 전재 및 재배포 금지

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1손흥민 LAFC
    손흥민 LAFC
  2. 2아이브 안유진 가요대전
    아이브 안유진 가요대전
  3. 3미르 결혼식 논란
    미르 결혼식 논란
  4. 4윤종신 건강 악화
    윤종신 건강 악화
  5. 5파워볼 복권 당첨
    파워볼 복권 당첨

이 시각 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD