기업이 AI 애플리케이션을 도입하면서 네트워크 인프라팀은 데이터센터, 클라우드, WAN 엣지 전반에서 AI 트래픽 최적화를 위해 분주히 움직이고 있다. 많은 프로젝트가 데이터센터 네트워크 혁신과 WAN을 통한 AI 트래픽 가속화에 집중하고 있지만, 프로젝트 책임자가 반드시 고려해야 할 또 하나의 핵심 요소가 있다. 바로 네트워크 관찰가능성이다.
엔터프라이즈 매니지먼트 어소시에이츠(Enterprise Management Associates, EMA)의 연구 보고서 ‘AI 시대를 대비한 엔터프라이즈 네트워크 준비(Readying Enterprise Networks for Artificial Intelligence)’에 따르면, 기업의 47%만이 자사의 네트워크 관찰가능성 도구가 AI 트래픽을 완전히 모니터링하고 관리할 준비가 되어 있다고 답했다. 이 결과는 모든 AI 프로젝트 책임자에게 경고 신호가 될 수 있다.
AI 워크로드는 지연, 패킷 손실, 혼잡에 극도로 민감하다. 또한 예측 불가능한 트래픽 폭증을 만들어내고 데이터센터, 클라우드, 엣지 환경 전반에서 끊김 없는 연결성을 요구한다. 네트워크 성능에 대한 심층적이고 실시간의 관찰가능성이 확보되지 않는다면, AI 학습과 추론 작업은 실패할 수밖에 없다.
네트워크 관찰가능성은 AI 준비 태세의 핵심
EMA의 이번 보고서는 AI 프로젝트를 위해 네트워크 인프라와 운영을 준비 중인 IT 전문가 250명을 대상으로 실시한 조사 결과를 바탕으로 작성됐다. 보고서에 따르면, 관찰가능성 도구를 충분히 갖춘 기업은 그렇지 않은 기업보다 AI 네트워킹 전략에서 성공을 기대할 가능성이 5배 더 높다고 나타났다. 관찰가능성 도구를 충분히 갖춘 기업은 대체로 다음과 같은 특징을 보였다.
- - AI 전략을 이끄는 AI CoE(center of excellence) 보유
- - AI에 대한 상당한 IT 예산 배정
- - 규제 준수와 개인정보 보호 위험에 대한 우려 감소
결국, 네트워크 관찰가능성은 단순한 기술 업그레이드가 아니라 전략적 성공을 예측하는 지표다.
관찰가능성이 가장 중요한 지점
이번 조사에 따르면 AI 워크로드는 프라이빗 데이터센터, 퍼블릭 클라우드, 엣지 컴퓨팅 환경에 걸쳐 있는 하이브리드 아키텍처에 분산돼 있는 것으로 나타났다. EMA는 이런 AI 네트워크를 관리하기 위해서는 엔드투엔드 네트워크 관찰가능성이 필수적이라고 보고 있다.
조사 결과, 네트워크팀 대부분은 AI 네트워크 관찰가능성을 개선하기 위해 네트워크의 4가지 일반 영역에 집중하고 있었다. 이 중 가장 큰 우선순위는 퍼블릭 클라우드 네트워크와, 엔터프라이즈 네트워크와 클라우드 서비스 업체를 연결하는 클라우드 인터커넥트에서의 관찰가능성 강화였다. 또한 기업은 AWS, 애저, 구글 등 3대 대형 클라우드 서비스 업체를 넘어 신흥 서비스형 GPU(GPU-as-a-Service) 업체에도 AI 워크로드를 배치하고 있는 것으로 나타났다. 그러나 이들 신흥 사업자는 네트워크 관찰가능성을 지원하기 위한 체계가 아직 성숙하지 않아 관찰가능성 확보에 새로운 과제로 작용하고 있다.
조사 참가자 대다수는 데이터센터 네트워크 패브릭과 WAN 엣지 연결 서비스에 대한 관찰가능성 역시 개선할 필요가 있다고 밝혔다.
실시간 데이터의 필요성
AI 네트워크 관찰가능성을 확보하기 위해서는 네트워크 데이터를 수집하는 방식 자체를 최적화해야 한다. 예를 들어, 대부분의 관찰가능성 도구는 SNMP 풀링에 의존해 네트워크 인프라에서 메트릭을 가져오며, 보통 5분 간격으로 장비를 폴링한다. 그러나 폴링 간격을 더 짧게 설정하면 네트워크 성능과 도구 성능 모두에 부정적인 영향을 줄 수 있다.
응답자 69%는 AI 네트워크에 실시간 인프라 모니터링이 필요하지만, 이는 SNMP로는 지원할 수 없다고 밝혔다. 실시간 텔레메트리는 이런 관찰가능성의 공백을 메워준다. 예를 들어, 혼잡과 패킷 손실을 유발하는 AI 트래픽 폭증은 몇 초 만에 발생하고 사라질 수 있으며, 이는 5분 간격 폴링으로는 전혀 포착되지 않는다. 이 수준의 세밀한 메트릭을 확보하기 위해 네트워크팀은 스트리밍 네트워크 텔레메트리를 도입해야 한다. 그러나 업계 표준화 부족과 “고객이 이를 필요로 하지 않는다”라는 인식 때문에, 네트워크 인프라 업체와 관찰가능성 업체 간 지원 수준은 여전히 고르지 않다. 하지만 AI 확산은 이 기술에 대한 수요를 폭발적으로 키울 것으로 예상된다.
인프라 메트릭의 세밀한 수집 필요성과 더불어, 응답자의 51%는 실시간 네트워크 플로우 모니터링이 필요하다고 밝혔다. 일반적으로 넷플로우(NetFlow), IPFIX 같은 네트워크 플로우 기술은 구현 방식에 따라 수 초에서 수 분의 지연은 있을 수 있지만, 거의 실시간에 가까운 데이터를 제공한다. 반면 다른 기술은 속도가 떨어진다. 특히 클라우드 서비스 업체가 생성하는 VPC 플로우 로그는 동일한 수준의 데이터 세분성을 제공하지 못한다. 이로 인해 네트워크 팀은 클라우드 환경의 관찰가능성 공백을 메우기 위해 실시간 패킷 모니터링을 도입해야 할 수도 있다.
더 똑똑한 네트워크를 위한 더 똑똑한 분석
네트워크팀은 AI 네트워크에 맞춰 더 지능적으로 동작하는 관찰가능성 도구를 필요로 하고 있다. 예를 들어, 응답자의 59%는 관찰가능성 도구가 네트워크 트래픽에서 AI 애플리케이션을 식별할 수 있기를 원했다. 이렇게 되면 기업은 AI 애플리케이션 성능을 모니터링하고, AI 트래픽에 맞춰 네트워크를 최적화하며, 무단 AI 도입까지 탐지할 수 있다.
또한 많은 기업이 AI 트래픽에 맞춰진 고급 분석 기능을 요구하고 있다. 응답자의 46%는 AI 트래픽 혼잡을 예측하고 분석할 수 있는 도구를 원했으며, 42%는 AI 트래픽 패턴에 특화된 이상 탐지 기능을 필요로 한다고 답했다. 마지막으로 34%는 전체 GPU 클러스터 단위의 트래픽 패턴을 분석할 수 있는 기능을 원한다고 답했다.
이런 기능은 네트워크팀이 AI 애플리케이션 성능에 영향을 주기 전에 문제를 미리 예측할 수 있도록 도와준다. 밀리초 단위 지연도 치명적일 수 있는 환경에서는 필수적인 역량이다.
관찰가능성은 선택이 아니다
AI는 네트워크가 수행해야 하는 역할과 네트워크팀의 관리 방식을 새롭게 정의하고 있다. 실시간·지능형·포괄적 네트워크 관찰가능성에 대한 투자가 네트워크팀이 AI 도입을 성공적으로 지원할 수 있는지를 좌우하게 될 것이다. 앞으로 AI 워크로드가 더욱 복잡해지고 규모가 커질수록, 효과적인 관찰가능성 확보 여부가 혁신과 실패를 가르는 결정적 요인이 될 것이다.
*Shamus McGillicuddy는 EMA의 네트워크 관리 부문 연구 디렉터다.
dl-itworldkorea@foundryco.com
shamus_mcgillicuddy editor@itworld.co.kr
저작권자 Foundry & ITWorld, 무단 전재 및 재배포 금지




















































