- 다크웹에서 쌓은 역량을 산업에 적용...지난해 산업용 AI 솔루션 ‘SAIP’ 솔루션 출시
- 멀티도메인 교차분석으로 보안부터 제조·금융까지 도메인 특화 AI 구현
-단순 질의응답 넘어 의사결정 지원하는 에이전트 AI로 기술 개발 중
- 멀티도메인 교차분석으로 보안부터 제조·금융까지 도메인 특화 AI 구현
-단순 질의응답 넘어 의사결정 지원하는 에이전트 AI로 기술 개발 중
다크웹 전문 기업으로 시작한 에스투더블유(S2W, 이하 S2W)가 지난해 ‘SAIP(S2W AI Platform)’라는 산업용 생성형 AI 플랫폼을 출시하며 사업 영역을 확장하고 있다.
다크웹은 일반적인 인터넷 브라우저로는 접속할 수 없는 암호화된 네트워크를 의미한다. 마약거래, 해킹, 랜섬웨어 등 각종 사이버범죄가 빈발하는 곳이다. 그렇기 때문에 다크웹의 데이터는 일반적인 웹 데이터와 다르게 복잡하다. 특수한 브라우저로 접근해야 한다. 네트워크 구조도 매우 불안정하며 추적을 피하기 위해 의도적으로 복잡한 언어를 사용한다. 데이터의 노이즈 비율도 매우 높다. 데이터 간의 숨겨진 관계를 발견하기도 어렵고 정보가 매우 빠르게 변화하고 소멸한다.
이러한 특성 때문에 대부분의 기업들이 접근조차 어려워하는 다크웹 영역에서 S2W는 ‘자비스’와 ‘퀘이사’라는 다크웹 전문 솔루션을 개발했다. 다크웹의 방대하고 복잡한 비정형 데이터를 수집하고 데이터 간의 의미를 발견해 관계를 추적하기 S2W는 '멀티도메인 교차분석 기술'을 개발했다.
멀티도메인 교차분석 기술은 서로 다른 영역(도메인)의 데이터를 통합하여 분석하는 기술로, 단일 도메인에서는 발견하기 어려운 패턴이나 인사이트를 도출할 수 있다. 예를 들어 사이버 보안 분야에서는 네트워크 트래픽 데이터, 사용자 행동 데이터, 시스템 로그 데이터 등을 교차 분석하여 단일 데이터 소스로는 탐지하기 어려운 고도화된 위협을 식별할 수 있으며, 금융 분야에서는 거래 데이터, 고객 행동 데이터, 외부 시장 데이터를 결합하여 더 정확한 리스크 평가나 사기 탐지가 가능하다. 이러한 기술은 AI와 빅데이터 분석 기법을 활용하여 도메인 간 상관관계를 찾아내고, 개별 도메인 분석 대비 훨씬 높은 정확도와 포괄적인 분석 결과를 제공한다.
다크웹에서 쌓은 기술 역량을 일반 산업에 적용, SAIP(S2W AI Platform) 출시
다크웹에서 축적한 기술을 일반 기업이 사용할 수 있도록 개발한 솔루션이 바로 ‘SAIP(S2W AI Platform)’이다. SAIP는 2024년 2월에 출시한 산업용 생성형 AI 플랫폼으로 기업 내부의 모든 데이터를 ChatGPT처럼 대화형으로 활용할 수 있게 해주되, 보안과 정확성을 대폭 강화한 시스템이다.
SAIP의 가장 큰 특징은 '시큐리티 가드레일'이라는 보안 시스템이다. 일반적인 ChatGPT나 다른 AI가 가끔 잘못된 정보를 제공하거나 민감한 정보를 유출할 위험이 있는 반면, SAIP는 기업 데이터를 안전하게 보호하면서도 정확한 답변만 제공한다. 또한 직급에 따라 접근할 수 있는 정보를 차등화하여 설정할 수 있어, 인사 자료 같은 민감한 정보는 허가받은 사람만 열람할 수 있다. 더불어 SAIP는 범용적인 솔루션을 제공하는 다른 AI 기업들과 달리 각 기업의 도메인을 깊이 이해하고 맞춤형 솔루션을 제공하고 있다.
다크웹이라는 가장 어려운 환경에서 시작해서 이제는 모든 산업의 데이터 분석을 담당하는 AI 기업으로 성장한 S2W의 여정은, 특수한 기술이 범용 기술로 확장되는 혁신의 대표적인 사례라고 할 수 있다.
경기도 성남시 판교 S2W 본사에서 박근태 CTO와 정진우 AI 총괄이사를 만났다. 박근태 CTO는 KAIST에서 박사과정을 마치고 한국전자통신연구원(ETRI)에서 분산시스템 개발을, 티맥스소프트에서 OS 개발을 담당했다. 그 후 SK텔레콤에서 12년간 빅데이터와 AI 업무를 수행했다. 빅데이터, AI 연구를 대기업이 아닌 스타트업에서 구현해내고 싶다는 생각에 2022년에 S2W에 합류했다.
정진우 AI 총괄이사는 KAIST에서 석박사 과정을 하면서 자연어처리(NLP)를 전공했고, 삼성전자종합기술원에서 모바일 기계번역과 소재과학 논문 정보추출을 연구했다. 특히 데이터 처리에 관심이 많은 정진우 이사는 자연어처리를 통해 다크웹의 정보를 처리하는 데 흥미를 느껴 2020년에 합류했다.
S2W에서 기술을 총괄하는 박근태 CTO와 정진우 AI 총괄이사를 통해 방대한 자료에서 원하는 데이터를 수집하는 기술, 도메인별 맞춤형 언어모델, 관계성을 그래프로 연결하는 지식그래프 등 3가지 핵심기술과 이를 바탕으로 한 산업용 생성형 AI 플랫폼 'SAIP(S2W AI Platform)'가 주목받는 이유에 대한 이야기를 들었다. (전문적인 기술을 정확하게 전달하기 위해 Q&A 형식으로 내용을 구성했다.)
Q. S2W가 보안으로 시작했습니다. 장점과 차별점이 있을 거 같습니다.
박근태 CTO : S2W는 '보안+데이터' 기업으로 정의할 수 있습니다. AI 시대가 되면서 기존과 완전히 다른 성격의 데이터가 AI 시스템에 유입되고 있습니다. 특히 개인정보와 밀접한 관련이 있는 민감한 데이터가 AI 학습과 서비스 운영에 대량으로 활용되면서, 데이터의 중요성과 보안성이 그 어느 때보다 중요한 시대가 되었습니다.
AI 서비스를 성공적으로 구현하기 위해서는 보안 전문가의 역할이 필수적이며, 따라서 보안에 대한 깊이 있는 이해가 요구됩니다. 특히 외부 데이터와 내부 데이터를 융합하여 활용하는 과정에서 보안이 더욱 중요해집니다. 금융 분야의 경우 엄격한 규제 환경 하에서 다량의 민감 데이터를 처리해야 합니다. 따라서 AI 서비스 개발 시 보안 요건을 정확히 파악하고 이를 설계 단계부터 반영하는 것이 필수적입니다.
보안을 기반으로 시작한 것이 S2W의 핵심 경쟁력이라고 말할 수 있습니다.
Q. '멀티도메인 교차분석 기술'은 서로 다른 영역의 데이터를 통합하여 분석하는 기술로, 단일 도메인에서는 발견하기 어려운 패턴이나 인사이트를 도출할 수 있게 해줍니다. S2W는 다크웹 전문 솔루션인 '자비스(JARVIS)'와 '퀘이사(QUXAR)'에 이 기술을 적용하여 축적한 노하우를 바탕으로, SAIP에도 이를 발전시켜 적용했습니다. 멀티도메인 교차분석 기술이 어떤 기술인지 설명해주세요
박근태 CTO : 어떤 기업이나 기관에서든 근본적인 문제들이 존재합니다. 회사를 성장시키거나 위험에서 벗어나기 위해서는 해당 기업 내 최고 전문가들이 모여 활용 가능한 모든 정보를 수집한 후, 각 전문가가 자신의 견해를 제시하고 토론을 통해 문제를 해결합니다. 이러한 과정을 AI가 수행할 수 있도록 기술화한 것이 멀티도메인 교차분석 기술입니다.
정진우 AI 총괄이사 : 구체적으로는 세 가지 기술이 결합되어 있습니다. 첫 번째는 데이터 수집 기술, 두 번째는 도메인 특화 언어모델 기술, 세 번째는 온톨로지 기반 지식그래프 기술입니다.
Q. 멀티도메인교차 분석에 세가지 기술이 있다고 하셨는데 그중에서도 데이터 수집 기술이 중요한 것 같네요. S2W 솔루션들은 어떻게 데이터를 수집하나요?
박근태 CTO : S2W가 다루는 것은 사내 데이터뿐만 아니라 사외의 모든 데이터입니다. 데이터 형태도 다양합니다. 엑셀 파일, 사진, 웹 데이터, 정부 공공기관의 법령 자료까지 모든 형태의 데이터를 수집합니다. S2W는 다크웹이나 전장 환경처럼 네트워크 변화가 심하거나 정보가 일시적으로 등장했다 사라지는 데이터들을 안정적이고 효과적으로 수집할 수 있습니다.
정진우 AI 총괄이사 : 가장 중요한 것은 '지푸라기에서 바늘 찾는 기술'입니다. 웹상의 관심 있는 데이터는 인터넷상 모든 데이터를 고려할 때 정말 지푸라기에서 바늘을 찾는 것과 같습니다. 모든 것을 다 수집하면 비용에 극도로 비효율적이기 때문에 그래서 수집 단계에서부터 언어모델을 활용합니다. 예를 들어 다크웹 데이터의 절반 이상이 음란물인데, 이를 99.9% 확률로 음란물이라고 판별하면 바로 폐기합니다. 하지만 50% 확률이면 일단 저장해둔 후 더 정교한 언어모델로 재분류합니다.
현재 S2W는 한 달에 천만 개 정도의 웹페이지를 판별하고 있습니다. 이를 모두 서버에 저장할 수는 없기 때문에 단계별로 언어모델을 적용하여 필요한 데이터만 선별하는 것입니다.
Q. 필요한 데이터를 수집하기 위해서는 도메인 특화 언어모델이 있어야 한다고 하셨는데, 그럼 도메인 특화 언어모델을 어떻게 그렇게 빨리 만들어서 적용할 수 있나요?
정진우 AI 총괄이사 : 하나의 언어모델이 다른 분야에 적용하면 성능이 저하됩니다. 음란물 판별 모델을 금융 분야에서 사용할 수 없습니다. 그래서 도메인 특화가 필요한데, 특히 모델 크기가 작을 때 더욱 중요합니다. ChatGPT 같은 거대언어모델은 자체적으로 우수한 성능을 보이지만, 데이터가 많을 경우 큰 모델을 사용할 수 없습니다. 실시간으로 분류하려면 작은 모델을 사용해야 하는데, 이를 위해서는 해당 도메인에 고도로 특화된 모델이 필요합니다.
박근태 CTO : 고객사 데이터를 받으면 어느 정도 규모의 언어모델에 어떤 데이터를 투입해야 작동할지를 매우 신속하게 파악할 수 있습니다. 그래서 다른 경쟁사보다 최적 규모의 언어모델을 빠르게 구축할 수 있고, 프로젝트를 매우 신속하게 수행할 수 있습니다.
Q. 도메인 특화 모델을 만들려면 도메인을 알아야 할 것 같네요. 도메인에 대해서는 어떻게 이해하나요?
정진우 AI 총괄이사 : 만약 야구라는 도메인에 대해 언어모델을 개발한다고 하면, 야구를 알아야 합니다. 그래서 S2W는 고객사와 초기 단계에서 컨설팅을 많이 진행합니다. 이를 간과하는 업체들이 많은데, 보통 다른 업체들은 "우리 모델 하나면 다 됩니다"라고 말합니다. 저는 그것이 불가능하다고 생각합니다. S2W가 성과를 낼 수 있었던 이유는 다크웹에서 많은 경험을 쌓았기 때문입니다. 도메인 전문가들과 논의하여 카테고리나 특징을 매우 신속하고 정확하게 추출하는 작업을 수행합니다.
박근태 CTO : 규모가 매우 큰 H사 프로젝트도 5개월 만에 완료했습니다. 초기 단계에서 한 달 정도를 컨설팅에 투입했습니다. 이때 도메인 전문가의 역할이 매우 중요합니다.
Q. 마지막으로 지식그래프 기술과 지식그래프 기술을 어떻게 활용하는지 설명해주세요.
정진우 AI 총괄이사 : 지식그래프는 노드(점)와 엣지(선)로 이루어진 거예요. 동그라미 같은 원들이 여러 개 있고 그거 사이에 관계를 선으로 그어 놓은 게 지식그래프입니다. 구조화의 최종 단계가 수집 데이터를 그래프로 표현하는 거예요. 관계를 제대로 파악하려면 그래프로 만들어야 하거든요.
S2W는 다크웹에서 범죄를 추적할 때 지식그래프 기술을 활용하기 시작했습니다. 범죄 추적에서는 무엇보다 관계 정보가 핵심이기 때문입니다. 예를 들어, 어떤 해커가 다크웹에 기업 정보를 탈취해서 "OO 자료 얼마에 팝니다. 텔레그램에서 대화하자"라는 게시물을 올렸다고 가정해보겠습니다. S2W는 해당 게시물에서 텔레그램 아이디를 핵심 특징으로 추출하고, 다른 다크웹 사이트나 플랫폼에서 동일한 텔레그램 아이디가 사용된 사례를 탐색하여 두 개를 연결합니다. 범죄자가 비트코인 주소도 함께 남긴 경우, 이를 또 다른 노드로 설정하여 텔레그램 아이디와 연결하고, 해당 비트코인 주소에서 다른 주소로의 송금 내역도 따라갑니다. 비트코인 거래 정보는 블록체인의 특성상 공개되어 있어 추적이 가능하기 때문입니다. 이렇게 그래프로 연결하다 보면 처음 게시물을 올린 사람의 텔레그램 아이디부터 비트코인 주소까지 연결되고, 이 범죄자가 최종적으로 어느 거래소에서 현금화했는지까지 파악할 수 있습니다. 이처럼 관계 정보가 중요한 범죄 수사 영역에서 다양한 식별자들 간의 연관성을 체계적으로 추적하는 것이 바로 지식그래프 기술입니다.
Q. 멀티도메인 교차분석 기술, 즉 데이터 수집 기술, 도메인 특화 언어모델 기술, 온톨로지 기반 지식그래프 기술에 대해 이야기를 들었습니다. 그렇다면 이러한 기술들이 SAIP에서는 어떻게 적용되었나요?
정진우 AI 총괄이사 : S2W가 H사와 L사에 SAIP 솔루션을 구축했습니다. 사용자가 질문하면 답변을 제공하는 방식인데, 두 회사의 특징이 다릅니다.
H사는 여러 업무 포털에 분산되어 있던 13만 개의 사내 문서를 통합하여, 사용자가 음성으로 질문하면 관련 데이터를 신속하게 검색해서 원하는 답변을 제공하는 챗봇을 구축했습니다. 이 프로젝트의 핵심 가치는 데이터 통합과 접근성 개선에 있습니다. 기존에는 안전 데이터를 찾으려면 안전 포털에, 설비 데이터를 찾으려면 설비 포털에 각각 접속해야 했는데, 안전 담당자라도 설비 분야에 익숙하지 않으면 설비 포털에 접근하기 어려운 상황이었습니다. 하지만 새로운 통합 시스템에서는 "이러한 설비 관련 안전 지침을 알려달라"고 요청하면 설비 포털에 직접 접속할 필요 없이 관련 정보를 즉시 제공받을 수 있게 되었습니다.
정진우 AI 총괄이사 : L사 트렌드 분석 솔루션은 L사 계열사의 구매 데이터를 활용하여 시장 변화를 분석하는 시스템입니다. 예를 들어 주류 판매량이 급증했을 때, 단순히 수치만 확인하는 것이 아니라 그 원인을 뉴스 기사나 SNS 등 외부 데이터에서 관련 현상을 탐지하여 종합적인 분석 보고서를 작성해 제공합니다. 구체적으로 혼술족의 구매량이 급격히 증가했다면, 외부 데이터를 수집하여 정제하고 분석해서 "혼술족이 증가한 원인은 다음과 같다"는 결과를 도출하여 보고서로 제작합니다. 이전에는 직원이 수작업으로 수행했던 복잡한 트렌드 분석 업무를 S2W가 자동화하여 효율성과 정확성을 크게 향상시켰습니다.
Q. 다크웹에서 시작해서 이제 산업으로 사업을 확장하고 계신데, 앞으로 어떤 산업으로 확장할 계획인가요?
정진우 AI 총괄이사 : 팔란티어도 과거에 CIA와 안보·보안 분야로 시작했다가 지금은 모든 기업 영역으로 확장했습니다. 방법론이 체계적으로 구축되어 있으면 확장이 보다 용이해지는 것 같습니다. 현재 금융 분야와 국방 분야를 우선적으로 검토하고 있습니다.
박근태 CTO : 하지만 그동안 축적된 자산을 활용해 넓게 확장하기보다는 수직적으로 더 깊이 있게 구축하는 것을 우선적으로 고려할 계획입니다. 기업마다 커스터마이징은 필수적인 요소로, 철강업과 유통업이 서로 다른 특성을 가지고 있으며, 동일한 철강업체라 하더라도 각각 고유한 특징이 있기 때문에 맞춤형 접근이 더 효과적이라고 판단하고 있습니다. 따라서 성과가 검증된 분야 위주로 가중치를 두고 사업을 진행할 계획입니다.
Q. 기술도 계속 고도화시켜야 할 것 같은데요, 구체적으로 어떤 방향으로 발전시킬 계획인가요?
박근태 CTO : 텍스트 중심에서 멀티모달(이미지, 동영상, 음성)로 발전하려고 합니다. 보안 분야는 내부에 전문가 집단이 있어서 AI 적용 수준이 다른 분야보다 높은 편입니다. 고급 보안 리포트를 작성할 수 있는 전문 인력이 내부에 있기 때문에 AI 학습에 활용할 수 있는 데이터의 품질이 매우 높다는 장점이 있습니다.
정진우 AI 총괄이사 : 에이전트는 의사결정에 실질적으로 도움이 되는 결론을 제시할 수 있어야 합니다. 단순한 질문답변 수준을 넘어서 전문가가 작성한 리포트 수준의 고도화된 결론을 도출하는 AI를 구현하는 것이 S2W 에이전트의 지향점입니다.
모든 기업의 의사결정을 도와주는 AI 솔루션으로 확장
S2W만의 차별화된 접근법을 확인할 수 있었다. 각 도메인의 특성을 깊이 이해하고 그에 맞는 소형 언어모델을 신속하게 개발하는 노하우가 핵심이다. 그리고 무엇보다 고객과의 철저한 컨설팅을 통해 도메인 지식을 습득하는 과정을 중시한다는 점이 특징적이다.
2018년 다크웹 분석으로 시작한 S2W가 이제 다양한 산업의 빅데이터를 분석하는 AI 기업으로 성장한 배경에는 이러한 치밀한 기술적 접근과 지속적인 도메인 학습이 있었다. S2W가 보안 분야에서 시작하여 축적한 기술적 자산이 AI 시대에 오히려 더 큰 경쟁력으로 작용하고 있는 상황이다. 멀티도메인 교차분석이라는 다소 복잡한 명칭 뒤에 숨겨진 진정한 핵심은 결국 '사람처럼 사고하는 AI'를 구현하려는 끈질긴 노력이었다.
조광현 스타트업 전문 기자 hyun@venturesquare.net
Copyright ⓒ ATSQUARE.




























































