오종환 랩투아이 대표 “기업 입맛에 맞는 LLM 솔루션 제공”

경제·산업 입력 2024-08-12 11:53:51 수정 2024-08-12 11:53:51 정창신 기자 0개

[서울경제TV=정창신기자] 빅데이터 분석 전문기업 랩투아이의 오종완 대표가 기업이 원하는 거대언어모델(LLM) 솔루션을 제공하겠다는 포부를 밝혔다. 업무 속도와 효율성을 높이려는 기업은 계속 늘어나고 있지만 LLM을 실제 업무에 적용하는데 장벽을 느끼는 기업들이 많은 상황에서 도움을 주겠다는 것. 오 대표는 연내 글로벌 시장으로 확장을 목표로, 해외 기업들과 협력 및 파트너십에도 나선다는 계획이다. 다음은 일문일답.

▲최근 유행하고 있는 GPT 같은 LLM(거대언어모델)에서 거짓을 마치 진짜 답인 것처럼 대답하는 환각효과가 문제가 되고 있습니다. 대표님은 2020년부터 AI 기반의 팩트체크 연구를 계속해오셨는데요. AI의 거짓답변 문제를 완화할 수 있는 방법은 뭐가 있을까요?

각효과는 LLM의 주요 문제 중 하나입니다. 최근 많은 기업들이 검색증강생성(RAG) 기술을 통해 모델이 답변을 생성할 때 실시간으로 신뢰할 수 있는 정보를 참고하게 함으로써 거짓 답변의 가능성을 줄이고 있습니다.

LLM 시대 이전부터 언어모델은 문장 내의 각 위치에 어색하지 않을 만한 그럴듯한 어휘를 조합하는 것에 초점이 맞추어져 있었습니다. 그런데 사용자들은 그럴듯한 어휘를 생성하지 않더라도 웹에 실제로 존재하는 데이터를 검색하는 것에 익숙합니다. 구글이나 네이버 등이 네트워크 어딘가에 존재하는 글을 잘 찾아오는 여러 알고리즘을 발전시켜 왔기 때문입니다.

2020년부터 서울대학교 HCID 연구실에서 진행한 팩트체크 연구는 언어모델과 검색 알고리즘의 결합 방식에 대한 연구였습니다. 기존 언어모델에 검색 알고리즘을 적용시켜 특정 문장이 검색된 문장과 일치하는 의미를 갖는지를 확인할 수 있는 시스템을 만들었습니다.

언어모델이 거대언어모델로 발전하면서 문장의 이해 수준이 올라가고, 따라서 당시의 팩트체크 시스템보다 성능이 비약적으로 높아졌습니다. RAG 시스템에서는 언어모델의 역할이 자연어 이해에 그치지 않고 생성 기술까지 확장되었습니다. 결과물을 이해하기 쉬운 설명식으로 출력해주니 사용자 경험 측면에서 발전한 형태라고 볼 수 있습니다.

▲2016년에 국내 최초로 로봇기사를 실제 증권 기사로 송고하셨었는데 LLM의 사용 없이 어떻게 로봇기사를 개발하셨나요?

2016년에 로봇기사를 개발할 때는 현재와 같은 LLM(거대언어모델)이 존재하지 않았습니다. 대신 특정 도메인에 대한 심층적인 규칙 기반 시스템과 알고리즘을 활용했습니다. 예를 들어, 증권 기사 같은 경우 주식 시장의 데이터를 실시간으로 분석하여 주식의 등락에 따른 기본적인 기사 구조를 자동으로 생성하게 했습니다. 입력되는 데이터에 따라 트리 구조를 가진 수백 가지의 경우의 수를 상정하여, 데이터에 대한 설명을 조합하는 방식이 기본입니다.

당시에는 자연어 생성(Natural Language Generation)이라는 이름으로 기초적인 연구가 한창이었습니다. 저희는 당시의 언어모델을 활용하여, 상대적으로 변화가 적은 관용적 표현들을 학습시켜 입력 데이터에 따라 출력하는 방식을 일부 사용했습니다. 예컨대 “오늘 주식 시장은 한껏 달아올랐습니다”와 같은 문구를 출력합니다. 야구 기사에서도 “끝내기 홈런으로 관중들을 열광 시켰다”와 같은 표현을 만들어 냈습니다.

이렇게 만들어진 기사를 편집자가 최종 검토하여 송고하는 방식으로 운영했습니다. 예상하지 못한 데이터가 입력되었을 때 어색한 표현이 등장하기도 했기 때문에, 기사 송출에서는 데스킹이 필요한 부분이 있었습니다.

▲LLM(거대언어모델)을 도입하여 업무 속도와 효율성을 높이려는 기업은 계속 늘어나고 있지만 실제 업무에 적용하기엔 장벽을 느끼는 기업들이 많습니다. 오종환 대표님은 어떤 형태의 솔루션을 준비하고 계신가요?

많은 기업들이 LLM 도입을 통해 업무 효율성을 높이고자 하지만, 기술적 이해 부족과 초기 비용 등의 장벽을 느끼고 있습니다. 생성형 AI가 많은 일을 할 수 있다는 것을 알지만, 프롬프트를 적절히 구사하는 것부터 어려움을 느낍니다. 저희 랩투아이는 이러한 장벽을 낮추기 위해 맞춤형 솔루션을 제공하고 있습니다.

예를 들어, 금융, 법률, 경영, 의료 등 각 업종에 특화된 LLM 모델을 제공하여 해당 도메인에 최적화된 답변과 분석을 가능하게 합니다.

저희는 특히 실시간 데이터 분석이 중요한 금융 분야의 AI 모델에 대한 특허를 보유하고 있습니다. 고정된 데이터를 분석하는 것에 그치지 않고, 실시간으로 업데이트되는 정보나 예측모델이 필요한 경우 해당 분야에 특화된 머신러닝 모델을 멀티에이전트 방식으로 연결시켜 답변의 퀄리티를 높이는 식입니다.

▲현재 하고 계신 서울대학교와의 팩트체크 관련 연구는 어떤 점에 중점을 둔 연구인가요?

팩트체크 시스템을 만들 때는 거짓된 정보 생성을 막는 것이 가장 중요합니다. 단순히 검색 알고리즘을 연결한 RAG 시스템도 100% 완벽하지는 않습니다. 단 한 번의 질의를 검증하기 위해 관련성 있는 모든 웹 문서와 비교하는 것도 비효율적입니다.

저희가 적용 중인 시스템은 멀티에이전트(multi-agent)입니다. 다수의 언어모델이 역할을 나누어 팩트체크를 하거나, 결과의 검토자가 되는 것입니다. RAG 에이전트를 통해 도출된 결과물에 의심할 만한 점이 있다면 검토자 에이전트는 새로운 검색 방식을 제안하거나, 추가 검색을 하도록 의견을 제시하는 방식입니다.

서울대학교와의 팩트체크 관련 연구는 신뢰성과 정확성을 높이는 것에 중점을 두고 있습니다. 특히, 멀티에이전트를 활용하여 AI 모델이 생성하는 정보의 정확성을 검증하고, 잘못된 정보를 신속하게 교정하는 시스템을 개발하고 있습니다. 이를 위해 다양한 데이터 소스를 통합하고, 각 소스의 신뢰도를 평가하는 알고리즘을 연구하고 있습니다.

또한, 저희가 가진 금융 데이터 분석 경험을 살려서 실시간으로 팩트체크가 가능하도록 하는 기술을 개발하여, 뉴스나 소셜 미디어에서 빠르게 확산될 수 있는 허위 정보를 차단하는 데 주력하고 있습니다.

▲랩투아이에서 개발하신 RAG 기술의 가장 큰 경쟁력은 무엇인가요?

A.RAG 기술의 가장 큰 경쟁력은 실시간으로 신뢰할 수 있는 정보를 활용하여 LLM의 답변 정확성을 높인다는 점입니다. 저희는 정확성이 가장 중요한 팩트체크 연구를 기반으로 기술을 개발해왔습니다. 똑같이 RAG 시스템을 적용했다고 하더라도 어떤 정보를 검색해오는지, 최선의 검색 결과를 반영한 것인지 의심스러울 수 있습니다.

연구를 하면서 실제 데이터와 정량적인 비교를 통해 정확도를 높이는 방식으로 기술을 개발해왔기 때문에, 가장 효율적인 알고리즘이라고 말할 수 없을지 몰라도, 결과물이 거짓일 가능성을 현저하게 낮다고 볼 수 있습니다.

또한, RAG에는 필수적으로 멀티쿼리(multi-query) 생성이나 검색 결과 연관성을 재정렬하는 리랭크(rerank) 알고리즘이 포함되는데, 저희는 국내 환경에서 경험적으로 효율적인 알고리즘을 직접 개발해오고 있습니다. 일반적인 질의 응답 결과에서는 별 차이가 없을지 몰라도, 결과물의 정확성이 중요한 분야에서는 큰 차이를 가져올 수 있습니다.

▲앞으로의 계획도 궁금합니다.

메타의 라마(Llama)와 같은 오픈소스 언어모델을 기반으로 파인튜닝한 자체 모델을 개발하고 있습니다. 정보의 보안이 중요한 분야에서 클라우드 API를 통해 언어모델을 접근하지 않고 통제된 환경인 온프레미스(on-premise) 환경에서 언어모델을 제공하는 것에는 안전성에 많은 이점이 있습니다.

쿼리가 외부로 유출되거나 국외의 빅테크 기업의 서버에 전송되는 것을 원천적으로 막을 수가 있습니다. 또한, 만능 모델이 아니라 금융, 법률, 경영, 의료 등 목적에 맞도록 최적화를 통해 불필요한 연산을 하지 않도록 모델 사이즈를 경량화하여, 상대적으로 저비용으로 결과물의 생성이 가능하게 하는 미세조정 방식을 연구하고 있습니다.