블록체인 특화 LLM 평가 체계 제시...“범용 AI 고성능에도 Web3 전문 추론은 과제로 남아”싱가포르 오픈소스 AI 연구기관 DMind AI가 아시아 연구진과 공동으로 개발한 ‘디마인드 벤치마크(DMind Benchmark)’ 논문이 국제 학술대회 ‘KDD 2026(ACM SIGKDD)’의 데이터셋 및 벤치마크(Datasets & Benchmarks) 트랙에 채택됐다고 26일 밝혔다. 본 학술대회는 오는 8월 9일부터 13일까지 제주에서 개최된다.
DMind Benchmark 설명표(제공-DMind 팀)
이번 연구는 웹3(Web3) 및 블록체인 분야에서 대형언어모델(LLM)의 성능을 정량적으로 측정하기 위한 평가 체계를 제안한 것이 핵심이다. 연구팀은 기존의 범용 AI 평가 방식에서 벗어나 블록체인 산업 특화 과제를 중심으로 모델의 실무 활용성과 전문 추론 능력을 검증하는 데 중점을 두었다고 설명했다.
최근 글로벌 AI 업계에서는 특정 산업 분야에 최적화된 도메인 특화 AI 개발 경쟁이 확대되는 흐름이다. 특히 금융·보안 분야에서는 단순 언어 생성 능력보다 정확한 추론과 안정성이 중요해지면서 전문 벤치마크 구축 필요성도 커지고 있다.
디마인드 벤치마크는 블록체인 기초 개념, 인프라, 스마트 컨트랙트, 탈중앙화 금융(DeFi), 탈중앙화 자율조직(DAO), 대체불가토큰(NFT), 토큰 이코노믹스, 밈코인, 보안 취약점 등 총 9개 도메인을 평가 범주로 설정했다. 단순 객관식 형태를 넘어 스마트 컨트랙트 디버깅, 온체인 수치 추론 등 실제 환경 기반 문제도 포함한 점이 특징이다.
연구팀은 GPT-5 시리즈, Claude, Gemini, DeepSeek, Grok, Qwen 등 총 31개 주요 AI 모델을 대상으로 성능을 비교 평가했다. 평가 결과 GPT-5 Medium이 전체 평균 77.63점으로 가장 높은 점수를 기록했지만, 토큰 이코노믹스와 보안 취약점 분야에서는 다수 모델이 낮은 성능을 보였다고 밝혔다.
DMind Benchmark 프레임(제공-DMind Team)
연구진은 현재 상용화된 주요 AI 모델들도 Web3 전문 추론 영역에서는 여전히 한계를 드러내고 있다고 분석했다. 특히 복잡한 토큰 구조 해석이나 스마트 컨트랙트 보안 관련 문제에서는 모델 간 성능 편차가 크게 나타났다고 설명했다.
비용 대비 성능 측면에서는 일부 오픈소스 모델의 경쟁력도 확인됐다는 평가다. 연구에 따르면 DMind의 32B 파라미터 오픈소스 모델은 Web3 특화 과제에서 제한된 비용으로도 높은 성능을 기록했다. 특히 토큰 이코노믹스와 보안 영역에서는 대규모 범용 모델 대비 10~30% 수준의 비용으로 유사하거나 더 높은 성능을 보였다고 연구팀은 밝혔다.
업계에서는 생성형 AI가 금융·디지털 자산 분야로 확대 적용되면서 스마트 컨트랙트 검증이나 온체인 데이터 분석 자동화 수요도 증가하는 추세다. 이에 따라 산업 특화 AI 모델의 신뢰성과 검증 체계 중요성도 함께 커지고 있다는 분석이 나온다.
싱가포르 경영대학교 정보시스템학과 주페이다(ZHU Feida) 교수는 “이번 연구는 Web3 AI 분야에서 측정 가능한 평가 기준을 제시했다는 점에서 의미가 있다”며 “향후 해당 분야 AI 기술의 성능과 안정성 검증 체계 구축에도 활용될 수 있을 것”이라고 말했다.
한편 DMind 모델은 현재 AI 금융 플랫폼 ‘Minara(미나라)’에 적용돼 운영 중이다. 연구팀은 개인 투자자와 디지털 자산 보유자를 위한 재무 비서 기능 등에 해당 기술이 활용되고 있다고 설명했다.