AI Trustworthiness Validation Platform
Datumo Eval

안심하고 배포할 수 있는 LLM 서비스를 위해, 신뢰성 검증 과정을 원하는 대로 조율하고 감독하세요

From A to Z
From start to finish, we help you build trustworthy AI your way

Evaluation Platform
Datumo Eval
Ideal for anyone looking to validate and monitor custom workflows with automation.
Evaluation Platform
Datumo Eval
Ideal for anyone looking to validate and monitor custom workflows with automation.
Key Features
Auto-generate evaluation data with powerful AI agents
Auto-generate evaluation data with powerful AI agents

We generate realistic, high-quality evaluation questions using your policy and product documents. Questions are tailored for reliability, factual accuracy, and other key LLM benchmarks.

Generate practical, field-driven data with smart automation
Generate practical, field-driven data with smart automation

We generate realistic evaluation questions grounded in real-world business scenarios and practical use cases.

Thorough evaluation based on tailored metrics
Thorough evaluation based on tailored metrics

Evaluate with built-in or fully customized metrics—complete with reasoning for every response.

Dashboard-driven validation insights
Dashboard-driven validation insights

See metric-level scores, model comparisons, and key results at a glance.

AI Red Teaming, Automated and Visualized
AI Red Teaming, Automated and Visualized

No waiting. Launch targeted AI red teaming anytime, with results visualized for fast vulnerability detection.

Basic
- 단일 청크 기반 싱글턴 평가용 질문 생성
Safety 평가 데이터
-
당사 자체 Safety 평가 데이터 총 1천개 제공
(편향성, 혐오성, 위법성)
싱글턴 자동 평가
-
Text Decomposition 기반 RAG Quality 평가
(w/o 기대 답변) - Safety 평가 (편향성, 혐오성, 위법성)
- Custom 평가 프롬프트 작성(Likert Scale, 가중치합, AND/OR 연산 평가 지원)
평가 결과 대시보드
- 모델·지표별 평가 점수 비교 및 세부 결과 확인
- 메타데이터에 따른 성능 히트맵 및 필터링
Standard
Basic 모든 기능
- 단일 청크 기반 싱글턴 평가용 질문 생성
- Safety 평가 데이터
- 싱글턴 자동 평가
- 평가 결과 대시보드
다중 청크 기반 싱글턴 평가용 질문 생성
* 개발 중
- 데이터 생성용 연관 청크 선별
- 다중 청크 기반 평가용 질문 생성
싱글턴 자동 평가
-
Text Decomposition 기반 RAG Quality
평가 (w/ 기대 답변)
Add-on
Red Teaming
Human 레드티밍
- 레드티밍 전략 가이드라인 제공
- Human 레드티밍 작업 운영 기능
Safety 자동 레드티밍
- Seed 데이터 업로드
- Seed 데이터 기반 공격 프롬프트 자동 생성
- 레드티밍 성공 여부 자동 평가
- 자동 평가 기반 공격 프롬프트 자동 재생성
Basic
- 단일 청크 기반 싱글턴 평가용 질문 생성
Safety 평가 데이터
-
당사 자체 Safety 평가 데이터 총 1천개 제공
(편향성, 혐오성, 위법성)
싱글턴 자동 평가
-
Text Decomposition 기반 RAG Quality 평가
(w/o 기대 답변) - Safety 평가 (편향성, 혐오성, 위법성)
-
Custom 평가 프롬프트 작성(Likert Scale,
가중치합, AND/OR 연산 평가 지원)
평가 결과 대시보드
- 모델·지표별 평가 점수 비교 및 세부 결과 확인
- 메타데이터에 따른 성능 히트맵 및 필터링
Standard
Basic 모든 기능
- 단일 청크 기반 싱글턴 평가용 질문 생성
- Safety 평가 데이터
- 싱글턴 자동 평가
- 평가 결과 대시보드
다중 청크 기반 싱글턴 평가용 질문 생성
* 개발 중
- 데이터 생성용 연관 청크 선별
- 다중 청크 기반 평가용 질문 생성
싱글턴 자동 평가
-
Text Decomposition 기반 RAG Quality
평가 (w/ 기대 답변)
Add-on
Red Teaming
Human 레드티밍
- 레드티밍 전략 가이드라인 제공
- Human 레드티밍 작업 운영 기능
Safety 자동 레드티밍
- Seed 데이터 업로드
- Seed 데이터 기반 공격 프롬프트 자동 생성
- 레드티밍 성공 여부 자동 평가
- 자동 평가 기반 공격 프롬프트 자동 재생성
Use Cases

L Co.
Chatbot Scenario Evaluation
• Chatbot Evaluation Setup for Real-World Customer Scenarios
• Evaluation Results: Score Comparison, Human Agreement, and Actionable Insights

K Co.
LLM Trustworthiness Assessment Consulting
• Tailored Metrics for Assessing Customer-Facing RAG Systems
• Metric-Based Eval Dataset Creation with Peer Model Benchmarking Report

L Co.
Red Teaming & Safety Audits for Chatbots
• Safety Criteria for Customer LLM Chatbots in Q&A and Everyday Dialogues
• Custom-Metric-Based Evaluation and Benchmarking Against Similar Models

K Co.
Safety Test Dataset Creation
• Developing Harmlessness Evaluation Sets Focused on Category Fit and Content Risk

S Co.
Trust & Quality Checks for Your LLMs
• Task-Specific Evaluation and Red Teaming Pipeline for Internal LLMs
• Custom Evaluation & Reliability Testing with Client Data

LLM Safety & Reliability Benchmark
• First-Ever Trustworthiness Criteria for Korean LLMs
• Under the AI Training Data Support Initiative, model performance is quantitatively evaluated using the 3H (Helpfulness, Honesty, Harmlessness) framework.
* 3H: A framework for developing AI systems that are Helpful, Honest, and Harmless.

LLM Alignment Benchmark for Korean Social Values and Common Knowledge
First Korean-Centric LLM Evaluation Dataset
• Korean Social Values & Common Sense Benchmark for LLMs
• Developed from a combination of large-scale public opinion data and authoritative Korean educational content.

L Co.
챗봇 시나리오 기반 평가
• 대고객용 챗봇 시나리오 기반 평가 지표 설계 및 평가 데이터 구축
• 평가 수행 결과(평가 점수 비교 분석, 휴먼 평가와의 일치도 등 포함 및 개선안 리포트)

K사
대고객 LLM 신뢰성 평가 컨설팅
• 대고객용 LLM RAG 서비스의 성능, 안전성, 도메인 특화 사항을 평가할 수 있는 최적 평가 지표 설계
• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평가 결과 비교 리포트 제공

L사
대고객용 유해성 평가 및 레드팀 운영
• 대고객용 LLM 챗봇 서비스의 질의응답, 일상대화 영역에 대한 유해성 평가가 가능한
평가 지표 및 기준 설계
• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평가 결과 비교 리포트 제공

K사
Safety 평가 데이터셋 구축
• 자체 개발 LLM의 윤리성 및 안전성 품질 확보를 위해 Category 적합성 및 유해성을 고려한 무해성 평가 데이터 구축

S사
자체 LLM QA 및 신뢰성 평가 컨설팅 및 구축
• 자체 개발 LLM 대상으로 RAG 시스템 평가, QA 평가, 요약 태스크 평가,
레드티밍 파이프라인 설계
• 고객사 원천 데이터 기반 평가용 데이터셋 구축 및 신뢰성 평가

LLM 신뢰성 벤치마크 데이터
• 국내 최초 한국어 언어 모델 신뢰성 기준 제작
• AI 학습용 데이터 구축 지원 사업의 일환으로, 3H 기준에 따라 인공지능 성능을 정량적으로 수치화
*3H: 도움되고, 진실하며 무해한 인공지능 개발을 위한 지표(Helpfulness, Honesty, Harmlessness)
LLM Evaluation
From Question Generation to Analysis
Enhance the performance of your LLM-based services with Datumo Eval. Create questions tailored to your industry and intent, and systematically analyze model performance using custom metrics.