...

LLM評価
プラットフォーム

高品質なデフォルト指標およびカスタム指標を活用し
高品質な評価用質問セットを自動生成します。
Datumo Platformにより、LLMモデルおよびLLM活用サービスの評価・改善を実現します。

高品質なデフォルト指標およびカスタム指標を活用し 高品質な評価用質問セットを自動生成します。
Datumo Platformにより、LLMモデルおよび LLM活用サービスの評価・改善を実現します。

技術紹介

高品質な評価データセット

LLMモデルの評価は、高品質な評価用質問データセットの構築から始まります。Datumo独自の高度なAgentic Flowにより、ソース文書をアップロードするだけで,
業界・用途に最適化された高品質な
評価データセットを自動生成します。

LLMモデルの評価は、高品質な評価用 質問データセットの構築から始まります。
Datumo独自の高度なAgentic Flowにより、ソース文書をアップロードするだけで,
業界・用途に最適化された高品質な
評価データセットを自動生成します。

データセット評価・改善

LLM評価用質問データセットに対して、標準指標およびカスタム指標を設定できます。
Datumo Platformは独自のAgentic Flowを活用し、質問品質を自動評価するとともに、ドメイン特性や評価意図に沿った結果を提供します。

LLM評価用質問データセットに対して、
標準指標およびカスタム指標を設定できます。
Datumo Platformは独自のAgentic Flowを活用し、
質問品質を自動評価するとともに、
ドメイン特性や評価意図に沿った結果を提供します。

Agentic Flow & Human Alignment

複数のLLMエージェントが質問生成および評価プロセスに協調的に参加し、
より高精度かつ高品質な結果を実現します。
評価意図と自動評価結果とのギャップを最小化する
Human Alignmentを提供します。

複数のLLMエージェントが質問生成および 評価プロセスに協調的に参加し、
より高精度かつ高品質な結果を実現します。
評価意図と自動評価結果とのギャップを 最小化する
Human Alignmentを提供します。

なぜDatumoなのか

アジア初・最大規模のRed Team Challenge

Datumoは韓国政府との連携のもと、2024 AI Safety Conferenceを開催しました。Cohere、Stability AIなどの企業が参加し、アジア初となるAI Red Team Challengeを実施しました。

Datumoは韓国政府との連携のもと、2024 AI Safety Conferenceを開催しました。Cohere、Stability AIなどの企業が参加し、アジア初となるAI Red Team Challengeを実施しました。

世界初の評価手法

韓国の社会的価値観および常識知識を対象とし
た初のLLM評価データセットです。Datumoが第一著者・第三著者として参加した論文はACL 2024に採択されました。

韓国の社会的価値観および常識知識を対象とし
た初のLLM評価データセットです。
Datumoが第一著者・第三著者として参加した論文はACL 2024に採択されました。

*韓国の社会的価値観および一般常識に関するLLMアラインメント評価ベンチマーク

*韓国の社会的価値観および 一般常識に関するLLM アラインメント評価ベンチマーク

技術特許

DatumoはLLM技術分野において、2024年時点で累計47件の特許出願、16件の特許登録実績を保有しています。 

DatumoはLLM技術分野において、
2024年時点で累計47件の特許出願、
16件の特許登録実績を保有しています。 

業界別ユースケース

該当する業界が見つかりませんか?

該当する業界が見つかりませんか?

LLM Evaluation

質問生成から分析まで

Datumo Platformにより、LLMベースサービスの性能向上を支援します。業界や用途に応じた質問を生成し、カスタム指標を用いてモデル性能を体系的に分析できます。

Datumo Platformにより、
LLMベースサービスの性能向上を支援します。
業界や用途に応じた質問を生成し、
カスタム指標を用いてモデル性能を
体系的に分析できます。

質問生成(Generate Questions)
回答評価(Evaluate Answers)
指標調整(Adjust Metrics)