記事

HackCamp × 大阪ガス LLMハッカソン2025 準優勝

2025/04/12

8 分で読める

記事をシェア

preview

HackCamp×大阪ガス共同主催のLLMハッカソンに参加し、20名の参加者の中で準優勝することができました。カーボンクレジット市場の透明性向上を目的とした、AI評価システムの精度向上に挑戦しました。

ハッカソンの概要

大阪ガスは、世界に先駆けてAIを活用したカーボンクレジットの品質評価システムの開発を進めています。2030年には最大100兆円規模に達すると予測されるカーボンクレジット市場において、市場の透明性向上と信頼性の確保が最重要課題となっています。

今回のハッカソンは、この課題に対してLLMを活用したプロンプト設計・最適化を通じて、カーボンクレジット評価の精度向上に貢献することを目的としていました。

課題の内容

ハッカソンの課題は、カーボンニュートラルに関するプロジェクト報告書をAIで分析し、カーボンニュートラルの条件を満たしているかを判定するというものでした。

評価の仕組み

  • クライテリア数: 50個の判定項目
  • 評価基準: 各クライテリアのAI判定結果が、人間のアノテーション(正解データ)と何個一致するかで精度を競う
  • 参加者: 20名

各クライテリアには明確な評価基準が設定されており、報告書の内容がその基準を満たしているか、言及されていないか、関連性がないかなどを正確に判定する必要がありました。

直面した2つの大きな課題

1. 全て英語での評価

対象となるプロジェクト報告書は全て英語で書かれており、さらにプロンプト自体も英語で設計する必要がありました。

困難だった点:

  • 専門的なカーボンニュートラル用語の理解
  • 英語での微妙なニュアンスの表現
  • 翻訳ツールを使いながらの作業による時間ロス

日本語で直感的に理解し、プロンプトを設計できないことは想定以上に大きな障壁でした。翻訳ツールを活用しながらも、意図した評価基準を正確にLLMに伝えることに苦労しました。

2. 制限時間に対するクライテリア数の多さ

50個のクライテリア全てに対して、精度の高いプロンプトを設計・検証する時間は限られていました。

実際、私はギリギリ全50クライテリアのチューニングを完了することができましたが、他の参加者の中には半分程度(約25クライテリア)しか完了できなかった人も多数いました。この時間制約の中で、いかに効率的にプロンプトを最適化するかが勝負の分かれ目でした。

精度向上のための4つの工夫

1. 複数回評価によるロバスト性の検証

同じプロンプトで複数回評価を実施し、評価結果が安定しているかをテストしました。

検証プロセス:

  • 同一プロンプトで3〜5回評価を実行
  • 結果が変動する場合、プロンプトの曖昧性を特定
  • 一貫した結果が得られるまでプロンプトを改善

この手法により、「たまたま正解する」プロンプトと「安定して正解する」プロンプトを区別できました。

2. 段階的評価プロンプトの活用

特定のクライテリアでは、LLMに段階的な思考プロセスを促すプロンプト構造が有効でした。

効果的だったプロンプトパターン:

Extract information related to [specific criterion].
Then, evaluate whether it meets the requirements...

または

First, assess whether [condition A] is met.
Then, if condition A is satisfied, evaluate [condition B]...

効果:

  • irrelevant(関連性なし)の判定精度が向上
  • not_mentioned(言及なし)の検出が正確になる
  • 複雑な条件の組み合わせでも誤判定が減少

このアプローチは、Chain-of-Thought(思考の連鎖)の考え方を応用したもので、LLMに明示的な評価ステップを踏ませることで、推論の精度を高めることができました。

3. 複数AIモデルでの横断的検証

特定モデルでのみ動作するプロンプトは、本質的な解決になっていないため、GPT、Gemini、Claudeなど、複数のAIモデルで同じプロンプトを検証することで、より正確なチューニングを実現しました。

4. アウトプット優先の戦略

ハッカソンの基本戦略ではありますが、まずは全50クライテリア分のプロンプトを一通り作成し、その後に精度向上に集中しました。

具体的には、最初の2時間で全50クライテリアの初期プロンプトを作成し、次の2時間で精度が低いクライテリアを優先的に改善、最後の1時間で全体の最終検証と微調整を行いました。実際、多くの参加者が時間不足で全クライテリアを完了できなかった中、私はギリギリですが全てを完成させることができました。

明示的な指示の重要性

LLMは人間のような「文脈理解」をしていると思いがちですが、実際には明示的な指示が不可欠です。

悪い例:

Evaluate if the project meets carbon neutrality criteria.

良い例:

First, extract all information related to greenhouse gas emissions.
Then, assess whether emission reduction measures are clearly specified.
Finally, determine if the project meets criterion X based on the extracted information.

後者のように、評価の手順を明示することで、LLMの推論プロセスが安定し、精度が向上しました。

準優勝の要因

20名の参加者の中で準優勝できた要因を振り返ると、以下の点が大きかったと考えています。

1. 時間管理の徹底

全クライテリアを完成させることを最優先し、その上で精度向上に取り組んだことで、確実にポイントを積み重ねることができました。

2. 体系的な検証手法

複数回評価、複数モデル検証という体系的なアプローチにより、プロンプトの品質を客観的に評価できました。

3. 段階的評価の発見

「まず抽出、そして評価」という段階的プロンプト構造が有効だと発見し、多くのクライテリアで活用できたことが精度向上につながりました。

カーボンニュートラル分野への関心

今回のハッカソンを通じて、カーボンクレジット市場とAIの融合という新しい分野に触れることができました。

カーボンクレジットの品質評価は、単なる技術的な課題ではなく、地球規模の環境問題解決に直結する社会的意義の高い取り組みです。AIによる透明性の高い評価システムが確立されれば、カーボンクレジット市場の信頼性が向上し、より多くの企業や個人が脱炭素化に参加しやすくなります。

今後、このような社会課題解決型のAI活用がますます重要になると実感しました。

おわりに

HackCamp×大阪ガス共同主催のLLMハッカソンで準優勝できたことは嬉しくもあり、優勝を逃したことが悔しくもあり、まだまだ勉強が足りないなと実感しました。

一方で、今回のハッカソンを通じて、カーボンニュートラルという分野の知見を深く得られたことは大きな収穫でした。カーボンクレジット市場は2030年に100兆円規模に達すると予測されていますが、まだまだビジネス的な参画余地が残されている新興市場です。AIによる品質評価システムの確立だけでなく、市場の透明性向上や取引プラットフォームの開発など、技術者として貢献できる領域は多岐にわたります。

今後は、カーボンニュートラル分野でのビジネス機会も模索していきたいと考えています。環境問題解決と事業性を両立できる領域は、これからの時代においてますます重要になると確信しています。

最後に、このような貴重な学びと挑戦の機会を提供してくださったHackCampと大阪ガスの皆様、そして共に切磋琢磨した参加者の皆様に心から感謝いたします。