GPT-4oのファインチューニングが利用可能に

GPT-4oのファインチューニングが利用可能に

下記の記事を簡単にまとめてみました。

概要

OpenAI社は本日、開発者から最も要望の多かった機能である、GPT-4oのファインチューニングを開始しました。また、9月23日までの期間限定で、全ての組織に1日100万トークンの無料トレーニングを提供しています。

開発者は独自のデータセットを使用してGPT-4oをファインチューニングし、特定のユースケースに対してより高いパフォーマンスを低コストで実現できるようになりました。ファインチューニングにより、応答の構造やトーンのカスタマイズ、複雑な分野固有の指示への対応が可能になります。わずか数十の例を含むトレーニングデータセットでも、アプリケーションに強力な結果をもたらすことができます。

使い方

GPT-4oのファインチューニングは、有料利用層のすべての開発者が利用できます。ファインチューニングダッシュボードにアクセスし、「作成」をクリックして、ベースモデルのドロップダウンから gpt-4o-2024-08-06 を選択してください。

GPT-4o miniのファインチューニングも利用可能で、9月23日までは1日200万トークンの無料トレーニングを提供しています。

GPT-4oファインチューニングのパフォーマンス

OpenAI社は、信頼できるパートナーと協力してGPT-4oのファインチューニングをテストしていました。その成功事例が以下になります。

Cosine社のGenieが、SWE-benchで最高スコアを達成

Cosine社が開発したGenieは、AIソフトウェアエンジニアリングアシスタントです。このツールは、ユーザーと協力しながら自律的にバグの特定と修正、新機能の構築、コードのリファクタリングを行う能力を持ちます。

このGenieの性能を客観的に評価するため、ソフトウェアエンジニアリングタスクの標準的なベンチマークであるSWE-benchが使用されています。SWE-benchは、AIモデルのコード生成および修正能力を測定する信頼性の高い指標として業界で認知されているため、Genieの実力を示すのに適しているという判断で採用されているようです。

このGenieにおいてGPT-4oのファインチューニングを使用した具体的な結果が以下になります。

  1. SWE-bench Verifiedベンチマークで43.8%のスコアを記録し、最高記録(SOTA: State-of-the-Art)を達成
  2. SWE-bench Fullベンチマークでは30.08%のスコアを獲得し、これも最高記録となりました。特筆すべきは、従来の最高スコア19.27%を大幅に上回り、このベンチマークにおいて過去最大の改善を示したことです。
SWE-benchベンチマークのスコア

Distyl社が、BIRD-SQLベンチマークで1位を獲得

Distyl社は、フォーチュン500企業向けにAIソリューションを提供する企業です。

この会社ではファインチューニングしたGPT-4oのモデルを使用しており、テキストからSQLへの主要ベンチマークであるBIRD-SQLベンチマークで71.83%の実行精度を達成したようです。

クエリ再定式化、インテント分類、思考連鎖、自己修正などのタスクで優れており、特にSQL生成で高い性能を発揮しました。

BIRD-SQLベンチマーク

データプライバシーと安全性

ファインチューニングされたモデルは完全にユーザーの管理下にあり、ビジネスデータの所有権はユーザーにあります。データが共有されたり、他のモデルのトレーニングに使用されることはありません。

また、ファインチューニングされたモデルの誤用を防ぐため、複数の安全対策が実施されています。例えば、自動化された安全性評価の継続的な実行や、使用状況のモニタリングを行っています。

Anycloudではプロダクト開発の支援を行っています

プロダクト開発をお考えの方はぜひAnycloudにご相談ください。

まずは相談する

記事を書いた人

やました

PdM

やました

Twitter

株式会社AnycloudでPdMをしています