SDPOは、自己蒸留を用いた強化学習フレームワークで、豊富なフィードバックを活用して強化学習の学習効率を向上させます。特に、プログラムや数学のような検証可能なドメインにおいて、大規模言語モデルのポストトレーニングに役立ちます。これにより、従来のスカラー報酬に依存せず、実行時エラーや評価などの詳細なフィードバックを通じて
コンテンツを見る