アクセシビリティ・ステートメント Skip Navigation
  • データ・プライバシー
  • お問い合わせ
  • リリースの送信
PR Newswire
  • ニュース
  • 製品紹介
    • 概要
    • ニュース配信
    • スポンサード・プレースメント
    • Cision Global Media Monitoring
    • Cision IR
    • メディアルーム
    • すべての製品
  • 連絡先
    • 一般的なお問い合わせ
    • デモのリクエスト
    • パートナーシップ
    • メディアからのお問い合わせ
When typing in this field, a list of search results will appear and be automatically updated as you type.

コンテンツを検索する...

検索結果が見つかりません。検索条件を変更して再度検索してください。
  • 注目のニュース
      • ニュースリリースを見る

      • すべてのニュースリリース
      • すべての上場企業
      • 英語のみ
      • すべてのマルチメディア

      • すべてのマルチメディア
      • すべての写真
      • すべての動画
  • ビジネスとマネー
      • エンターテインメント・メディア

      • エンターテインメント
      • テレビ
      • ラジオ・ポッドキャスト
      • 出版・情報サービス
      • 広告
      • 映画
      • 書籍
      • 芸術、文化、デザイン
      • 雑誌
      • 音楽
      • すべてを見る エンターテインメント・メディア

      • ビジネス

      • アウトソーシング事業
      • ライセンスおよびマーケティング契約
      • 中小企業サービス
      • 人事発表
      • 人的資源と労働力管理
      • 企業拡大
      • 住宅用不動産
      • 収益
      • 商業用不動産
      • 新製品とサービス
      • 海外不動産(米国以外)
      • 環境、社会、ガバナンス
      • 社会的責任のある投資
      • 見本市ニュース
      • 訃報
      • 調査、世論調査、リサーチ
      • 賞
      • すべてを見る ビジネス

      • ビジネス・テクノロジー

      • インターネット・テクノロジー
      • コンピューターと電子機器
      • コンピューター・ソフトウェア
      • コンピューター・ネットワーク
      • コンピューター・ハードウェア
      • コンピューター周辺機器
      • データ分析
      • ナノテクノロジー
      • ハイテク・セキュリティ
      • ブロックチェーン
      • 半導体
      • 放送技術
      • 金融テクノロジー
      • 電子商取引
      • 電子設計オートメーション
      • 電子部品
      • すべてを見る ビジネス・テクノロジー

      • 自動車・輸送業界

      • サプライチェーン・ロジスティクス
      • トラック輸送と道路輸送
      • 旅行
      • 海事・造船
      • 自動車
      • 航空会社・航空
      • 航空宇宙・防衛
      • 航空貨物
      • 運輸、トラック、鉄道
      • 鉄道・複合一貫輸送
      • すべてを見る 自動車・輸送業界

      • 銀行・金融サービス

      • セールスレポート
      • ベンチャー・キャピタル
      • 不動産
      • 事業再編と資本再編
      • 企業買収、合併、買収
      • 会計ニュース
      • 保険
      • 債券・株式格付け
      • 収益
      • 収益予測
      • 合弁事業
      • 売り出し
      • 契約
      • 投資に関する意見
      • 投資信託
      • 暗号通貨
      • 株主活動
      • 株主総会
      • 破産
      • 私募
      • 融資合意
      • 配当金
      • 銀行・金融サービス
      • 電話会議開催のお知らせ
      • すべてを見る 銀行・金融サービス

  • 科学とテクノロジー
      • エネルギー

      • ケミカル
      • 一般製造業
      • 代替エネルギー
      • 公益事業
      • 天然ガス事業
      • 水道事業
      • 石油・エネルギー
      • 石油・ガスの発見
      • 鉱業
      • 鉱業・金属
      • 電気事業
      • すべてを見る エネルギー

      • コンシューマー・テクノロジー

      • AI
      • STEM(科学、技術、工学、数学)
      • クラウド・コンピューティングとIoT
      • コンシューマー・エレクトロニクス
      • コンピューターと電子機器
      • コンピューター・ソフトウェア
      • コンピューター・ネットワーク
      • コンピューター・ハードウェア
      • コンピューター周辺機器
      • ソーシャルメディア
      • データ分析
      • ブロックチェーン
      • モバイル機器/アプリ
      • 暗号通貨
      • 無線通信
      • 金融テクノロジー
      • 電子商取引
      • 電子設計オートメーション
      • すべてを見る コンシューマー・テクノロジー

      • 環境

      • グリーン・テクノロジー
      • 環境問題
      • 環境政策
      • 環境関連製品・サービス
      • 自然保護とリサイクル
      • 自然災害
      • すべてを見る 環境

      • 重工業・製造業

      • HVAC(暖房、換気、空調設備)
      • ケミカル
      • コンピューター周辺機器
      • タバコ
      • テキスタイル
      • 一般製造業
      • 工作機械、金属加工、冶金
      • 建設・建築
      • 機械
      • 紙・林産物・容器
      • 航空宇宙・防衛
      • 貴金属
      • 農業
      • 鉱業
      • 鉱業・金属
      • すべてを見る 重工業・製造業

      • 電気通信

      • VoIP(ボイス・オーバー・インターネット・プロトコル)
      • コンピューター・ネットワーク
      • コンピューター周辺機器
      • モバイル機器/アプリ
      • 無線通信
      • 通信機器
      • 電気通信
      • 電気通信事業者とサービス
      • すべてを見る 電気通信

  • 生活スタイルと健康
      • エンターテインメント・メディア

      • エンターテインメント
      • テレビ
      • ラジオ・ポッドキャスト
      • 出版・情報サービス
      • 広告
      • 映画
      • 書籍
      • 芸術、文化、デザイン
      • 雑誌
      • 音楽
      • すべてを見る エンターテインメント・メディア

      • スポーツ

      • アウトドア・キャンプ・ハイキング
      • スポーツ
      • スポーツイベント
      • スポーツ用品・アクセサリー
      • すべてを見る スポーツ

      • 健康

      • FDA認証
      • バイオテクノロジー
      • バイオメトリクス
      • フィットネス・ウェルネス
      • ヘルスケア・病院
      • メンタルヘルス
      • 健康保険
      • 医療・医薬品
      • 医療機器
      • 医薬品
      • 国際医療承認
      • 感染症対策
      • 歯科医療
      • 臨床試験と医学的発見
      • 補完医療
      • すべてを見る 健康

      • 旅行

      • アウトドア・キャンプ・ハイキング
      • ギャンブル・カジノ
      • ホテルとリゾート
      • 旅客航空
      • 旅行
      • 遊園地と観光地
      • すべてを見る 旅行

      • 消費者製品・小売

      • おもちゃ
      • オフィス用品
      • ジュエリー
      • スーパー
      • ノンアルコール飲料
      • ビール、ワイン、スピリッツ
      • ファッション
      • レストラン
      • 住宅修繕
      • 動物・ペット
      • 化粧品・パーソナルケア
      • 大麻
      • 家具・調度品
      • 家庭用品
      • 家庭用品、消費財、化粧品
      • 小売
      • 製品リコール
      • 食料・飲料
      • 飲料
      • すべてを見る 消費者製品・小売

  • 政策・公益
      • 政策・公益

      • 企業の社会的責任
      • 公共安全
      • 動物福祉
      • 教育
      • 欧州政府
      • 環境関連製品・サービス
      • 経済ニュース、トレンド、分析
      • 自然災害
      • 非営利
      • すべてを見る 政策・公益

  • 人と文化
      • 人物・文化全般

      • LGBTQ+
      • シニア
      • ダイバーシティ、エクイティ&インクルージョン
      • ヒスパニック系ニュース
      • 女性関連ニュース
      • 子供関連のニュース
      • 宗教
      • 退役軍人
      • 障害者向けニュース
      • すべてを見る 人物・文化全般

  • 概要
  • ニュース配信
  • スポンサード・プレースメント
  • Cision Global Media Monitoring
  • Cision IR
  • メディアルーム
  • すべての製品
  • 一般的なお問い合わせ
  • デモのリクエスト
  • パートナーシップ
  • メディアからのお問い合わせ
  • Hamburger menu
  • PR Newswire
  • リリースの送信
    • チャット

    • すべての連絡先
    • お問い合わせ


  • ニュースリリース
  • リリースの送信
  • データ・プライバシー
  • 注目のニュース
    • ニュースリリースを見る
    • すべてのマルチメディア
  • ビジネスとマネー
    • エンターテインメント・メディア
    • ビジネス
    • ビジネス・テクノロジー
    • 自動車・輸送業界
    • 銀行・金融サービス
  • 科学とテクノロジー
    • エネルギー
    • コンシューマー・テクノロジー
    • 環境
    • 重工業・製造業
    • 電気通信
  • 生活スタイルと健康
    • エンターテインメント・メディア
    • スポーツ
    • 健康
    • 旅行
    • 消費者製品・小売
  • 政策・公益
  • 人と文化
    • 人物・文化全般
  • ニュースリリース
  • リリースの送信
  • データ・プライバシー
  • 概要
  • ニュース配信
  • スポンサード・プレースメント
  • Cision Global Media Monitoring
  • Cision IR
  • メディアルーム
  • すべての製品
  • ニュースリリース
  • リリースの送信
  • データ・プライバシー
  • 一般的なお問い合わせ
  • デモのリクエスト
  • 編集局
  • パートナーシップ
  • メディアからのお問い合わせ
  • ニュースリリース
  • リリースの送信
  • データ・プライバシー

Skywork-Reward-V2:オープンソース報酬モデルの新たなマイルストーンをリード


ニュース提供

Skywork AI pte ltd

05 7月, 2025, 22:07 JST

この記事をシェアする

Share toX

この記事をシェアする

Share toX

シンガポール、2025年7月5日 /PRNewswire/ -- 2024年9月、SkyworkはSkywork-Rewardシリーズモデルと関連データセットを初めてオープンソース化しました。過去9ヶ月間、これらのモデルとデータはオープンソースコミュニティで研究と実践に広く応用され、HuggingFaceプラットフォームでの累計ダウンロード数は75万回を超え、RewardBenchなどの権威ある評価において複数の最先端モデルが優秀な成績を収めることを支援しました。

2025年7月4日、Skyworkは第2世代報酬モデル(Reward Model)であるSkywork-Reward-V2シリーズを継続してオープンソース化しました。これは異なるベースモデルと異なるサイズに基づく8つの報酬モデルを含み、パラメータ規模は6億から80億まで様々で、7つの主要な報酬モデル評価ランキングで全面的に首位を獲得しました。

Continue Reading
「人機協働、2段階反復」データ選別パイプライン
「人機協働、2段階反復」データ選別パイプライン

Skywork-Reward-V2ダウンロードアドレス

HuggingFaceアドレス:
https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84

GitHubアドレス:
https://github.com/SkyworkAI/Skywork-Reward-V2

技術報告書:
https://arxiv.org/abs/2507.01352

報酬モデルは人間フィードバックからの強化学習(RLHF)プロセスにおいて極めて重要な役割を果たします。この新世代報酬モデルの構築過程において、我々は合計4000万対の選好対比を含む混合データセットSkywork-SynPref-40Mを構築しました。

大規模で効率的なデータスクリーニングとフィルタリングを実現するため、Skyworkは特に人機協働の2段階フローを設計し、人工アノテーションの高品質とモデルの大規模処理能力を組み合わせました。このフローにおいて、人間は厳格に検証された高品質アノテーションを提供し、大規模言語モデル(LLM)は人間の指導に基づいて自動的に整理と拡充を行います。

上記の優質な混合選好データに基づいて、我々はSkywork-Reward-V2シリーズを開発しました。これは広範な適用性を示し、複数の能力次元において優秀な性能を発揮します。これには人間選好への一般的な整合性、客観的正確性、安全性、スタイルバイアスへの抵抗能力、およびbest-of-N拡張能力が含まれます。実験検証により、このシリーズのモデルは7つの主要な報酬モデル評価ベンチマークで最高性能を獲得しました。

01 Skywork-SynPref-40M:人機協働による千万級人間選好データスクリーニング

現在最も先進的なオープンソース報酬モデルでも、大多数の主要評価ベンチマークでの性能は依然として不十分です。これらは人間選好の細かく複雑な特徴を効果的に捉えることができず、特に多次元、多層レベルのフィードバックに直面した際の能力は特に限定的です。

さらに、多くの報酬モデルは特定のベンチマークタスクで優秀な性能を示しやすいものの、新しいタスクや新しいシナリオへの移行が困難で、明らかな「過学習」現象を示します。既存の研究では目的関数の最適化、モデルアーキテクチャの改善、および最近注目されている生成型報酬モデル(Generative Reward Model)などの方法により性能向上を試みていますが、全体的な効果は依然として非常に限定的です。

我々は現在の報酬モデルの脆弱性は主に既存の選好データセットの限界に起因すると考えます。これらのデータセットはしばしばカバー範囲が限定的で、ラベル生成方式が比較的機械的であったり、厳格な品質管理が欠けていたりします。

そのため、新世代報酬モデルの研究開発において、我々は第1世代モデルのデータ最適化での経験を継承するだけでなく、より多様で規模の大きい真の人間選好データを導入し、データ規模の向上と同時にデータ品質の両立を目指します。

そのため、SkyworkはSkywork-SynPref-40Mを提案しました。これは現在までで最大規模の選好混合データセットであり、合計4000万対の選好サンプルを含みます。そのコア革新は「人機協働、2段階反復」データ選別パイプラインにあります。

第1段階:人間主導の小規模高品質選好構築

チームはまず未検証の初期選好プールを構築し、大規模言語モデル(LLM)を活用して選好関連の補助属性(タスクタイプ、客観性、議論性など)を生成しました。この基盤の上で、人工アノテーターは厳格な検証プロトコルに従い、外部ツールと先進的な大規模言語モデルを活用して部分データの精密な審査を行い、最終的に小規模だが高品質な「ゴールドスタンダード」データセットを構築し、後続のデータ生成とモデル評価の依拠としました。

続いて、我々はゴールドスタンダードデータの選好ラベルを指導として、LLMの大規模生成による高品質な「シルバースタンダード」データと組み合わせ、データ量の拡張を実現しました。チームはまた多回の反復最適化を実施しました:各回において、報酬モデルを訓練し、ゴールドスタンダードデータでの性能に基づいてモデルの弱点を特定;さらに類似サンプルの検索と複数モデル一致性機構による自動アノテーションにより、シルバースタンダードデータをさらに拡張・強化しました。この人機協働の閉ループプロセスは継続的に反復し、報酬モデルの選好理解と判別能力を効果的に向上させました。

第2段階:全自動大規模選好データ拡張

初期高品質モデルを獲得した後、第2段階は自動化された大規模データ拡張に転じます。この段階では人工審査に依存せず、訓練完了した報酬モデルによる一致性フィルタリングを採用します:

  • あるサンプルのラベルが現在の最適モデル予測と一致しない場合、またはモデルの信頼度が低い場合、LLMを呼び出して再自動アノテーションを実行;
  • サンプルラベルが「ゴールドモデル」(人工データのみで訓練されたモデル)予測と一致し、現在のモデルまたはLLMのサポートを得た場合、直接スクリーニングを通過可能。

この機構により、チームは元の4000万サンプルから2600万条の精選データのスクリーニングに成功し、人工アノテーション負担を大幅に削減すると同時に、選好データの規模と品質間の良好なバランスを実現しました。

02 Skywork-Reward-V2:小モデルサイズで大モデル性能を全方位的にマッチング

前世代のSkywork-Rewardと比較して、Skyworkが新たに発表したSkywork-Reward-V2シリーズは、Qwen3とLLaMA3シリーズモデルに基づいて訓練された8つの報酬モデルを提供し、パラメータ規模は6億から80億をカバーします。

Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBenchなど合計7つの主要報酬モデル評価ベンチマークにおいて、Skywork-Reward-V2シリーズは全面的に現在の最適(SOTA)レベルに到達しました。

データ品質と豊富さでモデル規模制限を補完

最小モデルのSkywork-Reward-V2-Qwen3-0.6Bでさえ、その全体性能は既に前世代最強モデルのSkywork-Reward-Gemma-2-27B-v0.2の平均レベルにほぼ到達しています。最大規模のSkywork-Reward-V2-Llama-3.1-8Bは、すべての主要ベンチマークテストで全面的な超越を実現し、現在全体性能が最優秀のオープンソース報酬モデルとなりました。

多次元人間選好能力の広範囲カバー

さらに、Skywork-Reward-V2は複数の高度能力評価で先進的な成績を収めました:Best-of-N(BoN)タスク、バイアス抵抗能力テスト(RM-Bench)、複雑指示理解および真実性判断(RewardBench v2)を含み、優秀な汎化能力と実用性を示しました。

高い拡張性を持つデータスクリーニングプロセス、報酬モデル性能を大幅向上

性能評価での優秀な表現に加えて、チームは「人機協働、2段階反復」データ構築フローにおいて、精密なスクリーニングとフィルタリングを経た選好データが、複数回の反復訓練において継続的に効果的に報酬モデルの全体性能を向上させることができ、特に第2段階の全自動データ拡張において特に顕著な性能を示すことを発見しました。

対照的に、元データを盲目的に拡充するだけでは初期性能を向上させることができないだけでなく、ノイズを導入して負の影響をもたらす可能性があります。データ品質の重要な役割をさらに検証するため、我々は早期版本の1600万条データサブセットで実験を行い、結果として、その中のわずか1.8%(約29万条)の高品質データを使用して8B規模モデルを訓練するだけで、その性能は既に現在の70B級SOTAリワードモデルを上回ることが示されました。この結果は再びSkywork-SynPrefデータセットが規模面で先進的地位にあるだけでなく、データ品質面でも顕著な優位性を持つことを証明しています。

03 オープンソース報酬モデルの新マイルストーンを迎える:未来AI基盤インフラ構築を支援

本回の第2世代報酬モデルSkywork-Reward-V2の研究作業において、チームはSkywork-SynPref-40M(4000万個の選好対を含むデータ混合集、その中2600万対は精密スクリーニング済み)、およびSkywork-Reward-V2(最先端性能を持つ8つの報酬モデルシリーズ、広範囲タスクに適用可能な設計目標)を提案しました。

我々はこの研究作業と報酬モデルの継続的反復が、オープンソース報酬モデルの発展を推進し、人間フィードバックからの強化学習(RLHF)研究の進歩をより広範囲に促進することに役立つと確信しています。これは該当分野の重要な前進であり、オープンソースコミュニティの繁栄をさらに加速させることができます。

Skywork-Reward-V2シリーズモデルは選好データ規模拡張の研究に特化しており、今後チームの研究範囲は段階的に他の未充分探索領域、例えば代替訓練技術とモデリング目標などにも拡大する予定です。

同時に、近年の分野内発展傾向を考慮すると──報酬モデルと報酬形成機構は既に今日の大規模言語モデル訓練フローの核心要素となっており、これは人間選好学習と行動誘導に基づくRLHFだけでなく、数学、プログラミングまたは一般推論タスクを含むRLVRおよびエージェントベースの学習シナリオにも適用されます。

したがって、将来我々は報酬モデルまたはより広義の統一報酬システムが、AI基盤インフラの核心を構成することを期待しています。それらはもはや単なる行動や正確性の評価器ではなく、知能システムが複雑環境で航行する「コンパス」となり、人間価値観との整合を支援し、継続的に進化して、より意義のある目標に向かって前進することでしょう。

なお、Skyworkは5月に世界初のdeep researchのAI workspace agentsを発表しており、以下のリンクから体験いただけます:skywork.ai

Media Contact
Company Name: Skywork AI PTE.LTD.
Contact Person: Peter Tian
Email: [email protected]
State: 2 Science Park Drive
Country: Singapore
Website: skywork.ai

SOURCE Skywork AI pte ltd

Modal title

同じ情報源の記事

Skywork AI は、これまでで最も強力なマルチモーダル推論モデルである Skywork-R1V 3.0 をオープンソース化し、MMMU で 76 というスコアを達成して、OpenAI と Anthropic の両方を上回りました

Skywork AI は、これまでで最も強力なマルチモーダル推論モデルである Skywork-R1V 3.0 をオープンソース化し、MMMU で 76 というスコアを達成して、OpenAI と Anthropic の両方を上回りました

7月9日のニュースによると、シンガポールのAI企業Skywork AIは、マルチモーダル推論モデル「Skywork-R1V...

このソースからのその他のリリース

閲覧する

コンピューターと電子機器

コンピューターと電子機器

AI

AI

コンピューター・ソフトウェア

コンピューター・ソフトウェア

コンピューター・ソフトウェア

コンピューター・ソフトウェア

同様のトピックのニュースリリース

連絡先

  • [email protected]
  • お問い合わせ
  • デモのリクエスト
  • パートナーシップ
  • メディアからのお問い合わせ

製品紹介

  • Cision Communication Cloud®
  • マーケティング担当者向け
  • 広報担当者向け
  • IR・コンプライアンス担当者向け
  • 代理店向け
  • すべての製品

概要

  • PRニュースワイヤーについて
  • Cisionについて
  • 採用情報
  • アクセシビリティ・ステートメント
  • アジア太平洋 - 簡体字中国語
  • アジア太平洋
  • アジア太平洋 - 繁体字中国語
  • アラビア語
  • ブラジル
  • カナダ
  • チェコ共和国
  • デンマーク
  • フィンランド
  • フランス
  • ドイツ
  • インド
  • インドネシア
  • イスラエル
  • イタリア
  • メキシコ
  • 中東
  • オランダ
  • ノルウェー
  • ポーランド
  • ポルトガル
  • ロシア連邦
  • スロバキア共和国
  • スペイン
  • スウェーデン
  • 英国
  • 米国

お客様のサービス

  • すべてのニュースリリース
  • プラットフォーム

Do not sell or share my personal information:

  • Submit via [email protected] 
  • Call Privacy toll-free: 877-297-8921

連絡先

製品紹介

概要

お客様のサービス
  • すべてのニュースリリース
  • Platform
[email protected]
  • 利用規約
  • プライバシー・ポリシー
  • 情報セキュリティ・ポリシー
  • サイトマップ
  • Cookieの設定
  • アクセシビリティー
著作権 © 2025 Cision US Inc.