進化したGPT「Hello GPT-4o」

OpenAIの最新モデル「GPT-4o」がすごい…。

本日(米13日)、OpenAIが発表されました「GPT-4o」は、テキスト、推論、コーディングに関して「GPT-4 Turbo」レベルの性能を達成すると同時に、多言語、オーディオ、ビジョン機能に関して最高水準であるとの事。

OpenAIの公式サイト、その他サイトから得た情報ではございますが、AIから出力し私なりに解釈した内容をもとに以下まとめてみました。

Hello GPT-4o by OpenAI

「GPT-4o」の革新

「GPT-4o」（「omni」を意味する「o」から）は、テキスト、音声、画像という異なる入力形式を統合し、これらを融合させることで、人間とコンピュータ間の対話をより自然な形で実現します。
このモデルは、テキスト、音声、画像のあらゆる組み合わせを出力できるだけでなく、音声入力に対しては平均320ミリ秒、最速232ミリ秒で反応することが可能です。
これにより、人間の会話速度に匹敵する応答性を持っています。

さらに、「GPT-4o」は、英語のテキスト処理とコーディングにおいて「GPT-4 Turbo」と同等の性能を発揮し、英語以外の言語においてはさらに大きな進歩を遂げています。
APIを通じての利用では、従来のモデルに比べて50%もコストが削減され、反応速度も向上しています。
このモデルは、特に視覚と音声のデータ理解において顕著な能力を発揮し、そのため既存のモデルと比べても大きな進歩を達成しています。
これは、AI技術の進化における重要な節点と言えるでしょう。

モデル機能の進化

「GPT-4o」は、音声をテキストに変換し、テキストを出力し、そしてそのテキストを音声に変換する、という3つの個別のモデルを用いる複雑なパイプラインを統合しました。
以前のモデル「GPT-3.5」や「GPT-4」では、音声モードを利用する際、2.8秒および5.4秒の遅延がありましたが、これは多くの情報が失われるプロセスでした。
特に、声調、複数の話者、背景雑音を直接観察することなく、笑い声、歌、感情表現を出力する能力に制約がありました。

新しい「GPT-4o」は、テキスト、ビジョン、オーディオを含むすべての入力と出力を単一のモデルでエンドツーエンドに処理することにより、これらの問題に対処しています。
これにより、「GPT-4o」は、これまでのモデルとは比較にならないほどの多様な機能を持つ、完全に統合された最初のモデルとして登場しました。
その可能性と制限については、今後の研究で明らかになるでしょう。
再度、この進化は、AIの機能拡張における重要な一歩を示しています。

「GPT-4o」の性能評価

「GPT-4o」は、AIモデルの能力を評価する従来のベンチマークを用いて測定された結果、テキスト処理、推論、コーディングの分野で「GPT-4 Turbo」に匹敵する性能を実現しました。
加えて、このモデルは多言語対応、オーディオ処理、ビジョン機能の分野で最高水準の性能を達成しています。
これにより、より幅広い言語や複雑なデータ形式を効率的に扱うことが可能となり、多様なシナリオでの利用が期待されます。

この成果は、「GPT-4o」がただ単に既存の技術を改善しただけでなく、複数のモダリティを統合することで全く新しい次元のAI性能を実現したことを意味しています。
特に、異なる言語や複雑な音声、視覚データの処理能力が向上したことは、AI技術の応用範囲を大きく広げることに寄与するでしょう。
これらの成果は、AIの実用化と社会への影響をさらに深化させることに繋がります。

「GPT-4o」の安全性と制限事項について

「GPT-4o」は、安全性を確保するために学習データのフィルタリングやモデルの調整などの技術が組み込まれています。
さらに、音声出力に関する新しい安全システムも導入されました。

従来のフレームワークに則り、「GPT-4o」はサイバーセキュリティ、CBRN、説得、モデルの自律性などの領域でリスクを評価しました。
その結果、中リスク以上のスコアを獲得していないことが示されました。
この評価には、自動評価と人間による評価が含まれ、モデルの学習プロセス全体を通じて実施されました。

さらに、「GPT-4o」は、社会心理学、偏見と公平性、誤情報などの分野で70人以上の外部専門家と広範な外部レッドチームを結成し、リスクを特定し、安全性を向上させるための対策を講じました。
オーディオモダリティに関しては、新たなリスクが認識されており、プリセット音声の選択に制限を加えるなどの対策を取ります。

今後、技術インフラストラクチャや他のモダリティのリリースに関連する安全性に取り組み、システムの安全性に関する詳細を共有していく予定です。
これにより、「GPT-4o」の利用がより安全で信頼性の高いものとなることが期待されます。

「GPT-4o」の入手可能性と展開

「GPT-4o」のテキストおよび画像機能が「ChatGPT」で本日から展開されます。
無料ユーザーも以下のような多彩な機能にアクセスできるようになるようです。

GPT-4レベルの知能を体験。
モデルとウェブの両方からの応答取得。
データ分析とチャート作成。
写真に関する会話。
ファイルのアップロードを通じた要約、書き込み、分析支援。
GPTとGPTストアの利用。
メモリ機能の使用。

有料ユーザーにはメッセージ制限が最大5倍まで増えるなどの追加メリットがあります。
また、数週間以内に「ChatGPT Plus」でα版の「GPT-4o」を使用した音声モードの新バージョンが公開される予定です。

開発者向けには、APIを通じて「GPT-4o」のテキストおよびビジョン機能にアクセスが可能になり、このモデルは「GPT-4 Turbo」に比べて2倍高速で、コストは半分で提供されます。
さらに、レート制限も5倍まで拡大されます。信頼できるパートナーの小グループには、数週間以内に新しいオーディオおよびビデオ機能のサポートも始まる予定です。

これらの展開は、「GPT-4o」の能力を広範囲にわたって利用可能にし、より多くのユーザーに対して革新的な機能を提供することに寄与します。