みなさん、おはようございます。
本日は「GPT-4o」についてサクッと触ってみた結果を共有したいと思います。
GPT-4oとは
日本時間2024年5月14日未明、OpenAIは新たなモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。
ChatGPT上でも既に、「GPT-4o」は利用可能となっているので、早速触ることができます。
![](https://sec.atd-net.com/wp-content/uploads/2024/05/image-1024x638.png)
GPT-4oに画像を解説させてみた
今回はGPT-4oの性能を見るために画像を解説させてみました。
対象は以下の画像です。こちらの画像はDALLで作成したものとなり、これを逆にGPT-4oにて解説させます。
![](https://sec.atd-net.com/wp-content/uploads/2024/05/park.webp)
参考として、DALLに入力したプロンプトは以下の通りです。
以下を含んだ画像を作ってください。
- 緑あふれる公園
- 噴水と東京タワーが見える
- 男性が本を読んでいる
- 女性が散歩している
- 犬が10匹あるている
- 猫が1匹ベンチの裏に隠れている
それでは、GPT-4oを使ってみましょう。以下入力プロンプトです。
添付画像から読み取れる特徴を詳細に箇条書きで上げてください。
数値的な情報や情景を正確にとらえてください。
![](https://sec.atd-net.com/wp-content/uploads/2024/05/image-1-1024x546.png)
結果は以下の通りです。
添付画像から読み取れる特徴を詳細に箇条書きにすると、以下の通りです: 公園の全体構図 緑豊かな芝生と多くの木々が描かれた公園の風景。 公園の中央に大きな円形の噴水が設置されている。 人物 ベンチに座って本を読んでいる男性。眼鏡をかけていて、カジュアルな服装(青いジーンズとグレーの上着)。 噴水の近くで犬を散歩させている人が一人。 背景で花壇の手入れをしている人が一人。 奥に他のベンチに座っている人も見える。 犬 公園内に様々な種類の犬がいる。 合計で10匹の犬が描かれている。 ドーベルマン、シェパード、シバイヌ、ビーグル、プードルなど、大小さまざまな犬種が見られる。 花壇 公園内には色とりどりの花が咲いている花壇がいくつかある。 手前には赤や黄色、オレンジ色の花が咲いている。 ランドマークと建物 背景に東京タワーが見える。 高層ビルが数棟立ち並んでいる。 設備 ベンチが複数設置されている。 公園内に街灯が設置されている(画像の左側に見える)。 噴水の周りにゴミ箱が配置されている。 その他の情景 青空が広がり、晴天の天気が描かれている。 緑の木々と青空のコントラストが美しい。 公園内は清潔で手入れが行き届いている印象を受ける。 交通手段 公園の右奥には車が一台駐車されている。 このように、画像は都会の中にある緑豊かな公園の風景を詳細に描写しています。
どうですか?かなり詳細に情景をとらえられていると思います。本画像を生成した際のインプット情報より遥かに詳細な情報を解説できています。しかも、このアウトプットまでの時間もかなり高速でした!
まとめ
いかがでしたでしょうか。画像解釈の精度も素晴らしかったですね。
OpenAIの進化にはいつも驚かされます。皆様も是非使ってみてください。
次回はgpt-4o
のモデルを使ってプログラミングするネタを記事に書きたいと思います!