こんにちは、ルーティンラボ管理人のせなお(@rutinelabo)です!
この記事では、最新のAI技術のアップデート「GPT-4 Vision」の紹介です。GPT-4の新機能について、その使い方から利点まで詳しく解説します。従来のテキストベースの対話に加え、画像からも情報を読み取ることができるこの機能は非常に便利です。
このツールは、古い動画の画質を劇的に向上させ、モノクロ動画をカラー化までできる込み速度を向上させるための素晴らしいツールです。
この記事では、初心者の方にも簡単に理解ができるようにその使い方やメリット、そして注意点を詳しく、解説していきます!
この記事はこんな人に読んでほしい
GPT-4(ビジョン)って何?
画像分析はどうやって行うの?
画像分析の機能でできることは何?
\ 今回の内容を動画で見たい方は以下を参考にしてね!! /
GPT4ビジョンの紹介
GPT-4V(ビジョン)は、GPT4の新機能であり、今回はその使い方と解説を紹介したいと思います。
GPT4-Vは、基本的に画像やイラストの情報を読み取り、それをこちらに提示してくれる非常に便利な機能です。
従来のチャットGPTではテキストのやり取りに限られていたため、情報のやりとりが文字だけだというChatGPTの最大のデメリットがありました。
そして、ついに画像からの情報も読み取ることができるようになって、幅広い情報を扱えるようになりました。今回はそのすごい点を紹介していきたいと思います。
料金など
GPT-4Vの使用は非常に簡単で、従来と同様にChatGPT上の画面内で使うことができます。注意点としては、GPTPlusの機能になるため、有料ユーザーに限られます。
ChatGPTを無料でご使用の場合には、有料プランへの加入をすることですぐに利用を開始することもできます。
料金については、以下の通りです。
プラン | 月額料金 | 機能 |
---|---|---|
Basic | 無料 | 限定機能 |
GPT-4Plus | $20 | 全機能 |
Basicプランでは限定的な機能しか使えませんが、GPT-4Plusプランでは全機能が使えるようになります。
特にGPT-4Vの機能や画像を生成することのできるDALL-E3の機能など、有料プランへの加入でChatGPT上で行う作業の幅が広がります。
>>【徹底解説】ChatGPTとDALL-E3で簡単に高品質な画像を生成できる!
GPT4ビジョンの使用方法
では、早速GPT-4Vを使ってみましょう。
GPT-4Vを使用するには、GPT-4の設定をデフォルトの設定で開始します。最近のアップデートが完了している場合には、画像の読み込みが可能になるため、まずは実際に画像の読み取りを試してみましょう。
操作自体はかなり簡単です。通常プロンプトを入力するテキストボックスの左側のアイコンをタップし、「画像を添付する」をクリックして、画像をアップロードするだけになります。
今回は「ベンガル」の写真をアプロードしてGPT-4Vが正しく画像から情報を読み取ってくれるのか確認してみようと思います。
アップロードした画像はこちら
アップロード後、以下のような画面にて、情報が提示されました。
この画像はベンガル猫と呼ばれる猫の品種のようです。ベンガル猫はそのユニークな模様と活発な性格で人気があります。豹やヒョウのような独特の斑点やストライプが特徴的で、その美しい外見と遊び好きな性格が多くの猫好きに愛されています。
ベンガル猫の特徴
- 模様:豹やヒョウのような斑点やストライプが独特。
- 性格:非常に活発で、好奇心旺盛。
- 体格:筋肉質でしっかりとした体つき。
- 毛色:ベースの色は様々で、黄褐色や灰色、白など。模様の色も黒や茶色など。
- 毛質:短毛で、手触りは非常に滑らか。
ベンガル猫は、その外見だけでなく、賢くて遊び好きな性格も魅力とされています。また、水を怖がらないことで知られ、水遊びを好む個体も少なくありません。そのため、ベンガル猫を飼う際は、彼らのエネルギーを十分に発散させるための遊びやトレーニングが必要となることがあります。
ベンガルに関する情報が一通り並べられかなり細かいところまで情報を提示してくれていることがわかるかと思います。
GPT-4Vに町並みの画像を読みこましてみる
他の画像も試してみることができます。次に街並みの画像、「シンガポールにあるマリーナベイ・サンズ」をアップロードしてみましょう。
同様にアップロードした画像からどのような情報を提示してくれるのかを見てみます。
アップロードした画像はこちら
この建物はシンガポールの有名なランドマーク、マリーナベイ・サンズです。ユニークな形状と高さから、シンガポールのスカイラインの象徴として知られています。
マリーナベイ・サンズの特徴
- ユニークな形状:3つの塔からなるホテルに、上部に船のような形状の屋上が乗っている。
- スカイパーク:屋上には世界最大級の屋上インフィニティプールや展望デッキ、レストランがあり、シンガポールの絶景を楽しむことができる。
- ショッピングモール:ホテルの下には、高級ブランドのショップやレストランが数多く入っているマリーナベイ・サンズ・ショッピングモールがある。
- カジノ:シンガポールで合法のカジノがあり、多くの観光客や地元の人々が訪れる。
- アートサイエンスミュージアム:写真の左手前にある白い花びらのような建物。様々な展示やイベントが開催される。
マリーナベイ・サンズは、その独特のデザインと豪華な施設で、シンガポールを訪れる観光客の間で非常に人気のスポットとなっています。夜にはライトアップされ、水上ショーなども開催されることから、昼夜問わず多くの人々で賑わっています。
街並みや建物に関する情報もバッチリ正しい情報を読み取っています。
しかも、それに加えて国名やその建物の中に設置されている店舗の情報まで表示してくれており、かなり詳細な情報まで提示してくれています。
GPT-4Vに料理の画像を読みこましてみる
最後に海外の郷土料理の画像をアップロードして正しく情報を開示してくれるかを検証してみようと思います。
今回は、スペインの伝統的な料理である「パエリア」で試してみます。
アップロードした画像はこちら
この料理は「パエリア」(Paella)と呼ばれるもので、スペインの伝統的な料理です。特に、バレンシア地方が発祥とされています。パエリアは、さまざまな種類のシーフードや鶏肉、ウサギ肉などを使用して炊き込んだご飯料理で、サフランを使用して黄色く染められたご飯が特徴的です。スペインでは、家族や友人との集まりの際によく作られる料理として知られています。
こちらの画像に関しても完璧に情報を提示してくれています。
また、どのような料理かだけではなく調理方法などどのようなシチュエーションで食べられるかなどの情報までより細かく情報を。かなりの精度で画像から情報を読み取っていることがわかりました。
まとめ:GPT-4VでChatGPTはさらに高性能に
以上、ChatGPT有料版ユーザーの皆様向けに、GPT-4Vの概要や活用事例などもご紹介しました。GPT-4Vが導入されたことにより、ChatGPTは画像認識が可能なAIに進化し、さらに活用の幅を広げています。本記事を参考に、GPT-4Vを有効活用してください。
また、本ブログ「Routine Labo」ではChatGPTに関する情報を定期的に更新しています。ChatGPTを活用することで、作業の効率化やクリエイティブな活動を行いたい方にはぜひおすすめです。以下のURLから詳細をご覧いただけますので、ぜひご覧ください
また、ブログを運営されている方や日々の業務で文章を作成する機会が多い方もおられるかと思います。そういった方には文章作成AIならを活用してみるのがかなりおすすめです。
Transcope(トランスコープ)|AIライティングツール
このAIライティングツールは、GPT-4の最新技術を応用しており、非常に優れた機能を備えたAIライティングツールです。
さらに、このAIライティングツールは、SEOにも対応しており、SEOの要件を考慮して文章を生成するため、検索エンジン上での表示順位を向上させることができます。
ChatGPTの有料版にお申し込みされていない方でもご利用可能で、テキスト生成が体験できるので、こちらもぜひ活用してみてください。