自然言語処理の生成AIは、ChatGPTを筆頭にGoogle Gemini、Microsoft Copilot、Claude3などいろいろなサービスがあります。
「AIに何を聞いたらいいんだろう?」「どうやって仕事やプライベートに活用すればいいんだろう?」などまだまだ使い方に迷子になっている方は多いのではないでしょうか。
そこで今回はGoogle Geminiを無料で使用できる範囲で、やってみてできたこと・できなかったことをご紹介します。
Geminiの発音について。
Geminiの発音についていろいろ意見があるようです。
英語圏での正しい発音は「ジェミナイ」と言うそうです。Google Geminiの公式動画でも「ジェミナイ」と発音していました。
日本ではカタカナ読みの「ジェミニ」が浸透しているようです。
どちらが正解・不正解はなく、お好みで良さそうでした。
Geminiでできること
- 自然言語で対話ができる
- 検索・翻訳・要約・コード生成ができる
- 画像検索・画像生成ができる
- Googleサービスとの連携ができる
- ドキュメント・スプレットシートにエクスポートができる
- ハルシネーションチェックができる…など
以下画像がGeminiの画面になります。
ChatGPTを使用されていれば馴染みのある画面ですよね。「Enter a prompt here」の箇所に質問を入力し使用します。
今回は無料の「Gemini」を使用して検証していきます。
有料と無料の違い
サービス | 言語モデル | 料金 |
---|---|---|
Gemini | Gemini Pro | 無料 |
Gemini Advanced | Gemini Ultra | 有料 |
- 処理能力: Gemini Ultraは、Gemini Proよりも処理能力が大幅に向上しており、より複雑なタスクを高速に処理することができます。
- 精度: Gemini Ultraは、より高度なアルゴリズムを採用しており、文章生成、翻訳、要約などのタスクにおいて、より高い精度を実現することができます。
- 知識量: Gemini Ultraは、より膨大な量のデータで学習されており、より幅広い知識と情報にアクセスすることができます。
有料のGemini AdvancedはChatGPT3.5とChatGPT4の違いのように、より高性能・より多くのデータが学習されているという点が違いになります。
ChatGPTとの違いとして、ChatGPT3.5は2023年4月までの知識(2024年4月現在)が反映されていますが、Google Geminiは無料版でもネットから情報収集した結果を元に回答してくれるので、最新の情報で反映してくれます。
また、今後の予定として有料版のGemini Advancedには「meetによる自動翻訳」や「googleドライブファイルの自動分類」の実装、Google Workspaceともリンクさせることができ、タスク管理や議事録作成、データ分析、プレゼンテーション作成なども可能になるそうです。
さらに便利に実践で使える機能がどんどん増えていくようなので今後ともGeminiを追っていきたいと思います。
Geminiだけの3つの特徴
ChatGPTやClaude3には搭載されていないGeminiだけの機能をご紹介します。
3つの候補出力
質問に対する回答案を3つ同時生成してくれます。
それぞれの回答を確認し、自分の用途に合ったテキストを選択できます。
回答の書き換え
生成された回答を「短くする」「長くする」「シンプルにする」「カジュアルな表現にする」「専門的な表現にする」を選択するだけで再調整できます。
ハルシネーションチェック
生成されたテキストに対し、ハルシネーションチェックが行えます。
生成テキストの下に表示される「G」ボタンをクリックします。
以下のような緑とオレンジのラインが引かれました。
ハルシネーションチェック自体はClaude3にも搭載されているようですが、文章全体に対してチェックされるようなので、Geminiのように一文単位でチェックしてくれるのは便利ですね。
画像認識
Geminiがどこまで正確に画像を認識してくれるか検証していきたいと思います。
画像からレシピを聞いてみた
以下の料理画像から作り方を聞いてみました。
この料理の作り方を教えて
だいぶ正確にレシピを生成してくれました!これは便利ですね。
しかしとんかつは特徴的で簡単だったかもしれません。
次にちょっと高度な画像でやってみたいと思います。
こちらのバケッドサンドの画像ですが、「バインミー」というベトナムのサンドイッチです。
各国のサンドイッチとの違いを見分けられるかGeminiに聞いてみました。
この料理のレシピを教えて
正しく「バインミー」と認識してくれました!なかなかやりますね。
お店の画像から場所を聞いてみた
次にお店の画像から店名や場所が認識できるかGeminiに聞いてみました。
例えばインスタやXなどで掲載されていた画像にお店の情報がなかった場合、そのお店に行くことができません。
そんな時に正確な場所を特定してくれたら便利ですよね。
以下の画像の場所がわかるかGeminiに聞いてみました。
場所を教えて
正しく答えてくれました!
住所だけではなく営業時間やホームページURLまで教えてくれました。
この辺りはGoogleの得意とする部分なのかもしれませんね。
駅前の画像から住所を聞いてみた
次に恵比寿駅前の画像を「恵比寿駅」の文字をあえて外して撮影し、geminiが認識してくれるか試してみました。
ここの住所を教えて
しかし結果は「人物の画像についてはまだ対応していません。」と表示され、正しく生成されませんでした。
【注意】
2024年4月現在、人物が入る画像関連について生成は停止しているようです。
もしかしたらビルの外壁にある看板の「人物」×「住所」という書き方が問題ではないかと思い、看板を隠し「住所」ではなく「場所」と指定して再度生成を試みました。
ここの場所を教えて
ちょっと紹介文に不思議な点がありますが、おおよそ正しく教えてくれました!
このように現在はプライバシーへの配慮などの観点からうまく生成されないケースがあります。
テキスト画像をOCRとして活用してみた
次に、テキスト画像を正しく読み取ってくれるかGeminiに聞いてみました。
レシートの読み取り
右のレシートをアップロードし、「日付、店舗、商品名、金額を表にして」とお願いしてみました。
日付、店舗、商品名、金額を表にして
アンサーとしては正しく表示されましたが、表内に「値引き-¥100」が表示されませんでした。
表の項目に「値引き」の指示があれば良かったのかもしれません。
レシートの読み取り(複数)
1枚ずつレシートを読み取りその度に表にしていては時間がかかって仕方がありません。
今度は複数枚のレシートを一度に認識できるか無茶振りしてみました。
日付、店舗、商品名、金額を表にして
上記のように出力されました。
一見全部認識されたかのように見えましたが、お店と商品名が一致しないような…?
そこで、Geminiでは出力された回答を「スプレットシート」や「ドキュメント」にエクスポートすることができます。
生成された表をスプレットシートにエクスポートして詳細を確認してみました。
うーん。4枚のレシートなので、4店舗分の記載が必要ですが、商品名は合っていますがだいぶ端折られてしまい、4枚のレシート通りにはいきませんでした。
複数枚の読み込みはできませんでした。
日本語のテキスト画像を読み込ませてみた
次に日本語の画像から正しくテキストを起こしてくれるかGeminiに頼んでみました。
テキストに起こして
改行が少し不安定ですがテキストは正しく生成されました!
ただ、回答案1についてはそのまま文字起こしではなく少し丁寧な文章に変更されていました。
回答案2に正確な文字起こしで生成されていました。
このように、回答案の候補を一度に3つ生成してくれれば自分の欲しい回答を選べるのはとても便利ですね。
英文の画像を読み込ませてみた
日本語が問題ないなら英文も問題ないと思いますがGeminiにお願いしてみました。
テキストに起こして
結果は正確に生成されませんでした。
赤マークを引いた部分に不備がありました。
タイトル部分に他のテキストが生成されてしまったのと、本文に抜けがありました。
英語と日本語の混合を読み込ませてみた
英語が正しく生成されなかったので不安ではありますが、次に日本語と英語の混合が読めるかGeminiに聞いてみました。
テキストに起こして
PDF画像
結果
結果は生成できませんでした。
全て英語になってしまいましたね。
複数言語が混ざったテキスト画像の読み取りはまだできないようです。
Imagen2による画像生成
Geminiの画像生成にはGoogle社から提供されている「Imagen2」がベースに使用されています。
2024年4月現在、日本語での生成はまだできません。
生成する際には英語での入力が必要になり文頭に「Create an image of〜」と入力し、その後に生成したいプロンプトを英語で入力します。
美しい色とりどりの花でいっぱいの庭で遊ぶ美しいかわいい犬、超リアルな高品質。
Create an image of a beautiful cute dog playing in a garden full with beautifull colourfull flowers , ultra realistic high quality .
4枚の画像が生成され、それぞれダウンロードすることができます。
クォリティとしては…他の画像生成AIサービスと比較するとリアル感に欠けている印象ですね。
Googleサービスとの連携
Googleサービスとの連携をご説明します。
GeminiではGoogleの各種サービスと連携することができます。
入力欄の先頭に「@」を入力すると現在連携しているGoogleサービスが表示されます。
【注意】
2024年4月現在、法人や学校など団体で使用するGoogle Workspaceのアカウントでは使用できません。
「個人で使用する」アカウントのみで使うことができます。
Googleサービス連携をどのように使用するか以下でご説明します。
@Google フライト
Gemini上でGoogle フライトのサービスの回答が表示されます。
まずは行き先・場所・日程でGeminiに聞いてみました。
@Google Flights 羽田からホノルル 往復 5/1~5/6
各航空会社と料金・時間を回答してくれました。
Googleフライトで便利だと感じるのは「料金グラフ」が見えることですよね。
例えば8月にハワイに行きたいけれど日程はまだ決まっていない。
そんな時はできれば飛行機代が安い日程の方がお得ですよね。
上記のように料金グラフを表示すると、日程によって金額の変動を見ることができます。
料金グラフを表示してくれるかGeminiが回答してくれるか聞いてみました。
@Google Flights 東京からホノルル 8月の料金グラフ
しかし結果は各社のフライトが表示されるだけで料金グラフは表示されませんでした。
こちらはまだ改善待ちですね。
@Google ホテル
Googleホテルとの連携を試してみます。
恵比寿駅周辺のホテルを聞いてみました。
@Google Hotels 恵比寿駅周辺のホテル
5つの候補とリンク・画像を答えてくれました!
これは便利ですね。
ちなみにGoogle検索の結果は広告料を支払っているスポンサー企業やホテル単体ではなくホテル紹介サイトが上位を占めています。
広告を反映せずに知りたいことだけ答えてくれるのはありがたいですね。
@Google マップ
Googleマップとの連携を試してみます。
@Google Maps 恵比寿駅から渋谷駅までの自転車での行き方
ちょっと経路が見づらいですが、AのスタートからBのゴールを示し水色のラインで道順を引いてくれました。
ただ、ルート確認は「Googleマップ」でとリンクがあるので結局Googleマップを開く必要がありそうです。
ちなみに以下画像がGoogle検索の結果です。
Google検索で十分ですね…。Geminiの方が便利!という結果は得られませんでした。
@YouTube
YouTube内の検索がGemini上でできてしまいます。
「@」を入力し、候補に上がった「YouTube」を選択し、その後に「Ggeminiを紹介してる動画を再生回数が多い順に5つ教えて」と聞いてみました。
@YouTube Geminiを紹介している動画を再生回数が多い順に5つ教えて
上記のように、YouTutbeの動画をリンク付きで生成してくれました。
上記が本当に再生回数順になっているか検証してみます。実際の再生回数を調べて表にしてみました。
検証結果 | |
---|---|
1位 | 3.1万回再生 |
2位 | 2万回再生 |
3位 | 43万回再生 |
4位 | 1899回再生 |
5位 | 9.1万回再生 |
残念ながら、「再生回数が多い順」という部分が正しく生成されなかったようです。
改善されていくようであればとても便利に使用できそうですね。
まとめ
プライベート・仕事含め、Googleのサービスを主に使用している方は多いのではないでしょうか。
今後スプレットシートやドキュメント、GメールなどにGeminiが搭載される日も遠くないようです。
より便利になっていく生成AIを活用し、仕事やプライベートに活かしていきたいと感じました。
今後期待すること。
トラム社内では、さまざまな用途のアプリケーションを使用します。
テキストのデフチェック、OCR、画像変換など別々のサイトでサービスを利用することが多々あります。
これらが全てGeminiで完結できたらとても便利で業務効率も上がるのではないかと思いました。
まだまだ改善待ちの部分は多くありますが、とりあえずググる、の時代から、とりあえずGeminiに聞く、の時代が目の前まで来ていることを実感しました。