関連リンク 7 examples of Gemini’s multimodal capabilities in action GoogleのシニアプロダクトマネージャーLogan Kilpatrickによるブログ記事では、Gemini 1.5 Pro(画像・動画理解に最適化されたモデル)を用いたマルチモーダル機能の7つの実例が紹介されています。Geminiは、画像・動画だけでなく、長文PDF(1000ページ以上)も理解し処理できます。 主な機能と例: 詳細な画像説明: 画像の内容を詳細に記述し、質問にも回答できます。プロンプトに応じて説明の長さ、トーン、形式を調整可能です。 長文PDFの理解: 1000ページ以上のPDFを理解し、表の転記、複雑なレイアウトの解釈、図表・スケッチ・手書き文字の認識、構造化された出力やコードの生成が可能です。例として、15四半期のAlphabetの収益報告書(152ページ)からGoogleの収益データを抽出し、表を作成し、matplotlibを用いたグラフを作成する例が示されています。 現実世界の文書の推論: レシート、ラベル、看板、メモ、ホワイトボードのスケッチなど、現実世界の文書から情報を抽出し、JSONオブジェクトとして返すことができます。 ウェブページデータの抽出: ウェブページのスクリーンショットからデータ(画像・動画を含む)を抽出し、JSONなどの構造化された形式で出力できます。ウェブデータAPIやブラウジングエージェントなどのアプリケーションに活用できます。Google Playの書籍ページから書籍名、著者、評価、価格をJSON形式で抽出する例が示されています。 物体検出: 画像内の物体を検出し、バウンディングボックス座標を生成します。ユーザー定義の基準に基づいて物体を検索・推論する機能も備えています。 動画の要約と転写: 最大90分の動画を処理し、要約や転写を作成、日常シーンからの構造化データの抽出、質問への回答、重要な箇所の特定などが可能です。技術講義の動画を高校生向けに要約する例が紹介されています。 動画からの情報抽出: 動画から情報を抽出し、リスト、表、JSONオブジェクトなどの構造化された形式で出力できます。小売、交通、ホームセキュリティなどの分野でのエンティティ検出、スクリーン録画からの非構造化データ抽出などに役立ちます。 制約: 動画処理においては、現状1FPSのサンプリングのため、一部情報が欠落する可能性があります。より高いFPSでのサンプリングは今後の開発予定です。 Gemini APIを活用した開発には、開発者ガイドと開発者フォーラムが役立ちます。 様々なユースケースに対応できる強力なマルチモーダル機能を備えていることがわかります。 引用元: https://developers.googleblog.com/en/7-examples-of-geminis-multimodal-capabilities-in-action/ Now Hear This: World’s Most Flexible Sound Machine Debuts NVIDIAの研究チームが開発した画期的なAIサウンド生成モデル「Fugatto」は、テキストプロンプトだけで音声を生成・変換できる、世界最高レベルの柔軟性を誇るツールです。既存のAIモデルが特定の音声生成や編集に特化しているのに対し、Fugattoは音楽、音声、効果音などを自由に組み合わせ、テキストと音声ファイルの両方から指示を受け付けることができます。 例えば、「悲しい雰囲気のフランス語で話すテキスト」といった複雑な指示にも対応し、アクセントの強さや感情の度合いを細かく調整できます。既存の楽曲に楽器を追加・削除したり、声のアクセントや感情を変えることなども可能です。さらに、既存データにはない全く新しいサウンドも生成できます。例えば、トランペットが吠えたり、サックスが鳴き声をあげたりといった、想像を超える音も作成可能です。 Fugattoは、音楽制作、広告制作、言語学習ツール、ゲーム開発など、幅広い分野で活用できます。音楽プロデューサーは楽曲のプロトタイプ作成や編集に、広告代理店は多言語・多様な感情表現のボイスオーバー作成に活用できます。言語学習ツールでは、好きな声で学習コンテンツをパーソナライズすることも可能です。ゲーム開発者は、ゲーム内の状況に合わせて効果音をリアルタイムで生成・変更できます。 Fugattoは、音声モデリング、音声符号化、音声理解に関するNVIDIAの以前の研究成果を基盤としています。25億個のパラメータを...