画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2790 bookmarks
Custom sorting
高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能
高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能
画像生成AI「FLUX1.1 [pro]」の開発チームが、FLUX1.1 [pro]と組み合わせて使えるAIモデルシリーズ「FLUX.1 Tools」を発表しました。FLUX.1 Toolsにはインペインティングやアウトペインティングが可能な「FLUX.1 Fill」、深度抽出が可能な「FLUX.1 Depth」、輪郭抽出が可能な「FLUX.1 Canny」、被写体を維持したスタイル変更が可能な「FLUX.1 Redux」の4種が含まれています。
·gigazine.net·
高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能
ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた
ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた
ソニーセミコンダクタソリューションズと英国Raspberry Pi社が、シングルボードコンピュータ「Raspberry Pi」用のAIカメラを共同開発した。今回、両社にこの製品が開発者にもたらすメリットや事業展開における狙いなどを聞いた。
·eetimes.itmedia.co.jp·
ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた
Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表
Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表
2024年10月14日から16日にかけて行われたAdobeの年次イベント「Adobe MAX」で、クリエイティブな分野における最新のイノベーションの種を披露する「Sneaks」セッションが開催され、その中で2D画像を3Dのように回転させる「Project Turntable」が発表されました。
·gigazine.net·
Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表
画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?
画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?
GoogleのマルチモーダルAI「Gemini」を利用して、録画した映像から必要なデータを抽出する「ビデオスクレイピング」について、AI研究者でデータジャーナリストのサイモン・ウィルソン氏が解説しています。
·gigazine.net·
画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?
フランスの美術館が収蔵品の3Dスキャンを行いながらも一般公開していないという指摘
フランスの美術館が収蔵品の3Dスキャンを行いながらも一般公開していないという指摘
いまや博物館や美術館が収蔵物の3Dスキャンを行い、誰でも閲覧できるように公開する試みは珍しいものではなくなっていますが、ロダン美術館を始めとしたフランスの博物館・美術館は、公的な補助金を得てスキャン事業を行っているにもかかわらずデータを公開していないと、アーティストのコスモ・ウェンマン氏が問題提起しています。
·gigazine.net·
フランスの美術館が収蔵品の3Dスキャンを行いながらも一般公開していないという指摘
画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴
画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴
画像生成AIのStable Diffusionを開発するStability AIが、「Stable Diffusion 3.5」のオープンリリースを2024年10月22日(火)に発表しました。このStable Diffusion 3.5には複数のモデルが含まれ、すべてStability AI Community Licenseの下で商用・非商用を問わず無料で利用可能となっています。
·gigazine.net·
画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴
AI生成キャラクターをリアルな表情でアニメーションさせられるツール「Act-One」をRunwayがリリース
AI生成キャラクターをリアルな表情でアニメーションさせられるツール「Act-One」をRunwayがリリース
AI開発企業のRunwayが、人物の動画を撮影するだけで手軽にAIが生成したキャラクターに被写体の表情を転送できるAIツール「Act-One」をリリースしました。Act-OneはRunwayの動画生成AIモデル「Gen-3 Alpha」を利用できるユーザーなら誰でも使用可能です。
·gigazine.net·
AI生成キャラクターをリアルな表情でアニメーションさせられるツール「Act-One」をRunwayがリリース
Canvaが新しいAI機能をリリース、買収したLeonardo.AiのPhoenixモデルを利用した画像ジェネレーター「ドリームラボ」も登場
Canvaが新しいAI機能をリリース、買収したLeonardo.AiのPhoenixモデルを利用した画像ジェネレーター「ドリームラボ」も登場
無料で使えるオンラインビジュアルツールキットの「Canva」が、複数の新しいAI機能を発表しました。新しいAI機能の中のひとつであるAI画像ジェネレーターの「ドリームラボ」は、同社が2024年7月に買収したAI画像生成サービス「Leonardo.Ai」のテクノロジーがベースとなっています。
·gigazine.net·
Canvaが新しいAI機能をリリース、買収したLeonardo.AiのPhoenixモデルを利用した画像ジェネレーター「ドリームラボ」も登場
iPhoneやMacに画像生成AIを追加する「iOS 18.2」「iPadOS 18.2」「macOS 15.2」のベータ版がリリース、SiriとChatGPTの統合や絵文字生成機能なども搭載
iPhoneやMacに画像生成AIを追加する「iOS 18.2」「iPadOS 18.2」「macOS 15.2」のベータ版がリリース、SiriとChatGPTの統合や絵文字生成機能なども搭載
2024年10月23日(水)にAppleが「iOS 18.2」「iPadOS 18.2」「macOS 15.2」のベータ版をリリースしました。新たなOSには画像生成AIアプリ「Image Playground」が追加されるほか、「カスタム絵文字の生成」「SiriとChatGPTの統合」などの新機能が加わっています。
·gigazine.net·
iPhoneやMacに画像生成AIを追加する「iOS 18.2」「iPadOS 18.2」「macOS 15.2」のベータ版がリリース、SiriとChatGPTの統合や絵文字生成機能なども搭載
生成AIに使われる拡散処理を超爆速わずか2ステップで完了できるアプローチ「sCM」をOpenAIが発表
生成AIに使われる拡散処理を超爆速わずか2ステップで完了できるアプローチ「sCM」をOpenAIが発表
画像生成AI「Stable Diffusion」などの生成AIモデルは「拡散モデル」と呼ばれるアプローチを採用しています。この拡散モデルに代わる、拡散処理を単純化して高速化するアプローチ「sCM」をOpenAIが考案しました。通常であれば数十から数百のサンプリングステップがかかるところ、sCMだとわずか2ステップで済むとのことです。
·gigazine.net·
生成AIに使われる拡散処理を超爆速わずか2ステップで完了できるアプローチ「sCM」をOpenAIが発表
映したものをなんでもアート化して壁掛け画像にする生成AI「PabloNet」
映したものをなんでもアート化して壁掛け画像にする生成AI「PabloNet」
機械学習エンジニアのマシュー・ル・コショワ氏が作成した「PabloNet」は、秒間100枚以上の画像を生成できる爆速画像生成パイプライン「StreamDiffusion」を使用して、リアルタイムでカメラで捉えたものからAIアートを作成するというシステムです。実際に動作している様子や仕組みについて、コショワ氏が解説しています。
·gigazine.net·
映したものをなんでもアート化して壁掛け画像にする生成AI「PabloNet」
GoogleがマルチモーダルAI「Gemini 2.0」を12月に発表か、デミス・ハサビス率いるAIチームが期待するパフォーマンス向上を実現できていないとの指摘も
GoogleがマルチモーダルAI「Gemini 2.0」を12月に発表か、デミス・ハサビス率いるAIチームが期待するパフォーマンス向上を実現できていないとの指摘も
Googleは2023年12月にマルチモーダルAIのGeminiを発表しました。それから約1年後の2024年12月、GoogleはGeminiの次世代モデルとなる「Gemini 2.0」を発表すると、テクノロジーメディアのThe Vergeが報じています。
·gigazine.net·
GoogleがマルチモーダルAI「Gemini 2.0」を12月に発表か、デミス・ハサビス率いるAIチームが期待するパフォーマンス向上を実現できていないとの指摘も
手書きのメモの写真からペンの動きを抽出するモデル「InkSight」をGoogleが開発
手書きのメモの写真からペンの動きを抽出するモデル「InkSight」をGoogleが開発
Googleのチームが手書きのメモの写真からペンの動きを抽出するモデル「InkSight」を発表しました。特殊なツール不要で手書きのメモを手書きのスタイルを維持したままデジタル化することが可能になるとのことです。
·gigazine.net·
手書きのメモの写真からペンの動きを抽出するモデル「InkSight」をGoogleが開発
実写の動画を3DCGアニメーションに変換できる「Wonder Animation」のベータ版がリリースされる
実写の動画を3DCGアニメーションに変換できる「Wonder Animation」のベータ版がリリースされる
CGモデルをアニメーション化するAIツール「Wonder Studio」を手がけるWonder Dynamicsが、映像を3DCGによるアニメーションに変換できる「Wonder Animation」を発表しました。Wonder Animationのベータ版は、Wonder Studioのすべてのユーザーに向けてリリースされており、アニメーション映画の制作などに利用することができます。
·gigazine.net·
実写の動画を3DCGアニメーションに変換できる「Wonder Animation」のベータ版がリリースされる
衣類を洗濯機から取り出して畳んだり食事後のテーブルを片付けたりできる汎用ロボット基盤モデル「π0」
衣類を洗濯機から取り出して畳んだり食事後のテーブルを片付けたりできる汎用ロボット基盤モデル「π0」
チェスで人間を打ち負かしたり、新薬を創出したりと、AIは難しい課題で人間を超えるような才能を見せることがある一方で、人間なら容易にこなせるタスクに苦戦することがあります。このことは、機械工学研究者のハンス・モラベックによる「モラベックのパラドックス」として知られているのですが、物理的な課題の解決にも取り組んでいかなければならないということで、基盤モデルと学習アルゴリズムの開発を手がけるグループのPhisycal Intelligenceが、8カ月かけて、汎用的な動きを実現するロボットに対応するためのAIモデルとして、汎用ロボット基盤モデルの「π0」を開発しました。
·gigazine.net·
衣類を洗濯機から取り出して畳んだり食事後のテーブルを片付けたりできる汎用ロボット基盤モデル「π0」
マルチモーダル画像生成AI「OmniGen」登場、1つのモデルで「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」などが可能
マルチモーダル画像生成AI「OmniGen」登場、1つのモデルで「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」などが可能
広く使われている画像生成AIのStable Diffusionは「ControlNetを組み合わせてポーズ抽出やポーズ指定生成を実行する」「IP-Adapterを組み合わせて類似画像を生成する」といったように拡張機能を用いて多様な作業を実行できます。「OmniGen」はControlNetなどの拡張機能を使わず単一のモデルだけで多様な生成作業を実行可能にすることを目指して開発されたマルチモーダル画像生成AIで、単体で「画像生成」「ポーズ抽出」「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」といった作業を実行可能です。
·gigazine.net·
マルチモーダル画像生成AI「OmniGen」登場、1つのモデルで「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」などが可能
AIの発展につながるディープラーニングブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」とは?
AIの発展につながるディープラーニングブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」とは?
ディープラーニング(深層学習)とは、生物の神経系を模倣したニューラルネットワークを用いた機械学習手法であり、近年のAIテクノロジーの発展に大きく貢献しました。そんなディープラーニングのブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」について、AI系ブログのUnderstanding AIが解説しています。
·gigazine.net·
AIの発展につながるディープラーニングブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」とは?
Microsoftが「ペイント」と「メモ帳」にAI機能を追加、キャンバス内にオブジェクトを追加・オブジェクトの消去&文章の言い換え・トーンの調整・コンテンツの長さの変更が可能に
Microsoftが「ペイント」と「メモ帳」にAI機能を追加、キャンバス内にオブジェクトを追加・オブジェクトの消去&文章の言い換え・トーンの調整・コンテンツの長さの変更が可能に
2024年11月7日にMicrosoftが、Windowsの標準アプリ「ペイント」と「メモ帳」向けの生成AIを採用した新機能を発表しました。
·gigazine.net·
Microsoftが「ペイント」と「メモ帳」にAI機能を追加、キャンバス内にオブジェクトを追加・オブジェクトの消去&文章の言い換え・トーンの調整・コンテンツの長さの変更が可能に
OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上
OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上
OpenAIが2024年5月にリリースしたAIモデル「GPT-4o」に、2024年10月1日から「画像でファインチューニングする機能」が追加されました。すでにテキストでGPT-4oをファインチューニングする機能は提供されていましたが、画像でのファインチューニングが可能になったことで、視覚検索やオブジェクト検出などの機能を向上させることができます。
·gigazine.net·
OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上
ついに配信開始したWindows 11 バージョン24H2でCopilot+ PC向けに生成AIベースの塗りつぶし機能が「ペイント」に追加
ついに配信開始したWindows 11 バージョン24H2でCopilot+ PC向けに生成AIベースの塗りつぶし機能が「ペイント」に追加
Microsoftが、Windows 11の機能更新プログラムである「Windows 11 2024 Update(バージョン24H2)」を、Windows Insider Programに加入していない一般ユーザー向けに段階的な公開を開始したと発表しました。このWindows 11 バージョン24H2には、「ペイント」アプリに生成AIベースの塗りつぶし機能が搭載されるなどといったCopilot+ PC専用機能が盛り込まれています。
·gigazine.net·
ついに配信開始したWindows 11 バージョン24H2でCopilot+ PC向けに生成AIベースの塗りつぶし機能が「ペイント」に追加
Google レンズに動画での検索機能が登場、音声での質問も可能に
Google レンズに動画での検索機能が登場、音声での質問も可能に
Google レンズに動画を使った検索機能と、撮影中のものについて音声で尋ねることができる機能が実装されました。これにより、Googleの試験運用機能を使えるプログラム「Search Labs」に登録している人は、映像と音声の質問を組み合わせてより簡単にリアルタイムな検索が可能となります。
·gigazine.net·
Google レンズに動画での検索機能が登場、音声での質問も可能に
Stable Diffusionのオリジナル開発陣によるAI企業「Black Forest Labs」が画像生成AI「FLUX1.1 [pro]」とアプリケーション統合用の「BFL API」をリリース
Stable Diffusionのオリジナル開発陣によるAI企業「Black Forest Labs」が画像生成AI「FLUX1.1 [pro]」とアプリケーション統合用の「BFL API」をリリース
画像生成AIの「Stable Diffusion」などの開発に携わったAI研究者が立ち上げたAI開発企業「Black Forest Labs」が、次世代画像生成AIの「FLUX1.1 [pro]」をリリースしました。同時に、画像生成AIを自身のアプリケーションに統合するための「BFL API」のベータ版も公開しています。
·gigazine.net·
Stable Diffusionのオリジナル開発陣によるAI企業「Black Forest Labs」が画像生成AI「FLUX1.1 [pro]」とアプリケーション統合用の「BFL API」をリリース
2D画像を3D空間に落とし込んで「物理的に違和感のない編集」を可能にする編集手法「MiraGe」
2D画像を3D空間に落とし込んで「物理的に違和感のない編集」を可能にする編集手法「MiraGe」
生成AIを用いると「画像内の物体を移動」「1枚の画像をもとにアニメーションを作成」といった編集作業が可能ですが、物理的にあり得ない結果が出力されることも多々あります。ヤギェウォ大学やケンブリッジ大学の研究チームが開発した画像編集手法「MiraGe」は「画像を三次元空間に落とし込む」というアプローチで物理的に正しい編集を可能とします。
·gigazine.net·
2D画像を3D空間に落とし込んで「物理的に違和感のない編集」を可能にする編集手法「MiraGe」
Metaが動画生成AI「Movie Gen」を開発、テキストからの動画生成に加えて「登場人物の指定」「BGMの付与」「既存動画の編集」にも対応
Metaが動画生成AI「Movie Gen」を開発、テキストからの動画生成に加えて「登場人物の指定」「BGMの付与」「既存動画の編集」にも対応
2024年10月4日、 Metaが動画生成AI「Movie Gen」を発表しました。Movie Genは「テキストから動画生成」「画像で登場人物を指定してテキストから動画生成」「既存の動画の編集」「動画にBGMや効果音を付与」という操作が可能で、競合する動画生成AIと比べて高品質な動画を生成可能とのことです。
·gigazine.net·
Metaが動画生成AI「Movie Gen」を開発、テキストからの動画生成に加えて「登場人物の指定」「BGMの付与」「既存動画の編集」にも対応
AppleのAI研究チームがAIモデル「Depth Pro」をリリース、単一の画像を使用して標準GPUで225万ピクセルの3D深度マップを0.3秒で生成できる
AppleのAI研究チームがAIモデル「Depth Pro」をリリース、単一の画像を使用して標準GPUで225万ピクセルの3D深度マップを0.3秒で生成できる
機械が深度(奥行き)を認識する方法を大幅に進歩させるモデル「Depth Pro」をAppleのAI研究チームがリリースしました。他の方法では見落とされがちな「髪の毛」や「草木」といった細かいディテールを持った物体の深度も正確に認識可能で、高解像度の深度マップをわずか0.3秒で生成することが可能な点が特徴。自動運転車などリアルタイムで深度を推定するシステムに応用可能だと期待されています。
·gigazine.net·
AppleのAI研究チームがAIモデル「Depth Pro」をリリース、単一の画像を使用して標準GPUで225万ピクセルの3D深度マップを0.3秒で生成できる