画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2587 bookmarks
Custom sorting
Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表
Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表
MetaのAI研究部門であるMeta FAIRは、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」や量子暗号の強度を検証できる「Salsa」など、複数の研究成果を発表した。
·atmarkit.itmedia.co.jp·
Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表
約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される
約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される
AIを搭載したヒューマノイドロボット「Ai-Da」が描いた計算機科学者アラン・チューリングの肖像画がオークションにかけられ、事前の予想を大幅に上回る108万4800ドル(約1億6600万円)で落札されました。
·gigazine.net·
約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
大規模言語モデル(LLM)のセキュリティを研究するスタートアップ・Lakeraのエンジニアであるダニエル・ティンブレル氏が、画像認識も可能なチャットボットAIに対する「ビジュアルプロンプトインジェクション」攻撃について解説しています。
·gigazine.net·
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張
Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張
Stable DiffusionやDALL-E 3などの画像生成AIでは、拡散モデルと呼ばれる生成モデルが使用されています。新たにアメリカのハーバード大学やタフツ大学、オーストリアのウィーン工科大学などの研究チームが、「拡散モデルは本質的に進化的アルゴリズムだ」と主張する論文を発表し、話題を呼んでいます。
·gigazine.net·
Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張
Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に
Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に
1230億パラメーターと128kコンテキストウィンドウを備えGPT-4oに匹敵するベンチマーク性能を記録した「Mistral Large 2」やマルチモーダルAI「Pixtral 12B」、小規模モデルの「Ministral 3B/8B」などを展開しているAI開発企業のMistral AIが、チャットAI「Le Chat」の大幅なアップデートを発表しました。
·gigazine.net·
Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に
ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写&強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさん
ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写&強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさん
ソニーがフルサイズミラーレスカメラ「α1 II」を2024年11月19日に発表しました。α1 IIは「有効画素数5010万のフルサイズ積層型CMOSイメージセンサ」「画像処理エンジンBIONZ XR」「AI処理に特化した最新のAIプロセッシングユニット」などを搭載しており、高精度なリアルタイム認識AFやブラックアウトフリーでの秒間30コマ連写などに対応しています。
·gigazine.net·
ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写&強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさん
高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能
高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能
画像生成AI「FLUX1.1 [pro]」の開発チームが、FLUX1.1 [pro]と組み合わせて使えるAIモデルシリーズ「FLUX.1 Tools」を発表しました。FLUX.1 Toolsにはインペインティングやアウトペインティングが可能な「FLUX.1 Fill」、深度抽出が可能な「FLUX.1 Depth」、輪郭抽出が可能な「FLUX.1 Canny」、被写体を維持したスタイル変更が可能な「FLUX.1 Redux」の4種が含まれています。
·gigazine.net·
高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能
ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた
ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた
ソニーセミコンダクタソリューションズと英国Raspberry Pi社が、シングルボードコンピュータ「Raspberry Pi」用のAIカメラを共同開発した。今回、両社にこの製品が開発者にもたらすメリットや事業展開における狙いなどを聞いた。
·eetimes.itmedia.co.jp·
ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた
Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表
Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表
2024年10月14日から16日にかけて行われたAdobeの年次イベント「Adobe MAX」で、クリエイティブな分野における最新のイノベーションの種を披露する「Sneaks」セッションが開催され、その中で2D画像を3Dのように回転させる「Project Turntable」が発表されました。
·gigazine.net·
Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表
画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?
画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?
GoogleのマルチモーダルAI「Gemini」を利用して、録画した映像から必要なデータを抽出する「ビデオスクレイピング」について、AI研究者でデータジャーナリストのサイモン・ウィルソン氏が解説しています。
·gigazine.net·
画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?
フランスの美術館が収蔵品の3Dスキャンを行いながらも一般公開していないという指摘
フランスの美術館が収蔵品の3Dスキャンを行いながらも一般公開していないという指摘
いまや博物館や美術館が収蔵物の3Dスキャンを行い、誰でも閲覧できるように公開する試みは珍しいものではなくなっていますが、ロダン美術館を始めとしたフランスの博物館・美術館は、公的な補助金を得てスキャン事業を行っているにもかかわらずデータを公開していないと、アーティストのコスモ・ウェンマン氏が問題提起しています。
·gigazine.net·
フランスの美術館が収蔵品の3Dスキャンを行いながらも一般公開していないという指摘
画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴
画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴
画像生成AIのStable Diffusionを開発するStability AIが、「Stable Diffusion 3.5」のオープンリリースを2024年10月22日(火)に発表しました。このStable Diffusion 3.5には複数のモデルが含まれ、すべてStability AI Community Licenseの下で商用・非商用を問わず無料で利用可能となっています。
·gigazine.net·
画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴
AI生成キャラクターをリアルな表情でアニメーションさせられるツール「Act-One」をRunwayがリリース
AI生成キャラクターをリアルな表情でアニメーションさせられるツール「Act-One」をRunwayがリリース
AI開発企業のRunwayが、人物の動画を撮影するだけで手軽にAIが生成したキャラクターに被写体の表情を転送できるAIツール「Act-One」をリリースしました。Act-OneはRunwayの動画生成AIモデル「Gen-3 Alpha」を利用できるユーザーなら誰でも使用可能です。
·gigazine.net·
AI生成キャラクターをリアルな表情でアニメーションさせられるツール「Act-One」をRunwayがリリース
Canvaが新しいAI機能をリリース、買収したLeonardo.AiのPhoenixモデルを利用した画像ジェネレーター「ドリームラボ」も登場
Canvaが新しいAI機能をリリース、買収したLeonardo.AiのPhoenixモデルを利用した画像ジェネレーター「ドリームラボ」も登場
無料で使えるオンラインビジュアルツールキットの「Canva」が、複数の新しいAI機能を発表しました。新しいAI機能の中のひとつであるAI画像ジェネレーターの「ドリームラボ」は、同社が2024年7月に買収したAI画像生成サービス「Leonardo.Ai」のテクノロジーがベースとなっています。
·gigazine.net·
Canvaが新しいAI機能をリリース、買収したLeonardo.AiのPhoenixモデルを利用した画像ジェネレーター「ドリームラボ」も登場
iPhoneやMacに画像生成AIを追加する「iOS 18.2」「iPadOS 18.2」「macOS 15.2」のベータ版がリリース、SiriとChatGPTの統合や絵文字生成機能なども搭載
iPhoneやMacに画像生成AIを追加する「iOS 18.2」「iPadOS 18.2」「macOS 15.2」のベータ版がリリース、SiriとChatGPTの統合や絵文字生成機能なども搭載
2024年10月23日(水)にAppleが「iOS 18.2」「iPadOS 18.2」「macOS 15.2」のベータ版をリリースしました。新たなOSには画像生成AIアプリ「Image Playground」が追加されるほか、「カスタム絵文字の生成」「SiriとChatGPTの統合」などの新機能が加わっています。
·gigazine.net·
iPhoneやMacに画像生成AIを追加する「iOS 18.2」「iPadOS 18.2」「macOS 15.2」のベータ版がリリース、SiriとChatGPTの統合や絵文字生成機能なども搭載
生成AIに使われる拡散処理を超爆速わずか2ステップで完了できるアプローチ「sCM」をOpenAIが発表
生成AIに使われる拡散処理を超爆速わずか2ステップで完了できるアプローチ「sCM」をOpenAIが発表
画像生成AI「Stable Diffusion」などの生成AIモデルは「拡散モデル」と呼ばれるアプローチを採用しています。この拡散モデルに代わる、拡散処理を単純化して高速化するアプローチ「sCM」をOpenAIが考案しました。通常であれば数十から数百のサンプリングステップがかかるところ、sCMだとわずか2ステップで済むとのことです。
·gigazine.net·
生成AIに使われる拡散処理を超爆速わずか2ステップで完了できるアプローチ「sCM」をOpenAIが発表
映したものをなんでもアート化して壁掛け画像にする生成AI「PabloNet」
映したものをなんでもアート化して壁掛け画像にする生成AI「PabloNet」
機械学習エンジニアのマシュー・ル・コショワ氏が作成した「PabloNet」は、秒間100枚以上の画像を生成できる爆速画像生成パイプライン「StreamDiffusion」を使用して、リアルタイムでカメラで捉えたものからAIアートを作成するというシステムです。実際に動作している様子や仕組みについて、コショワ氏が解説しています。
·gigazine.net·
映したものをなんでもアート化して壁掛け画像にする生成AI「PabloNet」
GoogleがマルチモーダルAI「Gemini 2.0」を12月に発表か、デミス・ハサビス率いるAIチームが期待するパフォーマンス向上を実現できていないとの指摘も
GoogleがマルチモーダルAI「Gemini 2.0」を12月に発表か、デミス・ハサビス率いるAIチームが期待するパフォーマンス向上を実現できていないとの指摘も
Googleは2023年12月にマルチモーダルAIのGeminiを発表しました。それから約1年後の2024年12月、GoogleはGeminiの次世代モデルとなる「Gemini 2.0」を発表すると、テクノロジーメディアのThe Vergeが報じています。
·gigazine.net·
GoogleがマルチモーダルAI「Gemini 2.0」を12月に発表か、デミス・ハサビス率いるAIチームが期待するパフォーマンス向上を実現できていないとの指摘も
手書きのメモの写真からペンの動きを抽出するモデル「InkSight」をGoogleが開発
手書きのメモの写真からペンの動きを抽出するモデル「InkSight」をGoogleが開発
Googleのチームが手書きのメモの写真からペンの動きを抽出するモデル「InkSight」を発表しました。特殊なツール不要で手書きのメモを手書きのスタイルを維持したままデジタル化することが可能になるとのことです。
·gigazine.net·
手書きのメモの写真からペンの動きを抽出するモデル「InkSight」をGoogleが開発
実写の動画を3DCGアニメーションに変換できる「Wonder Animation」のベータ版がリリースされる
実写の動画を3DCGアニメーションに変換できる「Wonder Animation」のベータ版がリリースされる
CGモデルをアニメーション化するAIツール「Wonder Studio」を手がけるWonder Dynamicsが、映像を3DCGによるアニメーションに変換できる「Wonder Animation」を発表しました。Wonder Animationのベータ版は、Wonder Studioのすべてのユーザーに向けてリリースされており、アニメーション映画の制作などに利用することができます。
·gigazine.net·
実写の動画を3DCGアニメーションに変換できる「Wonder Animation」のベータ版がリリースされる
衣類を洗濯機から取り出して畳んだり食事後のテーブルを片付けたりできる汎用ロボット基盤モデル「π0」
衣類を洗濯機から取り出して畳んだり食事後のテーブルを片付けたりできる汎用ロボット基盤モデル「π0」
チェスで人間を打ち負かしたり、新薬を創出したりと、AIは難しい課題で人間を超えるような才能を見せることがある一方で、人間なら容易にこなせるタスクに苦戦することがあります。このことは、機械工学研究者のハンス・モラベックによる「モラベックのパラドックス」として知られているのですが、物理的な課題の解決にも取り組んでいかなければならないということで、基盤モデルと学習アルゴリズムの開発を手がけるグループのPhisycal Intelligenceが、8カ月かけて、汎用的な動きを実現するロボットに対応するためのAIモデルとして、汎用ロボット基盤モデルの「π0」を開発しました。
·gigazine.net·
衣類を洗濯機から取り出して畳んだり食事後のテーブルを片付けたりできる汎用ロボット基盤モデル「π0」
マルチモーダル画像生成AI「OmniGen」登場、1つのモデルで「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」などが可能
マルチモーダル画像生成AI「OmniGen」登場、1つのモデルで「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」などが可能
広く使われている画像生成AIのStable Diffusionは「ControlNetを組み合わせてポーズ抽出やポーズ指定生成を実行する」「IP-Adapterを組み合わせて類似画像を生成する」といったように拡張機能を用いて多様な作業を実行できます。「OmniGen」はControlNetなどの拡張機能を使わず単一のモデルだけで多様な生成作業を実行可能にすることを目指して開発されたマルチモーダル画像生成AIで、単体で「画像生成」「ポーズ抽出」「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」といった作業を実行可能です。
·gigazine.net·
マルチモーダル画像生成AI「OmniGen」登場、1つのモデルで「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」などが可能
AIの発展につながるディープラーニングブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」とは?
AIの発展につながるディープラーニングブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」とは?
ディープラーニング(深層学習)とは、生物の神経系を模倣したニューラルネットワークを用いた機械学習手法であり、近年のAIテクノロジーの発展に大きく貢献しました。そんなディープラーニングのブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」について、AI系ブログのUnderstanding AIが解説しています。
·gigazine.net·
AIの発展につながるディープラーニングブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」とは?
Microsoftが「ペイント」と「メモ帳」にAI機能を追加、キャンバス内にオブジェクトを追加・オブジェクトの消去&文章の言い換え・トーンの調整・コンテンツの長さの変更が可能に
Microsoftが「ペイント」と「メモ帳」にAI機能を追加、キャンバス内にオブジェクトを追加・オブジェクトの消去&文章の言い換え・トーンの調整・コンテンツの長さの変更が可能に
2024年11月7日にMicrosoftが、Windowsの標準アプリ「ペイント」と「メモ帳」向けの生成AIを採用した新機能を発表しました。
·gigazine.net·
Microsoftが「ペイント」と「メモ帳」にAI機能を追加、キャンバス内にオブジェクトを追加・オブジェクトの消去&文章の言い換え・トーンの調整・コンテンツの長さの変更が可能に
OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上
OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上
OpenAIが2024年5月にリリースしたAIモデル「GPT-4o」に、2024年10月1日から「画像でファインチューニングする機能」が追加されました。すでにテキストでGPT-4oをファインチューニングする機能は提供されていましたが、画像でのファインチューニングが可能になったことで、視覚検索やオブジェクト検出などの機能を向上させることができます。
·gigazine.net·
OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上