画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2587 bookmarks

Custom sorting

Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表

MetaのAI研究部門であるMeta FAIRは、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」や量子暗号の強度を検証できる「Salsa」など、複数の研究成果を発表した。

·atmarkit.itmedia.co.jp·Nov 23, 2024

Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表

約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される

AIを搭載したヒューマノイドロボット「Ai-Da」が描いた計算機科学者アラン・チューリングの肖像画がオークションにかけられ、事前の予想を大幅に上回る108万4800ドル(約1億6600万円)で落札されました。

·gigazine.net·Nov 22, 2024

約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される

無料の画像編集ソフト「GIMP」が20年の時を経てついにバージョン3.0を迎える

オープンソースで開発されている無料の画像編集ソフト「GIMP」のバージョン3.0が、まもなくリリース予定であることが告知されました。GIMPのメジャーアップデートは実に20年ぶりのことです。

·gigazine.net·Nov 22, 2024

無料の画像編集ソフト「GIMP」が20年の時を経てついにバージョン3.0を迎える

AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か？

大規模言語モデル(LLM)のセキュリティを研究するスタートアップ・Lakeraのエンジニアであるダニエル・ティンブレル氏が、画像認識も可能なチャットボットAIに対する「ビジュアルプロンプトインジェクション」攻撃について解説しています。

·gigazine.net·Nov 22, 2024

AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か？

Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張

Stable DiffusionやDALL-E 3などの画像生成AIでは、拡散モデルと呼ばれる生成モデルが使用されています。新たにアメリカのハーバード大学やタフツ大学、オーストリアのウィーン工科大学などの研究チームが、「拡散モデルは本質的に進化的アルゴリズムだ」と主張する論文を発表し、話題を呼んでいます。

·gigazine.net·Nov 22, 2024

Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張

Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に

1230億パラメーターと128kコンテキストウィンドウを備えGPT-4oに匹敵するベンチマーク性能を記録した「Mistral Large 2」やマルチモーダルAI「Pixtral 12B」、小規模モデルの「Ministral 3B/8B」などを展開しているAI開発企業のMistral AIが、チャットAI「Le Chat」の大幅なアップデートを発表しました。

·gigazine.net·Nov 22, 2024

Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に

ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写＆強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさん

ソニーがフルサイズミラーレスカメラ「α1 II」を2024年11月19日に発表しました。α1 IIは「有効画素数5010万のフルサイズ積層型CMOSイメージセンサ」「画像処理エンジンBIONZ XR」「AI処理に特化した最新のAIプロセッシングユニット」などを搭載しており、高精度なリアルタイム認識AFやブラックアウトフリーでの秒間30コマ連写などに対応しています。

·gigazine.net·Nov 22, 2024

高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能

画像生成AI「FLUX1.1 [pro]」の開発チームが、FLUX1.1 [pro]と組み合わせて使えるAIモデルシリーズ「FLUX.1 Tools」を発表しました。FLUX.1 Toolsにはインペインティングやアウトペインティングが可能な「FLUX.1 Fill」、深度抽出が可能な「FLUX.1 Depth」、輪郭抽出が可能な「FLUX.1 Canny」、被写体を維持したスタイル変更が可能な「FLUX.1 Redux」の4種が含まれています。

·gigazine.net·Nov 22, 2024

高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能

サイバーエージェント、日本語に強い“視覚言語モデル”公開パラメータ75億、商用利用もOK

サイバーエージェントは、75億パラメータの日本語大規模視覚言語モデル（Vision Language Model、VLM）を一般公開した。

·itmedia.co.jp·Nov 22, 2024

サイバーエージェント、日本語に強い“視覚言語モデル”公開パラメータ75億、商用利用もOK

ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた

ソニーセミコンダクタソリューションズと英国Raspberry Pi社が、シングルボードコンピュータ「Raspberry Pi」用のAIカメラを共同開発した。今回、両社にこの製品が開発者にもたらすメリットや事業展開における狙いなどを聞いた。

·eetimes.itmedia.co.jp·Nov 22, 2024

ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた

Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表

2024年10月14日から16日にかけて行われたAdobeの年次イベント「Adobe MAX」で、クリエイティブな分野における最新のイノベーションの種を披露する「Sneaks」セッションが開催され、その中で2D画像を3Dのように回転させる「Project Turntable」が発表されました。

·gigazine.net·Nov 8, 2024

Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表

画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは？

GoogleのマルチモーダルAI「Gemini」を利用して、録画した映像から必要なデータを抽出する「ビデオスクレイピング」について、AI研究者でデータジャーナリストのサイモン・ウィルソン氏が解説しています。

·gigazine.net·Nov 8, 2024

画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは？

フランスの美術館が収蔵品の3Dスキャンを行いながらも一般公開していないという指摘

いまや博物館や美術館が収蔵物の3Dスキャンを行い、誰でも閲覧できるように公開する試みは珍しいものではなくなっていますが、ロダン美術館を始めとしたフランスの博物館・美術館は、公的な補助金を得てスキャン事業を行っているにもかかわらずデータを公開していないと、アーティストのコスモ・ウェンマン氏が問題提起しています。

·gigazine.net·Nov 8, 2024

フランスの美術館が収蔵品の3Dスキャンを行いながらも一般公開していないという指摘

画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴

画像生成AIのStable Diffusionを開発するStability AIが、「Stable Diffusion 3.5」のオープンリリースを2024年10月22日(火)に発表しました。このStable Diffusion 3.5には複数のモデルが含まれ、すべてStability AI Community Licenseの下で商用・非商用を問わず無料で利用可能となっています。

·gigazine.net·Nov 8, 2024

画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴

AI生成キャラクターをリアルな表情でアニメーションさせられるツール「Act-One」をRunwayがリリース

AI開発企業のRunwayが、人物の動画を撮影するだけで手軽にAIが生成したキャラクターに被写体の表情を転送できるAIツール「Act-One」をリリースしました。Act-OneはRunwayの動画生成AIモデル「Gen-3 Alpha」を利用できるユーザーなら誰でも使用可能です。

·gigazine.net·Nov 8, 2024

AI生成キャラクターをリアルな表情でアニメーションさせられるツール「Act-One」をRunwayがリリース

Canvaが新しいAI機能をリリース、買収したLeonardo.AiのPhoenixモデルを利用した画像ジェネレーター「ドリームラボ」も登場

無料で使えるオンラインビジュアルツールキットの「Canva」が、複数の新しいAI機能を発表しました。新しいAI機能の中のひとつであるAI画像ジェネレーターの「ドリームラボ」は、同社が2024年7月に買収したAI画像生成サービス「Leonardo.Ai」のテクノロジーがベースとなっています。

·gigazine.net·Nov 8, 2024

Canvaが新しいAI機能をリリース、買収したLeonardo.AiのPhoenixモデルを利用した画像ジェネレーター「ドリームラボ」も登場

iPhoneやMacに画像生成AIを追加する「iOS 18.2」「iPadOS 18.2」「macOS 15.2」のベータ版がリリース、SiriとChatGPTの統合や絵文字生成機能なども搭載

2024年10月23日(水)にAppleが「iOS 18.2」「iPadOS 18.2」「macOS 15.2」のベータ版をリリースしました。新たなOSには画像生成AIアプリ「Image Playground」が追加されるほか、「カスタム絵文字の生成」「SiriとChatGPTの統合」などの新機能が加わっています。

·gigazine.net·Nov 8, 2024

iPhoneやMacに画像生成AIを追加する「iOS 18.2」「iPadOS 18.2」「macOS 15.2」のベータ版がリリース、SiriとChatGPTの統合や絵文字生成機能なども搭載

生成AIに使われる拡散処理を超爆速わずか2ステップで完了できるアプローチ「sCM」をOpenAIが発表

画像生成AI「Stable Diffusion」などの生成AIモデルは「拡散モデル」と呼ばれるアプローチを採用しています。この拡散モデルに代わる、拡散処理を単純化して高速化するアプローチ「sCM」をOpenAIが考案しました。通常であれば数十から数百のサンプリングステップがかかるところ、sCMだとわずか2ステップで済むとのことです。

·gigazine.net·Nov 8, 2024

生成AIに使われる拡散処理を超爆速わずか2ステップで完了できるアプローチ「sCM」をOpenAIが発表

映したものをなんでもアート化して壁掛け画像にする生成AI「PabloNet」

機械学習エンジニアのマシュー・ル・コショワ氏が作成した「PabloNet」は、秒間100枚以上の画像を生成できる爆速画像生成パイプライン「StreamDiffusion」を使用して、リアルタイムでカメラで捉えたものからAIアートを作成するというシステムです。実際に動作している様子や仕組みについて、コショワ氏が解説しています。

·gigazine.net·Nov 8, 2024

映したものをなんでもアート化して壁掛け画像にする生成AI「PabloNet」

鳥の写真や鳴き声から種類を識別できるアプリ「Merlin Bird ID」を使ってみた

「Merlin Bird ID」はコーネル大学が公開しているアプリで、鳥の鳴き声や写真から種類を判別してくれます。便利そうだったので実際に使ってみました。

·gigazine.net·Nov 8, 2024

鳥の写真や鳴き声から種類を識別できるアプリ「Merlin Bird ID」を使ってみた

GoogleがマルチモーダルAI「Gemini 2.0」を12月に発表か、デミス・ハサビス率いるAIチームが期待するパフォーマンス向上を実現できていないとの指摘も

Googleは2023年12月にマルチモーダルAIのGeminiを発表しました。それから約1年後の2024年12月、GoogleはGeminiの次世代モデルとなる「Gemini 2.0」を発表すると、テクノロジーメディアのThe Vergeが報じています。

·gigazine.net·Nov 8, 2024

GoogleがマルチモーダルAI「Gemini 2.0」を12月に発表か、デミス・ハサビス率いるAIチームが期待するパフォーマンス向上を実現できていないとの指摘も

AIを使って子どもの性的な画像を生成した男に懲役18年の判決が下る

AIを用いて実在する児童の画像から性的な画像を生成した男性に、懲役18年の判決が下されました。

·gigazine.net·Nov 8, 2024

AIを使って子どもの性的な画像を生成した男に懲役18年の判決が下る

手書きのメモの写真からペンの動きを抽出するモデル「InkSight」をGoogleが開発

Googleのチームが手書きのメモの写真からペンの動きを抽出するモデル「InkSight」を発表しました。特殊なツール不要で手書きのメモを手書きのスタイルを維持したままデジタル化することが可能になるとのことです。

·gigazine.net·Nov 8, 2024

手書きのメモの写真からペンの動きを抽出するモデル「InkSight」をGoogleが開発

実写の動画を3DCGアニメーションに変換できる「Wonder Animation」のベータ版がリリースされる

CGモデルをアニメーション化するAIツール「Wonder Studio」を手がけるWonder Dynamicsが、映像を3DCGによるアニメーションに変換できる「Wonder Animation」を発表しました。Wonder Animationのベータ版は、Wonder Studioのすべてのユーザーに向けてリリースされており、アニメーション映画の制作などに利用することができます。

·gigazine.net·Nov 8, 2024

実写の動画を3DCGアニメーションに変換できる「Wonder Animation」のベータ版がリリースされる

衣類を洗濯機から取り出して畳んだり食事後のテーブルを片付けたりできる汎用ロボット基盤モデル「π0」

チェスで人間を打ち負かしたり、新薬を創出したりと、AIは難しい課題で人間を超えるような才能を見せることがある一方で、人間なら容易にこなせるタスクに苦戦することがあります。このことは、機械工学研究者のハンス・モラベックによる「モラベックのパラドックス」として知られているのですが、物理的な課題の解決にも取り組んでいかなければならないということで、基盤モデルと学習アルゴリズムの開発を手がけるグループのPhisycal Intelligenceが、8カ月かけて、汎用的な動きを実現するロボットに対応するためのAIモデルとして、汎用ロボット基盤モデルの「π0」を開発しました。

·gigazine.net·Nov 8, 2024

衣類を洗濯機から取り出して畳んだり食事後のテーブルを片付けたりできる汎用ロボット基盤モデル「π0」

マルチモーダル画像生成AI「OmniGen」登場、1つのモデルで「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」などが可能

広く使われている画像生成AIのStable Diffusionは「ControlNetを組み合わせてポーズ抽出やポーズ指定生成を実行する」「IP-Adapterを組み合わせて類似画像を生成する」といったように拡張機能を用いて多様な作業を実行できます。「OmniGen」はControlNetなどの拡張機能を使わず単一のモデルだけで多様な生成作業を実行可能にすることを目指して開発されたマルチモーダル画像生成AIで、単体で「画像生成」「ポーズ抽出」「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」といった作業を実行可能です。

·gigazine.net·Nov 8, 2024

マルチモーダル画像生成AI「OmniGen」登場、1つのモデルで「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」などが可能

Appleが高機能画像編集ソフト「Pixelmator」買収の契約を締結

高機能画像編集ソフト「Pixelmator Pro」の開発元が、規制当局に承認されることを条件として、Appleによる買収契約に合意したことを発表しました。

·gigazine.net·Nov 8, 2024

Appleが高機能画像編集ソフト「Pixelmator」買収の契約を締結

AIの発展につながるディープラーニングブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」とは？

ディープラーニング(深層学習)とは、生物の神経系を模倣したニューラルネットワークを用いた機械学習手法であり、近年のAIテクノロジーの発展に大きく貢献しました。そんなディープラーニングのブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」について、AI系ブログのUnderstanding AIが解説しています。

·gigazine.net·Nov 8, 2024

AIの発展につながるディープラーニングブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」とは？

Microsoftが「ペイント」と「メモ帳」にAI機能を追加、キャンバス内にオブジェクトを追加・オブジェクトの消去＆文章の言い換え・トーンの調整・コンテンツの長さの変更が可能に

2024年11月7日にMicrosoftが、Windowsの標準アプリ「ペイント」と「メモ帳」向けの生成AIを採用した新機能を発表しました。

·gigazine.net·Nov 8, 2024

OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上

OpenAIが2024年5月にリリースしたAIモデル「GPT-4o」に、2024年10月1日から「画像でファインチューニングする機能」が追加されました。すでにテキストでGPT-4oをファインチューニングする機能は提供されていましたが、画像でのファインチューニングが可能になったことで、視覚検索やオブジェクト検出などの機能を向上させることができます。

·gigazine.net·Oct 19, 2024

OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上