画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2839 bookmarks
Custom sorting
画像をレイヤー分けできるAIモデル「Qwen-Image-Layered」が登場
画像をレイヤー分けできるAIモデル「Qwen-Image-Layered」が登場
2025年12月19日、中国の大手テクノロジー企業であるAlibabaのAIモデルであるQwenシリーズに、画像を複数のRGBAレイヤーに分解できるAIモデル「Qwen-Image-Layered」が新たに登場しました。
·gigazine.net·
画像をレイヤー分けできるAIモデル「Qwen-Image-Layered」が登場
古い動画をAIが簡単操作で高画質化してくれる「Aiarty Video Enhancer」で古い思い出を鮮明によみがえらせてみた
古い動画をAIが簡単操作で高画質化してくれる「Aiarty Video Enhancer」で古い思い出を鮮明によみがえらせてみた
技術の進化と共に動画の解像度は向上していますが、過去に撮影した動画は解像度が低いままなので、画質が粗く、古めかしいものに感じてしまいます。そんな古い動画をAIを用いて簡単に高画質化することができるのが「Aiarty Video Enhancer」です。動画に詰まった思い出を、高画質化と共に鮮明によみがえらせることができるということで、実際に使ってみました。
·gigazine.net·
古い動画をAIが簡単操作で高画質化してくれる「Aiarty Video Enhancer」で古い思い出を鮮明によみがえらせてみた
画像生成&編集AI「Qwen-Image-Edit-2511」登場、人物やオブジェクトの一貫性が向上&人気LoRAを内蔵してさらに高品質化
画像生成&編集AI「Qwen-Image-Edit-2511」登場、人物やオブジェクトの一貫性が向上&人気LoRAを内蔵してさらに高品質化
中国の大手テクノロジー企業であるAlibabaのAIモデルであるQwenシリーズから、画像編集タスクを搭載した画像生成AIのQwen-Image-Ediの強化版となる「Qwen-Image-Edit-2511」が登場しました。グループ写真や複雑なシーンでも人物一貫性を保つことができるほか、LoRAを内蔵していることで追加の調整不要で表現力を広げることができます。
·gigazine.net·
画像生成&編集AI「Qwen-Image-Edit-2511」登場、人物やオブジェクトの一貫性が向上&人気LoRAを内蔵してさらに高品質化
画像生成AIと画像認識AIの生成ループを実行すると最終的にどんな指示でも「12種類のスタイル」に収束してしまうことが判明
画像生成AIと画像認識AIの生成ループを実行すると最終的にどんな指示でも「12種類のスタイル」に収束してしまうことが判明
生成AIの発達により、テキストプロンプトを入力するだけで誰でも簡単に画像を生成できるようになりました。一見すると、画像生成AIは多様で自由な表現を生み出せるように思えますが、スウェーデンの研究者らが発表した研究では、AI同士による自律的な生成を繰り返すと最初は多様に見えた画像が最終的にわずか「12種類のスタイル」へと収束してしまう可能性が示されています。
·gigazine.net·
画像生成AIと画像認識AIの生成ループを実行すると最終的にどんな指示でも「12種類のスタイル」に収束してしまうことが判明
AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能
AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能
AlibabaのAI研究チームであるQwenが画像生成AIモデル「Qwen-Image-2512」を2025年12月31日に公開しました。Qwen-Image-2512はAI生成画像っぽくない実写風画像を生成できることを大きな特長としています。すでにモデルをダウンロードしてローカルで実行可能になっていたので、実際に使ってみました。
·gigazine.net·
AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能
Xでも使える生成AI「Grok」の画像編集機能で子どもや女性の性的画像が生成可能な問題を受けインド・フランス・マレーシアの当局が調査を開始
Xでも使える生成AI「Grok」の画像編集機能で子どもや女性の性的画像が生成可能な問題を受けインド・フランス・マレーシアの当局が調査を開始
生成AI「Grok」の画像編集機能が2025年12月からXでも簡単に使えるようになった結果、他人の画像を勝手に編集する事例が発生したほか、コスプレイヤーや子どもの写真を無断で性的に加工するという事例が世界的に広がっています。これを受け、フランスおよびマレーシアの規制当局がGrokの調査を開始したと報じられました。
·gigazine.net·
Xでも使える生成AI「Grok」の画像編集機能で子どもや女性の性的画像が生成可能な問題を受けインド・フランス・マレーシアの当局が調査を開始
AMD製グラボでの画像生成AIが爆速になるComfyUIアップデートが配信、ROCm統合で生成速度が5.4倍に
AMD製グラボでの画像生成AIが爆速になるComfyUIアップデートが配信、ROCm統合で生成速度が5.4倍に
ローカル画像生成の分野では「AMD製グラフィックボードは同等性能のNVIDIA製グラフィックボードと比べて環境構築が面倒で生成速度も大きく劣る」という状況が続いていました。新たに生成AI実行アプリのComfyUIがROCmへのネイティブ対応を果たし、AMD製グラフィックボードやAMD製SoCを搭載したマシンでの生成速度が大きく向上しました。
·gigazine.net·
AMD製グラボでの画像生成AIが爆速になるComfyUIアップデートが配信、ROCm統合で生成速度が5.4倍に
動画生成AI「LTX-2」登場、ローカル動作するオープンモデルでNVIDIAによる「4K動画生成パイプライン」もあり
動画生成AI「LTX-2」登場、ローカル動作するオープンモデルでNVIDIAによる「4K動画生成パイプライン」もあり
AI開発企業のLightricksがオープンソースのオーディオ・ビデオ生成モデル「LTX-2」をリリースしました。LTX-2ではハイエンドな個人用PCでローカル実行することが可能で、環境音や会話音声を含む動画を生成できます。
·gigazine.net·
動画生成AI「LTX-2」登場、ローカル動作するオープンモデルでNVIDIAによる「4K動画生成パイプライン」もあり
Grokが毎時約6700枚の性的画像を生成しているとの指摘、Grok生成画像の85%は性的
Grokが毎時約6700枚の性的画像を生成しているとの指摘、Grok生成画像の85%は性的
X(旧Twitter)上で、AIの「Grok」を使って他人の画像を性的なものに改変する事例が相次いでいます。いくつかの調査で、Grokが前例のないほど大量の性的画像を生成していることが指摘されました。
·gigazine.net·
Grokが毎時約6700枚の性的画像を生成しているとの指摘、Grok生成画像の85%は性的
動画生成AI「Wan」の公式スマホアプリが登場、無料でフルHDの動画を生成可能なので使ってみた
動画生成AI「Wan」の公式スマホアプリが登場、無料でフルHDの動画を生成可能なので使ってみた
Alibabaが動画生成AI「Wan」のスマートフォン向けアプリをリリースしました。アプリではテキストや画像を入力して動画を生成可能で、動画の共有機能なども搭載されています。すでに日本のiPhoneやAndroidスマートフォンでも無料で利用可能だったので、実際に使ってみました。
·gigazine.net·
動画生成AI「Wan」の公式スマホアプリが登場、無料でフルHDの動画を生成可能なので使ってみた
XのAI画像編集機能が一部有料化
XのAI画像編集機能が一部有料化
Xでは画像付き投稿に「@grok この画像を○○に変えて」などのリプライを送信することでGrokに画像を編集させることができます。この機能が制限されてリプライを通じた編集機能は有料会員のみ使用可能となりました。
·gigazine.net·
XのAI画像編集機能が一部有料化
48時間以内にAI生成ポルノ画像を削除しろ──秋元康さんプロデュースのアイドルグループが異例の“公開警告”
48時間以内にAI生成ポルノ画像を削除しろ──秋元康さんプロデュースのアイドルグループが異例の“公開警告”
インドネシアのアイドルグループ「JKT48」の運営事務局は5日、生成AIを使ってメンバーの画像を性的に加工する事例が報告されたとして、異例の“公開警告”を行った。
·itmedia.co.jp·
48時間以内にAI生成ポルノ画像を削除しろ──秋元康さんプロデュースのアイドルグループが異例の“公開警告”
性的偽画像「同意なき生成・拡散は性暴力」 識者「新たな法規制を」
性的偽画像「同意なき生成・拡散は性暴力」 識者「新たな法規制を」
生成人工知能(AI)を悪用して作った性的な画像や動画「性的ディープフェイク」の被害が社会問題となっている。その一方、既存法での摘発が追いついていないとも指摘されている。刑法が専門の神奈川大法学部・上田正基准教授(37)は「『性的イメージの同意なき作成・拡散自体が違法』との考え方に基づく立法が必要だ
·mainichi.jp·
性的偽画像「同意なき生成・拡散は性暴力」 識者「新たな法規制を」
マスク氏のAI「Grok」に服をデジタルで消された……「人間性を奪われた」と被害女性 - BBCニュース
マスク氏のAI「Grok」に服をデジタルで消された……「人間性を奪われた」と被害女性 - BBCニュース
ソーシャルメディア「X」を所有する米実業家イーロン・マスク氏が率いる人工知能(AI)企業xAIの対話型生成AI「Grok」に、自分の写真から着衣を消された女性が、自分の「人間性を奪われ、性的ステレオタイプに落とし込まれたと感じる」とBBCに話した。
·bbc.com·
マスク氏のAI「Grok」に服をデジタルで消された……「人間性を奪われた」と被害女性 - BBCニュース
フルCG長編アニメの「トイ・ストーリー」はデジタルだけではなく35mmフィルムも駆使していた
フルCG長編アニメの「トイ・ストーリー」はデジタルだけではなく35mmフィルムも駆使していた
1995年に公開された『トイ・ストーリー』は、劇場用長編映画として世界で初めてフルCGアニメーションで制作されたアニメ映画です。この『トイ・ストーリー』は劇場公開版は35mmフィルムで上映され、のちに技術の進歩によってデジタル版がスタンダードとなりました。この2つのバージョンの違いについて、アニメ関連のニュースレターである「Animation Obsessive」が解説しています。
·gigazine.net·
フルCG長編アニメの「トイ・ストーリー」はデジタルだけではなく35mmフィルムも駆使していた
Googleの画像生成AI「Nano Banana」はなぜ優れているのか?
Googleの画像生成AI「Nano Banana」はなぜ優れているのか?
2025年3月末にChatGPTが無料での画像生成機能をサポートして以来、良くも悪くもChatGPTが画像生成AIにおけるベンチマークとなりました。しかし、Googleの画像生成AIである「Gemini 2.5 Flash Image(Nano Banana)」はChatGPTよりもはるかに優れているとして、その理由をデータサイエンティストのマックス・ウルフ氏が解説しています。
·gigazine.net·
Googleの画像生成AI「Nano Banana」はなぜ優れているのか?
デジタル画像にディザリングが必要な理由
デジタル画像にディザリングが必要な理由
デジタル画像には、画像の色数を削減したり異なる色で置き換えたりする際に使われる「ディザリング」という技法があります。ディザリングはどのようなもので、なぜ必要なのかについてデザインエンジニアのダン・ホリック氏が解説しています。
·gigazine.net·
デジタル画像にディザリングが必要な理由
OpenAI・Google・AnthropicのAIには「私はロボットではありません」のCAPTCHAを突破する能力に大きな差があることが判明
OpenAI・Google・AnthropicのAIには「私はロボットではありません」のCAPTCHAを突破する能力に大きな差があることが判明
インターネットで情報を収集していると、「私はロボットではありません」と記されたチェックボックスが出現し、面倒なクイズを出題されることがよくあります。このチェックボックスやクイズ問題は不正なボットを検出する「CAPTCHA」という仕組みなのですが、AIの発達によって人間の力を借りずともボット単体でCAPTCHAを突破できるようになりつつあります。ボット検出システムとAIの関係を調べているRoundtable Researchは、各種AIのCAPTCHA突破能力を調査し、その結果を公開しました。
·gigazine.net·
OpenAI・Google・AnthropicのAIには「私はロボットではありません」のCAPTCHAを突破する能力に大きな差があることが判明
1枚の写真から目的の人間や物体だけを切り抜いて3Dモデル化できるAI「SAM 3D Body」&「SAM 3D Objects」をMetaが公開
1枚の写真から目的の人間や物体だけを切り抜いて3Dモデル化できるAI「SAM 3D Body」&「SAM 3D Objects」をMetaが公開
Metaが画像から3Dモデルを生成できるAI「SAM 3D」を2025年11月19日(木)に発表しました。SAM 3Dは人体に特化した「SAM 3D Body」と物体に特化した「SAM 3D Objects」に分かれており、どちらも競合製品より高品質な3Dモデルを生成できます。
·gigazine.net·
1枚の写真から目的の人間や物体だけを切り抜いて3Dモデル化できるAI「SAM 3D Body」&「SAM 3D Objects」をMetaが公開
Metaが動画内の物体を識別して切り抜けるAIモデル「SAM 3」を発表
Metaが動画内の物体を識別して切り抜けるAIモデル「SAM 3」を発表
Metaがテキストや視覚的なサンプルをプロンプトとして使用し、画像やビデオ内のオブジェクトを検出、分割、追跡するための統合モデル「Meta Segment Anything Model 3(SAM 3)」を発表しました。
·gigazine.net·
Metaが動画内の物体を識別して切り抜けるAIモデル「SAM 3」を発表
Googleの画像生成AI「Gemini 3 Pro Image(Nano Banana Pro)」が登場、Geminiの推論機能を応用して言語対応や情報整理能力が強化
Googleの画像生成AI「Gemini 3 Pro Image(Nano Banana Pro)」が登場、Geminiの推論機能を応用して言語対応や情報整理能力が強化
Googleが画像生成AIのGemini 3 Pro Image(Nano Banana Pro)を2025年11月20日に発表しました。Gemini 3 Proをベースに構築されたNano Banana Proは、Gemini 2.5 Flash Image(Nano Banana)よりも優れた情報視覚化を実現しているとのことです。
·gigazine.net·
Googleの画像生成AI「Gemini 3 Pro Image(Nano Banana Pro)」が登場、Geminiの推論機能を応用して言語対応や情報整理能力が強化
「Gemini」アプリでGoogleのAI生成画像を見分けられるようになったそうなので実際にやってみた
「Gemini」アプリでGoogleのAI生成画像を見分けられるようになったそうなので実際にやってみた
2023年、Googleは目に見えない電子透かしを画像に埋め込む技術「SynthID」を開発し、それ以来GoogleのAIが生成するコンテンツに透かしを埋め込んできました。この電子透かしを新たにGeminiアプリで検知できるようになったと、Googleが発表しました。
·gigazine.net·
「Gemini」アプリでGoogleのAI生成画像を見分けられるようになったそうなので実際にやってみた
Googleの画像生成AI「Gemini 3 Pro Image(Nano Banana Pro)」は過去モデルや他社製モデルと比べてどれくらい優秀なのか?
Googleの画像生成AI「Gemini 3 Pro Image(Nano Banana Pro)」は過去モデルや他社製モデルと比べてどれくらい優秀なのか?
Googleが高品質な画像生成AI「Gemini 3 Pro Image(Nano Banana Pro)」を2025年11月20日にリリースしました。各種画像生成AIの画像編集能力を比較しているウェブサイト「GenAI Image Editing Showdown」にもNano Banana Proでのテスト結果が追加されており、旧モデルのNano Bananaや他社製モデルの結果を比較できるようになっています。
·gigazine.net·
Googleの画像生成AI「Gemini 3 Pro Image(Nano Banana Pro)」は過去モデルや他社製モデルと比べてどれくらい優秀なのか?
無料の画像背景除去AI「withoutbg」、オープンソースでセルフホスティングも可能
無料の画像背景除去AI「withoutbg」、オープンソースでセルフホスティングも可能
自分で撮影した画像を素材として使用する場合、背景の消去は必須の処理となります。しかし、手作業で背景を切り抜く作業は非常に手間がかかるので、AIによる自動処理はほぼ必須といえます。ただ、高額な画像処理ツールの一機能であることが多く、ちょっと試しに使ってみたい程度の感覚で利用するには敷居が高いといえます。無料で利用可能な背景除去ツールをうたうウェブサービスもありますが、処理の甘さが目立つなどといった限界を感じる場合が多いです。そんな中、Githubで公開されており、高性能かつセルフホスティング可能な画像背景除去AIが「withoutbg」です。
·gigazine.net·
無料の画像背景除去AI「withoutbg」、オープンソースでセルフホスティングも可能
無料でオープンソースの動画編集アプリ「Kdenlive」レビュー、Windows・macOS・Linuxで動作可能
無料でオープンソースの動画編集アプリ「Kdenlive」レビュー、Windows・macOS・Linuxで動作可能
「Kdenlive」は無料で使えるオープンソースのノンリニア動画編集ソフトウェアです。動画のカットやエフェクト、字幕の追加、色編集などが可能で、Windows・Linux・macOSで利用できます。
·gigazine.net·
無料でオープンソースの動画編集アプリ「Kdenlive」レビュー、Windows・macOS・Linuxで動作可能
ついに画像生成AI「FLUX.2」が登場、家のPCでローカル実行可能
ついに画像生成AI「FLUX.2」が登場、家のPCでローカル実行可能
ドイツのAIスタートアップであるBlack Forest Labsが、画像生成AIモデルファミリー「FLUX.2」を2025年11月25日にリリースしました。これは以前のモデルであるFLUX.1の成功を受け、さらに機能を拡張したもので、デモや遊びだけでなく実用的なクリエイティブワークフローでの利用を想定して設計されています。
·gigazine.net·
ついに画像生成AI「FLUX.2」が登場、家のPCでローカル実行可能
高速かつ高品質な画像生成AI「Z-Image」をAlibabaが公開
高速かつ高品質な画像生成AI「Z-Image」をAlibabaが公開
Alibaba所属の研究者が、リアリティのある画像の生成に優れたモデル「Z-Image(造相)」を開発しました。Z-Imageのパラメータ数は60億で、短時間で高品質な画像を生成できることを特徴としています。
·gigazine.net·
高速かつ高品質な画像生成AI「Z-Image」をAlibabaが公開
Alibabaの視覚言語AIモデル「Qwen3-VL」は2時間ある映像に挿入されたフレームを99.5%の精度で特定可能
Alibabaの視覚言語AIモデル「Qwen3-VL」は2時間ある映像に挿入されたフレームを99.5%の精度で特定可能
中国のIT大手・Alibaba(阿里巴巴:アリババ)が、AIモデル「Qwen」シリーズで最も高性能な視覚言語モデルである「Qwen3-VL」の技術レポートを公開しました。様々なベンチマークを行った結果、Qwen3-VLは「視覚的な数学タスク」を得意とするほか、言語網羅率もQwen2.5のほぼ4倍の39言語に増加し、そのうち32の言語でOCR精度が70%超えとなっていることが報告されています。
·gigazine.net·
Alibabaの視覚言語AIモデル「Qwen3-VL」は2時間ある映像に挿入されたフレームを99.5%の精度で特定可能