画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2854 bookmarks
Custom sorting
GoogleがCT画像やMRIデータに対応した医療特化AIモデル「MedGemma 1.5 4B」と文字起こしモデル「MedASR」を公開
GoogleがCT画像やMRIデータに対応した医療特化AIモデル「MedGemma 1.5 4B」と文字起こしモデル「MedASR」を公開
Googleが医療用途に特化したAIモデル「MedGemma 1.5 4B」と音声認識モデル「MedASR」を2026年1月13日に公開しました。MedGemma 1.5 4Bはローカルで動作可能な軽量モデルで、前世代よりも精度が向上しています。
·gigazine.net·
GoogleがCT画像やMRIデータに対応した医療特化AIモデル「MedGemma 1.5 4B」と文字起こしモデル「MedASR」を公開
アメリカのテレビ賞である「エミー賞」の規則が変更され生成AIの使用について明文化、エントリーは可能だが審査員が生成AIの使用について問い合わせる権利を持つ
アメリカのテレビ賞である「エミー賞」の規則が変更され生成AIの使用について明文化、エントリーは可能だが審査員が生成AIの使用について問い合わせる権利を持つ
アメリカ合衆国で放送される優れたテレビドラマや番組、テレビ業界の功績を表彰する「エミー賞」が2026年のルール変更を発表しました。新しいルールではAIについての内容が追加され、生成AIを使用した番組の応募について明文化されています。
·gigazine.net·
アメリカのテレビ賞である「エミー賞」の規則が変更され生成AIの使用について明文化、エントリーは可能だが審査員が生成AIの使用について問い合わせる権利を持つ
Googleの動画生成AI「Veo 3.1」がアップデートされてキャラクターの一貫性が向上し4Kアップスケーリングにも対応
Googleの動画生成AI「Veo 3.1」がアップデートされてキャラクターの一貫性が向上し4Kアップスケーリングにも対応
Googleが動画生成AI「Veo 3.1」のアップデートを2026年1月13日に発表しました。参考画像を元に動画を作成する機能が改良されたほか、キャラクターの一貫性向上や4Kアップスケーリング機能の追加などが行われています。
·gigazine.net·
Googleの動画生成AI「Veo 3.1」がアップデートされてキャラクターの一貫性が向上し4Kアップスケーリングにも対応
オープンソースの画像生成AI「GLM-Image」を中国企業のZ.aiが発表、自己回帰モデルと拡散モデルのハイブリッド
オープンソースの画像生成AI「GLM-Image」を中国企業のZ.aiが発表、自己回帰モデルと拡散モデルのハイブリッド
中国のAI企業であるZ.aiが、オープンソースでありながら産業グレードのパフォーマンスを発揮する離散自己回帰画像生成モデルの「GLM-Image」を発表しました。GLM-Imageは自己回帰モデルと拡散モデルのハイブリッドとなっています。
·gigazine.net·
オープンソースの画像生成AI「GLM-Image」を中国企業のZ.aiが発表、自己回帰モデルと拡散モデルのハイブリッド
XがGrokの画像編集機能による水着化・下着化・ヌード化を禁止した上で使用を有料利用者に限定
XがGrokの画像編集機能による水着化・下着化・ヌード化を禁止した上で使用を有料利用者に限定
AI「Grok」を用いて大量の性的画像が生成されていると指摘されている問題で、XがGrokで画像編集を行ったときに被写体となった実在人物の服装の露出度を高めることができないよう技術的対策を施したことを明らかにしました。また、X経由でGrokを用いて画像編集する機能が使えるのは有料利用者のみになりました。
·gigazine.net·
XがGrokの画像編集機能による水着化・下着化・ヌード化を禁止した上で使用を有料利用者に限定
1秒未満の爆速画像生成AI「FLUX.2[klein]」が登場、VRAM13GBで家庭用PCでも動作可能
1秒未満の爆速画像生成AI「FLUX.2[klein]」が登場、VRAM13GBで家庭用PCでも動作可能
ドイツのAIスタートアップであるBlack Forest Labsが画像生成AIモデルファミリー「FLUX.2」から、高速・統合型のAIモデル「FLUX.2[klein]」をリリースしました。モデルサイズが比較的小さく、画像生成が1秒未満で完了する低レイテンシ性を重視したモデルとなっています。
·gigazine.net·
1秒未満の爆速画像生成AI「FLUX.2[klein]」が登場、VRAM13GBで家庭用PCでも動作可能
「クマの顔認識」で個体識別する手法が開発されている
「クマの顔認識」で個体識別する手法が開発されている
野生のクマが人間に危害を加える事例は日本だけでなく世界中で発生しており、クマの生態調査や共生に向けた取り組みの必要性が増しています。そんな中、クマの顔を認識して個体識別する技術を開発する「BearID」というプロジェクトが注目されています。
·gigazine.net·
「クマの顔認識」で個体識別する手法が開発されている
スタジオジブリ作品の1シーンを文章や画像で検索できる「Studio Ghibli Search」
スタジオジブリ作品の1シーンを文章や画像で検索できる「Studio Ghibli Search」
スタジオジブリ作品の1シーンを、ユーザーの検索意図や文脈をAIが解釈して情報を提供する「セマンティック検索」で見つけられる「Studio Ghibli Search」が公開されました。文章や画像を読み込ませることで、条件に一致するような1シーンを探し出すことが可能です。
·gigazine.net·
スタジオジブリ作品の1シーンを文章や画像で検索できる「Studio Ghibli Search」
ローカルAIアプリのOllamaが画像生成に対応、まずは「FLUX.2 [klein]」と「Z-Image-Turbo」から
ローカルAIアプリのOllamaが画像生成に対応、まずは「FLUX.2 [klein]」と「Z-Image-Turbo」から
各種AIをローカルで実行できるアプリ「Ollama」が実験的機能として画像生成AIに対応したことが2026年1月20日に発表されました。記事作成時点ではmacOS版Ollamaで「FLUX.2 [klein]」と「Z-Image-Turbo」を用いた画像生成が可能となっています。
·gigazine.net·
ローカルAIアプリのOllamaが画像生成に対応、まずは「FLUX.2 [klein]」と「Z-Image-Turbo」から
人工知能に空間&時間の4次元認識能力を与えるためのAI「D4RT」をGoogleが発表、「人間と同じように世界を認識できるAI」の開発に役立つ
人工知能に空間&時間の4次元認識能力を与えるためのAI「D4RT」をGoogleが発表、「人間と同じように世界を認識できるAI」の開発に役立つ
Google DeepMindが動画をもとに3次元空間を時系列に沿って認識できるAI「D4RT」を開発しました。D4RTは既存モデルと比べて高精度かつ高速な空間認識が可能で、人間と同じように世界を認識できるAIの開発に役立つとされています。
·gigazine.net·
人工知能に空間&時間の4次元認識能力を与えるためのAI「D4RT」をGoogleが発表、「人間と同じように世界を認識できるAI」の開発に役立つ
Googleとピクサー出身の映像作家がAIを活用してアニメ作品「Dear Upstairs Neighbors」を制作
Googleとピクサー出身の映像作家がAIを活用してアニメ作品「Dear Upstairs Neighbors」を制作
Googleがピクサー出身のアニメーション映像作家であるコニー・ヒー氏らアニメーション業界のベテランと共同で、生成AIツールを用いて「Dear Upstairs Neighbors」(親愛なる二階の隣人へ)というアニメ作品を制作しました。
·gigazine.net·
Googleとピクサー出身の映像作家がAIを活用してアニメ作品「Dear Upstairs Neighbors」を制作
ついに画像生成AI「Z-Image」のベースモデルが登場、「イラストに強い」「いろんな顔や構図が出る」「追加学習にも最適」などなど
ついに画像生成AI「Z-Image」のベースモデルが登場、「イラストに強い」「いろんな顔や構図が出る」「追加学習にも最適」などなど
AlibabaのAI開発チームであるTongyi-MAIが画像生成AI「Z-Image」を2026年1月28日に公開しました。Z-Imageは2025年11月に登場したZ-Image-Turboのベースモデルで、ファインチューニングによって多様なモデルが生み出されることが期待されています。また、Z-Image-Turboと比べてイラスト風の画像を高品質に出力できることや構図やキャラクターの多様性が高いことも特徴としています。
·gigazine.net·
ついに画像生成AI「Z-Image」のベースモデルが登場、「イラストに強い」「いろんな顔や構図が出る」「追加学習にも最適」などなど
Gemini 3 Flashに高精度な画像理解機能「Agentic Vision」が追加される、コードを実行して画像に枠線などを描画しながら細かい理解が可能
Gemini 3 Flashに高精度な画像理解機能「Agentic Vision」が追加される、コードを実行して画像に枠線などを描画しながら細かい理解が可能
GoogleがGemini 3 Flashの新機能として高精度な画像理解機能「Agentic Vision」を発表しました。Agentic Visionでは画像の拡大などを行いつつ能動的な画像理解が可能で、「Pythonで境界ボックスを描画して数を正確に数える」といったコード実行も駆使する機能も搭載しています。
·gigazine.net·
Gemini 3 Flashに高精度な画像理解機能「Agentic Vision」が追加される、コードを実行して画像に枠線などを描画しながら細かい理解が可能
ハッブル宇宙望遠鏡の画像アーカイブ1億枚をAIがわずか2.5日で解析して異常天体1300個超が確認される
ハッブル宇宙望遠鏡の画像アーカイブ1億枚をAIがわずか2.5日で解析して異常天体1300個超が確認される
欧州宇宙機関(ESA)とアメリカ航空宇宙局(NASAの共同研究者チームが、AIモデル「AnomalyMatch」を使ってハッブル宇宙望遠鏡の画像アーカイブを解析し、わずか2日半で多数の「異常なオブジェクト」候補を抽出したと発表しました。膨大な過去データを人手で網羅的に見直すのが難しくなる中、AIで候補を絞り込み、専門家が確認する流れを確立した形です。
·gigazine.net·
ハッブル宇宙望遠鏡の画像アーカイブ1億枚をAIがわずか2.5日で解析して異常天体1300個超が確認される
画像生成AIをPCで簡単に実行できる「ComfyUI」のインストール手順&最初の画像を生成するまでの手順まとめ
画像生成AIをPCで簡単に実行できる「ComfyUI」のインストール手順&最初の画像を生成するまでの手順まとめ
ComfyUIは画像生成AIや動画生成AIをPCでローカル実行できるアプリです。NVIDIAや各種AIモデルの開発企業と協力して「新モデルの即日対応」や「NVIDIA製GPUやAMD製GPUへの最適化」も行っており、記事作成時点で画像や動画の生成を始めるなら第一候補としてオススメできるアプリとなっています。数年前まではインストール時にコマンド操作が必要だったり複雑なノード操作が必要だったりしましたが、アップデートによってクリック操作だけでインストールできるようになっており、UIを簡略化する仕組みも導入されました。ゲーミングPCなどのグラフィックボード搭載PCなら簡単に画像生成を始められるので、最初の一歩の手助けとなるようにインストールと最初の生成までの手順をまとめてみました。
·gigazine.net·
画像生成AIをPCで簡単に実行できる「ComfyUI」のインストール手順&最初の画像を生成するまでの手順まとめ
画像をレイヤー分けできるAIモデル「Qwen-Image-Layered」が登場
画像をレイヤー分けできるAIモデル「Qwen-Image-Layered」が登場
2025年12月19日、中国の大手テクノロジー企業であるAlibabaのAIモデルであるQwenシリーズに、画像を複数のRGBAレイヤーに分解できるAIモデル「Qwen-Image-Layered」が新たに登場しました。
·gigazine.net·
画像をレイヤー分けできるAIモデル「Qwen-Image-Layered」が登場
古い動画をAIが簡単操作で高画質化してくれる「Aiarty Video Enhancer」で古い思い出を鮮明によみがえらせてみた
古い動画をAIが簡単操作で高画質化してくれる「Aiarty Video Enhancer」で古い思い出を鮮明によみがえらせてみた
技術の進化と共に動画の解像度は向上していますが、過去に撮影した動画は解像度が低いままなので、画質が粗く、古めかしいものに感じてしまいます。そんな古い動画をAIを用いて簡単に高画質化することができるのが「Aiarty Video Enhancer」です。動画に詰まった思い出を、高画質化と共に鮮明によみがえらせることができるということで、実際に使ってみました。
·gigazine.net·
古い動画をAIが簡単操作で高画質化してくれる「Aiarty Video Enhancer」で古い思い出を鮮明によみがえらせてみた
画像生成&編集AI「Qwen-Image-Edit-2511」登場、人物やオブジェクトの一貫性が向上&人気LoRAを内蔵してさらに高品質化
画像生成&編集AI「Qwen-Image-Edit-2511」登場、人物やオブジェクトの一貫性が向上&人気LoRAを内蔵してさらに高品質化
中国の大手テクノロジー企業であるAlibabaのAIモデルであるQwenシリーズから、画像編集タスクを搭載した画像生成AIのQwen-Image-Ediの強化版となる「Qwen-Image-Edit-2511」が登場しました。グループ写真や複雑なシーンでも人物一貫性を保つことができるほか、LoRAを内蔵していることで追加の調整不要で表現力を広げることができます。
·gigazine.net·
画像生成&編集AI「Qwen-Image-Edit-2511」登場、人物やオブジェクトの一貫性が向上&人気LoRAを内蔵してさらに高品質化
画像生成AIと画像認識AIの生成ループを実行すると最終的にどんな指示でも「12種類のスタイル」に収束してしまうことが判明
画像生成AIと画像認識AIの生成ループを実行すると最終的にどんな指示でも「12種類のスタイル」に収束してしまうことが判明
生成AIの発達により、テキストプロンプトを入力するだけで誰でも簡単に画像を生成できるようになりました。一見すると、画像生成AIは多様で自由な表現を生み出せるように思えますが、スウェーデンの研究者らが発表した研究では、AI同士による自律的な生成を繰り返すと最初は多様に見えた画像が最終的にわずか「12種類のスタイル」へと収束してしまう可能性が示されています。
·gigazine.net·
画像生成AIと画像認識AIの生成ループを実行すると最終的にどんな指示でも「12種類のスタイル」に収束してしまうことが判明
AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能
AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能
AlibabaのAI研究チームであるQwenが画像生成AIモデル「Qwen-Image-2512」を2025年12月31日に公開しました。Qwen-Image-2512はAI生成画像っぽくない実写風画像を生成できることを大きな特長としています。すでにモデルをダウンロードしてローカルで実行可能になっていたので、実際に使ってみました。
·gigazine.net·
AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能
Xでも使える生成AI「Grok」の画像編集機能で子どもや女性の性的画像が生成可能な問題を受けインド・フランス・マレーシアの当局が調査を開始
Xでも使える生成AI「Grok」の画像編集機能で子どもや女性の性的画像が生成可能な問題を受けインド・フランス・マレーシアの当局が調査を開始
生成AI「Grok」の画像編集機能が2025年12月からXでも簡単に使えるようになった結果、他人の画像を勝手に編集する事例が発生したほか、コスプレイヤーや子どもの写真を無断で性的に加工するという事例が世界的に広がっています。これを受け、フランスおよびマレーシアの規制当局がGrokの調査を開始したと報じられました。
·gigazine.net·
Xでも使える生成AI「Grok」の画像編集機能で子どもや女性の性的画像が生成可能な問題を受けインド・フランス・マレーシアの当局が調査を開始
AMD製グラボでの画像生成AIが爆速になるComfyUIアップデートが配信、ROCm統合で生成速度が5.4倍に
AMD製グラボでの画像生成AIが爆速になるComfyUIアップデートが配信、ROCm統合で生成速度が5.4倍に
ローカル画像生成の分野では「AMD製グラフィックボードは同等性能のNVIDIA製グラフィックボードと比べて環境構築が面倒で生成速度も大きく劣る」という状況が続いていました。新たに生成AI実行アプリのComfyUIがROCmへのネイティブ対応を果たし、AMD製グラフィックボードやAMD製SoCを搭載したマシンでの生成速度が大きく向上しました。
·gigazine.net·
AMD製グラボでの画像生成AIが爆速になるComfyUIアップデートが配信、ROCm統合で生成速度が5.4倍に
動画生成AI「LTX-2」登場、ローカル動作するオープンモデルでNVIDIAによる「4K動画生成パイプライン」もあり
動画生成AI「LTX-2」登場、ローカル動作するオープンモデルでNVIDIAによる「4K動画生成パイプライン」もあり
AI開発企業のLightricksがオープンソースのオーディオ・ビデオ生成モデル「LTX-2」をリリースしました。LTX-2ではハイエンドな個人用PCでローカル実行することが可能で、環境音や会話音声を含む動画を生成できます。
·gigazine.net·
動画生成AI「LTX-2」登場、ローカル動作するオープンモデルでNVIDIAによる「4K動画生成パイプライン」もあり
Grokが毎時約6700枚の性的画像を生成しているとの指摘、Grok生成画像の85%は性的
Grokが毎時約6700枚の性的画像を生成しているとの指摘、Grok生成画像の85%は性的
X(旧Twitter)上で、AIの「Grok」を使って他人の画像を性的なものに改変する事例が相次いでいます。いくつかの調査で、Grokが前例のないほど大量の性的画像を生成していることが指摘されました。
·gigazine.net·
Grokが毎時約6700枚の性的画像を生成しているとの指摘、Grok生成画像の85%は性的
動画生成AI「Wan」の公式スマホアプリが登場、無料でフルHDの動画を生成可能なので使ってみた
動画生成AI「Wan」の公式スマホアプリが登場、無料でフルHDの動画を生成可能なので使ってみた
Alibabaが動画生成AI「Wan」のスマートフォン向けアプリをリリースしました。アプリではテキストや画像を入力して動画を生成可能で、動画の共有機能なども搭載されています。すでに日本のiPhoneやAndroidスマートフォンでも無料で利用可能だったので、実際に使ってみました。
·gigazine.net·
動画生成AI「Wan」の公式スマホアプリが登場、無料でフルHDの動画を生成可能なので使ってみた
XのAI画像編集機能が一部有料化
XのAI画像編集機能が一部有料化
Xでは画像付き投稿に「@grok この画像を○○に変えて」などのリプライを送信することでGrokに画像を編集させることができます。この機能が制限されてリプライを通じた編集機能は有料会員のみ使用可能となりました。
·gigazine.net·
XのAI画像編集機能が一部有料化
48時間以内にAI生成ポルノ画像を削除しろ──秋元康さんプロデュースのアイドルグループが異例の“公開警告”
48時間以内にAI生成ポルノ画像を削除しろ──秋元康さんプロデュースのアイドルグループが異例の“公開警告”
インドネシアのアイドルグループ「JKT48」の運営事務局は5日、生成AIを使ってメンバーの画像を性的に加工する事例が報告されたとして、異例の“公開警告”を行った。
·itmedia.co.jp·
48時間以内にAI生成ポルノ画像を削除しろ──秋元康さんプロデュースのアイドルグループが異例の“公開警告”
性的偽画像「同意なき生成・拡散は性暴力」 識者「新たな法規制を」
性的偽画像「同意なき生成・拡散は性暴力」 識者「新たな法規制を」
生成人工知能(AI)を悪用して作った性的な画像や動画「性的ディープフェイク」の被害が社会問題となっている。その一方、既存法での摘発が追いついていないとも指摘されている。刑法が専門の神奈川大法学部・上田正基准教授(37)は「『性的イメージの同意なき作成・拡散自体が違法』との考え方に基づく立法が必要だ
·mainichi.jp·
性的偽画像「同意なき生成・拡散は性暴力」 識者「新たな法規制を」
マスク氏のAI「Grok」に服をデジタルで消された……「人間性を奪われた」と被害女性 - BBCニュース
マスク氏のAI「Grok」に服をデジタルで消された……「人間性を奪われた」と被害女性 - BBCニュース
ソーシャルメディア「X」を所有する米実業家イーロン・マスク氏が率いる人工知能(AI)企業xAIの対話型生成AI「Grok」に、自分の写真から着衣を消された女性が、自分の「人間性を奪われ、性的ステレオタイプに落とし込まれたと感じる」とBBCに話した。
·bbc.com·
マスク氏のAI「Grok」に服をデジタルで消された……「人間性を奪われた」と被害女性 - BBCニュース