画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2869 bookmarks

Custom sorting

画像生成AI「Qwen-Image-2.0」が登場、実写と文字に強くEditモデルとの統合も果たす

AlibabaのAI研究チームであるQwen(Tongyi Lab)が画像生成AI「Qwen-Image-2.0」を2026年2月10日に発表しました。Qwen-Image-2.0はQwen-ImageとQwen-Image-Editを統合したモデルで、写実的な画像や文章を含む画像の生成を得意としています。

·gigazine.net·yesterday at 11:28 PM

画像生成AI「Qwen-Image-2.0」が登場、実写と文字に強くEditモデルとの統合も果たす

写真の撮影場所を瞬時に特定するAIツール「GeoSpy」を警察が購入していたことが明らかに

アメリカのボストンに拠点を置くGraylark Technologiesが開発した「GeoSpy」は、写真の撮影場所を瞬時に特定できるAIツールです。そんなGeoSpyが少なくとも2つの警察機関によって購入されていたことが、海外メディアの404 Mediaの調査によって明らかになりました。

·gigazine.net·yesterday at 11:26 PM

写真の撮影場所を瞬時に特定するAIツール「GeoSpy」を警察が購入していたことが明らかに

CSSで体験する錯視の世界

錯視とは視覚系で発生する錯覚の一種であり、実際には存在しないものが見えたり実際とは異なるものが見えたりする現象のことを指します。錯視の発生するパターンについて多種多様なものが知られていますが、CSSを利用して様々な錯視を実体験できるサイトが「CSS Optical Illusions」です。

·gigazine.net·yesterday at 11:26 PM

CSSで体験する錯視の世界

画像生成AI「BitDance」をTikTok開発元の研究者らが公開したので使ってみた、Z-Imageより速くて高品質をアピールする自己回帰モデル

TikTokの開発元であるByteDanceや香港中文大学などの研究チームが画像生成AIモデル「BitDance」を2026年2月17日に公開しました。BitDanceは画像生成AIで主流な拡散モデルではなく自己回帰モデル(ARモデル)を採用しており、競合モデルと比べて高速かつ高品質な生成処理が可能とアピールされています。

·gigazine.net·yesterday at 11:20 PM

画像生成AI「BitDance」をTikTok開発元の研究者らが公開したので使ってみた、Z-Imageより速くて高品質をアピールする自己回帰モデル

4万円台でマクロカメラ付き3眼スマホNothing「Phone (3a) Lite」の静止画撮影性能を検証してみた

2026年1月15日に登場した「Phone (3a) Lite」はNothing製スマートフォンのオシャレな外見は維持しつつ、性能を抑えたプロセッサーを採用することで4万2800円という低価格を実現しています。そんなPhone (3a) Liteは低価格スマートフォンながら背面に3個のカメラを搭載しており、そのうち1個はマクロカメラという珍しい構成をしています。カメラ性能がどれほどのものなのか検証するべく、実際にPhone (3a) Liteを屋外に持ち出していろいろ撮影してきました。

·gigazine.net·yesterday at 11:17 PM

4万円台でマクロカメラ付き3眼スマホNothing「Phone (3a) Lite」の静止画撮影性能を検証してみた

アメリカ全土でFlock Safetyの監視カメラが破壊されている

現代社会では至る所に監視カメラが設置されています。この監視カメラのうち、特定の企業が設置したものがアメリカ全土で破壊されていることが報じられています。

·gigazine.net·yesterday at 11:12 PM

アメリカ全土でFlock Safetyの監視カメラが破壊されている

LinkedInで認証バッジを手に入れるために提出したパスポートや顔写真のデータはどこへ行くのか？

Microsoftが運営するビジネス用SNSのLinkedInには、ユーザーの身元が確認されていることを示す認証バッジが存在します。LinkedInの認証バッジを入手するにはパスポートなどの身分証明書や顔写真のデータが必要ですが、これらのLinkedInに提出したデータがどうなるのかを調べた結果が、テクノロジー系ブログのTHE LOCAL STACKで報告されました。

·gigazine.net·yesterday at 11:12 PM

LinkedInで認証バッジを手に入れるために提出したパスポートや顔写真のデータはどこへ行くのか？

キラキラした風景をあえて汚くすることで現実を見せてくれる「AntiRender」

ビルやマンションの広告には、真新しい建物が太陽の光に照らされてキラキラと輝くようなイメージ画像が使われることがよくあります。しかし、こうしたイメージ画像はあくまでもレンダリングしたCGを合成した上で写真編集ソフトで加工したものであり、現実とはかけ離れていることも。そんなキラキラしたイメージ画像を「11月の雨が降った日に見る光景」に加工することで、AIでより現実的な画像に変換するアイデアを具現化したのが「AntiRender」です。

·gigazine.net·Feb 11, 2026

キラキラした風景をあえて汚くすることで現実を見せてくれる「AntiRender」

xAIが動画生成AI「Grok Imagine 1.0」をリリース、GoogleのVeo 3.1を超える性能

xAIが動画生成AI「Grok Imagine 1.0」を2026年2月2日にリリースしました。Grok Imagine 1.0は最大10秒の720p動画を生成可能です。

·gigazine.net·Feb 11, 2026

xAIが動画生成AI「Grok Imagine 1.0」をリリース、GoogleのVeo 3.1を超える性能

「Grok」で性的画像が生成される問題でパリ検察庁がXフランス事務所を家宅捜索、イーロン・マスクとリンダ・ヤッカリーノを召喚へ

Xと統合されている生成AI「Grok」で性的画像が大量生成されている問題で、フランス・パリ検察庁がXのフランス事務所を家宅捜索しました。また、オーナーであるイーロン・マスク氏と前CEOのリンダ・ヤッカリーノ氏を召喚して事情を聞く予定であることもわかりました。

·gigazine.net·Feb 11, 2026

「Grok」で性的画像が生成される問題でパリ検察庁がXフランス事務所を家宅捜索、イーロン・マスクとリンダ・ヤッカリーノを召喚へ

Googleが冬季五輪のスキーヤーやスノーボーダーの技をAIでリアルタイム分析するプラットフォームを開発

ミリ単位のエッジのコントロールやトリックの高さが求められるスキーやスノーボードのオリンピック代表を支えるために、GoogleがAIを活用して映像分析を行うトレーニングツールを構築したことを明らかにしました。

·gigazine.net·Feb 11, 2026

Googleが冬季五輪のスキーヤーやスノーボーダーの技をAIでリアルタイム分析するプラットフォームを開発

インドの女性労働者がAIトレーニングのために暴力や性的虐待コンテンツを大量に視聴させられている

AIをトレーニングするには大量のデータセットが必要であり、データに含まれるコンテンツへのラベル付けは主に人間が行っています。イギリスの大手日刊紙・The Guardianが、インドに住む女性労働者がAIのトレーニングのために暴力や性的虐待などを含むコンテンツを大量に視聴させられている実態を報じました。

·gigazine.net·Feb 11, 2026

インドの女性労働者がAIトレーニングのために暴力や性的虐待コンテンツを大量に視聴させられている

道路に象や恐竜が登場する状況も想定した自動運転車向けシミュレーションを生成するAIモデル「Waymo World Model」をWaymoが発表、GoogleのAIツール「Genie 3」をベースに

Google傘下の自動運転車開発企業、Waymoが、「超リアル」なシミュレーション環境を構築して自動運転モデルを訓練できるAIモデル「Waymo World Model」を発表しました。

·gigazine.net·Feb 11, 2026

防犯総合ソリューション企業・Flock SafetyのCEOが監視カメラの位置特定などを行うDeflockを「テロ組織」と非難

ナンバープレートを認識して車両位置を追跡したり、防犯カメラ映像による監視を行ったり、AI支援による証拠検索を行ったりと、数々の防犯・犯罪対策ソリューションを提供しているFlock Safetyのギャレット・ラングレーCEOが、Flock Safetyの展開している監視カメラやナンバープレートリーダーの位置を特定する「Deflock」というプロジェクトを「テロ組織」と非難しています。

·gigazine.net·Feb 11, 2026

防犯総合ソリューション企業・Flock SafetyのCEOが監視カメラの位置特定などを行うDeflockを「テロ組織」と非難

TikTok開発元が動画生成AI「Seedance 2.0」を発表、最大9枚の画像と最大3本を参考資料として入力可能

TikTokの運営企業として知られる中国大手テクノロジー企業のBytedanceが動画生成AI「Seedance 2.0」を発表しました。Seedance 2.0はテキストと画像と動画の入力に対応しており、複数カットを含む動画を生成したり画像や動画で細かく特徴を指定したりできます。

·gigazine.net·Feb 11, 2026

TikTok開発元が動画生成AI「Seedance 2.0」を発表、最大9枚の画像と最大3本を参考資料として入力可能

GoogleがCT画像やMRIデータに対応した医療特化AIモデル「MedGemma 1.5 4B」と文字起こしモデル「MedASR」を公開

Googleが医療用途に特化したAIモデル「MedGemma 1.5 4B」と音声認識モデル「MedASR」を2026年1月13日に公開しました。MedGemma 1.5 4Bはローカルで動作可能な軽量モデルで、前世代よりも精度が向上しています。

·gigazine.net·Feb 2, 2026

GoogleがCT画像やMRIデータに対応した医療特化AIモデル「MedGemma 1.5 4B」と文字起こしモデル「MedASR」を公開

アメリカのテレビ賞である「エミー賞」の規則が変更され生成AIの使用について明文化、エントリーは可能だが審査員が生成AIの使用について問い合わせる権利を持つ

アメリカ合衆国で放送される優れたテレビドラマや番組、テレビ業界の功績を表彰する「エミー賞」が2026年のルール変更を発表しました。新しいルールではAIについての内容が追加され、生成AIを使用した番組の応募について明文化されています。

·gigazine.net·Feb 2, 2026

Googleの動画生成AI「Veo 3.1」がアップデートされてキャラクターの一貫性が向上し4Kアップスケーリングにも対応

Googleが動画生成AI「Veo 3.1」のアップデートを2026年1月13日に発表しました。参考画像を元に動画を作成する機能が改良されたほか、キャラクターの一貫性向上や4Kアップスケーリング機能の追加などが行われています。

·gigazine.net·Feb 2, 2026

Googleの動画生成AI「Veo 3.1」がアップデートされてキャラクターの一貫性が向上し4Kアップスケーリングにも対応

オープンソースの画像生成AI「GLM-Image」を中国企業のZ.aiが発表、自己回帰モデルと拡散モデルのハイブリッド

中国のAI企業であるZ.aiが、オープンソースでありながら産業グレードのパフォーマンスを発揮する離散自己回帰画像生成モデルの「GLM-Image」を発表しました。GLM-Imageは自己回帰モデルと拡散モデルのハイブリッドとなっています。

·gigazine.net·Feb 2, 2026

オープンソースの画像生成AI「GLM-Image」を中国企業のZ.aiが発表、自己回帰モデルと拡散モデルのハイブリッド

XがGrokの画像編集機能による水着化・下着化・ヌード化を禁止した上で使用を有料利用者に限定

AI「Grok」を用いて大量の性的画像が生成されていると指摘されている問題で、XがGrokで画像編集を行ったときに被写体となった実在人物の服装の露出度を高めることができないよう技術的対策を施したことを明らかにしました。また、X経由でGrokを用いて画像編集する機能が使えるのは有料利用者のみになりました。

·gigazine.net·Feb 2, 2026

XがGrokの画像編集機能による水着化・下着化・ヌード化を禁止した上で使用を有料利用者に限定

1秒未満の爆速画像生成AI「FLUX.2[klein]」が登場、VRAM13GBで家庭用PCでも動作可能

ドイツのAIスタートアップであるBlack Forest Labsが画像生成AIモデルファミリー「FLUX.2」から、高速・統合型のAIモデル「FLUX.2[klein]」をリリースしました。モデルサイズが比較的小さく、画像生成が1秒未満で完了する低レイテンシ性を重視したモデルとなっています。

·gigazine.net·Feb 2, 2026

1秒未満の爆速画像生成AI「FLUX.2[klein]」が登場、VRAM13GBで家庭用PCでも動作可能

「クマの顔認識」で個体識別する手法が開発されている

野生のクマが人間に危害を加える事例は日本だけでなく世界中で発生しており、クマの生態調査や共生に向けた取り組みの必要性が増しています。そんな中、クマの顔を認識して個体識別する技術を開発する「BearID」というプロジェクトが注目されています。

·gigazine.net·Feb 2, 2026

「クマの顔認識」で個体識別する手法が開発されている

スタジオジブリ作品の1シーンを文章や画像で検索できる「Studio Ghibli Search」

スタジオジブリ作品の1シーンを、ユーザーの検索意図や文脈をAIが解釈して情報を提供する「セマンティック検索」で見つけられる「Studio Ghibli Search」が公開されました。文章や画像を読み込ませることで、条件に一致するような1シーンを探し出すことが可能です。

·gigazine.net·Feb 2, 2026

スタジオジブリ作品の1シーンを文章や画像で検索できる「Studio Ghibli Search」

ローカルAIアプリのOllamaが画像生成に対応、まずは「FLUX.2 [klein]」と「Z-Image-Turbo」から

各種AIをローカルで実行できるアプリ「Ollama」が実験的機能として画像生成AIに対応したことが2026年1月20日に発表されました。記事作成時点ではmacOS版Ollamaで「FLUX.2 [klein]」と「Z-Image-Turbo」を用いた画像生成が可能となっています。

·gigazine.net·Feb 2, 2026

ローカルAIアプリのOllamaが画像生成に対応、まずは「FLUX.2 [klein]」と「Z-Image-Turbo」から

人工知能に空間＆時間の4次元認識能力を与えるためのAI「D4RT」をGoogleが発表、「人間と同じように世界を認識できるAI」の開発に役立つ

Google DeepMindが動画をもとに3次元空間を時系列に沿って認識できるAI「D4RT」を開発しました。D4RTは既存モデルと比べて高精度かつ高速な空間認識が可能で、人間と同じように世界を認識できるAIの開発に役立つとされています。

·gigazine.net·Feb 2, 2026

人工知能に空間＆時間の4次元認識能力を与えるためのAI「D4RT」をGoogleが発表、「人間と同じように世界を認識できるAI」の開発に役立つ

Googleとピクサー出身の映像作家がAIを活用してアニメ作品「Dear Upstairs Neighbors」を制作

Googleがピクサー出身のアニメーション映像作家であるコニー・ヒー氏らアニメーション業界のベテランと共同で、生成AIツールを用いて「Dear Upstairs Neighbors」(親愛なる二階の隣人へ)というアニメ作品を制作しました。

·gigazine.net·Feb 2, 2026

Googleとピクサー出身の映像作家がAIを活用してアニメ作品「Dear Upstairs Neighbors」を制作

ついに画像生成AI「Z-Image」のベースモデルが登場、「イラストに強い」「いろんな顔や構図が出る」「追加学習にも最適」などなど

AlibabaのAI開発チームであるTongyi-MAIが画像生成AI「Z-Image」を2026年1月28日に公開しました。Z-Imageは2025年11月に登場したZ-Image-Turboのベースモデルで、ファインチューニングによって多様なモデルが生み出されることが期待されています。また、Z-Image-Turboと比べてイラスト風の画像を高品質に出力できることや構図やキャラクターの多様性が高いことも特徴としています。

·gigazine.net·Feb 2, 2026

ついに画像生成AI「Z-Image」のベースモデルが登場、「イラストに強い」「いろんな顔や構図が出る」「追加学習にも最適」などなど

Gemini 3 Flashに高精度な画像理解機能「Agentic Vision」が追加される、コードを実行して画像に枠線などを描画しながら細かい理解が可能

GoogleがGemini 3 Flashの新機能として高精度な画像理解機能「Agentic Vision」を発表しました。Agentic Visionでは画像の拡大などを行いつつ能動的な画像理解が可能で、「Pythonで境界ボックスを描画して数を正確に数える」といったコード実行も駆使する機能も搭載しています。

·gigazine.net·Feb 2, 2026

Gemini 3 Flashに高精度な画像理解機能「Agentic Vision」が追加される、コードを実行して画像に枠線などを描画しながら細かい理解が可能

ハッブル宇宙望遠鏡の画像アーカイブ1億枚をAIがわずか2.5日で解析して異常天体1300個超が確認される

欧州宇宙機関(ESA)とアメリカ航空宇宙局(NASAの共同研究者チームが、AIモデル「AnomalyMatch」を使ってハッブル宇宙望遠鏡の画像アーカイブを解析し、わずか2日半で多数の「異常なオブジェクト」候補を抽出したと発表しました。膨大な過去データを人手で網羅的に見直すのが難しくなる中、AIで候補を絞り込み、専門家が確認する流れを確立した形です。

·gigazine.net·Feb 2, 2026

ハッブル宇宙望遠鏡の画像アーカイブ1億枚をAIがわずか2.5日で解析して異常天体1300個超が確認される

画像生成AIをPCで簡単に実行できる「ComfyUI」のインストール手順＆最初の画像を生成するまでの手順まとめ

ComfyUIは画像生成AIや動画生成AIをPCでローカル実行できるアプリです。NVIDIAや各種AIモデルの開発企業と協力して「新モデルの即日対応」や「NVIDIA製GPUやAMD製GPUへの最適化」も行っており、記事作成時点で画像や動画の生成を始めるなら第一候補としてオススメできるアプリとなっています。数年前まではインストール時にコマンド操作が必要だったり複雑なノード操作が必要だったりしましたが、アップデートによってクリック操作だけでインストールできるようになっており、UIを簡略化する仕組みも導入されました。ゲーミングPCなどのグラフィックボード搭載PCなら簡単に画像生成を始められるので、最初の一歩の手助けとなるようにインストールと最初の生成までの手順をまとめてみました。

·gigazine.net·Feb 2, 2026

画像生成AIをPCで簡単に実行できる「ComfyUI」のインストール手順＆最初の画像を生成するまでの手順まとめ