画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2736 bookmarks

Custom sorting

人の「色の見え方」は脳のレベルで共通している可能性

「赤」や「青」といった色は人によって同じように見えているのか、という問いは人の認識に関する哲学や科学で古くから議論されています。ドイツの研究者らが2025年9月8日に発表した研究では、他人の脳活動から「何色を見ているのか」の分析を試みることで、人間が色を見たときの脳の反応パターンに共通性があるかどうか検証した結果が示されました。

·gigazine.net·Sep 12, 2025

人の「色の見え方」は脳のレベルで共通している可能性

ByteDanceが画像生成AI「Seedream 4.0」をリリース、4K解像度の画像を生成可能＆画像編集機能も備えてGoogleやOpenAIを一部テストで上回る

TikTok運営元のByteDanceが画像生成AI「Seedream 4.0」をリリースしました。Seedream 4.0は最大4Kの画像を生成可能で、単純な「テキストからの画像生成」だけでなくモデルの知識や推論を活用した画像生成にも対応しています。さらに、高品質な画像編集機能も備えており、各種ベンチマークではGoogleやOpenAIの製品を上回るスコアを記録しています。

·gigazine.net·Sep 12, 2025

ByteDanceが画像生成AI「Seedream 4.0」をリリース、4K解像度の画像を生成可能＆画像編集機能も備えてGoogleやOpenAIを一部テストで上回る

YouTubeが2年間の試験運用を経て複数言語音声機能を導入開始、動画の視聴時間の25％以上が主要言語以外の言語での視聴によるもの

YouTubeは、動画に多言語の吹き替えを追加できる「複数言語音声機能」を数百万人のクリエイターに向けて正式に展開すると2025年9月10日に発表しました。

·gigazine.net·Sep 12, 2025

YouTubeが2年間の試験運用を経て複数言語音声機能を導入開始、動画の視聴時間の25％以上が主要言語以外の言語での視聴によるもの

AI学習目的のスクレイピングに対して利用条件や利用料金を通知する仕組み「RSL」が開発される、すでにYahoo・Reddit・オライリーなどが採用を表明

AIの開発には膨大なデータが必要であり、AI開発企業はインターネット上に存在するありとあらゆる情報を自動ボット(スクレイパー)を用いて収集しています。このスクレイパーに対して利用条件や利用料金を提示できる仕組み「Really Simple Licensing(RSL)」が開発されました。開発にはRSSの開発陣やO’Reilly Mediaの創業者であるティム・オライリー氏などが関わっており、すでにYahooやReddit、O’Reilly Media、Quora、Mediumなどのサービスが採用を表明しています。

·gigazine.net·Sep 12, 2025

AI学習目的のスクレイピングに対して利用条件や利用料金を通知する仕組み「RSL」が開発される、すでにYahoo・Reddit・オライリーなどが採用を表明

Googleの画像生成AI「Nano-banana」をめちゃくちゃ活用できるプロンプトとサンプル画像実例まとめ

Googleが2025年8月に公開した画像生成AI「Gemini 2.5 Flash Image(Nano Banana)」は、入力した画像の特徴を維持しながら編集することが得意で、無料ユーザーでも1日100枚まで画像を生成することが可能です。そんなNano Bananaで使えるプロンプトとその実例をまとめたGitHubのページが有志によって公開されていたので、いくつかピックアップしてみました。

·gigazine.net·Sep 12, 2025

Googleの画像生成AI「Nano-banana」をめちゃくちゃ活用できるプロンプトとサンプル画像実例まとめ

【永久ライセンスセール中】簡単にAIで自動的に動画の高解像度化・フレーム補間・音声ノイズ除去ができる「Aiarty Video Enhancer」レビュー、古い動画も見違えるほどキレイに変換可能

古いスマートフォンやビデオカメラで撮影した映像は解像度が低く、フルハイビジョンや4Kなどの高解像度ディスプレイでそのまま再生すると、あまりにも画質が悪くなって視聴に耐えられないことがよくあります。「Aiarty Video Enhancer」はAI技術によって低解像度の動画を高解像度にアップコンバートできるソフトで、誰でも簡単に古い動画を高解像度化することが可能。なんと今回GIGAZINEとのコラボレーションでAiarty Video Enhancerの永久ライセンスが税込9780円で購入できるキャンペーンが開催されるので、Aiarty Video Enhancerがどんなソフトなのかを確かめるべく実際に使ってみました。

·gigazine.net·Sep 7, 2025

Gemini 2.5 Flash Imageでイラストをプロンプト不要でフィギュア化できるイラストフィギュア化専用アプリを使ってみた

Googleは2025年8月に画像編集AI「Gemini 2.5 Flash Image」をリリースしました。「nano-banana」というコードネームで開発されていたGemini 2.5 Flash Imageは、Google AI StudioやGoogle Geminiで使用可能で、画像の特徴を維持しながら編集することが得意とされています。このGemini 2.5 Flash Imageを使って、イラストを忠実にフィギュアにした画像を生成できるアプリを、てんねんさんが公開しています。

·gigazine.net·Sep 7, 2025

Gemini 2.5 Flash Imageでイラストをプロンプト不要でフィギュア化できるイラストフィギュア化専用アプリを使ってみた

1枚の画像から生成した3Dシーンの中で視点が移動する動画を生成可能な「HunyuanWorld-Voyager」

中国の大手IT企業であるテンセントが、単一の画像から世界の整合性が取れた3Dシーンを生成するAIフレームワーク「HunyuanWorld-Voyager」をGitHubで公開しました。HunyuanWorld-Voyagerはコンテキストを保ったシーン拡張を実現し、生成した3Dシーンの中で視点を移動する動画を生成することが可能です。

·gigazine.net·Sep 7, 2025

1枚の画像から生成した3Dシーンの中で視点が移動する動画を生成可能な「HunyuanWorld-Voyager」

画像生成AI・Midjourneyに対する著作権侵害訴訟にワーナーブラザースが参戦

画像生成AIのMidjourneyが、著作権で保護されたキャラクターを勝手に使用して画像や動画を生成しているとして訴えられている問題で、新たに『スーパーマン』『バットマン』『ジョーカー』などの映画を手がけたワーナーブラザース・ディスカバリー(WBD)も訴訟を起こしたことがわかりました。

·gigazine.net·Sep 7, 2025

画像生成AI・Midjourneyに対する著作権侵害訴訟にワーナーブラザースが参戦

小型軽量かつ防塵防滴性能にも優れたミラーレスカメラ「OM-5 Mark II」の外観を詳しく撮影してみた

「OM-5 Mark II」は2025年7月18日に登場したミラーレスカメラで、小型軽量ボディにフラッグシップモデルと同等の防塵防滴性能や5軸手ぶれ補正機構などが詰め込まれています。そんなOM-5 Mark IIをOMデジタルソリューションズから借りられたので、まずは外観を詳しくチェックしてみました。

·gigazine.net·Sep 7, 2025

小型軽量かつ防塵防滴性能にも優れたミラーレスカメラ「OM-5 Mark II」の外観を詳しく撮影してみた

日次データ集計に6時間で担当者も疲弊……、漫画アプリ「comico」の運用改革

NHN テコラスの担当者が2025年8月開催のイベント「Google Cloud Next Tokyo」に登壇し、漫画アプリ「comico」を支えるデータ分析基盤をオンプレミス環境からGoogle Cloudへ移行したいきさつとその効果、移行で意識した点などについて説明した。

·kn.itmedia.co.jp·Sep 4, 2025

日次データ集計に6時間で担当者も疲弊……、漫画アプリ「comico」の運用改革

「消しゴムマジック」は良くて「100倍ズーム」がダメなワケ――Pixel新機能から考える“写真”とは何か

8月28日に発売された今年の「Google Pixel 10」シリーズのうち、10 Proおよび10 Pro XLには、「超解像ズームPro」という新機能が搭載された。しかし、発売日以降、この「超解像ズームPro」を使った多くの写真がネットにアップされているが、「これは写真ではないのではないか」といった感想が目立つ。この機能をユーザーが受け入れがたい理由を考察する。

·itmedia.co.jp·Sep 4, 2025

「消しゴムマジック」は良くて「100倍ズーム」がダメなワケ――Pixel新機能から考える“写真”とは何か

「エウレカ！」──数学者の“閃きの瞬間”は事前予測できるか？難問を解く博士をカメラで分析

米カリフォルニア大学マーセド校と米インディアナ大学に所属する研究者らは、数学における解けた際のひらめきを事前予測できる可能性を示した研究報告を発表した。

·itmedia.co.jp·Sep 4, 2025

「エウレカ！」──数学者の“閃きの瞬間”は事前予測できるか？難問を解く博士をカメラで分析

あなたの領収書、3分で偽造できます──生成AIが暴いた日本企業「デジタル文書」の致命的欠陥

ウイングアークが8月26日に発表したタイムスタンプサービス「Trustee」。1秒当たり1000文書という処理速度を武器に、領収書や請求書が生成AIにより、一瞬で改ざんされる時代のリスクに挑む。日本企業の多くが抱える“無防備PDF”の問題とは。

·itmedia.co.jp·Sep 4, 2025

あなたの領収書、3分で偽造できます──生成AIが暴いた日本企業「デジタル文書」の致命的欠陥

Netflixが映像クリエイター向けに生成AIの使用に関するルールを公開

映像ストリーミングサービスのNetflixは、自社プラットフォームで配信されるオリジナルコンテンツの制作者に対し、生成AIを使用する上で守って欲しいいくつかの指針を公開しました。Netflixは映像制作側が生成AIを使用することを歓迎していますが、デリケートな分野であるため守ってほしい指針があるとしています。

·gigazine.net·Aug 30, 2025

Netflixが映像クリエイター向けに生成AIの使用に関するルールを公開

一見無害な画像の中に文字列を埋め込んでAIを攻撃する恐るべき手法が発見される

画像に一見しただけではわからない「隠された文字列」を埋め込み、被害者がこの画像を大規模言語モデルに読み込ませることで、AIエージェントに対するプロンプトインジェクション攻撃が発動するという攻撃手法が発見されました。この攻撃手法を作成して確認するためのツールも、GitHubで公開されています。

·gigazine.net·Aug 30, 2025

一見無害な画像の中に文字列を埋め込んでAIを攻撃する恐るべき手法が発見される

趣味で研究が進められた「AIを使った絵画修復」に関する論文が美術界を震撼させる

芸術作品は時間が経つにつれて劣化するため、作品を後世に残すためには、修復作業が必要です。しかし、芸術作品の修復失敗事件は多数発生しており、「素人修復家にアート修復を任せるべきではない」と訴えられることもあります。そんな中で、マサチューセッツ工科大学(MIT)で機械工学を専攻する大学院研究員が、芸術分野では素人にもかかわらず、AIを利用して絵画を修復する新しい方法を提案して美術界に衝撃を与えました。

·gigazine.net·Aug 30, 2025

趣味で研究が進められた「AIを使った絵画修復」に関する論文が美術界を震撼させる

FFmpeg 8.0「Huffman」リリース、文字起こしAI「Whisper」やVulkanベースのコーデックへの正式対応など過去最大級のメジャーアップデート

マルチメディアフレームワークであるFFmpegのバージョン8.0「Huffman」が2025年8月22日にリリースされました。このバージョンではオープンソースのAI音声認識モデルであるWhisperフィルターが新たに追加され、FFmpeg単体で自動音声認識が可能になり、ライブ字幕の生成や文字起こしといった機能が利用できるようになります。

·gigazine.net·Aug 30, 2025

FFmpeg 8.0「Huffman」リリース、文字起こしAI「Whisper」やVulkanベースのコーデックへの正式対応など過去最大級のメジャーアップデート

YouTube運営が無許可で動画をAI処理して見た目を変えていたことが判明、YouTube側は「生成AIではなく機械学習でボケやノイズを低減」と説明

「YouTubeのショート動画が投稿者の許可無くAI処理され、見た目が変化する」という事態が発生していることが明らかになりました。YouTubeはショート動画への処理を認めており、処理内容を説明しています。

·gigazine.net·Aug 30, 2025

YouTube運営が無許可で動画をAI処理して見た目を変えていたことが判明、YouTube側は「生成AIではなく機械学習でボケやノイズを低減」と説明

知覚的に均一になるように設計された新しいカラーモデル「OKLCH」とは？

色の表現方法であるカラーモデルにはCMYKやRGBといったものがありますが、知覚的に均一になるよう設計された新しいカラーモデルの「OKLCH」は、人間の色認識の精度が大幅に向上し、色彩の扱いがはるかに容易になるという利点を持っているそうです。このOKLCHとは一体どういったものなのかについて、OpenSeaのデザイナー兼デザインエンジニアのヤクブ・クレヘル氏が解説しています。

·gigazine.net·Aug 30, 2025

知覚的に均一になるように設計された新しいカラーモデル「OKLCH」とは？

Googleが無料の超高品質な画像編集AI「Gemini 2.5 Flash Image」をリリース、日本語で指示できて実写からアニメキャラへの変換も可能

Googleが優れた画像編集能力を持つ「Gemini 2.5 Flash Image」をGeminiに統合しました。Gemini 2.5 Flash Imageは画像の特徴を維持しながら編集することが得意で、AIの画像編集能力を測定するテストではOpenAIの画像生成AIやFluxシリーズを大きく超えるスコアを示しています。

·gigazine.net·Aug 30, 2025

Googleが無料の超高品質な画像編集AI「Gemini 2.5 Flash Image」をリリース、日本語で指示できて実写からアニメキャラへの変換も可能

「AIで100倍ズーム」はどれだけキレイなのか実際にPixel 10 Proのカメラで撮影してみたよレビュー、AIによる謎補正例もあり

Google製スマートフォン「Pixel 10 Pro」と「Pixel 10 Pro XL」のカメラには最大100倍までズームできる「超解像ズームPro」という機能が備わっています。公式ページには「アップグレードされた望遠レンズと新開発のAI画像技術により、これまでにないくっきりと鮮やかなアップ写真の撮影が可能」と記されていたので、実際に撮影してどれだけキレイな写真を撮影できるのか確かめてみました。

·gigazine.net·Aug 30, 2025

「AIで100倍ズーム」はどれだけキレイなのか実際にPixel 10 Proのカメラで撮影してみたよレビュー、AIによる謎補正例もあり

「100倍ズームできるPixel 10 Pro」＆「無印モデルで3眼カメラなPixel 10」のカメラ性能を徹底比較してみた、ごはん撮影や夜間撮影など実際に撮影した作例多数

Google製スマートフォン「Pixel 10」「Pixel 10 Pro」「Pixel 10 Pro XL」が2025年8月28日に発売されました。GIGAZINE編集部で実際に買った3モデルのベンチマークテストを実施した結果、プロセッサの処理性能には大きな差がないことが判明。そうなると「カメラ性能の違い」が購入モデルを決める際の大きなポイントとなります。というわけで、無印モデルとProモデルのカメラ性能の違いを徹底的に検証してみました。

·gigazine.net·Aug 30, 2025

上手な写真撮影のアドバイスをGoogleのAI「Gemini」が教えてくれる新機能「カメラコーチ」は本当に効果があるのかPixel 10で実際に使ってみたよレビュー

Google製スマートフォンのPixel 10シリーズのカメラアプリには、AIが被写体を読み取って適切な撮影方法を教えてくれる「カメラコーチ」という機能が備わっています。カメラ初心者でもAIの指示に従って見栄えのいい写真を撮影できるとのことなので、実際に使ってみました。

store

·gigazine.net·Aug 30, 2025

AI生成か実写かわかる「C2PA」が自動的に撮影した写真へ埋め込まれるPixel 10でいろいろ確認してみたレビュー、どんな情報が残るのか＆どうすれば消えるのか

画像生成AIの技術向上に伴って、実写と区別が付かないほどリアルなフェイク画像が作られるようになりました。「C2PA」は画像にコンテンツ認証情報を埋め込む技術で、「どのカメラで撮影されて、どのアプリで編集されたか」ということを証明することで実写画像かフェイク画像かを見分けられるようにします。2025年8月28日に登場したPixel 10シリーズもC2PAに対応しており、撮影した写真や編集した写真にコンテンツ認証情報を埋め込むことが可能。文章の説明だけだとよく分からないので、実際にコンテンツ認証情報を見る方法や効果をまとめてみました。

·gigazine.net·Aug 30, 2025

キャラクターを維持したまま別のシチュエーションに描き直せる画像編集AI「Qwen-Image-Edit」が登場、文字の描き直しや「被写体の回転」も可能

中国のIT企業・アリババ(阿里巴巴)のAI開発チームが、画像生成AI「Qwen-Image」に基づいて画像編集タスクを拡張し、キャラクターの元の見た目を維持したまま別の情景を描き出すことができる「Qwen-Image-Edit」を発表しました。

·gigazine.net·Aug 23, 2025

キャラクターを維持したまま別のシチュエーションに描き直せる画像編集AI「Qwen-Image-Edit」が登場、文字の描き直しや「被写体の回転」も可能

NVIDIAがロボット開発のための仮想世界構築ツールを大幅アップデート＆ロボットに世界を認識させるための視覚言語モデル(VLM)もリリース

NVIDIAはロボット開発や自動運転車などの開発に役立つ仮想世界構築プラットフォーム「Omniverse」を展開しています。新たに、CGに関する国際会議「SIGGRAPH」の開催に合わせて、Omniverseのアップデートが発表されました。

·gigazine.net·Aug 18, 2025

NVIDIAがロボット開発のための仮想世界構築ツールを大幅アップデート＆ロボットに世界を認識させるための視覚言語モデル(VLM)もリリース

Metaが視覚言語モデル「DINOv3」を発表、ラベルなし画像から自己教師学習してさまざまなタスクで高いパフォーマンスを発揮可能

画像生成AIや画像を分析するためのAIをトレーニングするためには、ネコの画像に「ネコ」「歩いている」「しま模様」というようなラベルを手作業で大量につけたデータが必要です。しかし、Metaが発表した「DINOv3」というモデルは、ラベルなしの画像17億枚を使ってトレーニングされており、ラベルに縛られないさまざまなタスクを人間の介入なしに専門のモデル以上の性能でこなすことができます。

·gigazine.net·Aug 17, 2025

Metaが視覚言語モデル「DINOv3」を発表、ラベルなし画像から自己教師学習してさまざまなタスクで高いパフォーマンスを発揮可能

小鳥は超高速で点滅する光を認識する能力が人間の2倍以上も優れている

空を飛ぶ鳥は、視界の中を高速で移動する昆虫や障害物などに素早く気づき、その正体を見分けて追跡する必要があります。スウェーデンの研究者らが2016年に発表した論文では、野生の小鳥がヒトの2倍以上もの視覚的な時間分解能(一定時間内に起きた視覚的変化を感知する能力)を持っていることが報告されています。

·gigazine.net·Aug 7, 2025

小鳥は超高速で点滅する光を認識する能力が人間の2倍以上も優れている

画像生成AI「Qwen-Image」登場、OpenAIやFlux超えの高品質画像を生成可能で「複数行の漢字」を自然に描写できる驚異的テキスト描画性能をアピール

AlibabaのAI開発チームであるQwenが画像生成AI「Qwen-Image」を2025年8月4日(月)に発表しました。Qwen-Imageは既存の画像生成AIが苦手とする「テキストの正確な描画」を得意としており、「複数行にわたる中国語の文章を含む画像」や「英語と中国語の両方を含む画像」を正確に描画できます。また、一般的な画像生成や画像編集も高品質であることがアピールされています。

·gigazine.net·Aug 7, 2025

画像生成AI「Qwen-Image」登場、OpenAIやFlux超えの高品質画像を生成可能で「複数行の漢字」を自然に描写できる驚異的テキスト描画性能をアピール