画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2862 bookmarks
Custom sorting
「ロボットがトマトの収穫成功率を予測するモデル」を日本の研究者が構築
「ロボットがトマトの収穫成功率を予測するモデル」を日本の研究者が構築
農業分野における労働力不足が深刻化する中でロボットの活用が注目される中で、大阪公立大学大学院工学研究科の藤永拓矢助教が、「ロボットがトマトの収穫成功率を予測するモデル」を構築しました。
·gigazine.net·
「ロボットがトマトの収穫成功率を予測するモデル」を日本の研究者が構築
世界中の27億5000万軒の建物3Dデータを網羅したデータセット「GlobalBuildingAtlas」と3D地図が公開される
世界中の27億5000万軒の建物3Dデータを網羅したデータセット「GlobalBuildingAtlas」と3D地図が公開される
ミュンヘン工科大学が世界中のすべての建物を網羅した高解像度3Dデータセット「GlobalBuildingAtlas」を公開しました。GlobalBuildingAtlasは都市開発や防災などに役立つとされており、データセットを活用した3D地図も公開されています。
·gigazine.net·
世界中の27億5000万軒の建物3Dデータを網羅したデータセット「GlobalBuildingAtlas」と3D地図が公開される
ディズニーとOpenAIのライセンス契約は1年間のみ独占契約なので1年後には他のAI企業も契約可能
ディズニーとOpenAIのライセンス契約は1年間のみ独占契約なので1年後には他のAI企業も契約可能
ディズニーはOpenAIとライセンス契約を結び、ディズニーキャラクターを動画生成AIのSoraで描写できるようにしました。このライセンス契約の期間は3年間ではあるものの、独占期間は1年のみなので、それ以降は他のAI企業と同様の契約を結ぶことが可能であることが明らかになっています。
·gigazine.net·
ディズニーとOpenAIのライセンス契約は1年間のみ独占契約なので1年後には他のAI企業も契約可能
Appleが1枚の画像を3Dシーンに変換できる手法「SHARP」を発表、標準的なGPUで1秒未満で処理可能
Appleが1枚の画像を3Dシーンに変換できる手法「SHARP」を発表、標準的なGPUで1秒未満で処理可能
Appleが、たった1枚の画像から高精度な3Dシーンを生成する手法「SHARP」を発表しました。SHARPはニューラルネットワークを利用し、標準的なGPUでも1秒未満で実行可能とのことです。
·gigazine.net·
Appleが1枚の画像を3Dシーンに変換できる手法「SHARP」を発表、標準的なGPUで1秒未満で処理可能
OpenAIが画像生成モデル「GPT Image 1.5」を搭載した「ChatGPT Images」を公開、画像生成が最大4倍高速化でGoogleのNano Banana Proに対抗
OpenAIが画像生成モデル「GPT Image 1.5」を搭載した「ChatGPT Images」を公開、画像生成が最大4倍高速化でGoogleのNano Banana Proに対抗
OpenAIは2025年12月17日に、新しい画像生成モデル「GPT Image 1.5」を搭載した新バージョンの「ChatGPT Images」をリリースしました。この新モデルは、ゼロからの画像生成だけでなく、既存の写真の編集においてもユーザーの意図をより確実に反映できるよう設計されています。
·gigazine.net·
OpenAIが画像生成モデル「GPT Image 1.5」を搭載した「ChatGPT Images」を公開、画像生成が最大4倍高速化でGoogleのNano Banana Proに対抗
いろんな音が混ざった動画や音声から目的の音だけを分離できるAI「SAM Audio」をMetaが公開
いろんな音が混ざった動画や音声から目的の音だけを分離できるAI「SAM Audio」をMetaが公開
Metaが音声分離AI「SAM Audio」を公開しました。SAM Audioには音声や動画を入力可能で、「文章で指示して特定の音を抜き出す」「動画内の『音声を発している被写体』を指定して音声を抜き出す」「動画内の特定のタイミングで鳴っている音を指定して抜き出す」といった操作が可能です。
·gigazine.net·
いろんな音が混ざった動画や音声から目的の音だけを分離できるAI「SAM Audio」をMetaが公開
人気音楽ユニット「マッシヴ・アタック」がコンサート中に観客の顔を投影して顔認識技術への警鐘を鳴らす
人気音楽ユニット「マッシヴ・アタック」がコンサート中に観客の顔を投影して顔認識技術への警鐘を鳴らす
イギリスのブリストル出身の音楽ユニットであるマッシヴ・アタックが、コンサート中に顔認識技術を使って観客の顔をスキャンし、リアルタイムでステージ上のスクリーンに投影するパフォーマンスを行いました。このパフォーマンスは日常に浸透した顔認識技術への警鐘を鳴らすものであり、ファンの間でも物議を醸しています。
·gigazine.net·
人気音楽ユニット「マッシヴ・アタック」がコンサート中に観客の顔を投影して顔認識技術への警鐘を鳴らす
アメリカでは「車のナンバープレートを撮影して市民の動きを監視するシステム」が議論されている
アメリカでは「車のナンバープレートを撮影して市民の動きを監視するシステム」が議論されている
車のナンバープレートを撮影して識別する技術は「ALPR」と呼ばれており、日本でも駐車場の料金支払いなどに活用されています。ところがアメリカでは事情が少し異なり、ALPRを市民の動向追跡に用いようとする動きが現れています。ALPRによる市民追跡が議題に上がっている自治体を一覧化したウェブサイトが「alpr.watch」で、アメリカの事情をうかがい知ることができます。
·gigazine.net·
アメリカでは「車のナンバープレートを撮影して市民の動きを監視するシステム」が議論されている
手書きの筆記体も認識してテキストに変換可能なOCRモデル「Mistral OCR 3」が登場
手書きの筆記体も認識してテキストに変換可能なOCRモデル「Mistral OCR 3」が登場
AI開発企業のMistral AIが、スキャンしたドキュメントや手書き文字を認識してテキストデータに変換できるAIモデル「Mistral OCR 3」を発表しました。Mistral OCR 3の精度はエンタープライズ向けの文書処理ソリューションやAIを用いたOCRソリューションを上回り、読みにくい筆記体も認識できるとのことです。
·gigazine.net·
手書きの筆記体も認識してテキストに変換可能なOCRモデル「Mistral OCR 3」が登場
ソニーがAIモデルの公平性を評価するためのデータセット「Fair Human-Centric Image Benchmark(FHIBE)」を公開
ソニーがAIモデルの公平性を評価するためのデータセット「Fair Human-Centric Image Benchmark(FHIBE)」を公開
コンピュータービジョンは自動運転車やスマートフォンなどさまざまな分野に活用されていますが、多くのデータセットは依然としてバイアスや多様性の欠如、倫理的に責任のある方法で収集されていない、つまりは被写体の同意なしに写真がAIトレーニングに利用されているなどの問題を抱えています。人間中心のコンピュータービジョンタスクにおける公平性を評価するために特別に構築された、多様性に富んだ、被写体の同意に基づいた初めての公開データセットが「Fair Human-Centric Image Benchmark(FHIBE)」です。
·gigazine.net·
ソニーがAIモデルの公平性を評価するためのデータセット「Fair Human-Centric Image Benchmark(FHIBE)」を公開
【66%オフ】AIによる画像の高精細化・ノイズ除去・ピンボケ補正などが簡単ワンタッチで可能な「Aiarty Image Enhancer」を使ってみた
【66%オフ】AIによる画像の高精細化・ノイズ除去・ピンボケ補正などが簡単ワンタッチで可能な「Aiarty Image Enhancer」を使ってみた
AI技術を活用して簡単にAI生成画像・荒い写真・圧縮されたJPEG画像からノイズを除去したり、ピンボケを補正したり、ロスレス拡大したり、高精細化したりすることができるというソフトウェアが「Aiarty Image Enhancer」です。Aiarty Image Enhancerを特価で購入できるコラボキャンペーン実施中ということで、実際にどんなことができるのか確かめてみました。
·gigazine.net·
【66%オフ】AIによる画像の高精細化・ノイズ除去・ピンボケ補正などが簡単ワンタッチで可能な「Aiarty Image Enhancer」を使ってみた
テキスト・画像・動画から3Dワールドを生成するマルチモーダルワールドモデル「Marble」が一般公開される
テキスト・画像・動画から3Dワールドを生成するマルチモーダルワールドモデル「Marble」が一般公開される
現地時間の2025年11月12日、スタンフォード人工知能研究所で所長を務めたコンピューターサイエンスの権威であるフェイフェイ・リ氏らが立ち上げたAI企業のWorld Labsが、独自のマルチモーダルワールドモデル「Marble」を発表しました。
·gigazine.net·
テキスト・画像・動画から3Dワールドを生成するマルチモーダルワールドモデル「Marble」が一般公開される
OpenAIが故キング牧師に似たディープフェイク動画を生成するSoraの機能を一時停止、一部のユーザーが「無礼な描写」を作成し遺産管理団体から停止要請があったため
OpenAIが故キング牧師に似たディープフェイク動画を生成するSoraの機能を一時停止、一部のユーザーが「無礼な描写」を作成し遺産管理団体から停止要請があったため
OpenAIは2025年10月16日に、ソーシャルアプリ「Sora」上でマーティン・ルーサー・キング・ジュニア牧師のディープフェイク動画の作成を一時停止したと発表しました。これは、キング牧師を題材にしたAI動画が大量に生成されたことに対し、キング牧師の遺産管理団体と遺族から苦情があったためです。
·gigazine.net·
OpenAIが故キング牧師に似たディープフェイク動画を生成するSoraの機能を一時停止、一部のユーザーが「無礼な描写」を作成し遺産管理団体から停止要請があったため
トイレの便器に取り付けて排せつ物の写真を撮影できるカメラ「Dekoda」が登場
トイレの便器に取り付けて排せつ物の写真を撮影できるカメラ「Dekoda」が登場
人間の排せつ物はさまざまな健康のバロメーターになることが知られており、排せつ物からユーザーの健康状態を管理するスマートトイレの開発も進められています。新たに、キッチン&バス用品メーカーのKohlerが、トイレの便器に取り付けて排せつ物の写真を撮影できるカメラ「Dekoda」を発表しました。
·gigazine.net·
トイレの便器に取り付けて排せつ物の写真を撮影できるカメラ「Dekoda」が登場
DeepSeekが視覚情報を使用してテキスト入力を圧縮するマルチモーダルAIモデル「DeepSeek-OCR」をリリース
DeepSeekが視覚情報を使用してテキスト入力を圧縮するマルチモーダルAIモデル「DeepSeek-OCR」をリリース
DeepSeekが新しいマルチモーダルAIモデル「DeepSeek-OCR」をリリースしました。「OCR」は書類のスキャンなどに用いられる光学文字認識(Optical Character Recognition)のことで、トークンを大幅に削減しつつ、大規模で複雑なドキュメントを処理できるモデルだとのことです。
·gigazine.net·
DeepSeekが視覚情報を使用してテキスト入力を圧縮するマルチモーダルAIモデル「DeepSeek-OCR」をリリース
YouTubeで顔を勝手に使われていないか探す「類似性検出」機能はどのように使うのか?
YouTubeで顔を勝手に使われていないか探す「類似性検出」機能はどのように使うのか?
AI生成コンテンツが増加して、中には、「その人が言っていないことを、さも言っていたかのように見せかける」ような映像も生み出されていて、問題になっています。こうした問題に対処するため、YouTubeが以前から取り組んでいたクリエイター向けの肖像検出ツールを正式に展開することを発表しました。ツールを使うと、勝手に自分の顔を使っているコンテンツを検出して削除依頼を出すことができます。
·gigazine.net·
YouTubeで顔を勝手に使われていないか探す「類似性検出」機能はどのように使うのか?
あらゆる画像生成AIの性能を測定できるベンチマーク「ImagenWorld」登場、画像生成や画像編集の精度を評価し苦手分野を特定可能
あらゆる画像生成AIの性能を測定できるベンチマーク「ImagenWorld」登場、画像生成や画像編集の精度を評価し苦手分野を特定可能
画像生成AIの性能は「他のAIと比べてキレイな画像を生成できる」といった数値化しにくい形式で評価されることが多いです。「ImagenWorld」はウォータールー大学やComfy.orgの研究チームが開発したベンチマークで、各種AIに画像生成や画像編集などのタスクを課して性能を定量的に評価することができます。
·gigazine.net·
あらゆる画像生成AIの性能を測定できるベンチマーク「ImagenWorld」登場、画像生成や画像編集の精度を評価し苦手分野を特定可能
Amazonが配達ドライバー向けAIスマートグラスを発表、配達先までのナビをレンズに投影して荷物スキャンや配達完了手続きも自動化
Amazonが配達ドライバー向けAIスマートグラスを発表、配達先までのナビをレンズに投影して荷物スキャンや配達完了手続きも自動化
Amazonが、配達する荷物のスキャンや届け先までのルート案内、配達証明の取得などを行える配達ドライバー向けのAI搭載スマートグラスを開発したと発表しました。Amazonはアメリカ・カナダの配達ドライバーを対象にこのメガネの試験運用を行っており、より広範囲に展開する前に技術を改良する予定としています。
·gigazine.net·
Amazonが配達ドライバー向けAIスマートグラスを発表、配達先までのナビをレンズに投影して荷物スキャンや配達完了手続きも自動化
ショート動画を爆速で作成できる無料でオープンソースのAIモデル「Ovi」誕生、「テキスト」「テキスト+画像」で動画と音声を同時に生成可能
ショート動画を爆速で作成できる無料でオープンソースのAIモデル「Ovi」誕生、「テキスト」「テキスト+画像」で動画と音声を同時に生成可能
テキスト単体、あるいはテキスト+画像で5秒の動画を作成できるAIモデル「Ovi」が誕生しました。オープンソースで公開されており、自分で環境を構築すれば無料で使用することができます。
·gigazine.net·
ショート動画を爆速で作成できる無料でオープンソースのAIモデル「Ovi」誕生、「テキスト」「テキスト+画像」で動画と音声を同時に生成可能
1枚のイラストや写真から3D空間を生成できるAIモデル「HunyuanWorld-Mirror」が登場、マルチアングル入力や動画入力にも対応し競合モデルより高品質
1枚のイラストや写真から3D空間を生成できるAIモデル「HunyuanWorld-Mirror」が登場、マルチアングル入力や動画入力にも対応し競合モデルより高品質
中国の大手テクノロジー企業であるテンセントが生成AIモデル「Hunyuan World 1.1(HunyuanWorld-Mirror)」を公開しました。HunyuanWorld-Mirrorは画像を元に深度を再現した3D空間を生成することが可能。さらに、単一の画像だけでなく複数のアングルからの画像や動画の入力にも対応しています。
·gigazine.net·
1枚のイラストや写真から3D空間を生成できるAIモデル「HunyuanWorld-Mirror」が登場、マルチアングル入力や動画入力にも対応し競合モデルより高品質
画像認識AIモデル「Qwen3-VL」の軽量版が登場したので使ってみた、低いVRAM使用量で高性能を実現
画像認識AIモデル「Qwen3-VL」の軽量版が登場したので使ってみた、低いVRAM使用量で高性能を実現
Qwen3-VLの軽量版であるQwen3-VL-4BおよびQwen3-VL-8Bが公開されました。これらのモデルは、Qwen3-VLの全機能が保持されており、従来のモデルに比べて大幅にVRAM使用量を削減しつつ、Qwen2.5-VL-72Bに匹敵する性能を発揮するとのことで試しにローカルPCにインストールして使ってみました。
·gigazine.net·
画像認識AIモデル「Qwen3-VL」の軽量版が登場したので使ってみた、低いVRAM使用量で高性能を実現
AI生成画像じゃないことを証明できるカメラ「Roc Camera」
AI生成画像じゃないことを証明できるカメラ「Roc Camera」
画像生成AIの進歩は急速に進んでおり、すでに実写と見分けがつかない画像を誰でも簡単に生成できるようになっています。そんな中、カメラで撮影した本物の写真であることを証明できる仕組みを内蔵した「Roc Camera」が登場しました。
·gigazine.net·
AI生成画像じゃないことを証明できるカメラ「Roc Camera」
画像生成AIがテキスト指示による画像編集でどれだけ指示を守ることができるかを実際の生成画像を見て評価できる「GenAI Image Editing Showdown」
画像生成AIがテキスト指示による画像編集でどれだけ指示を守ることができるかを実際の生成画像を見て評価できる「GenAI Image Editing Showdown」
「GenAI Image Showdown」は複数の画像生成AIに同じプロンプトを入力した結果をまとめたウェブサイトで、どの画像生成AIがプロンプトに忠実な画像を生成できるのかを比較して評価することができます。さらに、画像生成ではなくテキスト指示での「編集」を行う場合、どれくらい指示を守って忠実に画像を修正するのかモデル別に比較することができるのが「GenAI Image Editing Showdown」です。
·gigazine.net·
画像生成AIがテキスト指示による画像編集でどれだけ指示を守ることができるかを実際の生成画像を見て評価できる「GenAI Image Editing Showdown」
2億画素の望遠カメラ&7500mAhの大容量バッテリーを搭載したスマホ「OPPO Find X9 Pro」が登場、10倍光学ズームを実現する外付けテレコンもあり
2億画素の望遠カメラ&7500mAhの大容量バッテリーを搭載したスマホ「OPPO Find X9 Pro」が登場、10倍光学ズームを実現する外付けテレコンもあり
OPPOが「Find X9」と「Find X9 Pro」を2025年10月29日に発表しました。Find X9 ProはHasselbladと共同開発した200メガピクセル(2億画素)の望遠カメラを搭載しており、光学ズーム倍率を10倍に引き上げるテレコンバーターも用意されています。
·gigazine.net·
2億画素の望遠カメラ&7500mAhの大容量バッテリーを搭載したスマホ「OPPO Find X9 Pro」が登場、10倍光学ズームを実現する外付けテレコンもあり