画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2839 bookmarks
Custom sorting
動画が本物かAI生成かを見分けるテスト、専門家によるAI生成動画を見分けるためのアドバイスとは?
動画が本物かAI生成かを見分けるテスト、専門家によるAI生成動画を見分けるためのアドバイスとは?
AIの発達につれてAIが生成する動画のクオリティも大きく上がっており、本物の映像ではないと見分けることが難しいケースもあります。アメリカの公共放送であるNPRが、ブラウザから無料でチャレンジできる「動画を見て本物かAIか当てるクイズ」を公開しています。クイズに挑戦した後は、専門家によるAIを見分けるアドバイスも参照できます。
·gigazine.net·
動画が本物かAI生成かを見分けるテスト、専門家によるAI生成動画を見分けるためのアドバイスとは?
画像生成AIで作った微妙なドット絵風画像をゲームで使える形式に直すウェブアプリ「Unfaker」
画像生成AIで作った微妙なドット絵風画像をゲームで使える形式に直すウェブアプリ「Unfaker」
画像生成AIを使うと簡単にドット絵風の画像を作れますが、高品質な画像生成AIであっても「色がにじむ」「線が曲がる」「完全な格子状にならない」といった問題が発生します。そんな問題を解決するべく開発されたJavaScriptライブラリが「unfake.js」で、ドット絵風画像の各種問題をサクッと解決してゲーム開発などに使える形式に変換できます。
·gigazine.net·
画像生成AIで作った微妙なドット絵風画像をゲームで使える形式に直すウェブアプリ「Unfaker」
動画生成AI「Runway Gen-4.5」が登場、OpenAIのSora 2やGoogleのVeo 3より高性能
動画生成AI「Runway Gen-4.5」が登場、OpenAIのSora 2やGoogleのVeo 3より高性能
AI開発企業のRunwayが動画生成AI「Runway Gen-4.5」を2025年12月1日に発表しました。Runway Gen-4.5はプロンプト追従性や物理現象の再現性能が向上しており、GoogleのVeo 3やOpenAIの Sora 2を上回る性能を示しています。
·gigazine.net·
動画生成AI「Runway Gen-4.5」が登場、OpenAIのSora 2やGoogleのVeo 3より高性能
Amazonがプライム・ビデオでAI要約動画を導入も滅茶苦茶なナレーションを生成してしまい急遽撤去
Amazonがプライム・ビデオでAI要約動画を導入も滅茶苦茶なナレーションを生成してしまい急遽撤去
Amazonがプライム・ビデオでシリーズ作品の振り返り動画などを生成できる「Video Recaps」という機能を導入しました。しかし、このVideo Recapsが生成する動画には間違った内容が含まれることが明らかになり、Amazonは同機能を一時的に撤去する事態に陥っています。
·gigazine.net·
Amazonがプライム・ビデオでAI要約動画を導入も滅茶苦茶なナレーションを生成してしまい急遽撤去
「ロボットがトマトの収穫成功率を予測するモデル」を日本の研究者が構築
「ロボットがトマトの収穫成功率を予測するモデル」を日本の研究者が構築
農業分野における労働力不足が深刻化する中でロボットの活用が注目される中で、大阪公立大学大学院工学研究科の藤永拓矢助教が、「ロボットがトマトの収穫成功率を予測するモデル」を構築しました。
·gigazine.net·
「ロボットがトマトの収穫成功率を予測するモデル」を日本の研究者が構築
世界中の27億5000万軒の建物3Dデータを網羅したデータセット「GlobalBuildingAtlas」と3D地図が公開される
世界中の27億5000万軒の建物3Dデータを網羅したデータセット「GlobalBuildingAtlas」と3D地図が公開される
ミュンヘン工科大学が世界中のすべての建物を網羅した高解像度3Dデータセット「GlobalBuildingAtlas」を公開しました。GlobalBuildingAtlasは都市開発や防災などに役立つとされており、データセットを活用した3D地図も公開されています。
·gigazine.net·
世界中の27億5000万軒の建物3Dデータを網羅したデータセット「GlobalBuildingAtlas」と3D地図が公開される
ディズニーとOpenAIのライセンス契約は1年間のみ独占契約なので1年後には他のAI企業も契約可能
ディズニーとOpenAIのライセンス契約は1年間のみ独占契約なので1年後には他のAI企業も契約可能
ディズニーはOpenAIとライセンス契約を結び、ディズニーキャラクターを動画生成AIのSoraで描写できるようにしました。このライセンス契約の期間は3年間ではあるものの、独占期間は1年のみなので、それ以降は他のAI企業と同様の契約を結ぶことが可能であることが明らかになっています。
·gigazine.net·
ディズニーとOpenAIのライセンス契約は1年間のみ独占契約なので1年後には他のAI企業も契約可能
Appleが1枚の画像を3Dシーンに変換できる手法「SHARP」を発表、標準的なGPUで1秒未満で処理可能
Appleが1枚の画像を3Dシーンに変換できる手法「SHARP」を発表、標準的なGPUで1秒未満で処理可能
Appleが、たった1枚の画像から高精度な3Dシーンを生成する手法「SHARP」を発表しました。SHARPはニューラルネットワークを利用し、標準的なGPUでも1秒未満で実行可能とのことです。
·gigazine.net·
Appleが1枚の画像を3Dシーンに変換できる手法「SHARP」を発表、標準的なGPUで1秒未満で処理可能
OpenAIが画像生成モデル「GPT Image 1.5」を搭載した「ChatGPT Images」を公開、画像生成が最大4倍高速化でGoogleのNano Banana Proに対抗
OpenAIが画像生成モデル「GPT Image 1.5」を搭載した「ChatGPT Images」を公開、画像生成が最大4倍高速化でGoogleのNano Banana Proに対抗
OpenAIは2025年12月17日に、新しい画像生成モデル「GPT Image 1.5」を搭載した新バージョンの「ChatGPT Images」をリリースしました。この新モデルは、ゼロからの画像生成だけでなく、既存の写真の編集においてもユーザーの意図をより確実に反映できるよう設計されています。
·gigazine.net·
OpenAIが画像生成モデル「GPT Image 1.5」を搭載した「ChatGPT Images」を公開、画像生成が最大4倍高速化でGoogleのNano Banana Proに対抗
いろんな音が混ざった動画や音声から目的の音だけを分離できるAI「SAM Audio」をMetaが公開
いろんな音が混ざった動画や音声から目的の音だけを分離できるAI「SAM Audio」をMetaが公開
Metaが音声分離AI「SAM Audio」を公開しました。SAM Audioには音声や動画を入力可能で、「文章で指示して特定の音を抜き出す」「動画内の『音声を発している被写体』を指定して音声を抜き出す」「動画内の特定のタイミングで鳴っている音を指定して抜き出す」といった操作が可能です。
·gigazine.net·
いろんな音が混ざった動画や音声から目的の音だけを分離できるAI「SAM Audio」をMetaが公開
人気音楽ユニット「マッシヴ・アタック」がコンサート中に観客の顔を投影して顔認識技術への警鐘を鳴らす
人気音楽ユニット「マッシヴ・アタック」がコンサート中に観客の顔を投影して顔認識技術への警鐘を鳴らす
イギリスのブリストル出身の音楽ユニットであるマッシヴ・アタックが、コンサート中に顔認識技術を使って観客の顔をスキャンし、リアルタイムでステージ上のスクリーンに投影するパフォーマンスを行いました。このパフォーマンスは日常に浸透した顔認識技術への警鐘を鳴らすものであり、ファンの間でも物議を醸しています。
·gigazine.net·
人気音楽ユニット「マッシヴ・アタック」がコンサート中に観客の顔を投影して顔認識技術への警鐘を鳴らす
アメリカでは「車のナンバープレートを撮影して市民の動きを監視するシステム」が議論されている
アメリカでは「車のナンバープレートを撮影して市民の動きを監視するシステム」が議論されている
車のナンバープレートを撮影して識別する技術は「ALPR」と呼ばれており、日本でも駐車場の料金支払いなどに活用されています。ところがアメリカでは事情が少し異なり、ALPRを市民の動向追跡に用いようとする動きが現れています。ALPRによる市民追跡が議題に上がっている自治体を一覧化したウェブサイトが「alpr.watch」で、アメリカの事情をうかがい知ることができます。
·gigazine.net·
アメリカでは「車のナンバープレートを撮影して市民の動きを監視するシステム」が議論されている
手書きの筆記体も認識してテキストに変換可能なOCRモデル「Mistral OCR 3」が登場
手書きの筆記体も認識してテキストに変換可能なOCRモデル「Mistral OCR 3」が登場
AI開発企業のMistral AIが、スキャンしたドキュメントや手書き文字を認識してテキストデータに変換できるAIモデル「Mistral OCR 3」を発表しました。Mistral OCR 3の精度はエンタープライズ向けの文書処理ソリューションやAIを用いたOCRソリューションを上回り、読みにくい筆記体も認識できるとのことです。
·gigazine.net·
手書きの筆記体も認識してテキストに変換可能なOCRモデル「Mistral OCR 3」が登場
ソニーがAIモデルの公平性を評価するためのデータセット「Fair Human-Centric Image Benchmark(FHIBE)」を公開
ソニーがAIモデルの公平性を評価するためのデータセット「Fair Human-Centric Image Benchmark(FHIBE)」を公開
コンピュータービジョンは自動運転車やスマートフォンなどさまざまな分野に活用されていますが、多くのデータセットは依然としてバイアスや多様性の欠如、倫理的に責任のある方法で収集されていない、つまりは被写体の同意なしに写真がAIトレーニングに利用されているなどの問題を抱えています。人間中心のコンピュータービジョンタスクにおける公平性を評価するために特別に構築された、多様性に富んだ、被写体の同意に基づいた初めての公開データセットが「Fair Human-Centric Image Benchmark(FHIBE)」です。
·gigazine.net·
ソニーがAIモデルの公平性を評価するためのデータセット「Fair Human-Centric Image Benchmark(FHIBE)」を公開
【66%オフ】AIによる画像の高精細化・ノイズ除去・ピンボケ補正などが簡単ワンタッチで可能な「Aiarty Image Enhancer」を使ってみた
【66%オフ】AIによる画像の高精細化・ノイズ除去・ピンボケ補正などが簡単ワンタッチで可能な「Aiarty Image Enhancer」を使ってみた
AI技術を活用して簡単にAI生成画像・荒い写真・圧縮されたJPEG画像からノイズを除去したり、ピンボケを補正したり、ロスレス拡大したり、高精細化したりすることができるというソフトウェアが「Aiarty Image Enhancer」です。Aiarty Image Enhancerを特価で購入できるコラボキャンペーン実施中ということで、実際にどんなことができるのか確かめてみました。
·gigazine.net·
【66%オフ】AIによる画像の高精細化・ノイズ除去・ピンボケ補正などが簡単ワンタッチで可能な「Aiarty Image Enhancer」を使ってみた
テキスト・画像・動画から3Dワールドを生成するマルチモーダルワールドモデル「Marble」が一般公開される
テキスト・画像・動画から3Dワールドを生成するマルチモーダルワールドモデル「Marble」が一般公開される
現地時間の2025年11月12日、スタンフォード人工知能研究所で所長を務めたコンピューターサイエンスの権威であるフェイフェイ・リ氏らが立ち上げたAI企業のWorld Labsが、独自のマルチモーダルワールドモデル「Marble」を発表しました。
·gigazine.net·
テキスト・画像・動画から3Dワールドを生成するマルチモーダルワールドモデル「Marble」が一般公開される
OpenAIが故キング牧師に似たディープフェイク動画を生成するSoraの機能を一時停止、一部のユーザーが「無礼な描写」を作成し遺産管理団体から停止要請があったため
OpenAIが故キング牧師に似たディープフェイク動画を生成するSoraの機能を一時停止、一部のユーザーが「無礼な描写」を作成し遺産管理団体から停止要請があったため
OpenAIは2025年10月16日に、ソーシャルアプリ「Sora」上でマーティン・ルーサー・キング・ジュニア牧師のディープフェイク動画の作成を一時停止したと発表しました。これは、キング牧師を題材にしたAI動画が大量に生成されたことに対し、キング牧師の遺産管理団体と遺族から苦情があったためです。
·gigazine.net·
OpenAIが故キング牧師に似たディープフェイク動画を生成するSoraの機能を一時停止、一部のユーザーが「無礼な描写」を作成し遺産管理団体から停止要請があったため
トイレの便器に取り付けて排せつ物の写真を撮影できるカメラ「Dekoda」が登場
トイレの便器に取り付けて排せつ物の写真を撮影できるカメラ「Dekoda」が登場
人間の排せつ物はさまざまな健康のバロメーターになることが知られており、排せつ物からユーザーの健康状態を管理するスマートトイレの開発も進められています。新たに、キッチン&バス用品メーカーのKohlerが、トイレの便器に取り付けて排せつ物の写真を撮影できるカメラ「Dekoda」を発表しました。
·gigazine.net·
トイレの便器に取り付けて排せつ物の写真を撮影できるカメラ「Dekoda」が登場
DeepSeekが視覚情報を使用してテキスト入力を圧縮するマルチモーダルAIモデル「DeepSeek-OCR」をリリース
DeepSeekが視覚情報を使用してテキスト入力を圧縮するマルチモーダルAIモデル「DeepSeek-OCR」をリリース
DeepSeekが新しいマルチモーダルAIモデル「DeepSeek-OCR」をリリースしました。「OCR」は書類のスキャンなどに用いられる光学文字認識(Optical Character Recognition)のことで、トークンを大幅に削減しつつ、大規模で複雑なドキュメントを処理できるモデルだとのことです。
·gigazine.net·
DeepSeekが視覚情報を使用してテキスト入力を圧縮するマルチモーダルAIモデル「DeepSeek-OCR」をリリース
YouTubeで顔を勝手に使われていないか探す「類似性検出」機能はどのように使うのか?
YouTubeで顔を勝手に使われていないか探す「類似性検出」機能はどのように使うのか?
AI生成コンテンツが増加して、中には、「その人が言っていないことを、さも言っていたかのように見せかける」ような映像も生み出されていて、問題になっています。こうした問題に対処するため、YouTubeが以前から取り組んでいたクリエイター向けの肖像検出ツールを正式に展開することを発表しました。ツールを使うと、勝手に自分の顔を使っているコンテンツを検出して削除依頼を出すことができます。
·gigazine.net·
YouTubeで顔を勝手に使われていないか探す「類似性検出」機能はどのように使うのか?
あらゆる画像生成AIの性能を測定できるベンチマーク「ImagenWorld」登場、画像生成や画像編集の精度を評価し苦手分野を特定可能
あらゆる画像生成AIの性能を測定できるベンチマーク「ImagenWorld」登場、画像生成や画像編集の精度を評価し苦手分野を特定可能
画像生成AIの性能は「他のAIと比べてキレイな画像を生成できる」といった数値化しにくい形式で評価されることが多いです。「ImagenWorld」はウォータールー大学やComfy.orgの研究チームが開発したベンチマークで、各種AIに画像生成や画像編集などのタスクを課して性能を定量的に評価することができます。
·gigazine.net·
あらゆる画像生成AIの性能を測定できるベンチマーク「ImagenWorld」登場、画像生成や画像編集の精度を評価し苦手分野を特定可能
Amazonが配達ドライバー向けAIスマートグラスを発表、配達先までのナビをレンズに投影して荷物スキャンや配達完了手続きも自動化
Amazonが配達ドライバー向けAIスマートグラスを発表、配達先までのナビをレンズに投影して荷物スキャンや配達完了手続きも自動化
Amazonが、配達する荷物のスキャンや届け先までのルート案内、配達証明の取得などを行える配達ドライバー向けのAI搭載スマートグラスを開発したと発表しました。Amazonはアメリカ・カナダの配達ドライバーを対象にこのメガネの試験運用を行っており、より広範囲に展開する前に技術を改良する予定としています。
·gigazine.net·
Amazonが配達ドライバー向けAIスマートグラスを発表、配達先までのナビをレンズに投影して荷物スキャンや配達完了手続きも自動化