画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2708 bookmarks

Custom sorting

見ているタブ内のページにある全画像をずらっと並べてまとめて一覧表示できるPC＆Android用Firefoxアドオン「Image extract」

「Image extract」は閲覧中のウェブページ内に存在する画像をズラリと一覧表示できるFirefoxアドオンです。PCだけでなくAndroid版Firefoxでも使用可能とのこと。便利そうだったので、実際に使ってみました。

·gigazine.net·Mar 6, 2025

見ているタブ内のページにある全画像をずらっと並べてまとめて一覧表示できるPC＆Android用Firefoxアドオン「Image extract」

シグマ製フルサイズミラーレスカメラ「Sigma BF」登場、超シンプルなボディに「230GBの内蔵ストレージ」「振動フィードバック式のボタン」などを詰め込んだユニークなカメラ

シグマがミラーレスカメラ「Sigma BF」を2025年2月24日(月)に発表しました。Sigma BFはフルサイズセンサーを搭載したLマウントのカメラで、230GBものストレージを内蔵していたり感圧式のハプティックボタン(振動フィードバック式のボタン)を採用していたりと珍しい特徴が満載です。

·gigazine.net·Mar 6, 2025

AIで労働者を監視し奴隷のように搾取する動画がディストピアすぎて大炎上

ベンチャーキャピタルのY Combinatorが支援するスタートアップ「Optifye.ai」が「AIを使って工場労働者のパフォーマンスを監視するシステム」を開発しています。Y Combinatorがこのデモ映像をソーシャルメディアで公開したところ、大きな批判を受けたため、デモ映像を撤回しました。

·gigazine.net·Mar 6, 2025

AIで労働者を監視し奴隷のように搾取する動画がディストピアすぎて大炎上

アリババが画像＆動画生成AI「Wan 2.1」の一部モデルをオープンソースで公開

アリババグループのTongyi Labが開発する高度で強力なビジュアル生成モデル「Wan」のバージョン2.1のうち、4つのモデルがオープンソース化されました。

·gigazine.net·Mar 6, 2025

アリババが画像＆動画生成AI「Wan 2.1」の一部モデルをオープンソースで公開

MetaがAIスマートグラス「Aria Gen 2」を発表、各種センサーで周囲の様子やユーザーの動きを測定してAI機能を使える

MetaがAIスマートグラス「Aria Gen 2」を発表しました。Aria Gen 2には周囲の様子やユーザーの動きを測定するセンサーが搭載されており、ユーザーは本体に搭載されたスピーカーから各種情報を受け取ることができます。

·gigazine.net·Mar 6, 2025

MetaがAIスマートグラス「Aria Gen 2」を発表、各種センサーで周囲の様子やユーザーの動きを測定してAI機能を使える

ブラウザ上にマンガやイラストのページをアップロードするだけで簡単に翻訳できるAIサービス「TranslateManga」を使ってみた

マンガやイラストのページをアップロードすると、画像の形式を保ったままブラウザ上で他言語に翻訳してくれるAIサービス「TranslateManga」が登場したので、実際に使ってみました。

·gigazine.net·Mar 6, 2025

ブラウザ上にマンガやイラストのページをアップロードするだけで簡単に翻訳できるAIサービス「TranslateManga」を使ってみた

手で物を見ることができるウェアラブルデバイスが開発される

カメラで捉えた物体を触覚に変換して装着者に伝えるウェアラブルデバイスが開発されました。視力の弱い人や盲目の人の日常生活をサポートするものとして期待されています。

·gigazine.net·Mar 6, 2025

手で物を見ることができるウェアラブルデバイスが開発される

アメリカ著作権局が「創造的なプロセスの支援にAIを用いた場合は著作権で保護される」と宣言

生成AIの技術が急速に発展する中で、アメリカ著作権局は2023年2月に「AIが作った芸術作品に著作権はない」「AIで作成したコミックの絵は著作権で保護されない」と宣言したほか、翌月にはAIが生成した絵や文章に著作権は認められるのかについてガイダンスを発表し、「AIで生成したものに著作権保護の基準を満たすような修正を加えている」ことが著作権の発生する条件として挙げました。2025年1月29日にアメリカ著作権局は約2年ぶりにAIに関する著作権に言及し、「単にプロンプトを入力して出力したものに著作性は認められないが、創作過程を支援するAIツールの使用は、作品の著作権を損なうものではない」と宣言しました。

·gigazine.net·Jan 31, 2025

アメリカ著作権局が「創造的なプロセスの支援にAIを用いた場合は著作権で保護される」と宣言

AI自作レビュー、「USBケーブルの種類を見分けるAIモデル」をトレーニングしてAIカメラを作ってみた【Raspberry Pi AI Camera】

2024年9月に登場した「Raspberry Pi AI Camera」は、カメラセンサー内にAI処理用のプロセッサを内蔵しており、カメラそのものにAIモデルを読み込ませてAIカメラとして使うことができます。ドキュメントも充実しており、比較的簡単にAIモデルを自作できそうだったので、実際に「USBケーブルの種類を見分けるAIモデル」をトレーニングして実行してみました。

·gigazine.net·Jan 10, 2025

AI自作レビュー、「USBケーブルの種類を見分けるAIモデル」をトレーニングしてAIカメラを作ってみた【Raspberry Pi AI Camera】

【無料コード配布中】AIが写真の背景を完璧に透過してくれる「Aiarty Image Matting」でいろんな人物写真を透過しまくって実力を確かめてみた

写真から人物や製品などの被写体だけを切り抜き、背景をきれいに削除することができる背景透過ツールが「Aiarty Image Matting」です。AIが自動で被写体を検出し、背景を削除してくれるため、面倒な操作は一切なし。複数の画像を一括で処理することも可能ということで、実際に使っていろんな写真を背景透過しまくってみました。

·gigazine.net·Jan 10, 2025

【無料コード配布中】AIが写真の背景を完璧に透過してくれる「Aiarty Image Matting」でいろんな人物写真を透過しまくって実力を確かめてみた

2024年にAI分野で何が起きていたのか振り返り、2023年に市場を席捲したGPT-4を上回るAIモデルが多数登場しコンテキストウィンドウの拡張やマルチモーダルモデルが一般化して価格も急落

元Eventbriteのエンジニアリングディレクターであり、オープンソースツール・Datasetteの開発者でもあるサイモン・ウィリソン氏が、2024年に人工知能(AI)分野で起きた出来事をまとめています。

·gigazine.net·Jan 10, 2025

MetaがユーザーのAI画像を自動的に生成しInstagramのフィードに挿入する「Imagine Yourself」機能をテスト中

InstagramがユーザーのAI生成画像をランダムに表示する新機能のテストを開始したと海外メディアの404 Mediaが報じています。あるユーザーはInstagramを閲覧中に、自分自身が「無限の鏡の迷路」の中に立っているAI生成された画像のスライドショーが表示されたとのことです。

·gigazine.net·Jan 10, 2025

MetaがユーザーのAI画像を自動的に生成しInstagramのフィードに挿入する「Imagine Yourself」機能をテスト中

AIツールで銃乱射事件の映像を変換した子ども向けアニメ動画が出回っている、SNSのモデレーションを回避する可能性大

AI技術を使って実在する暴力的な映像を子ども向けアニメーションに変換し、ソーシャルメディアに投稿する「Minion Gore(ミニオンゴア)」と呼ばれる現象が確認されています。投稿された動画群はアニメ映画「ミニオンズ」のキャラクターを無断で用いて暴力的な実写映像を加工したもので、プラットフォームの監視をすり抜けて拡散されている実態が報告されています。

·gigazine.net·Jan 10, 2025

AIツールで銃乱射事件の映像を変換した子ども向けアニメ動画が出回っている、SNSのモデレーションを回避する可能性大

テキストから複数の図形で構成されたベクター画像を生成可能なAIツール「NeuralSVG」をMITの研究チームが発表

テキストのプロンプトに基づいて、複数の図形からなるベクター画像を生成するAIツール「NeuralSVG」を、テルアビブ大学とマサチューセッツ工科大学コンピュータ科学・人工知能研究所の研究チームが発表しました。

·gigazine.net·Jan 10, 2025

テキストから複数の図形で構成されたベクター画像を生成可能なAIツール「NeuralSVG」をMITの研究チームが発表

キヤノン、クラウド活用し構造物の変化を検知--近接目視点検から進化 - ZDNET Japan

キヤノンは、クラウドを活用することでインフラ構造物点検における変状検知作業を効率化する「インスペクションEYE forインフラCloud Edition」の提供を開始した。

·japan.zdnet.com·Jan 10, 2025

キヤノン、クラウド活用し構造物の変化を検知--近接目視点検から進化 - ZDNET Japan

AIチップ内蔵カメラ「Raspberry Pi AI Camera」レビュー、AI処理をカメラ側で実行するので母艦デバイスが非力でもOK

「Raspberry Pi AI Camera」はソニーのインテリジェントビジョンセンサー「IMX500」を搭載したRaspberry Pi向けカメラモジュールです。IMX500はイメージセンサーとAIアクセラレーターを積層した構造で、母艦デバイスに負荷をかけることなくAI処理をカメラ側で実行可能。そんなRaspberry Pi AI CameraがGIGAZINE編集部に届いたので、実際にRaspberry Pi 5と接続して物体検知AIを実行してみました。

·gigazine.net·Jan 1, 2025

AIチップ内蔵カメラ「Raspberry Pi AI Camera」レビュー、AI処理をカメラ側で実行するので母艦デバイスが非力でもOK

AlibabaのQwenチームが画像を認識できるオープンウェイトAIモデル「QVQ」をリリース

Alibabaの大規模言語モデル「Qwen」の研究チームが、視覚的推論機能の強化に重点を置いた実験的研究モデルとして「QVQ-72B-Preview」を公開しました。

·gigazine.net·Dec 27, 2024

AlibabaのQwenチームが画像を認識できるオープンウェイトAIモデル「QVQ」をリリース

ついにAI学習のためのデータが枯渇へ、データセットが不足しているAI企業は大規模で汎用的なLLMから小規模で専門性の高いモデルへの移行を余儀なくされる可能性大

AIモデルの開発には学習資料となるデータセットが必要不可欠ですが、すでに大規模なモデルはアクセスできるデータのほとんどを食い尽くしており、2028年までにデータを使い果たしてしまう可能性が指摘されています。AIとデータセットの現状について、学術雑誌のNatureがまとめています。

·gigazine.net·Dec 22, 2024

Googleが画像をリミックスして新たな画像を生成できる画像生成AIアプリ「Whisk」を発表

Googleが2024年12月16日に、画像を入力することでさまざまな画像を生成できる新たな画像生成AI「Whisk」を発表しました。

·gigazine.net·Dec 22, 2024

Googleが画像をリミックスして新たな画像を生成できる画像生成AIアプリ「Whisk」を発表

Googleが最大4Kの動画を生成できるAI「Veo 2」を発表、人間による評価でOpenAIのSoraを上回る

Googleが2024年12月16日に動画生成AIの「Veo 2」を発表しました。最大4Kまでの解像度の動画を作成できるほか、実写風動画以外にアニメ調の動画を作成可能で、カメラに対する指示も忠実に反映できると述べられています。

·gigazine.net·Dec 22, 2024

Googleが最大4Kの動画を生成できるAI「Veo 2」を発表、人間による評価でOpenAIのSoraを上回る

YouTubeで「サードパーティーが自分の動画でAIをトレーニングすることを許可するかどうか」をクリエイターが選択可能に

YouTubeが日本時間の2024年12月17日、クリエイターが「サードパーティー企業のAIトレーニングに自分の動画が使用されることを許可するかどうか」を選択可能にすると発表しました。この設定はデフォルトでオフになっていますが、もしAmazon・Meta・OpenAIなどのサードパーティー企業によるAIトレーニングを許可したい場合、クリエイターが自分で設定を変更できます。

·gigazine.net·Dec 22, 2024

YouTubeで「サードパーティーが自分の動画でAIをトレーニングすることを許可するかどうか」をクリエイターが選択可能に

既存の動画生成AIを8倍高速化できる「FastVideo」登場

動画生成AIの生成速度を高速化できるフレームワーク「FastVideo」が登場しました。この技術により、既存の動画生成モデルの生成速度を8倍に高速化できることが確認されています。

·gigazine.net·Dec 22, 2024

既存の動画生成AIを8倍高速化できる「FastVideo」登場

GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ

OpenAIやGoogle、Anthropic、Metaなど、さまざまな企業が大規模言語モデルを開発しており、各社の開発するモデルの性能差はベンチマークを使って比較されます。エンジニアのサイモン・ウィリソン氏が、「自転車に乗ったペリカン」を描かせるという独自のベンチマークを考案したと報告しています。

·gigazine.net·Dec 22, 2024

GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ