画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2708 bookmarks
Custom sorting
顔認証なのに真っ暗でも逆光でもOKの「顔認証パッド」がスゴすぎた、自宅の玄関を超絶セキュリティで施錠&ストレスフリーの顔パスで解錠する最強スマートロック「SwitchBotロックUltra+顔認証パッド」レビュー
顔認証なのに真っ暗でも逆光でもOKの「顔認証パッド」がスゴすぎた、自宅の玄関を超絶セキュリティで施錠&ストレスフリーの顔パスで解錠する最強スマートロック「SwitchBotロックUltra+顔認証パッド」レビュー
顔で認証する機能付きのスマートロックの失敗談としてありがちなのが、顔認証の精度が低すぎるという問題です。朝夕の逆光や夜の暗さ、メガネをかけているかどうかやメイクなどで顔認証に失敗したり、認証に時間がかかってモタついたりすると、結局カギや指紋認証でドアを開けることになって、顔認証を導入した意味がなくなります。
·gigazine.net·
顔認証なのに真っ暗でも逆光でもOKの「顔認証パッド」がスゴすぎた、自宅の玄関を超絶セキュリティで施錠&ストレスフリーの顔パスで解錠する最強スマートロック「SwitchBotロックUltra+顔認証パッド」レビュー
赤外線が見えるようになるコンタクトレンズが開発される
赤外線が見えるようになるコンタクトレンズが開発される
通常は人間が見ることができない波長の光を可視光に変換することで、暗闇の中や目を閉じた状態でも赤外線を見ることができるようになるコンタクトレンズを、中国の研究者が発表しました。
·gigazine.net·
赤外線が見えるようになるコンタクトレンズが開発される
AIによるデジタルクローンがファッションのPRに使われ始めている、専門家が語るデジタルクローンの利点と問題点とは?
AIによるデジタルクローンがファッションのPRに使われ始めている、専門家が語るデジタルクローンの利点と問題点とは?
AIが作り出した架空の人物「デジタルクローン」は現実の人間と見分けがつかないほど精巧なこともあり、政治的な目的で使われたり、企業のマーケティング戦略に使われたりするケースが増加しつつあります。ファッションのPRにデジタルクローンを使うことの利点と問題点について、経営戦略の専門家であるルアナ・カルカーノ氏が解説しています。
·gigazine.net·
AIによるデジタルクローンがファッションのPRに使われ始めている、専門家が語るデジタルクローンの利点と問題点とは?
高品質かつ高速な画像生成AI「FLUX.1 Kontext」が登場したので使ってみた、テキストと画像の入力に対応しアニメ風も実写風も生成可能
高品質かつ高速な画像生成AI「FLUX.1 Kontext」が登場したので使ってみた、テキストと画像の入力に対応しアニメ風も実写風も生成可能
画像生成AI「Stable Diffusion」の開発者らが設立したAI企業「Black Forest Labs」が、画像生成AI「FLUX.1 Kontext」を2025年5月29日にリリースしました。同時にBlack Forest Labs製のAIモデルを簡単に試せるウェブアプリ「FLUX Playground」も公開されたので、実際にFLUX PlaygroundにアクセスしてFLUX.1 Kontextを使ってみました。
·gigazine.net·
高品質かつ高速な画像生成AI「FLUX.1 Kontext」が登場したので使ってみた、テキストと画像の入力に対応しアニメ風も実写風も生成可能
どの画像生成AIがプロンプトに忠実な画像を生成できるのか分かる「GenAI Image Showdown」
どの画像生成AIがプロンプトに忠実な画像を生成できるのか分かる「GenAI Image Showdown」
複数のAI企業や団体が画像生成AIを開発しており、どの開発者も自身が開発した画像生成AIの性能の高さをアピールしています。「GenAI Image Showdown」は複数の画像生成AIに同じプロンプトを入力した結果をまとめたウェブサイトで、どの画像生成AIがプロンプトに忠実な画像を生成できるのかが一発で分かります。
·gigazine.net·
どの画像生成AIがプロンプトに忠実な画像を生成できるのか分かる「GenAI Image Showdown」
「うるう年」の処理ミスでWindows Azureにサービス障害
「うるう年」の処理ミスでWindows Azureにサービス障害
米マイクロソフトが運営するクラウドサービス「Windows Azure Platform」で2012年2月29日、複数地域にまたがるサービス障害が発生した。Windows Azureの仮想マシンの一部で半日近く通信ができなくなった。Windows Azureの管理コンソールやデータベース連携サービスなどは、3月1日13時現在(日本時間)も復旧していない。同社は障害の原因を調査中だが、うるう年に関連する計算エラーがあった模様だと公式ブログで説明している。
·xtech.nikkei.com·
「うるう年」の処理ミスでWindows Azureにサービス障害
ローカルで各種AIモデルを実行できる無料ソフト「llama.cpp」がマルチモーダル入力をサポートし画像の説明などが可能に
ローカルで各種AIモデルを実行できる無料ソフト「llama.cpp」がマルチモーダル入力をサポートし画像の説明などが可能に
AIモデルをローカルで実行できるオープンソースソフトウェア「llama.cpp」が画像の入力に対応しました。画像とテキストを同時に入力して「この画像には何が写っている?」といった質問に回答させられます。
·gigazine.net·
ローカルで各種AIモデルを実行できる無料ソフト「llama.cpp」がマルチモーダル入力をサポートし画像の説明などが可能に
テキストから物理的に安定したレゴブロックの構造物を生成するモデル「LegoGPT」とデータセット「StableText2Lego」が公開中
テキストから物理的に安定したレゴブロックの構造物を生成するモデル「LegoGPT」とデータセット「StableText2Lego」が公開中
ユーザーが入力したテキストプロンプトからレゴで組み立てた構造物を生成できる「LegoGPT」を、カーネギーメロン大学の研究チームが発表しました。また、研究チームは4万7000件を超えるレゴ構造物と2万8000件以上のユニークな3Dオブジェクトを含むデータセット「StableText2Lego」もリリースしています。
·gigazine.net·
テキストから物理的に安定したレゴブロックの構造物を生成するモデル「LegoGPT」とデータセット「StableText2Lego」が公開中
JPEG画像のデコードを50倍高速化できるAMDの「rocJPEG」はAI学習の高速化などに威力を発揮
JPEG画像のデコードを50倍高速化できるAMDの「rocJPEG」はAI学習の高速化などに威力を発揮
データセットのサイズ増大や、画像キャプチャ技術の改善、ビジュアルデータから多くの情報を抽出する能力の向上、および入力データとして画像を含む大規模言語モデルへの移行などによって、ワークロードを適切に実行するためには効率的な画像変換と準備が不可欠になっています。AMDの「rocJPEG」はROCmプラットフォームとAMD Instinct GPUを使用して、4k画像のデコード速度が最大50倍高速になるとのことです。
·gigazine.net·
JPEG画像のデコードを50倍高速化できるAMDの「rocJPEG」はAI学習の高速化などに威力を発揮
無料かつログイン不要でブラウザで直接画面の動画キャプチャが可能&数分で編集と共有ができる「Screenrecorder.Me」
無料かつログイン不要でブラウザで直接画面の動画キャプチャが可能&数分で編集と共有ができる「Screenrecorder.Me」
「Screenrecorder.Me」は、ブラウザから画面上での動作を動画でキャプチャできるウェブアプリです。無料かつログイン不要で利用でき、簡単な操作でキャプチャした後にブラウザ上で直接編集し、動画をそのまま他人に共有することが可能となっています。
·gigazine.net·
無料かつログイン不要でブラウザで直接画面の動画キャプチャが可能&数分で編集と共有ができる「Screenrecorder.Me」
TikTokが写真を動画に変換する「TikTok AI Alive」機能を発表
TikTokが写真を動画に変換する「TikTok AI Alive」機能を発表
TikTokは2025年5月13日にTikTok初のクリエイティブ機能「TikTok AI Alive」を発表しました。AI Aliveは、アップロードした写真をAIで簡単にアニメーション化できる機能で、TikTokストーリーカメラでのみ利用可能です。
·gigazine.net·
TikTokが写真を動画に変換する「TikTok AI Alive」機能を発表
Metaが2021年に断念した顔認識機能をスマートグラスに搭載することを再検討している
Metaが2021年に断念した顔認識機能をスマートグラスに搭載することを再検討している
Metaが顔認識技術に関する方針を転換し、スマートグラスに周囲の人の顔をスキャンして名前を識別するソフトウェアを追加することを検討していると報じられています。同社は将来的に発売する予定のカメラ内蔵のAI搭載イヤホンにもこの技術を搭載することを検討しているとのことです。
·gigazine.net·
Metaが2021年に断念した顔認識機能をスマートグラスに搭載することを再検討している
デジタル庁が生成AIガイドライン、機密情報も学習可能に
デジタル庁が生成AIガイドライン、機密情報も学習可能に
デジタル庁は2025年5月をめどに、中央官庁などの政府機関が生成AI(人工知能)を調達・利用する際に順守すべきガイドラインの運用を始める。これまでは慎重に扱っていた一定の機密性が求められる非公開情報も、リスクを適切に管理して学習に使うことを認める。これにより、専門性が高い行政事務を学習させたAIを構築することが可能になる。地方自治体を含め行政機関が米オープンAI(OpenAI)の「ChatGP
·nikkei.com·
デジタル庁が生成AIガイドライン、機密情報も学習可能に
PinterestがAIで生成または編集された画像を示す「AI修正」ラベルを展開、メタデータと独自のAI分類器で識別
PinterestがAIで生成または編集された画像を示す「AI修正」ラベルを展開、メタデータと独自のAI分類器で識別
Pinterestはウェブ上の画像や動画をコレクション化して共有できるソーシャルメディアで、さまざまなファッションや風景、料理のレシピ、インテリア、旅行先などのアイデアを得る場として人気を集めています。新たにPinterestが、AIで生成または編集された画像を示す「AI修正」ラベルを全世界で展開したと発表しました。
·gigazine.net·
PinterestがAIで生成または編集された画像を示す「AI修正」ラベルを展開、メタデータと独自のAI分類器で識別
ロイヤリティフリーで圧縮効率も改善した動画圧縮コーデック「AV1」がなかなか普及しないのは一体なぜなのか?
ロイヤリティフリーで圧縮効率も改善した動画圧縮コーデック「AV1」がなかなか普及しないのは一体なぜなのか?
「AV1」はNetflix、YouTube、Googleなどの大手テック企業が推進する動画圧縮コーデックで、従来のHEVC(H.265)やVP9と比べて約30%の効率向上が期待され、ロイヤリティフリーであることから注目を集めました。しかし、記事作成時点だとAV1は業界全体に広く普及しているとはいえず、その理由をテクノロジー系ニュースサイトのThe Vergeが解説しています。
·gigazine.net·
ロイヤリティフリーで圧縮効率も改善した動画圧縮コーデック「AV1」がなかなか普及しないのは一体なぜなのか?
画像を拡大・縮小するアルゴリズム「バイリニア補間」は一体何をしているのか?
画像を拡大・縮小するアルゴリズム「バイリニア補間」は一体何をしているのか?
画像の拡大・縮小を行う時、そのままシンプルに処理を行うと画質が荒くなってしまいます。そこで、画像を滑らかにして比較的キレイな画質を保ったまま拡大・縮小を行うためにはアルゴリズムが必要となります。そんなアルゴリズムの1つである「バイリニア補間」はいったいどういうものなのかについて、NVIDIA Researchでグラフィックス関連のソフトウェアエンジニアとして働くバート・ロンスキー氏が解説しています。
·gigazine.net·
画像を拡大・縮小するアルゴリズム「バイリニア補間」は一体何をしているのか?
1億画素超えのスナップカメラとして使える富士フイルムのレンズ一体型デジカメ「GFX100RF」実写レビュー、大量の作例付きでどんな写真を撮影できるのか分かる
1億画素超えのスナップカメラとして使える富士フイルムのレンズ一体型デジカメ「GFX100RF」実写レビュー、大量の作例付きでどんな写真を撮影できるのか分かる
富士フイルムが2025年4月10日に発売したデジタルカメラ「GFX100RF」は、フルサイズセンサーよりも大きいラージフォーマットセンサーを搭載しており、約1億2000万画素の写真を撮影可能です。そんなGFX100RFを借りられたので、実際に屋外に持ち出していろいろ撮影してみました。
·gigazine.net·
1億画素超えのスナップカメラとして使える富士フイルムのレンズ一体型デジカメ「GFX100RF」実写レビュー、大量の作例付きでどんな写真を撮影できるのか分かる
AMDプロセッサ向けに最適化された画像生成AIと動画生成AIを含むAIアート作成ツール「Amuse 3.0」がリリースされる、ローカルで画像&動画を生成可能
AMDプロセッサ向けに最適化された画像生成AIと動画生成AIを含むAIアート作成ツール「Amuse 3.0」がリリースされる、ローカルで画像&動画を生成可能
AMDとAI開発企業「TensorStack.AI」が共同開発したAIアート作成ツール「Amuse 3.0」のベータ版がリリースされました。Amuse 3.0には画像生成AIの「Stable Diffusion 3.5」や「FLUX.1」、動画生成AIも含まれており、AMD製プロセッサを搭載したPCでローカル動作します。
·gigazine.net·
AMDプロセッサ向けに最適化された画像生成AIと動画生成AIを含むAIアート作成ツール「Amuse 3.0」がリリースされる、ローカルで画像&動画を生成可能
MetaがVR/AR部門「Reality Labs」のOculus Studios従業員数十名をレイオフ、ハードウェア事業の従業員も人員整理の対象か
MetaがVR/AR部門「Reality Labs」のOculus Studios従業員数十名をレイオフ、ハードウェア事業の従業員も人員整理の対象か
Metaが、VR/AR部門であるReality LabsのOculus Studiosに含まれる一部スタジオの従業員数十名をレイオフしたと報じられました。Metaの広報担当者は「いくつかのチームで、チーム規模に影響を与える構造と役割の変更が行われている」と認めています。
·gigazine.net·
MetaがVR/AR部門「Reality Labs」のOculus Studios従業員数十名をレイオフ、ハードウェア事業の従業員も人員整理の対象か
Adobeの画像生成AI「Firefly Image Model 4」がリリース&動画生成AI「Firefly Video Model」の正式版も登場&Adobe製品でOpenAIなど他社の生成AIも利用可能に
Adobeの画像生成AI「Firefly Image Model 4」がリリース&動画生成AI「Firefly Video Model」の正式版も登場&Adobe製品でOpenAIなど他社の生成AIも利用可能に
画像やエフェクトを生成できるAdobeのAI「Firefly」がモデルをアップグレードし、多数の新機能を導入しました。このほか、モバイル版Fireflyなど新しい製品もリリースされています。
·gigazine.net·
Adobeの画像生成AI「Firefly Image Model 4」がリリース&動画生成AI「Firefly Video Model」の正式版も登場&Adobe製品でOpenAIなど他社の生成AIも利用可能に
とにかく見た目がカッコイイ「Sigma BF」はどんな写真を撮影できるカメラなのか?実際に外に持ち出していろいろ撮影してみた作例まとめ
とにかく見た目がカッコイイ「Sigma BF」はどんな写真を撮影できるカメラなのか?実際に外に持ち出していろいろ撮影してみた作例まとめ
シグマがフルサイズセンサーを搭載したミラーレスカメラ「Sigma BF」を2025年4月24日(木)に発売しました。Sigma BFは金属の塊っぽさ全開の独特な外観を特徴とするカメラで、メモリーカードスロットを搭載せず230GBの内蔵ストレージを搭載していたり、ボタンの数が極端に少なかったりと面白いスペックを備えています。そんなSigma BFを外に持ち出していろいろ撮影してみました。
·gigazine.net·
とにかく見た目がカッコイイ「Sigma BF」はどんな写真を撮影できるカメラなのか?実際に外に持ち出していろいろ撮影してみた作例まとめ
アカデミー賞が「生成AIが映画に使われているかどうかはプラスにもマイナスにもならない」と公式のガイドラインに明記
アカデミー賞が「生成AIが映画に使われているかどうかはプラスにもマイナスにもならない」と公式のガイドラインに明記
アカデミー賞の選考・授与を行う映画芸術科学アカデミーは2025年4月22日に、新たな条項を付け加えた映画の応募資格ガイドラインを発表しました。付け加えられたルールには生成AIについての言及があり、初めて生成AIについて規則で明文化された形になりました。
·gigazine.net·
アカデミー賞が「生成AIが映画に使われているかどうかはプラスにもマイナスにもならない」と公式のガイドラインに明記
GPT-4oやo1より高性能な推論モデル「Qwen3」をAlibabaが発表、フラグシップモデルの「Qwen3-235B-A22B」はパラメーター数2350億&アクティブパラメーター数220億
GPT-4oやo1より高性能な推論モデル「Qwen3」をAlibabaが発表、フラグシップモデルの「Qwen3-235B-A22B」はパラメーター数2350億&アクティブパラメーター数220億
中国のAlibabaが開発する大規模言語モデル(LLM)ファミリーのQwenに、「Qwen3」が登場しました。Qwen3には2つの混合エキスパート(MoE)モデルと、6つのDenseモデルが含まれており、パラメーターサイズは6億から2350億までと非常に幅広いです。
·gigazine.net·
GPT-4oやo1より高性能な推論モデル「Qwen3」をAlibabaが発表、フラグシップモデルの「Qwen3-235B-A22B」はパラメーター数2350億&アクティブパラメーター数220億
AdobeがAIで動画を最大2秒延長する「生成延長」機能をPremiere Pro向けにリリース、4K品質でバックグラウンドオーディオ付きでクリップを最大2秒延長可能
AdobeがAIで動画を最大2秒延長する「生成延長」機能をPremiere Pro向けにリリース、4K品質でバックグラウンドオーディオ付きでクリップを最大2秒延長可能
Adobeが、動画編集ソフトのPremiere Proと映像制作ソフトのAfter Effectsのバージョン25.2を正式リリースしたと2025年4月2日に発表しました。バージョン25.2のアップデートでは、生成AIによる素材の延長が可能になったり、自動でタグ付けされた素材の管理、字幕の自動翻訳など、AIを活用した新機能が目玉となっています。
·gigazine.net·
AdobeがAIで動画を最大2秒延長する「生成延長」機能をPremiere Pro向けにリリース、4K品質でバックグラウンドオーディオ付きでクリップを最大2秒延長可能