画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2708 bookmarks
Custom sorting
ハッセルブラッドのカメラを搭載した折りたたみスマホ「Find N5」で写真や動画を撮影しまくってみたよレビュー
ハッセルブラッドのカメラを搭載した折りたたみスマホ「Find N5」で写真や動画を撮影しまくってみたよレビュー
OPPOが2025年2月に発売した折りたたみ式スマートフォン「Find N5」には名門カメラメーカー「ハッセルブラッド」の名を冠した3眼カメラが搭載されています。どんな写真や映像を撮影できるのか確かめるべく、実際に外に持ち出してみました。
·gigazine.net·
ハッセルブラッドのカメラを搭載した折りたたみスマホ「Find N5」で写真や動画を撮影しまくってみたよレビュー
OpenAIが話題の画像生成機能・4o Image Generationに「ウォーターマーク(透かし)」を導入するテストを実施中
OpenAIが話題の画像生成機能・4o Image Generationに「ウォーターマーク(透かし)」を導入するテストを実施中
2025年3月26日にOpenAIは、ChatGPTで利用可能な画像生成機能として「4o Image Generation」を実装しました。新たに、OpenAIが4o Image Generationで生成された画像にウォーターマーク(透かし)を入れるテストを行っていることが報じられています。
·gigazine.net·
OpenAIが話題の画像生成機能・4o Image Generationに「ウォーターマーク(透かし)」を導入するテストを実施中
画像生成AI「Midjourney V7」のアルファテストが始まる、音声での指示に従って画像を爆速で生成可能なドラフトモードも搭載
画像生成AI「Midjourney V7」のアルファテストが始まる、音声での指示に従って画像を爆速で生成可能なドラフトモードも搭載
画像生成AI「Midjourney」のバージョン7(Midjourney V7)のアルファテストが2025年4月4日に始まりました。Midjourney V7は前バージョンと比べて手や体などの描画品質が向上しているほか、音声での指示に高速応答できる「ドラフトモード」も搭載されています。
·gigazine.net·
画像生成AI「Midjourney V7」のアルファテストが始まる、音声での指示に従って画像を爆速で生成可能なドラフトモードも搭載
Metaが次世代マルチモーダルAI「Llama 4」をリリース、MoEアーキテクチャ採用で競合モデルに匹敵する高性能を誇る
Metaが次世代マルチモーダルAI「Llama 4」をリリース、MoEアーキテクチャ採用で競合モデルに匹敵する高性能を誇る
Metaが次世代AIモデル「Llama 4」シリーズを正式に発表しました。Llama 4シリーズは、性能や規模、応用範囲の異なる複数のモデルで構成されており、前世代から大幅な性能向上を実現し、競合する他社のAIモデルに比肩する性能を持っているとのこと。最大の特徴は、「Mixture of Experts(MoE)」と呼ばれる効率的なモデルアーキテクチャと、新しく開発された事前学習方法にあります。
·gigazine.net·
Metaが次世代マルチモーダルAI「Llama 4」をリリース、MoEアーキテクチャ採用で競合モデルに匹敵する高性能を誇る
Google レンズで「カメラに写るものをAIで分析して深く掘り下げた情報を調べる機能」が一部ユーザーで利用可能に
Google レンズで「カメラに写るものをAIで分析して深く掘り下げた情報を調べる機能」が一部ユーザーで利用可能に
GoogleはGoogle One AIプレミアムプランの加入者に向けて、高度な推論や思考、マルチモーダル機能を備えたAI検索機能「AIモード」を提供しています。新たにAIモードの一環として、「カメラに写ったものをAIで分析して深く掘り下げた情報を調べられるマルチモーダル機能」が、Google レンズに追加されました。
·gigazine.net·
Google レンズで「カメラに写るものをAIで分析して深く掘り下げた情報を調べる機能」が一部ユーザーで利用可能に
「RAW画像のファイル形式が各社でバラバラな理由」をキヤノンやソニーなどに質問した結果は?
「RAW画像のファイル形式が各社でバラバラな理由」をキヤノンやソニーなどに質問した結果は?
キヤノンやニコン、ソニー、パナソニックなど、カメラメーカーが異なるとRAW画像のファイル形式も違うものになります。なぜ独自のファイル形式を採用しているのかについて各カメラメーカーに質問した結果を、海外メディアのThe Vergeが公開しています。
·gigazine.net·
「RAW画像のファイル形式が各社でバラバラな理由」をキヤノンやソニーなどに質問した結果は?
YouTubeがAI生成画像も検出できるような肖像権管理技術のテスト対象を拡大へ、「NO FAKES法」支持も表明
YouTubeがAI生成画像も検出できるような肖像権管理技術のテスト対象を拡大へ、「NO FAKES法」支持も表明
YouTubeがクリエイターのコミュニティを守るために開発した、肖像権管理のためのAIツールを一部YouTuberを対象にしてテスト中で、さらに拡大予定であることがわかりました。また、YouTubeが「NO FAKES法」を支持し、支援していくことも明らかになっています。
·gigazine.net·
YouTubeがAI生成画像も検出できるような肖像権管理技術のテスト対象を拡大へ、「NO FAKES法」支持も表明
OpenAIが「自社史上最も高度な推論モデル」と評価する「o3」と「o4-mini」を発表、テキストと同様に画像も使って考える「Thinking with images」が可能
OpenAIが「自社史上最も高度な推論モデル」と評価する「o3」と「o4-mini」を発表、テキストと同様に画像も使って考える「Thinking with images」が可能
OpenAIが新しいAI推論モデルとなる「o3」「o4-mini」のリリースを発表しました。OpenAIは特にo3を「OpenAIで史上最も高度な推論モデル」と称し、数学やコーディング、推論、科学、視覚理解能力を測定するベンチマークで従来モデルを上回る性能を発揮したとアピールしています。
·gigazine.net·
OpenAIが「自社史上最も高度な推論モデル」と評価する「o3」と「o4-mini」を発表、テキストと同様に画像も使って考える「Thinking with images」が可能
Raspberry PiとLiDARセンサーで360度3Dパノラマスキャナーを自作するオープンソースプロジェクト「PiLiDAR」
Raspberry PiとLiDARセンサーで360度3Dパノラマスキャナーを自作するオープンソースプロジェクト「PiLiDAR」
「PiLiDAR」は、シングルボードコンピューターのRaspberry PiとLiDARセンサーを活用した自作360度3Dパノラマスキャナーを開発するオープンソースプロジェクトで、比較的低コストで誰でも構築可能なポータブル3Dスキャンシステムを構築できます。
·gigazine.net·
Raspberry PiとLiDARセンサーで360度3Dパノラマスキャナーを自作するオープンソースプロジェクト「PiLiDAR」
GoogleのAIモデル「Gemini 2.0 Flash」の画像生成機能で画像からウォーターマーク(透かし)を削除できると話題に
GoogleのAIモデル「Gemini 2.0 Flash」の画像生成機能で画像からウォーターマーク(透かし)を削除できると話題に
2025年2月に一般公開されたGoogleのAIモデルである「Gemini 2.0 Flash」には、3月12日に画像生成機能が開発者向けに試験導入されました。この機能を使い、フォトストックサービスが配信する画像からウォーターマーク(透かし)を削除できることが明らかになっており、問題視されています。
·gigazine.net·
GoogleのAIモデル「Gemini 2.0 Flash」の画像生成機能で画像からウォーターマーク(透かし)を削除できると話題に
Robloxが3Dオブジェクトを自動生成するAIモデル「Cube 3D」をオープンソースで公開
Robloxが3Dオブジェクトを自動生成するAIモデル「Cube 3D」をオープンソースで公開
ユーザーがゲームを作成したり、他人の作成したゲームを遊んだりすることができるオンラインゲーミングプラットフォームの「Roblox」が、テキストプロンプトを用いて3Dオブジェクトを生成できるAIモデル「Cube 3D」をオープンソースで公開しました。
·gigazine.net·
Robloxが3Dオブジェクトを自動生成するAIモデル「Cube 3D」をオープンソースで公開
AI生成の粗雑な動画がInstagramやTikTokのアルゴリズムをハックする「インターネットへのブルートフォース攻撃」が起きているという指摘
AI生成の粗雑な動画がInstagramやTikTokのアルゴリズムをハックする「インターネットへのブルートフォース攻撃」が起きているという指摘
近年は生成AIの発達により、インターネット上でAI生成の画像や動画を投稿してインプレッションを稼ぎ、広告収益を得ようとするスパムアカウントが急増しています。海外メディア・404 Mediaの記者であるジェイソン・ケブラー氏が、スパマーが大量のAI生成動画を投稿してInstagramやTikTokのアルゴリズムをハックし、「インターネットへのブルートフォース攻撃」を仕掛けていると指摘しました。
·gigazine.net·
AI生成の粗雑な動画がInstagramやTikTokのアルゴリズムをハックする「インターネットへのブルートフォース攻撃」が起きているという指摘
「AIが生成した芸術作品は著作権で保護できない」とアメリカの控訴裁判所が判断
「AIが生成した芸術作品は著作権で保護できない」とアメリカの控訴裁判所が判断
2025年3月18日に、アメリカの連邦控訴裁判所がAIが生成した芸術作品に対する著作権保護を求める裁判を棄却しました。裁判所は「人間の入力なしにAIによって生成された芸術作品は、アメリカの著作権法では保護できない」と判断しています。
·gigazine.net·
「AIが生成した芸術作品は著作権で保護できない」とアメリカの控訴裁判所が判断
ついに「GIMP 3.0」がリリースされる、編集内容を後から変更できる「非破壊フィルター」やGTK 3への対応など新機能盛りだくさんで新たな公式ロゴも登場
ついに「GIMP 3.0」がリリースされる、編集内容を後から変更できる「非破壊フィルター」やGTK 3への対応など新機能盛りだくさんで新たな公式ロゴも登場
2025年3月16日(日)にオープンソースの画像編集アプリ「GIMP」のバージョン3.0がリリースされました。GIMP 2.10のリリースから実に7年ぶりのメジャーバージョンアップで、GTK 3への対応や非破壊フィルターの実装など複数の大きな変更が加わっています。
·gigazine.net·
ついに「GIMP 3.0」がリリースされる、編集内容を後から変更できる「非破壊フィルター」やGTK 3への対応など新機能盛りだくさんで新たな公式ロゴも登場
2D画像を入力するだけで遠近感のある没入型3D動画を生成できる動画生成AI「Stable Virtual Camera」をStability AIが発表
2D画像を入力するだけで遠近感のある没入型3D動画を生成できる動画生成AI「Stable Virtual Camera」をStability AIが発表
Stable Diffusionなどの生成AIを開発するStability AIが、2D画像をリアルな奥行きと遠近感を備えた没入型3D動画に変換できる動画生成AIの「Stable Virtual Camera」を発表しました。
·gigazine.net·
2D画像を入力するだけで遠近感のある没入型3D動画を生成できる動画生成AI「Stable Virtual Camera」をStability AIが発表
無料でYouTubeやXなど多数のサイトから動画・画像・音楽をダウンロードできるオープンソースのツール「You-Get」を使ってみた
無料でYouTubeやXなど多数のサイトから動画・画像・音楽をダウンロードできるオープンソースのツール「You-Get」を使ってみた
You-Getはウェブサイトから動画や画像、音楽形式のファイルをダウンロードできるシンプルなコマンドラインツールです。どれくらいシンプルに使用できるのか、実際にYouTubeとXから動画をダウンロードして確かめてみました。
·gigazine.net·
無料でYouTubeやXなど多数のサイトから動画・画像・音楽をダウンロードできるオープンソースのツール「You-Get」を使ってみた
写真撮影に適したゴールデンアワーとブルーアワーが何時なのかわかる「Sunsethue」
写真撮影に適したゴールデンアワーとブルーアワーが何時なのかわかる「Sunsethue」
日没前後および日の出前後に空がオレンジ色に染まる「ゴールデンアワー」や、日の出前と日の入り後に濃い青色に染まる「ブルーアワー」には印象深い写真を撮影できます。ブラウザからアクセスできる「Sunsethue」では、撮影したい場所を検索することでゴールデンアワーやブルーアワーの時間帯やどれくらいキレイに見ることができるかの品質を予測できます。
·gigazine.net·
写真撮影に適したゴールデンアワーとブルーアワーが何時なのかわかる「Sunsethue」
ChatGPTに高精度な画像生成機能「4o Image Generation」が追加される、GPT-4oの知識を活用しつつ画像を生成可能で著名人を含む画像も可
ChatGPTに高精度な画像生成機能「4o Image Generation」が追加される、GPT-4oの知識を活用しつつ画像を生成可能で著名人を含む画像も可
OpenAIがGPT-4oに高精度な画像生成機能「4o Image Generation」を組み込んだことを発表しました。4o Image GenerationはChatGPTやSoraで利用可能になっており、GPT-4oの知識を活用した画像生成や対話しながら成果物のクオリティを向上させる操作などが可能です。
·gigazine.net·
ChatGPTに高精度な画像生成機能「4o Image Generation」が追加される、GPT-4oの知識を活用しつつ画像を生成可能で著名人を含む画像も可
大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?
大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?
多くの人々は幼少期から地図の読み取り方を身につけており、地下鉄構内の地図を見て目指す出口を探したり、遊園地の地図を見て乗りたいアトラクションへの行き方を調べたり、ロードマップを見て高速道路の入り口を見つけたりすることができます。「大規模視覚言語モデル(LVLM)も人間のように地図を読み取って適切なルートを見つけられるのか」という疑問に取り組むため、研究者らが「MapBench」という新たなベンチマークを考案しました。
·gigazine.net·
大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?
画像や動画から主要な3D情報を爆速で自動抽出できる「VGGT」が登場、カメラパラメータ・ポイントマップ・深度マップ・3Dポイントトラックなど
画像や動画から主要な3D情報を爆速で自動抽出できる「VGGT」が登場、カメラパラメータ・ポイントマップ・深度マップ・3Dポイントトラックなど
オックスフォード大学の研究チームとMetaのAI研究部門が、画像から3D情報を取り出す新しいAIモデル「VGGT」を発表しました。従来の技術では、3D情報を得るために複雑な計算処理が必要でしたが、VGGTは一度の処理で画像から直接、カメラの位置や向き、物体の奥行き、3D空間での点の位置などを素早く計算できます。
·gigazine.net·
画像や動画から主要な3D情報を爆速で自動抽出できる「VGGT」が登場、カメラパラメータ・ポイントマップ・深度マップ・3Dポイントトラックなど
ChatGPTにGPT-4oでの画像生成機能が実装されスタジオジブリ風のミーム画像が大量生成されるようになり著作権問題が浮き彫りに
ChatGPTにGPT-4oでの画像生成機能が実装されスタジオジブリ風のミーム画像が大量生成されるようになり著作権問題が浮き彫りに
2025年3月26日、OpenAIがGPT-4oによる高精度な画像生成機能「4o Image Generation」を発表しました。4o Image GenerationはチャットボットのChatGPTでも利用可能となっているのですが、これを使ったスタジオジブリ風のミーム画像が大量生成されており、改めてAIによる著作権侵害問題が浮き彫りになっています。
·gigazine.net·
ChatGPTにGPT-4oでの画像生成機能が実装されスタジオジブリ風のミーム画像が大量生成されるようになり著作権問題が浮き彫りに
OpenAIがChatGPTの新画像生成機能が「GPUが溶ける」ほど人気と発言、一時的に制限を設けざるを得ない状況
OpenAIがChatGPTの新画像生成機能が「GPUが溶ける」ほど人気と発言、一時的に制限を設けざるを得ない状況
2025年3月26日、OpenAIはChatGPTで利用可能な高精度な画像生成機能として「4o Image Generation」を発表しました。この4o Image Generationの人気により、OpenAIのサーバーのGPUが溶けるほど過剰な負荷がかかっていると、同社のサム・アルトマンCEOが発言しています。
·gigazine.net·
OpenAIがChatGPTの新画像生成機能が「GPUが溶ける」ほど人気と発言、一時的に制限を設けざるを得ない状況
数百台のカメラを使う大規模イベントの撮影で色を合わせる方法
数百台のカメラを使う大規模イベントの撮影で色を合わせる方法
大規模なスポーツイベントや音楽イベントの様子を映像として記録する場合、会場のさまざまな場所に合計数十台~数百台のカメラを設置する必要があります。大量のカメラの色を合わせる方法について、プログラミング言語「Elixir」の公式ブログに解説記事が掲載されています。
·gigazine.net·
数百台のカメラを使う大規模イベントの撮影で色を合わせる方法
AIは黒人と女性の病気を見逃してしまう、胸部X線写真の分析で判明
AIは黒人と女性の病気を見逃してしまう、胸部X線写真の分析で判明
カリフォルニア大学ロサンゼルス校の研究チームが、スタンフォード大学で2022年に開発された「CheXzero」というAIモデルによる疾患検出の精度を検証した結果、黒人や女性の患者における疾患の検出で偏りがあったと報告しています。
·gigazine.net·
AIは黒人と女性の病気を見逃してしまう、胸部X線写真の分析で判明
「Copilot+ PC」の画像生成やリアルタイム文字起こしなどのAI機能がAMDやIntelのCPU搭載デバイスに解禁へ
「Copilot+ PC」の画像生成やリアルタイム文字起こしなどのAI機能がAMDやIntelのCPU搭載デバイスに解禁へ
Microsoftが2025年3月31日に、これまでQualcommのSnapdragon Xシリーズ搭載デバイスでのみ利用できたCopilot+ PCの便利なAI機能を、「AMD Ryzen AI 300」シリーズと「Intel Core Ultra 200V」シリーズを搭載したCopilot+ PCでも利用可能にすることを発表しました。
·gigazine.net·
「Copilot+ PC」の画像生成やリアルタイム文字起こしなどのAI機能がAMDやIntelのCPU搭載デバイスに解禁へ
ついにApple Intelligenceが日本語に対応してiPhoneで「ラフな文章をビジネス用に書き換える機能」や「画像生成機能」が利用可能になったので使ってみた
ついにApple Intelligenceが日本語に対応してiPhoneで「ラフな文章をビジネス用に書き換える機能」や「画像生成機能」が利用可能になったので使ってみた
2025年3月31日(月)に「iOS 18.4」「iPadOS 18.4」「macOS Sequoia 15.4」がリリースされました。これにより、Apple製AIアシスタント「Apple Intelligence」の日本語版がiPhoneやiPad、Macで利用可能になったので、実際に使ってみました。
·gigazine.net·
ついにApple Intelligenceが日本語に対応してiPhoneで「ラフな文章をビジネス用に書き換える機能」や「画像生成機能」が利用可能になったので使ってみた
Apple Intelligenceの「カメラに写った物の詳細をAIに聞ける機能」や「画像内の不要物を消せる消しゴムマジックっぽい機能」を使ってみた
Apple Intelligenceの「カメラに写った物の詳細をAIに聞ける機能」や「画像内の不要物を消せる消しゴムマジックっぽい機能」を使ってみた
2025年3月31日(月)に「iOS 18.4」「iPadOS 18.4」「macOS Sequoia 15.4」がリリースされ、Apple製AIアシスタント「Apple Intelligence」の日本語版がiPhoneやiPad、Macで利用可能になりました。Apple Intelligenceで使える「カメラに写った物の詳細をAIに聞ける機能」や「画像内の不要物を除去する機能」の使い方をまとめてみました。
·gigazine.net·
Apple Intelligenceの「カメラに写った物の詳細をAIに聞ける機能」や「画像内の不要物を消せる消しゴムマジックっぽい機能」を使ってみた
ChatGPTの新たな画像生成機能を1週間で1億3000万人が使って7億枚以上を生成
ChatGPTの新たな画像生成機能を1週間で1億3000万人が使って7億枚以上を生成
OpenAIは現地時間の2025年3月25日、ChatGPTにGPT-4oを用いた高精度な画像生成機能「4o Image Generation」を追加しました。この新たな画像生成機能は世界中で大きな人気となり、リリースからわずか1週間で1億3000万人超が7億枚以上の画像を生成したとのことです。
·gigazine.net·
ChatGPTの新たな画像生成機能を1週間で1億3000万人が使って7億枚以上を生成
Googleによるアイトラッキング技術スタートアップ「AdHawk Microsystems」買収は最終段階
Googleによるアイトラッキング技術スタートアップ「AdHawk Microsystems」買収は最終段階
2025年3月11日に、Googleによるアイトラッキング技術を専門とするカナダのスタートアップ「AdHawk Microsystems」の買収に向けた交渉が最終段階に入っていることが報じられました。買収額は1億1500万ドル(約170億円)にのぼるとのことです。
·gigazine.net·
Googleによるアイトラッキング技術スタートアップ「AdHawk Microsystems」買収は最終段階