画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2692 bookmarks
Custom sorting
無料でYouTubeやXなど多数のサイトから動画・画像・音楽をダウンロードできるオープンソースのツール「You-Get」を使ってみた
無料でYouTubeやXなど多数のサイトから動画・画像・音楽をダウンロードできるオープンソースのツール「You-Get」を使ってみた
You-Getはウェブサイトから動画や画像、音楽形式のファイルをダウンロードできるシンプルなコマンドラインツールです。どれくらいシンプルに使用できるのか、実際にYouTubeとXから動画をダウンロードして確かめてみました。
·gigazine.net·
無料でYouTubeやXなど多数のサイトから動画・画像・音楽をダウンロードできるオープンソースのツール「You-Get」を使ってみた
写真撮影に適したゴールデンアワーとブルーアワーが何時なのかわかる「Sunsethue」
写真撮影に適したゴールデンアワーとブルーアワーが何時なのかわかる「Sunsethue」
日没前後および日の出前後に空がオレンジ色に染まる「ゴールデンアワー」や、日の出前と日の入り後に濃い青色に染まる「ブルーアワー」には印象深い写真を撮影できます。ブラウザからアクセスできる「Sunsethue」では、撮影したい場所を検索することでゴールデンアワーやブルーアワーの時間帯やどれくらいキレイに見ることができるかの品質を予測できます。
·gigazine.net·
写真撮影に適したゴールデンアワーとブルーアワーが何時なのかわかる「Sunsethue」
ChatGPTに高精度な画像生成機能「4o Image Generation」が追加される、GPT-4oの知識を活用しつつ画像を生成可能で著名人を含む画像も可
ChatGPTに高精度な画像生成機能「4o Image Generation」が追加される、GPT-4oの知識を活用しつつ画像を生成可能で著名人を含む画像も可
OpenAIがGPT-4oに高精度な画像生成機能「4o Image Generation」を組み込んだことを発表しました。4o Image GenerationはChatGPTやSoraで利用可能になっており、GPT-4oの知識を活用した画像生成や対話しながら成果物のクオリティを向上させる操作などが可能です。
·gigazine.net·
ChatGPTに高精度な画像生成機能「4o Image Generation」が追加される、GPT-4oの知識を活用しつつ画像を生成可能で著名人を含む画像も可
大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?
大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?
多くの人々は幼少期から地図の読み取り方を身につけており、地下鉄構内の地図を見て目指す出口を探したり、遊園地の地図を見て乗りたいアトラクションへの行き方を調べたり、ロードマップを見て高速道路の入り口を見つけたりすることができます。「大規模視覚言語モデル(LVLM)も人間のように地図を読み取って適切なルートを見つけられるのか」という疑問に取り組むため、研究者らが「MapBench」という新たなベンチマークを考案しました。
·gigazine.net·
大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?
画像や動画から主要な3D情報を爆速で自動抽出できる「VGGT」が登場、カメラパラメータ・ポイントマップ・深度マップ・3Dポイントトラックなど
画像や動画から主要な3D情報を爆速で自動抽出できる「VGGT」が登場、カメラパラメータ・ポイントマップ・深度マップ・3Dポイントトラックなど
オックスフォード大学の研究チームとMetaのAI研究部門が、画像から3D情報を取り出す新しいAIモデル「VGGT」を発表しました。従来の技術では、3D情報を得るために複雑な計算処理が必要でしたが、VGGTは一度の処理で画像から直接、カメラの位置や向き、物体の奥行き、3D空間での点の位置などを素早く計算できます。
·gigazine.net·
画像や動画から主要な3D情報を爆速で自動抽出できる「VGGT」が登場、カメラパラメータ・ポイントマップ・深度マップ・3Dポイントトラックなど
ChatGPTにGPT-4oでの画像生成機能が実装されスタジオジブリ風のミーム画像が大量生成されるようになり著作権問題が浮き彫りに
ChatGPTにGPT-4oでの画像生成機能が実装されスタジオジブリ風のミーム画像が大量生成されるようになり著作権問題が浮き彫りに
2025年3月26日、OpenAIがGPT-4oによる高精度な画像生成機能「4o Image Generation」を発表しました。4o Image GenerationはチャットボットのChatGPTでも利用可能となっているのですが、これを使ったスタジオジブリ風のミーム画像が大量生成されており、改めてAIによる著作権侵害問題が浮き彫りになっています。
·gigazine.net·
ChatGPTにGPT-4oでの画像生成機能が実装されスタジオジブリ風のミーム画像が大量生成されるようになり著作権問題が浮き彫りに
OpenAIがChatGPTの新画像生成機能が「GPUが溶ける」ほど人気と発言、一時的に制限を設けざるを得ない状況
OpenAIがChatGPTの新画像生成機能が「GPUが溶ける」ほど人気と発言、一時的に制限を設けざるを得ない状況
2025年3月26日、OpenAIはChatGPTで利用可能な高精度な画像生成機能として「4o Image Generation」を発表しました。この4o Image Generationの人気により、OpenAIのサーバーのGPUが溶けるほど過剰な負荷がかかっていると、同社のサム・アルトマンCEOが発言しています。
·gigazine.net·
OpenAIがChatGPTの新画像生成機能が「GPUが溶ける」ほど人気と発言、一時的に制限を設けざるを得ない状況
数百台のカメラを使う大規模イベントの撮影で色を合わせる方法
数百台のカメラを使う大規模イベントの撮影で色を合わせる方法
大規模なスポーツイベントや音楽イベントの様子を映像として記録する場合、会場のさまざまな場所に合計数十台~数百台のカメラを設置する必要があります。大量のカメラの色を合わせる方法について、プログラミング言語「Elixir」の公式ブログに解説記事が掲載されています。
·gigazine.net·
数百台のカメラを使う大規模イベントの撮影で色を合わせる方法
AIは黒人と女性の病気を見逃してしまう、胸部X線写真の分析で判明
AIは黒人と女性の病気を見逃してしまう、胸部X線写真の分析で判明
カリフォルニア大学ロサンゼルス校の研究チームが、スタンフォード大学で2022年に開発された「CheXzero」というAIモデルによる疾患検出の精度を検証した結果、黒人や女性の患者における疾患の検出で偏りがあったと報告しています。
·gigazine.net·
AIは黒人と女性の病気を見逃してしまう、胸部X線写真の分析で判明
「Copilot+ PC」の画像生成やリアルタイム文字起こしなどのAI機能がAMDやIntelのCPU搭載デバイスに解禁へ
「Copilot+ PC」の画像生成やリアルタイム文字起こしなどのAI機能がAMDやIntelのCPU搭載デバイスに解禁へ
Microsoftが2025年3月31日に、これまでQualcommのSnapdragon Xシリーズ搭載デバイスでのみ利用できたCopilot+ PCの便利なAI機能を、「AMD Ryzen AI 300」シリーズと「Intel Core Ultra 200V」シリーズを搭載したCopilot+ PCでも利用可能にすることを発表しました。
·gigazine.net·
「Copilot+ PC」の画像生成やリアルタイム文字起こしなどのAI機能がAMDやIntelのCPU搭載デバイスに解禁へ
ついにApple Intelligenceが日本語に対応してiPhoneで「ラフな文章をビジネス用に書き換える機能」や「画像生成機能」が利用可能になったので使ってみた
ついにApple Intelligenceが日本語に対応してiPhoneで「ラフな文章をビジネス用に書き換える機能」や「画像生成機能」が利用可能になったので使ってみた
2025年3月31日(月)に「iOS 18.4」「iPadOS 18.4」「macOS Sequoia 15.4」がリリースされました。これにより、Apple製AIアシスタント「Apple Intelligence」の日本語版がiPhoneやiPad、Macで利用可能になったので、実際に使ってみました。
·gigazine.net·
ついにApple Intelligenceが日本語に対応してiPhoneで「ラフな文章をビジネス用に書き換える機能」や「画像生成機能」が利用可能になったので使ってみた
Apple Intelligenceの「カメラに写った物の詳細をAIに聞ける機能」や「画像内の不要物を消せる消しゴムマジックっぽい機能」を使ってみた
Apple Intelligenceの「カメラに写った物の詳細をAIに聞ける機能」や「画像内の不要物を消せる消しゴムマジックっぽい機能」を使ってみた
2025年3月31日(月)に「iOS 18.4」「iPadOS 18.4」「macOS Sequoia 15.4」がリリースされ、Apple製AIアシスタント「Apple Intelligence」の日本語版がiPhoneやiPad、Macで利用可能になりました。Apple Intelligenceで使える「カメラに写った物の詳細をAIに聞ける機能」や「画像内の不要物を除去する機能」の使い方をまとめてみました。
·gigazine.net·
Apple Intelligenceの「カメラに写った物の詳細をAIに聞ける機能」や「画像内の不要物を消せる消しゴムマジックっぽい機能」を使ってみた
ChatGPTの新たな画像生成機能を1週間で1億3000万人が使って7億枚以上を生成
ChatGPTの新たな画像生成機能を1週間で1億3000万人が使って7億枚以上を生成
OpenAIは現地時間の2025年3月25日、ChatGPTにGPT-4oを用いた高精度な画像生成機能「4o Image Generation」を追加しました。この新たな画像生成機能は世界中で大きな人気となり、リリースからわずか1週間で1億3000万人超が7億枚以上の画像を生成したとのことです。
·gigazine.net·
ChatGPTの新たな画像生成機能を1週間で1億3000万人が使って7億枚以上を生成
Googleによるアイトラッキング技術スタートアップ「AdHawk Microsystems」買収は最終段階
Googleによるアイトラッキング技術スタートアップ「AdHawk Microsystems」買収は最終段階
2025年3月11日に、Googleによるアイトラッキング技術を専門とするカナダのスタートアップ「AdHawk Microsystems」の買収に向けた交渉が最終段階に入っていることが報じられました。買収額は1億1500万ドル(約170億円)にのぼるとのことです。
·gigazine.net·
Googleによるアイトラッキング技術スタートアップ「AdHawk Microsystems」買収は最終段階
【無料コード配布中】AIが画像や写真の背景をうまく透明化してくれる「Aiarty Image Matting」使ってみたレビュー、商品画像やポートレート写真にピッタリでお役立ち
【無料コード配布中】AIが画像や写真の背景をうまく透明化してくれる「Aiarty Image Matting」使ってみたレビュー、商品画像やポートレート写真にピッタリでお役立ち
商品画像やポートレート写真、動物写真、イラスト素材、ロゴ画像などの背景をほぼ完璧に透過してしまうという、AIを活用したソフトウェアが「Aiarty Image Matting」です。32万枚の4K画像からなるデータセットでトレーニングされたAIモデルを使った高度な切り抜きが可能ということで、その実力を実際に使って確かめてみました。
·gigazine.net·
【無料コード配布中】AIが画像や写真の背景をうまく透明化してくれる「Aiarty Image Matting」使ってみたレビュー、商品画像やポートレート写真にピッタリでお役立ち
写真の撮影場所を瞬時に特定できるAIツール「GeoSpy」
写真の撮影場所を瞬時に特定できるAIツール「GeoSpy」
建物や植生、建築物同士の距離などをもとに、写真に写っている場所がどこなのかを秒単位で高精度で予測する「GeoSpy」というAIツールが、法執行機関を対象として販売されていることをニュースサイト・404 Mediaが報じています。
·gigazine.net·
写真の撮影場所を瞬時に特定できるAIツール「GeoSpy」
10年以上かけて撮影されたアンドロメダ銀河の超巨大パノラマ写真をNASAが公開、ピクセル数は脅威の約4億1000万
10年以上かけて撮影されたアンドロメダ銀河の超巨大パノラマ写真をNASAが公開、ピクセル数は脅威の約4億1000万
アメリカ航空宇宙局(NASA)がハッブル宇宙望遠鏡を用いて、10年以上をかけて撮影してきたアンドロメダ銀河の画像600枚をつなぎ合わせて作成した42208×9870ピクセルものパノラマ写真を公開しました。
·gigazine.net·
10年以上かけて撮影されたアンドロメダ銀河の超巨大パノラマ写真をNASAが公開、ピクセル数は脅威の約4億1000万
写真の閲覧&コレクション管理に特化したBlueskyクライアント「Atlas」のベータ版を使ってみたよレビュー
写真の閲覧&コレクション管理に特化したBlueskyクライアント「Atlas」のベータ版を使ってみたよレビュー
Blueskyはオープンなネットワークプロトコル「AT Protocol」をベースに開発されており、誰でも自由にサードパーティークライアントを開発することができます。「Atlas」はBluesky上に存在する画像付きポストの閲覧およびコレクション管理に特化しており、インスピレーションの共有などに役立つとのこと。面白そうだったので、Atlasのベータ版を使ってみました。
·gigazine.net·
写真の閲覧&コレクション管理に特化したBlueskyクライアント「Atlas」のベータ版を使ってみたよレビュー
テキストや画像から高精度な3Dアセットを作り出すAIシステム「Hunyuan3D 2.0」をTencentがオープンソースで公開
テキストや画像から高精度な3Dアセットを作り出すAIシステム「Hunyuan3D 2.0」をTencentがオープンソースで公開
中国の大手IT企業であるTencentが、単一の画像やテキストのプロンプトから高精度の3Dアセットを生成するAIシステム「Hunyuan3D 2.0」を発表しました。「Hunyuan3D 2.0」のソースコードは、AIプラットフォームのHugging Faceでオープンソースとして公開されています。
·gigazine.net·
テキストや画像から高精度な3Dアセットを作り出すAIシステム「Hunyuan3D 2.0」をTencentがオープンソースで公開
ChromeOSに顔でPCを操作できる機能「Face control」が登場
ChromeOSに顔でPCを操作できる機能「Face control」が登場
Googleが2025年1月22日、ロンドンで開催されたヨーロッパ最大の教育テクノロジー見本市「Bett 2025」で、顔を動かしてデバイスを操作できるユーザー補助機能である「Face Control」をChromebookに統合することを発表しました。
·gigazine.net·
ChromeOSに顔でPCを操作できる機能「Face control」が登場
メモリ1GB未満のノートPCでも動くビジュアル言語モデル「Smolvlm-256m」「Smolvlm-500m」をHugging Faceがリリース
メモリ1GB未満のノートPCでも動くビジュアル言語モデル「Smolvlm-256m」「Smolvlm-500m」をHugging Faceがリリース
AI開発プラットフォームのHugging Faceが、画像や短い動画、テキストを分析できるAIモデルとしては最小となる「SmolVLM-256M」「SmolVLM-500M」をリリースしました。Hugging Faceによれば、この2モデルはメモリが1GB未満のノートPCでも適切に動作するように設計されているとのことです。
·gigazine.net·
メモリ1GB未満のノートPCでも動くビジュアル言語モデル「Smolvlm-256m」「Smolvlm-500m」をHugging Faceがリリース
約5010万画素でAF追尾しつつ秒間30コマ連写可能なソニーのミラーレスカメラ「α1 II」外観レビュー
約5010万画素でAF追尾しつつ秒間30コマ連写可能なソニーのミラーレスカメラ「α1 II」外観レビュー
2024年12月に発売したソニーのミラーレスカメラ「α1 II」は、「有効画素数約5010万画素」「AF追従しつつ秒間30コマで連写可能」「AI処理ユニットで被写体を自動認識して追尾」といった高度な機能を備えています。そんなα1 IIをソニーから借りられたので、まずは外観を細かくチェックしてみました。
·gigazine.net·
約5010万画素でAF追尾しつつ秒間30コマ連写可能なソニーのミラーレスカメラ「α1 II」外観レビュー
無料でAIによる動画生成&編集がウェブブラウザ上で可能なオープンソースエディターツール「AI Video Starting Kit」が登場
無料でAIによる動画生成&編集がウェブブラウザ上で可能なオープンソースエディターツール「AI Video Starting Kit」が登場
開発者向けの生成メディアプラットフォーム「fal.ai」が、オープンソースの生成AI搭載動画編集ツール「AI Video Starting Kit」を公開しました。ウェブブラウザ上で動画生成AIモデルの操作が可能になり、その場で編集することが可能です。
·gigazine.net·
無料でAIによる動画生成&編集がウェブブラウザ上で可能なオープンソースエディターツール「AI Video Starting Kit」が登場
「複数のURLを読み取れるQRコード」がインターネット上に登場
「複数のURLを読み取れるQRコード」がインターネット上に登場
QRコードは基本的に1つのデータしか保存できません。ところが、「角度によって異なるURLを読み取らせるQRコード」がインターネット上に投稿されて話題を呼んでいます。
·gigazine.net·
「複数のURLを読み取れるQRコード」がインターネット上に登場
DeepSeekが画像生成モデル「Janus Pro」をMITライセンスで公開、DALL-E 3を超える性能と自負
DeepSeekが画像生成モデル「Janus Pro」をMITライセンスで公開、DALL-E 3を超える性能と自負
中国のAIスタートアップであるDeepSeekが、独自の画像生成モデル「Janus Pro」を公開しました。Janus ProはOpenAIの画像生成AIであるDALL-E 3を上回る性能を持つとアピールされており、MITライセンスで公開されています。
·gigazine.net·
DeepSeekが画像生成モデル「Janus Pro」をMITライセンスで公開、DALL-E 3を超える性能と自負
PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能
PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能
Alibaba CloudのAI研究チームであるQwenが、視覚言語モデル「Qwen2.5 VL」をリリースしました。Qwen2.5 VLは画像に含まれる被写体の種類を認識したり文字を書き起こしたりできるだけでなく、PCやスマートフォンのUIを認識して自動操作することもできます。
·gigazine.net·
PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能
AIを使って複数枚の画像から抽出した異なる要素を組み合わせて1枚の画像を生成する「TokenVerse」
AIを使って複数枚の画像から抽出した異なる要素を組み合わせて1枚の画像を生成する「TokenVerse」
Google DeepMindの研究チームが、画像の中から特定の視覚的要素や属性を抽出し、AIを使って複数枚の画像から抽出した要素を組み合わせ、自然な1枚の画像を生成する手法「TokenVerse」を発表しました。研究チームはウェブサイト上で、TokenVerseを使ってどのような画像が生成できるのかを解説しています。
·gigazine.net·
AIを使って複数枚の画像から抽出した異なる要素を組み合わせて1枚の画像を生成する「TokenVerse」
AIは古文書を読むのが得意、古文書の写真を見せるだけで内容の読み取りが可能&専門家でも気付きにくい細かなポイントにも対応可能
AIは古文書を読むのが得意、古文書の写真を見せるだけで内容の読み取りが可能&専門家でも気付きにくい細かなポイントにも対応可能
AIはすさまじい勢いで発展しており、AIを研究分野で用いる動きも活発化しています。カリフォルニア大学サンタクルーズ校で歴史を研究しているベンジャミン・ブリーン氏は、OpenAI製AIの古文書解読能力の高さを絶賛しています。
·gigazine.net·
AIは古文書を読むのが得意、古文書の写真を見せるだけで内容の読み取りが可能&専門家でも気付きにくい細かなポイントにも対応可能
Windowsの「ペイント」にCopilotボタンが追加、AIによる画像生成や背景の削除などが手軽に
Windowsの「ペイント」にCopilotボタンが追加、AIによる画像生成や背景の削除などが手軽に
Microsoftが2025年1月31日に、Windows Insider向けの更新プログラム「KB5050090」をリリースしました。このアップデートでは、Windowsの標準アプリ「ペイント」内に生成AI機能を手軽に使用するためのCopilotボタンが追加されました。
·gigazine.net·
Windowsの「ペイント」にCopilotボタンが追加、AIによる画像生成や背景の削除などが手軽に