Search 画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

Found 2589 bookmarks

Newest

Googleによるアイトラッキング技術スタートアップ「AdHawk Microsystems」買収は最終段階

2025年3月11日に、Googleによるアイトラッキング技術を専門とするカナダのスタートアップ「AdHawk Microsystems」の買収に向けた交渉が最終段階に入っていることが報じられました。買収額は1億1500万ドル(約170億円)にのぼるとのことです。

·gigazine.net·today at 12:21 PM

Googleによるアイトラッキング技術スタートアップ「AdHawk Microsystems」買収は最終段階

【無料コード配布中】AIが画像や写真の背景をうまく透明化してくれる「Aiarty Image Matting」使ってみたレビュー、商品画像やポートレート写真にピッタリでお役立ち

商品画像やポートレート写真、動物写真、イラスト素材、ロゴ画像などの背景をほぼ完璧に透過してしまうという、AIを活用したソフトウェアが「Aiarty Image Matting」です。32万枚の4K画像からなるデータセットでトレーニングされたAIモデルを使った高度な切り抜きが可能ということで、その実力を実際に使って確かめてみました。

·gigazine.net·today at 12:18 PM

カメラ付きインターホンで「隕石衝突の瞬間」の録画に成功、大きな衝撃音もバッチリ録音

カナダ・プリンスエドワード島のある住宅に設置されたドアベルカメラが、2024年7月に地球に飛来した隕石(いんせき)が落下する様子を捉えました。

·gigazine.net·Mar 7, 2025

カメラ付きインターホンで「隕石衝突の瞬間」の録画に成功、大きな衝撃音もバッチリ録音

写真の撮影場所を瞬時に特定できるAIツール「GeoSpy」

建物や植生、建築物同士の距離などをもとに、写真に写っている場所がどこなのかを秒単位で高精度で予測する「GeoSpy」というAIツールが、法執行機関を対象として販売されていることをニュースサイト・404 Mediaが報じています。

·gigazine.net·Mar 7, 2025

写真の撮影場所を瞬時に特定できるAIツール「GeoSpy」

10年以上かけて撮影されたアンドロメダ銀河の超巨大パノラマ写真をNASAが公開、ピクセル数は脅威の約4億1000万

アメリカ航空宇宙局(NASA)がハッブル宇宙望遠鏡を用いて、10年以上をかけて撮影してきたアンドロメダ銀河の画像600枚をつなぎ合わせて作成した42208×9870ピクセルものパノラマ写真を公開しました。

·gigazine.net·Mar 7, 2025

10年以上かけて撮影されたアンドロメダ銀河の超巨大パノラマ写真をNASAが公開、ピクセル数は脅威の約4億1000万

写真の閲覧＆コレクション管理に特化したBlueskyクライアント「Atlas」のベータ版を使ってみたよレビュー

Blueskyはオープンなネットワークプロトコル「AT Protocol」をベースに開発されており、誰でも自由にサードパーティークライアントを開発することができます。「Atlas」はBluesky上に存在する画像付きポストの閲覧およびコレクション管理に特化しており、インスピレーションの共有などに役立つとのこと。面白そうだったので、Atlasのベータ版を使ってみました。

·gigazine.net·Mar 7, 2025

写真の閲覧＆コレクション管理に特化したBlueskyクライアント「Atlas」のベータ版を使ってみたよレビュー

テキストや画像から高精度な3Dアセットを作り出すAIシステム「Hunyuan3D 2.0」をTencentがオープンソースで公開

中国の大手IT企業であるTencentが、単一の画像やテキストのプロンプトから高精度の3Dアセットを生成するAIシステム「Hunyuan3D 2.0」を発表しました。「Hunyuan3D 2.0」のソースコードは、AIプラットフォームのHugging Faceでオープンソースとして公開されています。

·gigazine.net·Mar 7, 2025

テキストや画像から高精度な3Dアセットを作り出すAIシステム「Hunyuan3D 2.0」をTencentがオープンソースで公開

ChromeOSに顔でPCを操作できる機能「Face control」が登場

Googleが2025年1月22日、ロンドンで開催されたヨーロッパ最大の教育テクノロジー見本市「Bett 2025」で、顔を動かしてデバイスを操作できるユーザー補助機能である「Face Control」をChromebookに統合することを発表しました。

·gigazine.net·Mar 7, 2025

ChromeOSに顔でPCを操作できる機能「Face control」が登場

メモリ1GB未満のノートPCでも動くビジュアル言語モデル「Smolvlm-256m」「Smolvlm-500m」をHugging Faceがリリース

AI開発プラットフォームのHugging Faceが、画像や短い動画、テキストを分析できるAIモデルとしては最小となる「SmolVLM-256M」「SmolVLM-500M」をリリースしました。Hugging Faceによれば、この2モデルはメモリが1GB未満のノートPCでも適切に動作するように設計されているとのことです。

·gigazine.net·Mar 7, 2025

メモリ1GB未満のノートPCでも動くビジュアル言語モデル「Smolvlm-256m」「Smolvlm-500m」をHugging Faceがリリース

約5010万画素でAF追尾しつつ秒間30コマ連写可能なソニーのミラーレスカメラ「α1 II」外観レビュー

2024年12月に発売したソニーのミラーレスカメラ「α1 II」は、「有効画素数約5010万画素」「AF追従しつつ秒間30コマで連写可能」「AI処理ユニットで被写体を自動認識して追尾」といった高度な機能を備えています。そんなα1 IIをソニーから借りられたので、まずは外観を細かくチェックしてみました。

·gigazine.net·Mar 7, 2025

約5010万画素でAF追尾しつつ秒間30コマ連写可能なソニーのミラーレスカメラ「α1 II」外観レビュー

無料でAIによる動画生成＆編集がウェブブラウザ上で可能なオープンソースエディターツール「AI Video Starting Kit」が登場

開発者向けの生成メディアプラットフォーム「fal.ai」が、オープンソースの生成AI搭載動画編集ツール「AI Video Starting Kit」を公開しました。ウェブブラウザ上で動画生成AIモデルの操作が可能になり、その場で編集することが可能です。

·gigazine.net·Mar 7, 2025

無料でAIによる動画生成＆編集がウェブブラウザ上で可能なオープンソースエディターツール「AI Video Starting Kit」が登場

「複数のURLを読み取れるQRコード」がインターネット上に登場

QRコードは基本的に1つのデータしか保存できません。ところが、「角度によって異なるURLを読み取らせるQRコード」がインターネット上に投稿されて話題を呼んでいます。

·gigazine.net·Mar 7, 2025

「複数のURLを読み取れるQRコード」がインターネット上に登場

DeepSeekが画像生成モデル「Janus Pro」をMITライセンスで公開、DALL-E 3を超える性能と自負

中国のAIスタートアップであるDeepSeekが、独自の画像生成モデル「Janus Pro」を公開しました。Janus ProはOpenAIの画像生成AIであるDALL-E 3を上回る性能を持つとアピールされており、MITライセンスで公開されています。

·gigazine.net·Mar 7, 2025

DeepSeekが画像生成モデル「Janus Pro」をMITライセンスで公開、DALL-E 3を超える性能と自負

PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能

Alibaba CloudのAI研究チームであるQwenが、視覚言語モデル「Qwen2.5 VL」をリリースしました。Qwen2.5 VLは画像に含まれる被写体の種類を認識したり文字を書き起こしたりできるだけでなく、PCやスマートフォンのUIを認識して自動操作することもできます。

·gigazine.net·Mar 7, 2025

AIを使って複数枚の画像から抽出した異なる要素を組み合わせて1枚の画像を生成する「TokenVerse」

Google DeepMindの研究チームが、画像の中から特定の視覚的要素や属性を抽出し、AIを使って複数枚の画像から抽出した要素を組み合わせ、自然な1枚の画像を生成する手法「TokenVerse」を発表しました。研究チームはウェブサイト上で、TokenVerseを使ってどのような画像が生成できるのかを解説しています。

·gigazine.net·Mar 7, 2025

AIを使って複数枚の画像から抽出した異なる要素を組み合わせて1枚の画像を生成する「TokenVerse」

AIは古文書を読むのが得意、古文書の写真を見せるだけで内容の読み取りが可能＆専門家でも気付きにくい細かなポイントにも対応可能

AIはすさまじい勢いで発展しており、AIを研究分野で用いる動きも活発化しています。カリフォルニア大学サンタクルーズ校で歴史を研究しているベンジャミン・ブリーン氏は、OpenAI製AIの古文書解読能力の高さを絶賛しています。

·gigazine.net·Mar 7, 2025

AIは古文書を読むのが得意、古文書の写真を見せるだけで内容の読み取りが可能＆専門家でも気付きにくい細かなポイントにも対応可能

Windowsの「ペイント」にCopilotボタンが追加、AIによる画像生成や背景の削除などが手軽に

Microsoftが2025年1月31日に、Windows Insider向けの更新プログラム「KB5050090」をリリースしました。このアップデートでは、Windowsの標準アプリ「ペイント」内に生成AI機能を手軽に使用するためのCopilotボタンが追加されました。

·gigazine.net·Mar 7, 2025

Windowsの「ペイント」にCopilotボタンが追加、AIによる画像生成や背景の削除などが手軽に

もう何も信じられないレベルでリアルなディープフェイク動画が作れるByteDanceのAI「OmniHuman-1」が登場

1枚の写真から人が自然に話したり、歌ったり、動いたりするリアルな動画を出力するAIシステム「OmniHuman-1」を中国のByteDanceが発表しました。

·gigazine.net·Mar 7, 2025

もう何も信じられないレベルでリアルなディープフェイク動画が作れるByteDanceのAI「OmniHuman-1」が登場

iOSアプリで初めてテキスト画像認識で機密情報を読み取るマルウェアが発見される

セキュリティ企業のKasperskyが、AndroidアプリとiOSアプリでテキスト画像認識機能を持つマルウェアを発見したと報告しています。「SparkCat」と呼ばれるこのマルウェアはユーザーが撮影したスクリーンショットの内容を読み取る機能を持っており、特に仮想通貨ウォレットのリカバリーフレーズを狙っていたとのことです。

·gigazine.net·Mar 7, 2025

iOSアプリで初めてテキスト画像認識で機密情報を読み取るマルウェアが発見される

Googleの画像編集AI「イマジネーション」に生成AIを利用したことを示す電子透かし「SynthID」を埋め込む仕組みが追加される

Pixel 9シリーズには、生成AIを用いて画像の一部を別の物体に置き換える「イマジネーション」という機能が搭載されています。このイマジネーションで加工した画像に対して、生成AIを用いたことを示す電子透かし「SynthID」の埋め込みを開始することが発表されました。

·gigazine.net·Mar 7, 2025

Googleの画像編集AI「イマジネーション」に生成AIを利用したことを示す電子透かし「SynthID」を埋め込む仕組みが追加される

初の「AIアート専門オークション」をクリスティーズが開催へ、ただし出品中止を求める公開書簡あり

オークションハウス大手のクリスティーズが「AIアート専門オークション」を開催することを発表しました。クリスティーズにはすでにAIアートを扱った実績がありますが、まるごとAI作品のみで行われるオークションは初となります。なお、オークションに出品予定のアーティストに対して、「著作権のある作品でトレーニングされたAIモデルが使われているのではないか」との懸念から、出品の中止を求める公開書簡が出されています。

·gigazine.net·Mar 7, 2025

初の「AIアート専門オークション」をクリスティーズが開催へ、ただし出品中止を求める公開書簡あり

AIでディープフェイク動画を作られたスカーレット・ヨハンソンがAI規制を訴える

女優のスカーレット・ヨハンソン氏が、自身のAIディープフェイク動画がネット上で拡散されたことを受けて政府にAIを規制する法案の可決を最優先課題にするよう要請していることが報じられました。

·gigazine.net·Mar 7, 2025

AIでディープフェイク動画を作られたスカーレット・ヨハンソンがAI規制を訴える

Adobeがウェブアプリ「Adobe Firefly」内で使えるAI動画生成サービス「Firefly Video Model」のパブリックベータ版を公開

Adobeが2025年2月13日に、AI動画生成サービス「Firefly Video Model」のパブリックベータ版を公開しました。Firefly Video Modelでは画像またはテキストプロンプトを使って5秒間の動画を誰でも生成することが可能です。

·gigazine.net·Mar 7, 2025

Adobeがウェブアプリ「Adobe Firefly」内で使えるAI動画生成サービス「Firefly Video Model」のパブリックベータ版を公開

Googleが複数画像をミックスして新しいイメージを生み出す画像生成AI「Whisk」を日本含む100カ国以上で利用可能に、モデル・背景・スタイルの3つを画像orテキストで入力するとImagen 3がフュージョンしてくれる

Googleが複数の入力画像をベースに新しい画像を生成できる画像生成AIの「Whisk」を、日本を含む100カ国以上で利用可能にしています。Whiskは入力画像をGeminiでキャプションに変換し、これをGoogleの画像生成モデルであるImagen 3で画像に変換しているとのことで、実際にどんな画像が生成できるのか気になったので使って確かめてみました。

·gigazine.net·Mar 7, 2025

YouTubeショートにGoogle製動画生成AI「Veo 2」を用いた動画作成機能が追加される

YouTubeショートのAIを用いた動画作成補助機能「Dream Screen」に、Google製動画生成AI「Veo 2」を用いて動画を作る機能が追加されました。ユーザーは動画投稿時にVeo 2を用いて動画や画像を生成し、動画内の1シーンとして使うことができます。

·gigazine.net·Mar 7, 2025

YouTubeショートにGoogle製動画生成AI「Veo 2」を用いた動画作成機能が追加される

バーチャル空間に生きるデジタル生物がゼロから「目」を進化させる様子を観察する研究をMITが行っている

視覚は人間を含む多くの動物にとって重要な感覚であり、生息環境や生態に応じてさまざまなタイプの「目」が存在しています。そんな生物における目の進化を調べるため、マサチューセッツ工科大学(MIT)がバーチャル空間に生きるデジタル生物を用いて、目の進化を観察する研究を行っています。

·gigazine.net·Mar 7, 2025

バーチャル空間に生きるデジタル生物がゼロから「目」を進化させる様子を観察する研究をMITが行っている

建物の輪郭をAIより正確に認識することで「私はロボットではありません」と証明するオープンソースの「MapTCHA」が登場

インターネット上にはボットやスパムが溢れているため、これらへの対策はオンラインプラットフォームにとって大きな課題です。ボット対策として知られるテクノロジーのひとつがCAPTCHAですが、実装にはいくつかの問題があります。そんな中、オープンライセンスの世界地図であるOpenStreetMapを改善するためのオープンソースのCAPTCHAとして、「MapTCHA」が登場しました。

·gigazine.net·Mar 7, 2025

建物の輪郭をAIより正確に認識することで「私はロボットではありません」と証明するオープンソースの「MapTCHA」が登場