画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2587 bookmarks

Custom sorting

一般家庭の手頃なハードウェア上で瞬時に画像を生成できるオープンソースAIモデル「NitroFusion」がリリースされる

イギリス・サリー大学のサリー人間中心人工知能研究所が、控えめで手頃な価格のハードウェアのみを使用して瞬時に画像を生成するAIモデル「NitroFusion」を作成したと発表しました。

·gigazine.net·Dec 12, 2024

一般家庭の手頃なハードウェア上で瞬時に画像を生成できるオープンソースAIモデル「NitroFusion」がリリースされる

GoogleがAIでChromeを自動操作できる「Project Mariner」を発表

Googleが現地時間2024年12月11日に、ブラウザ上の情報を理解して自動操作できるAI「Project Mariner」を発表しました。Project Marinerを使えば「スプレッドシートにまとめた企業名をもとに各企業のメールアドレスを検索してまとめる」といった複雑な操作を自動で実行できます。

·gigazine.net·Dec 12, 2024

GoogleがAIでChromeを自動操作できる「Project Mariner」を発表

映像や音声を理解してリアルタイムで質問に答えてくれるGoogle製AIアシスタント「Project Astra」をスマホやスマートグラスで使いまくるデモ動画が公開中

Googleは2024年5月、映像や音声を理解してリアルタイムで質問に答えてくれるAIアシスタント「Project Astra(Astra)」を発表しました。現地時間の12月11日に公開された新たな動画では、Astraのテストビルドを搭載したPixelスマートフォンやプロトタイプのスマートグラスを持ち出し、街中のあらゆる場面でAstraを使いまくる様子を確認できます。

·gigazine.net·Dec 12, 2024

ロボットや自動運転車が周囲を把握するためのツール「LiDAR」の仕組みとは？

周囲の状況を把握するために役立つスキャンシステム「LiDAR」は、周囲の状況に応じた処理が必要となる自動運転技術を始め、自律型ロボットや周囲をスキャンする3Dアプリなどさまざまな分野に使用されています。そんなLiDARの仕組みがどうなっているのかについて、エンジニアリングが専門のヴィクラム・セカール氏が解説しました。

·gigazine.net·Dec 10, 2024

ロボットや自動運転車が周囲を把握するためのツール「LiDAR」の仕組みとは？

OpenAIの動画生成AI「Sora」の早期アクセスが漏えい

OpenAIは2024年2月に発表した動画生成AIの「Sora」を一般向けには公開しておらず、一部の動画クリエイターなどにのみ早期アクセス権を付与しています。そんなSoraの早期アクセス権を取得した何者かが、Soraが誰でも利用できるようにフロントエンドを作成し、リークしました。

·gigazine.net·Dec 10, 2024

OpenAIの動画生成AI「Sora」の早期アクセスが漏えい

Googleの生成AI「Gemini」と「Imagen 3」でオリジナルなチェスの駒を生成できるサイト「GenChess」

Googleのチャットボットである「Gemini」と、画像生成モデル「Imagen 3」を組み合わせて、クリエイティブで個性豊かなデザインをしたチェスの駒を生成できるサイト「GenChess」が公開されたので、さっそく使ってみました。

·gigazine.net·Dec 10, 2024

Googleの生成AI「Gemini」と「Imagen 3」でオリジナルなチェスの駒を生成できるサイト「GenChess」

ノートPCのウェブカメラでLEDを点灯させずにこっそり撮影するハッキングが可能である事が実証される

Linuxカーネルセキュリティエンジニアのアンドレイ・コノヴァロフ氏が、ThinkPad X230に付属しているウェブカメラのLEDがコードで制御できることを実証しました。これにより、マルウェアはLEDを点灯させずユーザーに気付かれることなくウェブカメラを使用して撮影することが可能とのことです。

·gigazine.net·Dec 10, 2024

ノートPCのウェブカメラでLEDを点灯させずにこっそり撮影するハッキングが可能である事が実証される

「youtube-dl」のホスティングプロバイダーには著作権侵害の責任があるとの判決

YouTubeから動画をダウンロードできるオープンソースツール「youtube-dl」は、YouTubeにおける著作権侵害を助長しているとして、ソニー・エンタテインメントをはじめとするレコード大手3社がyoutube-dlをホスティングしていたプロバイダーのUberspaceを提訴した訴訟で、ドイツの裁判所がUberspaceの控訴を却下する判決を下しました。

·gigazine.net·Dec 10, 2024

「youtube-dl」のホスティングプロバイダーには著作権侵害の責任があるとの判決

不正な顔認識を阻止するAIモデル「カメレオン」が開発される

顔写真に特殊なプライバシーマスクを施すことで、顔をスキャンしても顔写真を特定できないようにする技術「Chameleon(カメレオン)」をジョージア工科大学の研究者らが開発しました。

·gigazine.net·Dec 10, 2024

不正な顔認識を阻止するAIモデル「カメレオン」が開発される

「画像からゲームのように視点操作可能な3Dシーンを生成するAI」をWorld Labsが発表、実際に3Dシーンを探索できるデモページも公開中

「AIのゴッドマザー」とも呼ばれるフェイフェイ・リ氏が設立したAI開発企業のWorld Labsが、「1枚の画像からゲームのように視点を操作して探索できる3Dシーンを生成するAI」を開発しました。AIが生成した3Dシーンを探索できるデモページも公開されていたので、実際にAI生成の3Dシーンがどのようなものになっているのか確かめてみました。

·gigazine.net·Dec 10, 2024

「画像からゲームのように視点操作可能な3Dシーンを生成するAI」をWorld Labsが発表、実際に3Dシーンを探索できるデモページも公開中

AmazonがAWS上で利用可能なマルチモーダル生成AIモデル「Amazon Nova」を発表

Amazonのクラウドコンピューティング部門であるAmazon Web Services(AWS)は、2024年12月2日からラスベガスで開催されているイベント「re:Invent 2024」で、独自のマルチモーダル生成AIモデル「Amazon Nova」を発表しました。Amazon Novaは複数モデルが用意されており、そのうち3モデルは12月3日からAWSの顧客向けに提供されます。

·gigazine.net·Dec 10, 2024

AmazonがAWS上で利用可能なマルチモーダル生成AIモデル「Amazon Nova」を発表

Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表

Google DeepMindが、単一の入力画像からプレイ可能な3D環境を生成できる基盤的世界モデル「Genie 2」を2024年12月4日に発表しました。Genie 2で生成した世界は、人間やAIエージェントがキーボードとマウスを使った操作で移動することが可能です。

·gigazine.net·Dec 10, 2024

Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表

Googleの最先端動画生成モデル「Veo」と最高品質の画像生成モデル「Imagen 3」のプレビュー提供がAI開発プラットフォーム「Vertex AI」でスタート

AIの開発・運用が簡単に行えるようになるGoogleのプラットフォーム「Vertex AI」で、動画生成モデルの「Veo」と画像生成モデル「Imagen 3」のプライベートプレビュー版提供が始まりました。

·gigazine.net·Dec 10, 2024

Googleの最先端動画生成モデル「Veo」と最高品質の画像生成モデル「Imagen 3」のプレビュー提供がAI開発プラットフォーム「Vertex AI」でスタート

Googleがファインチューニングしやすいビジュアル言語モデル「PaliGemma 2」をリリース

Googleが2024年12月5日に、オープンかつ軽量な言語モデル「Gemma 2」をベースに視覚機能を追加したビジュアル言語モデルの「PaliGemma 2」を発表しました。

·gigazine.net·Dec 10, 2024

Googleがファインチューニングしやすいビジュアル言語モデル「PaliGemma 2」をリリース

MicrosoftがAIでウェブページ上のテキストと画像を分析して回答する「Copilot Vision」のプレビュー版をリリース

2024年12月5日にMicrosoftが、ウェブブラウザ「Edge」で閲覧中のウェブページを分析し、ユーザーからの質問への回答やテキストの要約・翻訳、割引商品にスポットを当てるなどのタスクを処理できるAI機能「Copilot Vision」のプレビュー版を一部ユーザー向けにリリースしたことを発表しました。

·gigazine.net·Dec 10, 2024

MicrosoftがAIでウェブページ上のテキストと画像を分析して回答する「Copilot Vision」のプレビュー版をリリース

自分の創作物がAI学習に使用されたかどうかを確認できるようになる「AIの透明性と責任に関する法案」がアメリカで提出される

自分の作品がAIの学習に許可なく使用されたかどうかを簡単に確認できるようにするための法案「人工知能ネットワークの透明性と責任(TRAIN)法」がアメリカで提出されました。この法案が実現すれば、著作権者は学習の記録にアクセスできるようになり、自分の作品が使用されたかどうかを確認できるようになるとのことです。

·gigazine.net·Dec 10, 2024

自分の創作物がAI学習に使用されたかどうかを確認できるようになる「AIの透明性と責任に関する法案」がアメリカで提出される

MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮

Metaが大規模言語モデル「Llama 3.3」を2024年12月6日(土)にリリースしました。記事作成時点ではパラメーター数70Bのモデルがリリースされており、Amazonの基盤モデル「Amazon Nova Pro」と比べて低コストかつ高性能であることや、旧世代の上位モデルに匹敵する性能を備えていることがアピールされています。

·gigazine.net·Dec 10, 2024

MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮

Xに「実写風の写真を作れる画像生成AI」が一瞬だけ追加される

X(旧Twitter)に、実写風画像に特化した画像生成AI「Aurora」が一瞬だけ実装されたことがわかりました。実在の人物や「血まみれのドナルド・トランプ」などさまざまな画像がユーザーにより生成されましたが、Auroraは数時間で利用できなくなりました。

·gigazine.net·Dec 10, 2024

Xに「実写風の写真を作れる画像生成AI」が一瞬だけ追加される

顔認識を回避するには顔をどのくらい変更する必要があるのか？

スマートフォンやPCのログインにも導入されている顔認識技術は、はじめに素顔を登録していれば、メガネをかけたり化粧をしたりしても認識可能で、マスクやスカーフ、サングラスなどで変装しても問題なく本人だと認識できるものもあります。顔認識による監視システムを導入する国がある中で、そのような監視から逃れて「顔認証で本人と特定されない変装方法」について複数の専門家が解説しています。

·gigazine.net·Dec 10, 2024

顔認識を回避するには顔をどのくらい変更する必要があるのか？

OpenAIが動画生成AI「Sora」を正式にリリース、ChatGPT Plus・Proプランで利用可能

OpenAIが2024年2月より研究プレビューを行っていた動画生成AI「Sora」の新たなバージョンとして「Sora Turbo」を開発し、正式にリリースしました。ChatGPTのPlusおよびProプランに加入することで利用可能となります。

·gigazine.net·Dec 10, 2024

OpenAIが動画生成AI「Sora」を正式にリリース、ChatGPT Plus・Proプランで利用可能

OpenAIは動画生成AI「Sora」で実在の人物が映る動画や既存のアーティストをまねる動画の生成を制限している

OpenAIは動画生成AIのSoraの製品版となる「Sora Turbo」を2024年12月9日にリリースしました。しかし、OpenAIはさらなるテストが完了するまで、実在の人物を取り込んだ動画を生成できる機能をごく一部のユーザー以外には公開しないことを明らかにしています。

·gigazine.net·Dec 10, 2024

OpenAIは動画生成AI「Sora」で実在の人物が映る動画や既存のアーティストをまねる動画の生成を制限している

NVIDIAが「自由に視点変更可能なライブ配信」を実現するオープンソースAIモデル「QUEEN」を発表、コンパクトなファイルサイズでありながら競合高画質

半導体大手のNVIDIAが、ビデオ会議やライブ配信などで「自由に視点を変更できる映像」を配信することが可能になるオープンソースのAIモデル「QUEEN」を発表しました。QUEENは出力が低帯域幅でありながら、高品質なシーンの生成が可能であるため、NVIDIAは「ライブ配信を新たな次元に導く」とアピールしています。

·gigazine.net·Dec 10, 2024

【無料コード配布中】髪の毛や半透明オブジェクトなどでも完璧にAIで背景透過に変える「Aiarty Image Matting」でいろんな写真を透過しまくってみた

髪の毛や毛皮、低照度画像、透明・半透明のオブジェクトなど背景とオブジェクトの判別が難しい写真でも完璧に背景の透過ができるというAIソフトウェアが「Aiarty Image Matting」です。32万枚の4K画像でトレーニングしたという4つのAIモデルを駆使して精巧な背景透過を実現しているということだったので、実際に使ってみました。

·gigazine.net·Dec 10, 2024

【無料コード配布中】髪の毛や半透明オブジェクトなどでも完璧にAIで背景透過に変える「Aiarty Image Matting」でいろんな写真を透過しまくってみた

テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」

テキスト入力から多用途かつ高品質な3Dアセットを自動生成できる新しい3D生成AIモデル「TRELLIS」を、清華大学・中国科学技術大学・Microsoft Researchの共同研究チームが発表しました。このTRELLISには、「SLAT(Structured LATents)」と呼ばれる新しい手法が用いられています。

·gigazine.net·Dec 10, 2024

テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」

人物写真に特化した画像生成AI学習ツール「FLUX Portrait Trainer」登場

画像生成AI「FLUX」の開発チームが、高品質なポートレートの生成に特化した新たなトレーナー「FLUX Portrait Trainer」を公開しました。特徴としてはディテールの細かさや瞳のハイライト、さまざまな顔の大きさのよりよい表現などが挙げられています。

·gigazine.net·Nov 29, 2024

人物写真に特化した画像生成AI学習ツール「FLUX Portrait Trainer」登場

AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている

AIのスケーリング則は2020年1月にOpenAIが提唱した法則で、「AIモデルの性能は、『学習に使われるデータの規模』『学習に使われる計算量』『モデルのパラメーター数』が増加するほど強化される」というものです。この法則について、AIの動向に詳しいゲイリー・マーカス氏が「AI業界ではスケーリング則が通用しなくなっている」と指摘する記事を公開しています。

·gigazine.net·Nov 29, 2024

AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている

Amazonの新しい生成AIモデル「Olympus」は画像・動画・文章を処理でき、早ければ来週のAWS re:Inventで発表される可能性あり

Amazonが画像・動画・文章を処理可能なマルチモーダルAIモデル「Olympus」の開発を進めており、2024年12月2日～6日に開催予定のAWS re:Inventで発表する可能性が高いとアメリカのニュースサイト「The Information」が報じました。

·gigazine.net·Nov 29, 2024

Amazonの新しい生成AIモデル「Olympus」は画像・動画・文章を処理でき、早ければ来週のAWS re:Inventで発表される可能性あり

LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し

SkyvernはテキストでAIに指示することでブラウザを使用するワークフローを自動化してくれるツールです。コードで自動化する場合と異なり、多少ウェブサイトの構造が変わっても問題なく対応可能なのが特徴です。有料のサービスであるものの、記事作成時点ではアカウントを作成すると5ドル(約770円)分のクレジットが付与されるとのことだったので、実際に使い勝手を確かめてみました。

·gigazine.net·Nov 24, 2024

ノーコード・ローコードに限界生成AIのコード自動生成で一変

ノーコード・ローコードツールはソフトウエア開発を容易にしたが、カスタマイズ性が低い。生成AIを活用したコーディング支援サービスの登場がそんな状況を一変させた。新たなコード自動生成サービスが続々登場し、ユースケースを広げている。

·xtech.nikkei.com·Nov 23, 2024

ノーコード・ローコードに限界生成AIのコード自動生成で一変

ヤギの顔から痛みを感じているかどうかを判別するAIが登場

フロリダ大学の研究チームが、AIを使ってヤギの痛みを検出する手法を開発したと発表しました。結石に苦しむヤギから手術後のヤギまで、さまざまな状態のヤギの表情を分析し、痛みの有無を判別することに成功したとのことです。

·gigazine.net·Nov 23, 2024

ヤギの顔から痛みを感じているかどうかを判別するAIが登場