画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2550 bookmarks
Custom sorting
「youtube-dl」のホスティングプロバイダーには著作権侵害の責任があるとの判決
「youtube-dl」のホスティングプロバイダーには著作権侵害の責任があるとの判決
YouTubeから動画をダウンロードできるオープンソースツール「youtube-dl」は、YouTubeにおける著作権侵害を助長しているとして、ソニー・エンタテインメントをはじめとするレコード大手3社がyoutube-dlをホスティングしていたプロバイダーのUberspaceを提訴した訴訟で、ドイツの裁判所がUberspaceの控訴を却下する判決を下しました。
·gigazine.net·
「youtube-dl」のホスティングプロバイダーには著作権侵害の責任があるとの判決
不正な顔認識を阻止するAIモデル「カメレオン」が開発される
不正な顔認識を阻止するAIモデル「カメレオン」が開発される
顔写真に特殊なプライバシーマスクを施すことで、顔をスキャンしても顔写真を特定できないようにする技術「Chameleon(カメレオン)」をジョージア工科大学の研究者らが開発しました。
·gigazine.net·
不正な顔認識を阻止するAIモデル「カメレオン」が開発される
「画像からゲームのように視点操作可能な3Dシーンを生成するAI」をWorld Labsが発表、実際に3Dシーンを探索できるデモページも公開中
「画像からゲームのように視点操作可能な3Dシーンを生成するAI」をWorld Labsが発表、実際に3Dシーンを探索できるデモページも公開中
「AIのゴッドマザー」とも呼ばれるフェイフェイ・リ氏が設立したAI開発企業のWorld Labsが、「1枚の画像からゲームのように視点を操作して探索できる3Dシーンを生成するAI」を開発しました。AIが生成した3Dシーンを探索できるデモページも公開されていたので、実際にAI生成の3Dシーンがどのようなものになっているのか確かめてみました。
·gigazine.net·
「画像からゲームのように視点操作可能な3Dシーンを生成するAI」をWorld Labsが発表、実際に3Dシーンを探索できるデモページも公開中
AmazonがAWS上で利用可能なマルチモーダル生成AIモデル「Amazon Nova」を発表
AmazonがAWS上で利用可能なマルチモーダル生成AIモデル「Amazon Nova」を発表
Amazonのクラウドコンピューティング部門であるAmazon Web Services(AWS)は、2024年12月2日からラスベガスで開催されているイベント「re:Invent 2024」で、独自のマルチモーダル生成AIモデル「Amazon Nova」を発表しました。Amazon Novaは複数モデルが用意されており、そのうち3モデルは12月3日からAWSの顧客向けに提供されます。
·gigazine.net·
AmazonがAWS上で利用可能なマルチモーダル生成AIモデル「Amazon Nova」を発表
Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表
Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表
Google DeepMindが、単一の入力画像からプレイ可能な3D環境を生成できる基盤的世界モデル「Genie 2」を2024年12月4日に発表しました。Genie 2で生成した世界は、人間やAIエージェントがキーボードとマウスを使った操作で移動することが可能です。
·gigazine.net·
Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表
Googleの最先端動画生成モデル「Veo」と最高品質の画像生成モデル「Imagen 3」のプレビュー提供がAI開発プラットフォーム「Vertex AI」でスタート
Googleの最先端動画生成モデル「Veo」と最高品質の画像生成モデル「Imagen 3」のプレビュー提供がAI開発プラットフォーム「Vertex AI」でスタート
AIの開発・運用が簡単に行えるようになるGoogleのプラットフォーム「Vertex AI」で、動画生成モデルの「Veo」と画像生成モデル「Imagen 3」のプライベートプレビュー版提供が始まりました。
·gigazine.net·
Googleの最先端動画生成モデル「Veo」と最高品質の画像生成モデル「Imagen 3」のプレビュー提供がAI開発プラットフォーム「Vertex AI」でスタート
MicrosoftがAIでウェブページ上のテキストと画像を分析して回答する「Copilot Vision」のプレビュー版をリリース
MicrosoftがAIでウェブページ上のテキストと画像を分析して回答する「Copilot Vision」のプレビュー版をリリース
2024年12月5日にMicrosoftが、ウェブブラウザ「Edge」で閲覧中のウェブページを分析し、ユーザーからの質問への回答やテキストの要約・翻訳、割引商品にスポットを当てるなどのタスクを処理できるAI機能「Copilot Vision」のプレビュー版を一部ユーザー向けにリリースしたことを発表しました。
·gigazine.net·
MicrosoftがAIでウェブページ上のテキストと画像を分析して回答する「Copilot Vision」のプレビュー版をリリース
自分の創作物がAI学習に使用されたかどうかを確認できるようになる「AIの透明性と責任に関する法案」がアメリカで提出される
自分の創作物がAI学習に使用されたかどうかを確認できるようになる「AIの透明性と責任に関する法案」がアメリカで提出される
自分の作品がAIの学習に許可なく使用されたかどうかを簡単に確認できるようにするための法案「人工知能ネットワークの透明性と責任(TRAIN)法」がアメリカで提出されました。この法案が実現すれば、著作権者は学習の記録にアクセスできるようになり、自分の作品が使用されたかどうかを確認できるようになるとのことです。
·gigazine.net·
自分の創作物がAI学習に使用されたかどうかを確認できるようになる「AIの透明性と責任に関する法案」がアメリカで提出される
MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮
MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮
Metaが大規模言語モデル「Llama 3.3」を2024年12月6日(土)にリリースしました。記事作成時点ではパラメーター数70Bのモデルがリリースされており、Amazonの基盤モデル「Amazon Nova Pro」と比べて低コストかつ高性能であることや、旧世代の上位モデルに匹敵する性能を備えていることがアピールされています。
·gigazine.net·
MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮
Xに「実写風の写真を作れる画像生成AI」が一瞬だけ追加される
Xに「実写風の写真を作れる画像生成AI」が一瞬だけ追加される
X(旧Twitter)に、実写風画像に特化した画像生成AI「Aurora」が一瞬だけ実装されたことがわかりました。実在の人物や「血まみれのドナルド・トランプ」などさまざまな画像がユーザーにより生成されましたが、Auroraは数時間で利用できなくなりました。
·gigazine.net·
Xに「実写風の写真を作れる画像生成AI」が一瞬だけ追加される
顔認識を回避するには顔をどのくらい変更する必要があるのか?
顔認識を回避するには顔をどのくらい変更する必要があるのか?
スマートフォンやPCのログインにも導入されている顔認識技術は、はじめに素顔を登録していれば、メガネをかけたり化粧をしたりしても認識可能で、マスクやスカーフ、サングラスなどで変装しても問題なく本人だと認識できるものもあります。顔認識による監視システムを導入する国がある中で、そのような監視から逃れて「顔認証で本人と特定されない変装方法」について複数の専門家が解説しています。
·gigazine.net·
顔認識を回避するには顔をどのくらい変更する必要があるのか?
OpenAIが動画生成AI「Sora」を正式にリリース、ChatGPT Plus・Proプランで利用可能
OpenAIが動画生成AI「Sora」を正式にリリース、ChatGPT Plus・Proプランで利用可能
OpenAIが2024年2月より研究プレビューを行っていた動画生成AI「Sora」の新たなバージョンとして「Sora Turbo」を開発し、正式にリリースしました。ChatGPTのPlusおよびProプランに加入することで利用可能となります。
·gigazine.net·
OpenAIが動画生成AI「Sora」を正式にリリース、ChatGPT Plus・Proプランで利用可能
OpenAIは動画生成AI「Sora」で実在の人物が映る動画や既存のアーティストをまねる動画の生成を制限している
OpenAIは動画生成AI「Sora」で実在の人物が映る動画や既存のアーティストをまねる動画の生成を制限している
OpenAIは動画生成AIのSoraの製品版となる「Sora Turbo」を2024年12月9日にリリースしました。しかし、OpenAIはさらなるテストが完了するまで、実在の人物を取り込んだ動画を生成できる機能をごく一部のユーザー以外には公開しないことを明らかにしています。
·gigazine.net·
OpenAIは動画生成AI「Sora」で実在の人物が映る動画や既存のアーティストをまねる動画の生成を制限している
NVIDIAが「自由に視点変更可能なライブ配信」を実現するオープンソースAIモデル「QUEEN」を発表、コンパクトなファイルサイズでありながら競合高画質
NVIDIAが「自由に視点変更可能なライブ配信」を実現するオープンソースAIモデル「QUEEN」を発表、コンパクトなファイルサイズでありながら競合高画質
半導体大手のNVIDIAが、ビデオ会議やライブ配信などで「自由に視点を変更できる映像」を配信することが可能になるオープンソースのAIモデル「QUEEN」を発表しました。QUEENは出力が低帯域幅でありながら、高品質なシーンの生成が可能であるため、NVIDIAは「ライブ配信を新たな次元に導く」とアピールしています。
·gigazine.net·
NVIDIAが「自由に視点変更可能なライブ配信」を実現するオープンソースAIモデル「QUEEN」を発表、コンパクトなファイルサイズでありながら競合高画質
【無料コード配布中】髪の毛や半透明オブジェクトなどでも完璧にAIで背景透過に変える「Aiarty Image Matting」でいろんな写真を透過しまくってみた
【無料コード配布中】髪の毛や半透明オブジェクトなどでも完璧にAIで背景透過に変える「Aiarty Image Matting」でいろんな写真を透過しまくってみた
髪の毛や毛皮、低照度画像、透明・半透明のオブジェクトなど背景とオブジェクトの判別が難しい写真でも完璧に背景の透過ができるというAIソフトウェアが「Aiarty Image Matting」です。32万枚の4K画像でトレーニングしたという4つのAIモデルを駆使して精巧な背景透過を実現しているということだったので、実際に使ってみました。
·gigazine.net·
【無料コード配布中】髪の毛や半透明オブジェクトなどでも完璧にAIで背景透過に変える「Aiarty Image Matting」でいろんな写真を透過しまくってみた
テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」
テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」
テキスト入力から多用途かつ高品質な3Dアセットを自動生成できる新しい3D生成AIモデル「TRELLIS」を、清華大学・中国科学技術大学・Microsoft Researchの共同研究チームが発表しました。このTRELLISには、「SLAT(Structured LATents)」と呼ばれる新しい手法が用いられています。
·gigazine.net·
テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」
人物写真に特化した画像生成AI学習ツール「FLUX Portrait Trainer」登場
人物写真に特化した画像生成AI学習ツール「FLUX Portrait Trainer」登場
画像生成AI「FLUX」の開発チームが、高品質なポートレートの生成に特化した新たなトレーナー「FLUX Portrait Trainer」を公開しました。特徴としてはディテールの細かさや瞳のハイライト、さまざまな顔の大きさのよりよい表現などが挙げられています。
·gigazine.net·
人物写真に特化した画像生成AI学習ツール「FLUX Portrait Trainer」登場
AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている
AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている
AIのスケーリング則は2020年1月にOpenAIが提唱した法則で、「AIモデルの性能は、『学習に使われるデータの規模』『学習に使われる計算量』『モデルのパラメーター数』が増加するほど強化される」というものです。この法則について、AIの動向に詳しいゲイリー・マーカス氏が「AI業界ではスケーリング則が通用しなくなっている」と指摘する記事を公開しています。
·gigazine.net·
AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている
Amazonの新しい生成AIモデル「Olympus」は画像・動画・文章を処理でき、早ければ来週のAWS re:Inventで発表される可能性あり
Amazonの新しい生成AIモデル「Olympus」は画像・動画・文章を処理でき、早ければ来週のAWS re:Inventで発表される可能性あり
Amazonが画像・動画・文章を処理可能なマルチモーダルAIモデル「Olympus」の開発を進めており、2024年12月2日~6日に開催予定のAWS re:Inventで発表する可能性が高いとアメリカのニュースサイト「The Information」が報じました。
·gigazine.net·
Amazonの新しい生成AIモデル「Olympus」は画像・動画・文章を処理でき、早ければ来週のAWS re:Inventで発表される可能性あり
LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し
LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し
SkyvernはテキストでAIに指示することでブラウザを使用するワークフローを自動化してくれるツールです。コードで自動化する場合と異なり、多少ウェブサイトの構造が変わっても問題なく対応可能なのが特徴です。有料のサービスであるものの、記事作成時点ではアカウントを作成すると5ドル(約770円)分のクレジットが付与されるとのことだったので、実際に使い勝手を確かめてみました。
·gigazine.net·
LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し
ノーコード・ローコードに限界 生成AIのコード自動生成で一変
ノーコード・ローコードに限界 生成AIのコード自動生成で一変
ノーコード・ローコードツールはソフトウエア開発を容易にしたが、カスタマイズ性が低い。生成AIを活用したコーディング支援サービスの登場がそんな状況を一変させた。新たなコード自動生成サービスが続々登場し、ユースケースを広げている。
·xtech.nikkei.com·
ノーコード・ローコードに限界 生成AIのコード自動生成で一変
ヤギの顔から痛みを感じているかどうかを判別するAIが登場
ヤギの顔から痛みを感じているかどうかを判別するAIが登場
フロリダ大学の研究チームが、AIを使ってヤギの痛みを検出する手法を開発したと発表しました。結石に苦しむヤギから手術後のヤギまで、さまざまな状態のヤギの表情を分析し、痛みの有無を判別することに成功したとのことです。
·gigazine.net·
ヤギの顔から痛みを感じているかどうかを判別するAIが登場
Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表
Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表
MetaのAI研究部門であるMeta FAIRは、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」や量子暗号の強度を検証できる「Salsa」など、複数の研究成果を発表した。
·atmarkit.itmedia.co.jp·
Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表
約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される
約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される
AIを搭載したヒューマノイドロボット「Ai-Da」が描いた計算機科学者アラン・チューリングの肖像画がオークションにかけられ、事前の予想を大幅に上回る108万4800ドル(約1億6600万円)で落札されました。
·gigazine.net·
約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
大規模言語モデル(LLM)のセキュリティを研究するスタートアップ・Lakeraのエンジニアであるダニエル・ティンブレル氏が、画像認識も可能なチャットボットAIに対する「ビジュアルプロンプトインジェクション」攻撃について解説しています。
·gigazine.net·
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張
Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張
Stable DiffusionやDALL-E 3などの画像生成AIでは、拡散モデルと呼ばれる生成モデルが使用されています。新たにアメリカのハーバード大学やタフツ大学、オーストリアのウィーン工科大学などの研究チームが、「拡散モデルは本質的に進化的アルゴリズムだ」と主張する論文を発表し、話題を呼んでいます。
·gigazine.net·
Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張
Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に
Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に
1230億パラメーターと128kコンテキストウィンドウを備えGPT-4oに匹敵するベンチマーク性能を記録した「Mistral Large 2」やマルチモーダルAI「Pixtral 12B」、小規模モデルの「Ministral 3B/8B」などを展開しているAI開発企業のMistral AIが、チャットAI「Le Chat」の大幅なアップデートを発表しました。
·gigazine.net·
Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に
ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写&強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさん
ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写&強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさん
ソニーがフルサイズミラーレスカメラ「α1 II」を2024年11月19日に発表しました。α1 IIは「有効画素数5010万のフルサイズ積層型CMOSイメージセンサ」「画像処理エンジンBIONZ XR」「AI処理に特化した最新のAIプロセッシングユニット」などを搭載しており、高精度なリアルタイム認識AFやブラックアウトフリーでの秒間30コマ連写などに対応しています。
·gigazine.net·
ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写&強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさん