画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2692 bookmarks
Custom sorting
自分の創作物がAI学習に使用されたかどうかを確認できるようになる「AIの透明性と責任に関する法案」がアメリカで提出される
自分の創作物がAI学習に使用されたかどうかを確認できるようになる「AIの透明性と責任に関する法案」がアメリカで提出される
自分の作品がAIの学習に許可なく使用されたかどうかを簡単に確認できるようにするための法案「人工知能ネットワークの透明性と責任(TRAIN)法」がアメリカで提出されました。この法案が実現すれば、著作権者は学習の記録にアクセスできるようになり、自分の作品が使用されたかどうかを確認できるようになるとのことです。
·gigazine.net·
自分の創作物がAI学習に使用されたかどうかを確認できるようになる「AIの透明性と責任に関する法案」がアメリカで提出される
MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮
MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮
Metaが大規模言語モデル「Llama 3.3」を2024年12月6日(土)にリリースしました。記事作成時点ではパラメーター数70Bのモデルがリリースされており、Amazonの基盤モデル「Amazon Nova Pro」と比べて低コストかつ高性能であることや、旧世代の上位モデルに匹敵する性能を備えていることがアピールされています。
·gigazine.net·
MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮
Xに「実写風の写真を作れる画像生成AI」が一瞬だけ追加される
Xに「実写風の写真を作れる画像生成AI」が一瞬だけ追加される
X(旧Twitter)に、実写風画像に特化した画像生成AI「Aurora」が一瞬だけ実装されたことがわかりました。実在の人物や「血まみれのドナルド・トランプ」などさまざまな画像がユーザーにより生成されましたが、Auroraは数時間で利用できなくなりました。
·gigazine.net·
Xに「実写風の写真を作れる画像生成AI」が一瞬だけ追加される
顔認識を回避するには顔をどのくらい変更する必要があるのか?
顔認識を回避するには顔をどのくらい変更する必要があるのか?
スマートフォンやPCのログインにも導入されている顔認識技術は、はじめに素顔を登録していれば、メガネをかけたり化粧をしたりしても認識可能で、マスクやスカーフ、サングラスなどで変装しても問題なく本人だと認識できるものもあります。顔認識による監視システムを導入する国がある中で、そのような監視から逃れて「顔認証で本人と特定されない変装方法」について複数の専門家が解説しています。
·gigazine.net·
顔認識を回避するには顔をどのくらい変更する必要があるのか?
OpenAIが動画生成AI「Sora」を正式にリリース、ChatGPT Plus・Proプランで利用可能
OpenAIが動画生成AI「Sora」を正式にリリース、ChatGPT Plus・Proプランで利用可能
OpenAIが2024年2月より研究プレビューを行っていた動画生成AI「Sora」の新たなバージョンとして「Sora Turbo」を開発し、正式にリリースしました。ChatGPTのPlusおよびProプランに加入することで利用可能となります。
·gigazine.net·
OpenAIが動画生成AI「Sora」を正式にリリース、ChatGPT Plus・Proプランで利用可能
OpenAIは動画生成AI「Sora」で実在の人物が映る動画や既存のアーティストをまねる動画の生成を制限している
OpenAIは動画生成AI「Sora」で実在の人物が映る動画や既存のアーティストをまねる動画の生成を制限している
OpenAIは動画生成AIのSoraの製品版となる「Sora Turbo」を2024年12月9日にリリースしました。しかし、OpenAIはさらなるテストが完了するまで、実在の人物を取り込んだ動画を生成できる機能をごく一部のユーザー以外には公開しないことを明らかにしています。
·gigazine.net·
OpenAIは動画生成AI「Sora」で実在の人物が映る動画や既存のアーティストをまねる動画の生成を制限している
NVIDIAが「自由に視点変更可能なライブ配信」を実現するオープンソースAIモデル「QUEEN」を発表、コンパクトなファイルサイズでありながら競合高画質
NVIDIAが「自由に視点変更可能なライブ配信」を実現するオープンソースAIモデル「QUEEN」を発表、コンパクトなファイルサイズでありながら競合高画質
半導体大手のNVIDIAが、ビデオ会議やライブ配信などで「自由に視点を変更できる映像」を配信することが可能になるオープンソースのAIモデル「QUEEN」を発表しました。QUEENは出力が低帯域幅でありながら、高品質なシーンの生成が可能であるため、NVIDIAは「ライブ配信を新たな次元に導く」とアピールしています。
·gigazine.net·
NVIDIAが「自由に視点変更可能なライブ配信」を実現するオープンソースAIモデル「QUEEN」を発表、コンパクトなファイルサイズでありながら競合高画質
【無料コード配布中】髪の毛や半透明オブジェクトなどでも完璧にAIで背景透過に変える「Aiarty Image Matting」でいろんな写真を透過しまくってみた
【無料コード配布中】髪の毛や半透明オブジェクトなどでも完璧にAIで背景透過に変える「Aiarty Image Matting」でいろんな写真を透過しまくってみた
髪の毛や毛皮、低照度画像、透明・半透明のオブジェクトなど背景とオブジェクトの判別が難しい写真でも完璧に背景の透過ができるというAIソフトウェアが「Aiarty Image Matting」です。32万枚の4K画像でトレーニングしたという4つのAIモデルを駆使して精巧な背景透過を実現しているということだったので、実際に使ってみました。
·gigazine.net·
【無料コード配布中】髪の毛や半透明オブジェクトなどでも完璧にAIで背景透過に変える「Aiarty Image Matting」でいろんな写真を透過しまくってみた
テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」
テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」
テキスト入力から多用途かつ高品質な3Dアセットを自動生成できる新しい3D生成AIモデル「TRELLIS」を、清華大学・中国科学技術大学・Microsoft Researchの共同研究チームが発表しました。このTRELLISには、「SLAT(Structured LATents)」と呼ばれる新しい手法が用いられています。
·gigazine.net·
テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」
人物写真に特化した画像生成AI学習ツール「FLUX Portrait Trainer」登場
人物写真に特化した画像生成AI学習ツール「FLUX Portrait Trainer」登場
画像生成AI「FLUX」の開発チームが、高品質なポートレートの生成に特化した新たなトレーナー「FLUX Portrait Trainer」を公開しました。特徴としてはディテールの細かさや瞳のハイライト、さまざまな顔の大きさのよりよい表現などが挙げられています。
·gigazine.net·
人物写真に特化した画像生成AI学習ツール「FLUX Portrait Trainer」登場
AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている
AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている
AIのスケーリング則は2020年1月にOpenAIが提唱した法則で、「AIモデルの性能は、『学習に使われるデータの規模』『学習に使われる計算量』『モデルのパラメーター数』が増加するほど強化される」というものです。この法則について、AIの動向に詳しいゲイリー・マーカス氏が「AI業界ではスケーリング則が通用しなくなっている」と指摘する記事を公開しています。
·gigazine.net·
AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている
Amazonの新しい生成AIモデル「Olympus」は画像・動画・文章を処理でき、早ければ来週のAWS re:Inventで発表される可能性あり
Amazonの新しい生成AIモデル「Olympus」は画像・動画・文章を処理でき、早ければ来週のAWS re:Inventで発表される可能性あり
Amazonが画像・動画・文章を処理可能なマルチモーダルAIモデル「Olympus」の開発を進めており、2024年12月2日~6日に開催予定のAWS re:Inventで発表する可能性が高いとアメリカのニュースサイト「The Information」が報じました。
·gigazine.net·
Amazonの新しい生成AIモデル「Olympus」は画像・動画・文章を処理でき、早ければ来週のAWS re:Inventで発表される可能性あり
LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し
LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し
SkyvernはテキストでAIに指示することでブラウザを使用するワークフローを自動化してくれるツールです。コードで自動化する場合と異なり、多少ウェブサイトの構造が変わっても問題なく対応可能なのが特徴です。有料のサービスであるものの、記事作成時点ではアカウントを作成すると5ドル(約770円)分のクレジットが付与されるとのことだったので、実際に使い勝手を確かめてみました。
·gigazine.net·
LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し
ノーコード・ローコードに限界 生成AIのコード自動生成で一変
ノーコード・ローコードに限界 生成AIのコード自動生成で一変
ノーコード・ローコードツールはソフトウエア開発を容易にしたが、カスタマイズ性が低い。生成AIを活用したコーディング支援サービスの登場がそんな状況を一変させた。新たなコード自動生成サービスが続々登場し、ユースケースを広げている。
·xtech.nikkei.com·
ノーコード・ローコードに限界 生成AIのコード自動生成で一変
ヤギの顔から痛みを感じているかどうかを判別するAIが登場
ヤギの顔から痛みを感じているかどうかを判別するAIが登場
フロリダ大学の研究チームが、AIを使ってヤギの痛みを検出する手法を開発したと発表しました。結石に苦しむヤギから手術後のヤギまで、さまざまな状態のヤギの表情を分析し、痛みの有無を判別することに成功したとのことです。
·gigazine.net·
ヤギの顔から痛みを感じているかどうかを判別するAIが登場
Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表
Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表
MetaのAI研究部門であるMeta FAIRは、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」や量子暗号の強度を検証できる「Salsa」など、複数の研究成果を発表した。
·atmarkit.itmedia.co.jp·
Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表
約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される
約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される
AIを搭載したヒューマノイドロボット「Ai-Da」が描いた計算機科学者アラン・チューリングの肖像画がオークションにかけられ、事前の予想を大幅に上回る108万4800ドル(約1億6600万円)で落札されました。
·gigazine.net·
約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
大規模言語モデル(LLM)のセキュリティを研究するスタートアップ・Lakeraのエンジニアであるダニエル・ティンブレル氏が、画像認識も可能なチャットボットAIに対する「ビジュアルプロンプトインジェクション」攻撃について解説しています。
·gigazine.net·
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張
Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張
Stable DiffusionやDALL-E 3などの画像生成AIでは、拡散モデルと呼ばれる生成モデルが使用されています。新たにアメリカのハーバード大学やタフツ大学、オーストリアのウィーン工科大学などの研究チームが、「拡散モデルは本質的に進化的アルゴリズムだ」と主張する論文を発表し、話題を呼んでいます。
·gigazine.net·
Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張
Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に
Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に
1230億パラメーターと128kコンテキストウィンドウを備えGPT-4oに匹敵するベンチマーク性能を記録した「Mistral Large 2」やマルチモーダルAI「Pixtral 12B」、小規模モデルの「Ministral 3B/8B」などを展開しているAI開発企業のMistral AIが、チャットAI「Le Chat」の大幅なアップデートを発表しました。
·gigazine.net·
Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に
ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写&強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさん
ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写&強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさん
ソニーがフルサイズミラーレスカメラ「α1 II」を2024年11月19日に発表しました。α1 IIは「有効画素数5010万のフルサイズ積層型CMOSイメージセンサ」「画像処理エンジンBIONZ XR」「AI処理に特化した最新のAIプロセッシングユニット」などを搭載しており、高精度なリアルタイム認識AFやブラックアウトフリーでの秒間30コマ連写などに対応しています。
·gigazine.net·
ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写&強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさん
高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能
高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能
画像生成AI「FLUX1.1 [pro]」の開発チームが、FLUX1.1 [pro]と組み合わせて使えるAIモデルシリーズ「FLUX.1 Tools」を発表しました。FLUX.1 Toolsにはインペインティングやアウトペインティングが可能な「FLUX.1 Fill」、深度抽出が可能な「FLUX.1 Depth」、輪郭抽出が可能な「FLUX.1 Canny」、被写体を維持したスタイル変更が可能な「FLUX.1 Redux」の4種が含まれています。
·gigazine.net·
高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能
ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた
ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた
ソニーセミコンダクタソリューションズと英国Raspberry Pi社が、シングルボードコンピュータ「Raspberry Pi」用のAIカメラを共同開発した。今回、両社にこの製品が開発者にもたらすメリットや事業展開における狙いなどを聞いた。
·eetimes.itmedia.co.jp·
ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた
Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表
Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表
2024年10月14日から16日にかけて行われたAdobeの年次イベント「Adobe MAX」で、クリエイティブな分野における最新のイノベーションの種を披露する「Sneaks」セッションが開催され、その中で2D画像を3Dのように回転させる「Project Turntable」が発表されました。
·gigazine.net·
Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表
画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?
画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?
GoogleのマルチモーダルAI「Gemini」を利用して、録画した映像から必要なデータを抽出する「ビデオスクレイピング」について、AI研究者でデータジャーナリストのサイモン・ウィルソン氏が解説しています。
·gigazine.net·
画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?
フランスの美術館が収蔵品の3Dスキャンを行いながらも一般公開していないという指摘
フランスの美術館が収蔵品の3Dスキャンを行いながらも一般公開していないという指摘
いまや博物館や美術館が収蔵物の3Dスキャンを行い、誰でも閲覧できるように公開する試みは珍しいものではなくなっていますが、ロダン美術館を始めとしたフランスの博物館・美術館は、公的な補助金を得てスキャン事業を行っているにもかかわらずデータを公開していないと、アーティストのコスモ・ウェンマン氏が問題提起しています。
·gigazine.net·
フランスの美術館が収蔵品の3Dスキャンを行いながらも一般公開していないという指摘
画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴
画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴
画像生成AIのStable Diffusionを開発するStability AIが、「Stable Diffusion 3.5」のオープンリリースを2024年10月22日(火)に発表しました。このStable Diffusion 3.5には複数のモデルが含まれ、すべてStability AI Community Licenseの下で商用・非商用を問わず無料で利用可能となっています。
·gigazine.net·
画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴
AI生成キャラクターをリアルな表情でアニメーションさせられるツール「Act-One」をRunwayがリリース
AI生成キャラクターをリアルな表情でアニメーションさせられるツール「Act-One」をRunwayがリリース
AI開発企業のRunwayが、人物の動画を撮影するだけで手軽にAIが生成したキャラクターに被写体の表情を転送できるAIツール「Act-One」をリリースしました。Act-OneはRunwayの動画生成AIモデル「Gen-3 Alpha」を利用できるユーザーなら誰でも使用可能です。
·gigazine.net·
AI生成キャラクターをリアルな表情でアニメーションさせられるツール「Act-One」をRunwayがリリース