画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2692 bookmarks
Custom sorting
Googleが「画像生成AIで生成した画像」に電子透かしを入れてフェイクの拡散を防止するツール「SynthID」を発表
Googleが「画像生成AIで生成した画像」に電子透かしを入れてフェイクの拡散を防止するツール「SynthID」を発表
GoogleのAI研究部門「Google Deepmind」が現地時間2023年8月29日に、AIで生成された画像にウォーターマーク(電子透かし)を入れ、AIが生成した画像であることを明示してフェイク画像の拡散を防止するツール「SynthID」のベータ版をリリースしたことを発表しました。記事作成時点では、Googleの機械学習プラットフォーム「Vertex AI」上の画像生成AI「Imagen」でのみ利用可能です。
·gigazine.net·
Googleが「画像生成AIで生成した画像」に電子透かしを入れてフェイクの拡散を防止するツール「SynthID」を発表
ムービーをアニメ風にしたり被写体を変えたり映っていない部分を補完したりできるAI「MagicEdit」が登場
ムービーをアニメ風にしたり被写体を変えたり映っていない部分を補完したりできるAI「MagicEdit」が登場
AI技術は急速に進歩しており、人間が作成したものと見分けが付かない文章や画像を生成できるAIなどが複数開発されています。新たに、TikTokの運営企業であるByteDanceの研究チームが文章で指示するだけでムービーを編集できるAI「MagicEdit」を開発しました。MagicEditではムービーの一部だけを置き換える編集も可能なほか、ムービーの映っていない部分を継ぎ足すことも可能です。
·gigazine.net·
ムービーをアニメ風にしたり被写体を変えたり映っていない部分を補完したりできるAI「MagicEdit」が登場
無料でFFmpegのフィルター機能をブラウザ上でチェックできてさらにコマンドも出力してくれる「FFmpeg Explorer」
無料でFFmpegのフィルター機能をブラウザ上でチェックできてさらにコマンドも出力してくれる「FFmpeg Explorer」
動画や音声を記録・変換・再生するためのフリーソフト「FFmepg」はシェルでコマンドを入力することでさまざまな処理を実行できます。FFmpegにはさまざまなフィルタリングライブラリが存在しますが、GUIを持たないツールであるため、フィルターをかけるとどんな出力結果になるのかをプレビューすることはできません。「FFmpeg Explorer」はブラウザ上でフィルターをブラウザ上で試してどんな結果になるのかをチェックし、さらに手元で実行するためのコマンドも出力してくれるウェブツールです。
·gigazine.net·
無料でFFmpegのフィルター機能をブラウザ上でチェックできてさらにコマンドも出力してくれる「FFmpeg Explorer」
Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ
Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ
Metaが2023年8月31日に、映像処理モデル「DINOv2」のライセンスをCC BY-NC 4.0からApache License 2.0に変更すると発表しました。これまで存在していた商用利用に関する制限が取り払われ、より自由にモデルを利用することが可能になっています。同時に、モデルの公平性を評価するためのデータセット「FACET」もリリースされました。
·gigazine.net·
Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ
AIによる学習を妨害する敵対的ノイズを画像から除去できる「AdverseCleaner」を使ってみた
AIによる学習を妨害する敵対的ノイズを画像から除去できる「AdverseCleaner」を使ってみた
画像生成AIにイラストや写真を学習させることを防ぐため、「Mist」などを使って画像に敵対的サンプルと呼ばれるノイズを入れる方法があります。この敵対的サンプルによるノイズを画像から除去するためのツール「AdverseCleaner」が登場しています。
·gigazine.net·
AIによる学習を妨害する敵対的ノイズを画像から除去できる「AdverseCleaner」を使ってみた
PhotoshopやIllustratorの生成AI「Firefly」がクレジット制を導入し有料プランでも画像生成枚数が制限されるように
PhotoshopやIllustratorの生成AI「Firefly」がクレジット制を導入し有料プランでも画像生成枚数が制限されるように
画像生成AIへの注目が集まる中、PhotoshopやIllustratorなどを展開するAdobeも著作権的にクリアなことを特徴とする生成AI「Firefly」の開発を進めています。2023年9月13日(水)には、Fireflyの各種機能が一般公開されるとともにクレジット制の導入や商用利用の解禁が発表されました。
·gigazine.net·
PhotoshopやIllustratorの生成AI「Firefly」がクレジット制を導入し有料プランでも画像生成枚数が制限されるように
網膜画像から目の病気やパーキンソン病の兆候を検出するAI「RETFound」が登場、自己教師あり学習により事前トレーニングが簡潔に
網膜画像から目の病気やパーキンソン病の兆候を検出するAI「RETFound」が登場、自己教師あり学習により事前トレーニングが簡潔に
網膜の画像を用いて病気を検出するAIはすでに存在しますが、事前に大量の網膜の画像に「正常」か「正常ではない」かのラベリングを行ってトレーニングする必要がありました。新たなAI「RETFound」は、ChatGPTの仕組みなどと同様の「自己教師あり学習」を行うため、事前のトレーニングはかなり簡単になります。
·gigazine.net·
網膜画像から目の病気やパーキンソン病の兆候を検出するAI「RETFound」が登場、自己教師あり学習により事前トレーニングが簡潔に
二次元キャラに強い中国の画像生成AIで「天安門事件」「革命」など政治的な文言のブロックが行われていることが判明 - GIGAZINE
二次元キャラに強い中国の画像生成AIで「天安門事件」「革命」など政治的な文言のブロックが行われていることが判明 - GIGAZINE
中国のIT大手・Baidu(百度)が開発した画像生成AI「ERNIE-ViLG」に、多数の単語をブロックする検閲メカニズムが組み込まれていることが指摘されています。ブロック対象は習近平国家主席のような政治指導者の名前や、「天安門事件」のように中国国内でセンシティブな扱いの単語となっています。
·gigazine.net·
二次元キャラに強い中国の画像生成AIで「天安門事件」「革命」など政治的な文言のブロックが行われていることが判明 - GIGAZINE
Photoshopに画像生成AIが搭載されて「画像に好みの被写体を追加」「背景を別物に変更」といった操作を日本語で指示するだけでサクッと実行可能になったので使ってみた - GIGAZINE
Photoshopに画像生成AIが搭載されて「画像に好みの被写体を追加」「背景を別物に変更」といった操作を日本語で指示するだけでサクッと実行可能になったので使ってみた - GIGAZINE
Photoshopのベータ版には、生成AI「Firefly」を用いてテキスト入力(プロンプト)に沿った画像を生成できる機能「生成塗りつぶし(旧称:ジェネレーティブ塗りつぶし)」が搭載されています。生成塗りつぶしを使えば画像内に新たな被写体を追加したり、画像の背景を別物に置き換えたりといった操作が可能。そんな生成塗りつぶしが新たに日本語入力に対応したので使ってみました。
·gigazine.net·
Photoshopに画像生成AIが搭載されて「画像に好みの被写体を追加」「背景を別物に変更」といった操作を日本語で指示するだけでサクッと実行可能になったので使ってみた - GIGAZINE
写真1枚から、動かせる着衣3D人体モデルを高精度に生成する技術「TeCH」 DreamBoothなどで「見えない裏側領域」をリアルに復元【研究紹介】 | レバテックラボ(レバテックLAB)
写真1枚から、動かせる着衣3D人体モデルを高精度に生成する技術「TeCH」 DreamBoothなどで「見えない裏側領域」をリアルに復元【研究紹介】 | レバテックラボ(レバテックLAB)
中国やドイツの研究者らが、全身が写る写真1枚から高精度の3D着衣人体モデルを生成する手法を提案した研究報告論文を発表した。背中や後頭部などの見えない領域も一貫したテクスチャとジオメトリを持つ、忠実度の高い仕上がりで生成する。
·levtech.jp·
写真1枚から、動かせる着衣3D人体モデルを高精度に生成する技術「TeCH」 DreamBoothなどで「見えない裏側領域」をリアルに復元【研究紹介】 | レバテックラボ(レバテックLAB)
画像生成AI「Stable Diffusion」に「悪い例を集めたLoRA」を組み合わせて高品質な画像を生成する手法が登場、簡単に試せるデモも公開されたので試してみた
画像生成AI「Stable Diffusion」に「悪い例を集めたLoRA」を組み合わせて高品質な画像を生成する手法が登場、簡単に試せるデモも公開されたので試してみた
2023年7月に公開された「Stable Diffusion XL 1.0(SDXL 1.0)」は既存のStability AI製モデルと比べて高品質な画像を生成できるだけでなく、LoRAによる生成画像の調整にも対応しています。データサイエンティストのマックス・ウルフ氏は「悪い例」を集めて作成したLoRAを用いてSDXL 1.0による生成画像の品質をさらに向上させる手法を考案し、LoRAファイルおよび誰でも試せるデモを公開しています。
·gigazine.net·
画像生成AI「Stable Diffusion」に「悪い例を集めたLoRA」を組み合わせて高品質な画像を生成する手法が登場、簡単に試せるデモも公開されたので試してみた
画像生成AIによるアダルトコンテンツ生成は「ポルノで学習したモデルの無料配布」「簡単にポルノ画像を生成できる有料サービス」などとんでもないことになっている
画像生成AIによるアダルトコンテンツ生成は「ポルノで学習したモデルの無料配布」「簡単にポルノ画像を生成できる有料サービス」などとんでもないことになっている
画像生成AIに関連する技術は日々進歩しており、画像生成AIを用いたサービスや画期的な生成手法などが続々と公開されています。画像生成AI技術の発展に伴ってアダルトコンテンツの生成に関する技術やサービスも急速に発展しており、AIで生成したアダルトコンテンツが販売されたり、アダルトコンテンツを生成するためのモデルデータが配布されたりしています。
·gigazine.net·
画像生成AIによるアダルトコンテンツ生成は「ポルノで学習したモデルの無料配布」「簡単にポルノ画像を生成できる有料サービス」などとんでもないことになっている
Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開
Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開
Googleが、大規模言語モデル(LLM)に「視覚」を持たせた「大規模視覚モデル(LVM)」のデモを公開すると同時に、LVMの仕組みについての解説記事を投稿しました。
·gigazine.net·
Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開
AI生成動画にありがちな「画面がチラチラする」という欠点を改善する「CoDeF」
AI生成動画にありがちな「画面がチラチラする」という欠点を改善する「CoDeF」
AIで生成された動画を見てみると、連続した動きの中で文脈を無視するようにオブジェクトが突然別の物に変わったり、「大ざっぱなパラパラ漫画」のように映像がガクガクと揺れたりすることがままあります。そうした問題を改善する「Content Deformation Field(CoDeF:コンテンツ変形フィールド)」が公開されました。
·gigazine.net·
AI生成動画にありがちな「画面がチラチラする」という欠点を改善する「CoDeF」
ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」
ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」
2022年8月にStability AIの「Stable Diffusion」が登場して以来、画像生成AIは急激な進歩を遂げ、画像だけではなくムービーも生成できるようになりました。しかし、生成AIによって作られるムービーに描かれるオブジェクトや背景は形を激しく変えたり色が変わったりするため、実用性には乏しいといえます。浙江大学とMicrosoftの研究チームが発表した「StableVideo」はテキスト駆動拡散モデルに時間の概念を導入することで、安定していて実用性が高いムービーを生成することが可能となっています。
·gigazine.net·
ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」
AIを使うとコーヒーショップの客が何分居座っているかが一発でわかるというムービー
AIを使うとコーヒーショップの客が何分居座っているかが一発でわかるというムービー
店内に設置されたカメラとAIを使用し、コーヒーショップが店員の勤務や利用客の滞在時間を詳細に追跡している模様を収めたコンセプトムービーがSNSで公開され、さまざまな意見が寄せられました。
·gigazine.net·
AIを使うとコーヒーショップの客が何分居座っているかが一発でわかるというムービー
画像生成AI「Stable Diffusion」の開発元・Stability AIで幹部やエンジニアが相次いで辞任、CEOのリーダーシップが問われる
画像生成AI「Stable Diffusion」の開発元・Stability AIで幹部やエンジニアが相次いで辞任、CEOのリーダーシップが問われる
画像生成AI「Stable Diffusion」などの開発で知られるAIスタートアップ「Stability AI」が、競合他社の発展や主要幹部やエンジニアの相次ぐ辞任によって、開発資金の調達に苦しんでいることが報じられています。
·gigazine.net·
画像生成AI「Stable Diffusion」の開発元・Stability AIで幹部やエンジニアが相次いで辞任、CEOのリーダーシップが問われる
AIが架空の女性やセクシーな写真、ストーリーや音声まで作成する「ハイパーポルノ」
AIが架空の女性やセクシーな写真、ストーリーや音声まで作成する「ハイパーポルノ」
非常に高度なレベルで文章を生成できる対話型AIのChatGPTや、画像生成モデルのDALL・Eなどを始めとした画像生成AIの発達により、誰でもクオリティの高い文章やイラスト、画像を作成できるようになりました。これらの生成AIを用いることで、存在しない女性のセクシーな自撮りやセリフの吹き込みがある官能的なストーリーなどを全てAIで作成した「ハイパーポルノ」に注目が集まっています。
·gigazine.net·
AIが架空の女性やセクシーな写真、ストーリーや音声まで作成する「ハイパーポルノ」
AIの進化でボットの方が人間よりも高速かつ高精度でCAPTCHA認証を突破することが可能に
AIの進化でボットの方が人間よりも高速かつ高精度でCAPTCHA認証を突破することが可能に
インターネットでサービスを利用を行う際、自身がロボットでないことを証明するために「CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)」というテストを要求されることがあります。CAPTCHAについて調査を行ったカリフォルニア大学の研究チームによる実験で、CAPTCHAテストの解読速度や正答率は人間よりもボットの方が優れていることが判明しました。
·gigazine.net·
AIの進化でボットの方が人間よりも高速かつ高精度でCAPTCHA認証を突破することが可能に
Stability AIが画像を認識して日本語で回答してくれるAIモデル「Japanese InstructBLIP Alpha」をリリース
Stability AIが画像を認識して日本語で回答してくれるAIモデル「Japanese InstructBLIP Alpha」をリリース
画像生成AI「Stable Diffusion」を開発するStability AIが、日本語向け画像言語モデル「Japanese InstructBLIP Alpha」を一般公開したと発表しました。入力した画像に対して日本語で説明を生成できる画像キャプション機能や、画像についての質問を日本語で入力すると日本語で回答する機能が搭載されています。
·gigazine.net·
Stability AIが画像を認識して日本語で回答してくれるAIモデル「Japanese InstructBLIP Alpha」をリリース
顔認識技術により強盗犯として一度は訴えられた女性が不当逮捕として市を提訴
顔認識技術により強盗犯として一度は訴えられた女性が不当逮捕として市を提訴
顔認識技術が万能ではないことを証明する事例はいくつも存在していて、特に、有色人種の認識では誤りが起きやすいことがわかっています。アメリカでは無実の男性が顔認識システムの誤りのせいで1週間拘束される事態が起きていますが、今度は妊娠8カ月の女性を強盗犯であると判断。訴訟は証拠不十分で取り下げとなり、女性が不当逮捕だったとして市を提訴する事態になっています。
·gigazine.net·
顔認識技術により強盗犯として一度は訴えられた女性が不当逮捕として市を提訴
Stability AIが高性能画像生成モデル「SDXL 1.0」をリリース&すぐに使えるウェブアプリも公開されたので使ってみた
Stability AIが高性能画像生成モデル「SDXL 1.0」をリリース&すぐに使えるウェブアプリも公開されたので使ってみた
画像生成AI「Stable Diffusion」の開発元であるStability AIが画像生成モデル「Stable Diffusion XL 1.0(SDXL 1.0)」を公開しました。SDXL 1.0は2023年6月に研究目的で公開された「SDXL 0.9」をさらに強化したもので、すでにモデルデータが公開されている他、SDXL 1.0をサクッと使えるウェブアプリも用意されています。加えて、AmazonのAIサービス「Amazon Bedrock」でSDXL 1.0のAPIが利用可能になることも発表されています。
·gigazine.net·
Stability AIが高性能画像生成モデル「SDXL 1.0」をリリース&すぐに使えるウェブアプリも公開されたので使ってみた
Photoshopに「被写体の途切れた部分を補完」「狭い景色を拡大」など画像の拡張が可能な「拡張生成」が追加されたので使ってみた動画
Photoshopに「被写体の途切れた部分を補完」「狭い景色を拡大」など画像の拡張が可能な「拡張生成」が追加されたので使ってみた動画
Photoshopのベータ版には、テキスト入力(プロンプト)に沿った画像を生成できる機能「生成塗りつぶし(旧称:ジェネレーティブ塗りつぶし)」が搭載されており、生成塗りつぶしを応用することで「画像の外側に『画像の続き』を生成する」という操作が可能です。新たに、「画像の続きを生成する」といった操作を一発で実行できる機能「生成拡張」が追加されたので、実際に使ってみました。
·gigazine.net·
Photoshopに「被写体の途切れた部分を補完」「狭い景色を拡大」など画像の拡張が可能な「拡張生成」が追加されたので使ってみた動画
Googleが学習していない環境でも「○○を動かして」などの複雑な指示を実行できるロボットAI「RT-2」を発表
Googleが学習していない環境でも「○○を動かして」などの複雑な指示を実行できるロボットAI「RT-2」を発表
Google DeepMindが視覚および言語を行動に変換できる学習モデル「Robotic Transformer 2(RT-2)」を2023年7月28日に発表しました。RT-2を搭載したロボットは「イチゴを正しいボウルに入れて」「机から落ちそうな物を持ち上げて」といった指示を実行できる他、学習データに含まれていない指示も高い精度で実行可能です。
·gigazine.net·
Googleが学習していない環境でも「○○を動かして」などの複雑な指示を実行できるロボットAI「RT-2」を発表