画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2306 bookmarks
Custom sorting
失敗写真複数枚からベストショットを生成できるAI「RealFill」、Stable DiffusionのOutpaintingより圧倒的に正確
失敗写真複数枚からベストショットを生成できるAI「RealFill」、Stable DiffusionのOutpaintingより圧倒的に正確
写真を撮影していると「写真Aは人物の顔が見切れて、写真Bは顔が写ったけど逆光で暗すぎる」といったようにベストショットを撮影できないことがよくあります。Googleとコーネル大学の研究チームが開発したAI「RealFill」を使えば、複数の失敗写真をもとにベストショットを後から作り出せるとのことです。
·gigazine.net·
失敗写真複数枚からベストショットを生成できるAI「RealFill」、Stable DiffusionのOutpaintingより圧倒的に正確
GoogleのチャットAI「Bard」に「この動物の名前を教えて」など画像の詳細を聞けるGoogleレンズ機能が追加されたので使ってみた
GoogleのチャットAI「Bard」に「この動物の名前を教えて」など画像の詳細を聞けるGoogleレンズ機能が追加されたので使ってみた
Googleは無料で使えるチャットAI「Bard」の開発を進めています。2023年9月19日には画像の詳細を検索してくれる「Googleレンズ」がBardに統合され、画像をアップロードして画像の詳細を尋ねることが可能になりました。一体どれだけの精度で画像を解説してくれるのか気になったので、実際にBardのGoogleレンズ機能を使って性能を確かめてみました。
·gigazine.net·
GoogleのチャットAI「Bard」に「この動物の名前を教えて」など画像の詳細を聞けるGoogleレンズ機能が追加されたので使ってみた
ChatGPTに完全統合して会話から画像を生成できるAI「DALL-E 3」をOpenAIが発表、前世代よりテキストに忠実で安全性も向上
ChatGPTに完全統合して会話から画像を生成できるAI「DALL-E 3」をOpenAIが発表、前世代よりテキストに忠実で安全性も向上
AI企業のOpenAIが画像生成AIの「DALL-E 3」を2023年9月20日に発表しました。DALL-E 3は大規模言語モデル・GPTをベースにしたチャットボットAI・ChatGPTと統合されているのが特徴で、2023年10月にChatGPT PlusおよびEnterpriseの顧客に提供される予定です。
·gigazine.net·
ChatGPTに完全統合して会話から画像を生成できるAI「DALL-E 3」をOpenAIが発表、前世代よりテキストに忠実で安全性も向上
自分のイラストや写真を画像生成AIが学習するのを妨害する電子透かしを入れるツール「Mist」
自分のイラストや写真を画像生成AIが学習するのを妨害する電子透かしを入れるツール「Mist」
Stable DiffusionやMidjourneyなどの画像生成AIはデータセットの画像から学習していますが、このデータセットに含まれる画像の著作権については議論があり、「自分のイラストや写真をAIに学習されたくない」という人も多くいます。上海交通大学の研究チームが発表した「Mist」は画像に見えない透かしを入れることで、AIによって画像を認識できなくさせ、学習を防ぐ処理ツールです。
·gigazine.net·
自分のイラストや写真を画像生成AIが学習するのを妨害する電子透かしを入れるツール「Mist」
Googleが「画像生成AIで生成した画像」に電子透かしを入れてフェイクの拡散を防止するツール「SynthID」を発表
Googleが「画像生成AIで生成した画像」に電子透かしを入れてフェイクの拡散を防止するツール「SynthID」を発表
GoogleのAI研究部門「Google Deepmind」が現地時間2023年8月29日に、AIで生成された画像にウォーターマーク(電子透かし)を入れ、AIが生成した画像であることを明示してフェイク画像の拡散を防止するツール「SynthID」のベータ版をリリースしたことを発表しました。記事作成時点では、Googleの機械学習プラットフォーム「Vertex AI」上の画像生成AI「Imagen」でのみ利用可能です。
·gigazine.net·
Googleが「画像生成AIで生成した画像」に電子透かしを入れてフェイクの拡散を防止するツール「SynthID」を発表
ムービーをアニメ風にしたり被写体を変えたり映っていない部分を補完したりできるAI「MagicEdit」が登場
ムービーをアニメ風にしたり被写体を変えたり映っていない部分を補完したりできるAI「MagicEdit」が登場
AI技術は急速に進歩しており、人間が作成したものと見分けが付かない文章や画像を生成できるAIなどが複数開発されています。新たに、TikTokの運営企業であるByteDanceの研究チームが文章で指示するだけでムービーを編集できるAI「MagicEdit」を開発しました。MagicEditではムービーの一部だけを置き換える編集も可能なほか、ムービーの映っていない部分を継ぎ足すことも可能です。
·gigazine.net·
ムービーをアニメ風にしたり被写体を変えたり映っていない部分を補完したりできるAI「MagicEdit」が登場
無料でFFmpegのフィルター機能をブラウザ上でチェックできてさらにコマンドも出力してくれる「FFmpeg Explorer」
無料でFFmpegのフィルター機能をブラウザ上でチェックできてさらにコマンドも出力してくれる「FFmpeg Explorer」
動画や音声を記録・変換・再生するためのフリーソフト「FFmepg」はシェルでコマンドを入力することでさまざまな処理を実行できます。FFmpegにはさまざまなフィルタリングライブラリが存在しますが、GUIを持たないツールであるため、フィルターをかけるとどんな出力結果になるのかをプレビューすることはできません。「FFmpeg Explorer」はブラウザ上でフィルターをブラウザ上で試してどんな結果になるのかをチェックし、さらに手元で実行するためのコマンドも出力してくれるウェブツールです。
·gigazine.net·
無料でFFmpegのフィルター機能をブラウザ上でチェックできてさらにコマンドも出力してくれる「FFmpeg Explorer」
Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ
Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ
Metaが2023年8月31日に、映像処理モデル「DINOv2」のライセンスをCC BY-NC 4.0からApache License 2.0に変更すると発表しました。これまで存在していた商用利用に関する制限が取り払われ、より自由にモデルを利用することが可能になっています。同時に、モデルの公平性を評価するためのデータセット「FACET」もリリースされました。
·gigazine.net·
Metaが高性能映像処理モデル「DINOv2」のライセンスを更新して商用利用が可能に、同時にモデルの「公平性」を評価するためのデータセット「FACET」も公開へ
AIによる学習を妨害する敵対的ノイズを画像から除去できる「AdverseCleaner」を使ってみた
AIによる学習を妨害する敵対的ノイズを画像から除去できる「AdverseCleaner」を使ってみた
画像生成AIにイラストや写真を学習させることを防ぐため、「Mist」などを使って画像に敵対的サンプルと呼ばれるノイズを入れる方法があります。この敵対的サンプルによるノイズを画像から除去するためのツール「AdverseCleaner」が登場しています。
·gigazine.net·
AIによる学習を妨害する敵対的ノイズを画像から除去できる「AdverseCleaner」を使ってみた
PhotoshopやIllustratorの生成AI「Firefly」がクレジット制を導入し有料プランでも画像生成枚数が制限されるように
PhotoshopやIllustratorの生成AI「Firefly」がクレジット制を導入し有料プランでも画像生成枚数が制限されるように
画像生成AIへの注目が集まる中、PhotoshopやIllustratorなどを展開するAdobeも著作権的にクリアなことを特徴とする生成AI「Firefly」の開発を進めています。2023年9月13日(水)には、Fireflyの各種機能が一般公開されるとともにクレジット制の導入や商用利用の解禁が発表されました。
·gigazine.net·
PhotoshopやIllustratorの生成AI「Firefly」がクレジット制を導入し有料プランでも画像生成枚数が制限されるように
網膜画像から目の病気やパーキンソン病の兆候を検出するAI「RETFound」が登場、自己教師あり学習により事前トレーニングが簡潔に
網膜画像から目の病気やパーキンソン病の兆候を検出するAI「RETFound」が登場、自己教師あり学習により事前トレーニングが簡潔に
網膜の画像を用いて病気を検出するAIはすでに存在しますが、事前に大量の網膜の画像に「正常」か「正常ではない」かのラベリングを行ってトレーニングする必要がありました。新たなAI「RETFound」は、ChatGPTの仕組みなどと同様の「自己教師あり学習」を行うため、事前のトレーニングはかなり簡単になります。
·gigazine.net·
網膜画像から目の病気やパーキンソン病の兆候を検出するAI「RETFound」が登場、自己教師あり学習により事前トレーニングが簡潔に
二次元キャラに強い中国の画像生成AIで「天安門事件」「革命」など政治的な文言のブロックが行われていることが判明 - GIGAZINE
二次元キャラに強い中国の画像生成AIで「天安門事件」「革命」など政治的な文言のブロックが行われていることが判明 - GIGAZINE
中国のIT大手・Baidu(百度)が開発した画像生成AI「ERNIE-ViLG」に、多数の単語をブロックする検閲メカニズムが組み込まれていることが指摘されています。ブロック対象は習近平国家主席のような政治指導者の名前や、「天安門事件」のように中国国内でセンシティブな扱いの単語となっています。
·gigazine.net·
二次元キャラに強い中国の画像生成AIで「天安門事件」「革命」など政治的な文言のブロックが行われていることが判明 - GIGAZINE
Photoshopに画像生成AIが搭載されて「画像に好みの被写体を追加」「背景を別物に変更」といった操作を日本語で指示するだけでサクッと実行可能になったので使ってみた - GIGAZINE
Photoshopに画像生成AIが搭載されて「画像に好みの被写体を追加」「背景を別物に変更」といった操作を日本語で指示するだけでサクッと実行可能になったので使ってみた - GIGAZINE
Photoshopのベータ版には、生成AI「Firefly」を用いてテキスト入力(プロンプト)に沿った画像を生成できる機能「生成塗りつぶし(旧称:ジェネレーティブ塗りつぶし)」が搭載されています。生成塗りつぶしを使えば画像内に新たな被写体を追加したり、画像の背景を別物に置き換えたりといった操作が可能。そんな生成塗りつぶしが新たに日本語入力に対応したので使ってみました。
·gigazine.net·
Photoshopに画像生成AIが搭載されて「画像に好みの被写体を追加」「背景を別物に変更」といった操作を日本語で指示するだけでサクッと実行可能になったので使ってみた - GIGAZINE
写真1枚から、動かせる着衣3D人体モデルを高精度に生成する技術「TeCH」 DreamBoothなどで「見えない裏側領域」をリアルに復元【研究紹介】 | レバテックラボ(レバテックLAB)
写真1枚から、動かせる着衣3D人体モデルを高精度に生成する技術「TeCH」 DreamBoothなどで「見えない裏側領域」をリアルに復元【研究紹介】 | レバテックラボ(レバテックLAB)
中国やドイツの研究者らが、全身が写る写真1枚から高精度の3D着衣人体モデルを生成する手法を提案した研究報告論文を発表した。背中や後頭部などの見えない領域も一貫したテクスチャとジオメトリを持つ、忠実度の高い仕上がりで生成する。
·levtech.jp·
写真1枚から、動かせる着衣3D人体モデルを高精度に生成する技術「TeCH」 DreamBoothなどで「見えない裏側領域」をリアルに復元【研究紹介】 | レバテックラボ(レバテックLAB)
画像生成AI「Stable Diffusion」に「悪い例を集めたLoRA」を組み合わせて高品質な画像を生成する手法が登場、簡単に試せるデモも公開されたので試してみた
画像生成AI「Stable Diffusion」に「悪い例を集めたLoRA」を組み合わせて高品質な画像を生成する手法が登場、簡単に試せるデモも公開されたので試してみた
2023年7月に公開された「Stable Diffusion XL 1.0(SDXL 1.0)」は既存のStability AI製モデルと比べて高品質な画像を生成できるだけでなく、LoRAによる生成画像の調整にも対応しています。データサイエンティストのマックス・ウルフ氏は「悪い例」を集めて作成したLoRAを用いてSDXL 1.0による生成画像の品質をさらに向上させる手法を考案し、LoRAファイルおよび誰でも試せるデモを公開しています。
·gigazine.net·
画像生成AI「Stable Diffusion」に「悪い例を集めたLoRA」を組み合わせて高品質な画像を生成する手法が登場、簡単に試せるデモも公開されたので試してみた
画像生成AIによるアダルトコンテンツ生成は「ポルノで学習したモデルの無料配布」「簡単にポルノ画像を生成できる有料サービス」などとんでもないことになっている
画像生成AIによるアダルトコンテンツ生成は「ポルノで学習したモデルの無料配布」「簡単にポルノ画像を生成できる有料サービス」などとんでもないことになっている
画像生成AIに関連する技術は日々進歩しており、画像生成AIを用いたサービスや画期的な生成手法などが続々と公開されています。画像生成AI技術の発展に伴ってアダルトコンテンツの生成に関する技術やサービスも急速に発展しており、AIで生成したアダルトコンテンツが販売されたり、アダルトコンテンツを生成するためのモデルデータが配布されたりしています。
·gigazine.net·
画像生成AIによるアダルトコンテンツ生成は「ポルノで学習したモデルの無料配布」「簡単にポルノ画像を生成できる有料サービス」などとんでもないことになっている
Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開
Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開
Googleが、大規模言語モデル(LLM)に「視覚」を持たせた「大規模視覚モデル(LVM)」のデモを公開すると同時に、LVMの仕組みについての解説記事を投稿しました。
·gigazine.net·
Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開
AI生成動画にありがちな「画面がチラチラする」という欠点を改善する「CoDeF」
AI生成動画にありがちな「画面がチラチラする」という欠点を改善する「CoDeF」
AIで生成された動画を見てみると、連続した動きの中で文脈を無視するようにオブジェクトが突然別の物に変わったり、「大ざっぱなパラパラ漫画」のように映像がガクガクと揺れたりすることがままあります。そうした問題を改善する「Content Deformation Field(CoDeF:コンテンツ変形フィールド)」が公開されました。
·gigazine.net·
AI生成動画にありがちな「画面がチラチラする」という欠点を改善する「CoDeF」
ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」
ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」
2022年8月にStability AIの「Stable Diffusion」が登場して以来、画像生成AIは急激な進歩を遂げ、画像だけではなくムービーも生成できるようになりました。しかし、生成AIによって作られるムービーに描かれるオブジェクトや背景は形を激しく変えたり色が変わったりするため、実用性には乏しいといえます。浙江大学とMicrosoftの研究チームが発表した「StableVideo」はテキスト駆動拡散モデルに時間の概念を導入することで、安定していて実用性が高いムービーを生成することが可能となっています。
·gigazine.net·
ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」
AIを使うとコーヒーショップの客が何分居座っているかが一発でわかるというムービー
AIを使うとコーヒーショップの客が何分居座っているかが一発でわかるというムービー
店内に設置されたカメラとAIを使用し、コーヒーショップが店員の勤務や利用客の滞在時間を詳細に追跡している模様を収めたコンセプトムービーがSNSで公開され、さまざまな意見が寄せられました。
·gigazine.net·
AIを使うとコーヒーショップの客が何分居座っているかが一発でわかるというムービー
画像生成AI「Stable Diffusion」の開発元・Stability AIで幹部やエンジニアが相次いで辞任、CEOのリーダーシップが問われる
画像生成AI「Stable Diffusion」の開発元・Stability AIで幹部やエンジニアが相次いで辞任、CEOのリーダーシップが問われる
画像生成AI「Stable Diffusion」などの開発で知られるAIスタートアップ「Stability AI」が、競合他社の発展や主要幹部やエンジニアの相次ぐ辞任によって、開発資金の調達に苦しんでいることが報じられています。
·gigazine.net·
画像生成AI「Stable Diffusion」の開発元・Stability AIで幹部やエンジニアが相次いで辞任、CEOのリーダーシップが問われる
AIが架空の女性やセクシーな写真、ストーリーや音声まで作成する「ハイパーポルノ」
AIが架空の女性やセクシーな写真、ストーリーや音声まで作成する「ハイパーポルノ」
非常に高度なレベルで文章を生成できる対話型AIのChatGPTや、画像生成モデルのDALL・Eなどを始めとした画像生成AIの発達により、誰でもクオリティの高い文章やイラスト、画像を作成できるようになりました。これらの生成AIを用いることで、存在しない女性のセクシーな自撮りやセリフの吹き込みがある官能的なストーリーなどを全てAIで作成した「ハイパーポルノ」に注目が集まっています。
·gigazine.net·
AIが架空の女性やセクシーな写真、ストーリーや音声まで作成する「ハイパーポルノ」
AIの進化でボットの方が人間よりも高速かつ高精度でCAPTCHA認証を突破することが可能に
AIの進化でボットの方が人間よりも高速かつ高精度でCAPTCHA認証を突破することが可能に
インターネットでサービスを利用を行う際、自身がロボットでないことを証明するために「CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)」というテストを要求されることがあります。CAPTCHAについて調査を行ったカリフォルニア大学の研究チームによる実験で、CAPTCHAテストの解読速度や正答率は人間よりもボットの方が優れていることが判明しました。
·gigazine.net·
AIの進化でボットの方が人間よりも高速かつ高精度でCAPTCHA認証を突破することが可能に
Stability AIが画像を認識して日本語で回答してくれるAIモデル「Japanese InstructBLIP Alpha」をリリース
Stability AIが画像を認識して日本語で回答してくれるAIモデル「Japanese InstructBLIP Alpha」をリリース
画像生成AI「Stable Diffusion」を開発するStability AIが、日本語向け画像言語モデル「Japanese InstructBLIP Alpha」を一般公開したと発表しました。入力した画像に対して日本語で説明を生成できる画像キャプション機能や、画像についての質問を日本語で入力すると日本語で回答する機能が搭載されています。
·gigazine.net·
Stability AIが画像を認識して日本語で回答してくれるAIモデル「Japanese InstructBLIP Alpha」をリリース