画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2587 bookmarks
Custom sorting
画像生成AIによるアダルトコンテンツ生成は「ポルノで学習したモデルの無料配布」「簡単にポルノ画像を生成できる有料サービス」などとんでもないことになっている
画像生成AIによるアダルトコンテンツ生成は「ポルノで学習したモデルの無料配布」「簡単にポルノ画像を生成できる有料サービス」などとんでもないことになっている
画像生成AIに関連する技術は日々進歩しており、画像生成AIを用いたサービスや画期的な生成手法などが続々と公開されています。画像生成AI技術の発展に伴ってアダルトコンテンツの生成に関する技術やサービスも急速に発展しており、AIで生成したアダルトコンテンツが販売されたり、アダルトコンテンツを生成するためのモデルデータが配布されたりしています。
·gigazine.net·
画像生成AIによるアダルトコンテンツ生成は「ポルノで学習したモデルの無料配布」「簡単にポルノ画像を生成できる有料サービス」などとんでもないことになっている
Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開
Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開
Googleが、大規模言語モデル(LLM)に「視覚」を持たせた「大規模視覚モデル(LVM)」のデモを公開すると同時に、LVMの仕組みについての解説記事を投稿しました。
·gigazine.net·
Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開
AI生成動画にありがちな「画面がチラチラする」という欠点を改善する「CoDeF」
AI生成動画にありがちな「画面がチラチラする」という欠点を改善する「CoDeF」
AIで生成された動画を見てみると、連続した動きの中で文脈を無視するようにオブジェクトが突然別の物に変わったり、「大ざっぱなパラパラ漫画」のように映像がガクガクと揺れたりすることがままあります。そうした問題を改善する「Content Deformation Field(CoDeF:コンテンツ変形フィールド)」が公開されました。
·gigazine.net·
AI生成動画にありがちな「画面がチラチラする」という欠点を改善する「CoDeF」
ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」
ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」
2022年8月にStability AIの「Stable Diffusion」が登場して以来、画像生成AIは急激な進歩を遂げ、画像だけではなくムービーも生成できるようになりました。しかし、生成AIによって作られるムービーに描かれるオブジェクトや背景は形を激しく変えたり色が変わったりするため、実用性には乏しいといえます。浙江大学とMicrosoftの研究チームが発表した「StableVideo」はテキスト駆動拡散モデルに時間の概念を導入することで、安定していて実用性が高いムービーを生成することが可能となっています。
·gigazine.net·
ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」
AIを使うとコーヒーショップの客が何分居座っているかが一発でわかるというムービー
AIを使うとコーヒーショップの客が何分居座っているかが一発でわかるというムービー
店内に設置されたカメラとAIを使用し、コーヒーショップが店員の勤務や利用客の滞在時間を詳細に追跡している模様を収めたコンセプトムービーがSNSで公開され、さまざまな意見が寄せられました。
·gigazine.net·
AIを使うとコーヒーショップの客が何分居座っているかが一発でわかるというムービー
画像生成AI「Stable Diffusion」の開発元・Stability AIで幹部やエンジニアが相次いで辞任、CEOのリーダーシップが問われる
画像生成AI「Stable Diffusion」の開発元・Stability AIで幹部やエンジニアが相次いで辞任、CEOのリーダーシップが問われる
画像生成AI「Stable Diffusion」などの開発で知られるAIスタートアップ「Stability AI」が、競合他社の発展や主要幹部やエンジニアの相次ぐ辞任によって、開発資金の調達に苦しんでいることが報じられています。
·gigazine.net·
画像生成AI「Stable Diffusion」の開発元・Stability AIで幹部やエンジニアが相次いで辞任、CEOのリーダーシップが問われる
AIが架空の女性やセクシーな写真、ストーリーや音声まで作成する「ハイパーポルノ」
AIが架空の女性やセクシーな写真、ストーリーや音声まで作成する「ハイパーポルノ」
非常に高度なレベルで文章を生成できる対話型AIのChatGPTや、画像生成モデルのDALL・Eなどを始めとした画像生成AIの発達により、誰でもクオリティの高い文章やイラスト、画像を作成できるようになりました。これらの生成AIを用いることで、存在しない女性のセクシーな自撮りやセリフの吹き込みがある官能的なストーリーなどを全てAIで作成した「ハイパーポルノ」に注目が集まっています。
·gigazine.net·
AIが架空の女性やセクシーな写真、ストーリーや音声まで作成する「ハイパーポルノ」
AIの進化でボットの方が人間よりも高速かつ高精度でCAPTCHA認証を突破することが可能に
AIの進化でボットの方が人間よりも高速かつ高精度でCAPTCHA認証を突破することが可能に
インターネットでサービスを利用を行う際、自身がロボットでないことを証明するために「CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)」というテストを要求されることがあります。CAPTCHAについて調査を行ったカリフォルニア大学の研究チームによる実験で、CAPTCHAテストの解読速度や正答率は人間よりもボットの方が優れていることが判明しました。
·gigazine.net·
AIの進化でボットの方が人間よりも高速かつ高精度でCAPTCHA認証を突破することが可能に
Stability AIが画像を認識して日本語で回答してくれるAIモデル「Japanese InstructBLIP Alpha」をリリース
Stability AIが画像を認識して日本語で回答してくれるAIモデル「Japanese InstructBLIP Alpha」をリリース
画像生成AI「Stable Diffusion」を開発するStability AIが、日本語向け画像言語モデル「Japanese InstructBLIP Alpha」を一般公開したと発表しました。入力した画像に対して日本語で説明を生成できる画像キャプション機能や、画像についての質問を日本語で入力すると日本語で回答する機能が搭載されています。
·gigazine.net·
Stability AIが画像を認識して日本語で回答してくれるAIモデル「Japanese InstructBLIP Alpha」をリリース
顔認識技術により強盗犯として一度は訴えられた女性が不当逮捕として市を提訴
顔認識技術により強盗犯として一度は訴えられた女性が不当逮捕として市を提訴
顔認識技術が万能ではないことを証明する事例はいくつも存在していて、特に、有色人種の認識では誤りが起きやすいことがわかっています。アメリカでは無実の男性が顔認識システムの誤りのせいで1週間拘束される事態が起きていますが、今度は妊娠8カ月の女性を強盗犯であると判断。訴訟は証拠不十分で取り下げとなり、女性が不当逮捕だったとして市を提訴する事態になっています。
·gigazine.net·
顔認識技術により強盗犯として一度は訴えられた女性が不当逮捕として市を提訴
Stability AIが高性能画像生成モデル「SDXL 1.0」をリリース&すぐに使えるウェブアプリも公開されたので使ってみた
Stability AIが高性能画像生成モデル「SDXL 1.0」をリリース&すぐに使えるウェブアプリも公開されたので使ってみた
画像生成AI「Stable Diffusion」の開発元であるStability AIが画像生成モデル「Stable Diffusion XL 1.0(SDXL 1.0)」を公開しました。SDXL 1.0は2023年6月に研究目的で公開された「SDXL 0.9」をさらに強化したもので、すでにモデルデータが公開されている他、SDXL 1.0をサクッと使えるウェブアプリも用意されています。加えて、AmazonのAIサービス「Amazon Bedrock」でSDXL 1.0のAPIが利用可能になることも発表されています。
·gigazine.net·
Stability AIが高性能画像生成モデル「SDXL 1.0」をリリース&すぐに使えるウェブアプリも公開されたので使ってみた
Photoshopに「被写体の途切れた部分を補完」「狭い景色を拡大」など画像の拡張が可能な「拡張生成」が追加されたので使ってみた動画
Photoshopに「被写体の途切れた部分を補完」「狭い景色を拡大」など画像の拡張が可能な「拡張生成」が追加されたので使ってみた動画
Photoshopのベータ版には、テキスト入力(プロンプト)に沿った画像を生成できる機能「生成塗りつぶし(旧称:ジェネレーティブ塗りつぶし)」が搭載されており、生成塗りつぶしを応用することで「画像の外側に『画像の続き』を生成する」という操作が可能です。新たに、「画像の続きを生成する」といった操作を一発で実行できる機能「生成拡張」が追加されたので、実際に使ってみました。
·gigazine.net·
Photoshopに「被写体の途切れた部分を補完」「狭い景色を拡大」など画像の拡張が可能な「拡張生成」が追加されたので使ってみた動画
Googleが学習していない環境でも「○○を動かして」などの複雑な指示を実行できるロボットAI「RT-2」を発表
Googleが学習していない環境でも「○○を動かして」などの複雑な指示を実行できるロボットAI「RT-2」を発表
Google DeepMindが視覚および言語を行動に変換できる学習モデル「Robotic Transformer 2(RT-2)」を2023年7月28日に発表しました。RT-2を搭載したロボットは「イチゴを正しいボウルに入れて」「机から落ちそうな物を持ち上げて」といった指示を実行できる他、学習データに含まれていない指示も高い精度で実行可能です。
·gigazine.net·
Googleが学習していない環境でも「○○を動かして」などの複雑な指示を実行できるロボットAI「RT-2」を発表
AndroidにOCR機能で画像や写真からパスワードを盗むマルウェアが発見される
AndroidにOCR機能で画像や写真からパスワードを盗むマルウェアが発見される
セキュリティ対策として長いパスワードを使うと覚えておくのが大変なため、パスワードが表示された画面を画像として保存している人もいます。このような画像から、パスワードをテキストデータに変換して認証情報を窃取するマルウェアが見つかったことが報告されました。
·gigazine.net·
AndroidにOCR機能で画像や写真からパスワードを盗むマルウェアが発見される
YouTubeが「AIで動画の内容を自動で要約する機能」を実験中と明かす
YouTubeが「AIで動画の内容を自動で要約する機能」を実験中と明かす
GoogleがAIを使ってYouTubeにアップロードされている動画の要約を自動生成する実験を行っていることが、2023年7月31日付けでサポートページで告知されました。生成される要約動画はYouTubeの視聴ページと検索ページに表示されることが想定されています。
·gigazine.net·
YouTubeが「AIで動画の内容を自動で要約する機能」を実験中と明かす
アクションカメラ「Osmo Action 4」は階段ダッシュのブレも打ち消す高度なブレ補正性能が魅力
アクションカメラ「Osmo Action 4」は階段ダッシュのブレも打ち消す高度なブレ補正性能が魅力
2023年8月2日(水)に登場したDJIのアクションカメラ「Osmo Action 4」は小型ボディに高性能なブレ補正機能が詰め込まれており、激しいアクション中でも安定した映像を最大4K・120fpsで記録可能です。そんなOsmo Action 4に触れる機会を得られたので、外観チェックに続いて画角やブレ補正性能を検証してみました。
·gigazine.net·
アクションカメラ「Osmo Action 4」は階段ダッシュのブレも打ち消す高度なブレ補正性能が魅力
GoogleがAI検索に「画像と動画」機能を追加すると発表、動画の必要な部分だけをAIが見つけてくれる超便利機能
GoogleがAI検索に「画像と動画」機能を追加すると発表、動画の必要な部分だけをAIが見つけてくれる超便利機能
Googleが2023年8月2日に、AIが生成した回答を検索結果に表示する「Search Generative Experience(SGE)」に、画像と動画に関する新機能を追加することを発表しました。
·gigazine.net·
GoogleがAI検索に「画像と動画」機能を追加すると発表、動画の必要な部分だけをAIが見つけてくれる超便利機能
フレーム間の一貫性を維持したままムービーを文字で指定したテイストに変更できる技術「TokenFlow」が登場
フレーム間の一貫性を維持したままムービーを文字で指定したテイストに変更できる技術「TokenFlow」が登場
一枚の画像を元に雰囲気を変更した画像を作成する技術は2022年時点で登場していましたが、その技術をそのままムービーに応用しようとするとフレームとフレームのつながりがいびつになったり、逆にフレーム間のつながりを重視しすぎてフレーム一枚一枚のクオリティが下がったりする問題が発生していました。「TokenFlow」はワイツマン科学研究所の研究者グループが開発した手法で、ムービーのフレーム間の一貫性やクオリティを保ちながら雰囲気だけを変更することが可能です。
·gigazine.net·
フレーム間の一貫性を維持したままムービーを文字で指定したテイストに変更できる技術「TokenFlow」が登場
ジェネレーティブAIが抱える問題を浮き彫りにする「1本のバナナ問題」とは?
ジェネレーティブAIが抱える問題を浮き彫りにする「1本のバナナ問題」とは?
Stable DiffusionやChatGPTなどのジェネレーティブAIが登場したことによって、誰でも簡単に文章や画像を作成できるようになりました。IT系ニュースサイト・Digital Scienceのダニエル・フックCEOが、画像生成AIを使用した時に遭遇した「1本のバナナ問題」から、ジェネレーティブAIが抱える問題に言及しています。
·gigazine.net·
ジェネレーティブAIが抱える問題を浮き彫りにする「1本のバナナ問題」とは?
8500人超の作家が「AIのトレーニングに人間の作品を無断使用するな」とOpenAIやMetaなどのAI開発企業に求める公開書簡に署名
8500人超の作家が「AIのトレーニングに人間の作品を無断使用するな」とOpenAIやMetaなどのAI開発企業に求める公開書簡に署名
生成AIのトレーニングに作家の著作が無断で使用されているとして、全米作家協会が「AIトレーニングに著作権で保護された素材を無断で使用するな」とOpenAIやAlphabet、MetaなどのAI開発企業へ訴える公開書簡を発表しました。この公開書簡には「ハンガー・ゲーム」シリーズで知られるスーザン・コリンズ氏、カナダを代表する作家であり2019年に「誓願」でブッカー賞を受賞したマーガレット・アトウッド氏など、8500人を超える作家が署名しています。
·gigazine.net·
8500人超の作家が「AIのトレーニングに人間の作品を無断使用するな」とOpenAIやMetaなどのAI開発企業に求める公開書簡に署名
GPT-4の顔認識性能を懸念してOpenAIが顔認識機能を制限
GPT-4の顔認識性能を懸念してOpenAIが顔認識機能を制限
GPT-4の画像認識機能に備わった特定の個人を識別するという能力がプライバシー法に違反する可能性があるという懸念から、OpenAIが顔認識機能に制限をかける措置を取っていることが明らかになりました。
·gigazine.net·
GPT-4の顔認識性能を懸念してOpenAIが顔認識機能を制限
Metaが「テキストから画像」「画像からテキスト」の両方に1つのモデルで対応できる生成AI「CM3leon」を発表
Metaが「テキストから画像」「画像からテキスト」の両方に1つのモデルで対応できる生成AI「CM3leon」を発表
FacebookやInstagramといったSNSを開発するMetaの人工知能(AI)研究所であるMeta AIが、テキストから画像を生成したり、画像からテキストを生成したりすることができる単一のAIモデル「CM3leon(カメレオン)」を発表しました。
·gigazine.net·
Metaが「テキストから画像」「画像からテキスト」の両方に1つのモデルで対応できる生成AI「CM3leon」を発表
女子高生AIりんながMicrosoftのブースで人工知能ラップ&ファッションチェックを披露
女子高生AIりんながMicrosoftのブースで人工知能ラップ&ファッションチェックを披露
Microsoftが開発した人工知能「りんな」はLINEやTwitterでサービスを展開している女子高生AIです。Microsoftのディープラーニング技術と機械学習クラウドサービス「Azure Machine Learning」を組み合わせたというAIエンジンを搭載しているりんなが、東京ゲームショウ2016に出展中のMicrosoftのブースに登場し、ファッションチェックやラップを歌うなどの新機能を披露しました。
·gigazine.net·
女子高生AIりんながMicrosoftのブースで人工知能ラップ&ファッションチェックを披露
人間のような視覚・聴覚認識力を人工知能に与えるべくIBMとMITが研究協力すると発表
人間のような視覚・聴覚認識力を人工知能に与えるべくIBMとMITが研究協力すると発表
人工知能(AI)の進化はめざましく、GoogleやFacebookなどIT企業をはじめとして世界中の大学や研究機関が競うように開発しています。そんな中、IBMとMITが「現実世界の映像・音声へのAIの理解を高めること」を目的に研究協力することを発表しました。
·gigazine.net·
人間のような視覚・聴覚認識力を人工知能に与えるべくIBMとMITが研究協力すると発表
OpenAIがShutterstockとの提携範囲を拡大し画像・映像・音楽・メタデータへのアクセス可能に
OpenAIがShutterstockとの提携範囲を拡大し画像・映像・音楽・メタデータへのアクセス可能に
チャットAI「ChatGPT」や画像生成AI「DALL・E」の開発で知られるOpenAIとフォトストックサービス・Shutterstockが、2021年から続く戦略的パートナーシップの範囲を今後6年間拡大することを発表しました。
·gigazine.net·
OpenAIがShutterstockとの提携範囲を拡大し画像・映像・音楽・メタデータへのアクセス可能に
Adobeの画像生成AI「Firefly」が日本語で使えるようになったので試してみた
Adobeの画像生成AI「Firefly」が日本語で使えるようになったので試してみた
「Stable Diffusion」や「Midjourney」など、多種多様な画像生成AIが続々と登場する中、Adobeが開発した「Firefly」は著作権的にクリアな画像を生成できるAIとして企業などから大きな注目を集めています。そんなFireflyが日本語での指示を受け付けるようになったので、実際にどんな指示でどんな画像が生成されるのか試してみました。
·gigazine.net·
Adobeの画像生成AI「Firefly」が日本語で使えるようになったので試してみた
ブラウザ上で描いたスケッチをAIが画像に変換してくれるサービス「Stable Doodle」をStability AIがリリース
ブラウザ上で描いたスケッチをAIが画像に変換してくれるサービス「Stable Doodle」をStability AIがリリース
Stable DiffusionやMidjourneyなどの画像生成AIは、テキストを入力してAIに指示を出すことで画像を生成できますが、テキストだけだと自分の好みの画像を生成することはなかなか難しいものです。AI研究開発企業のStability AIが、2023年7月14日にシンプルなラフスケッチを画像へと変換できる無料サービス「Stable Doodle」の開始を発表しました。
·gigazine.net·
ブラウザ上で描いたスケッチをAIが画像に変換してくれるサービス「Stable Doodle」をStability AIがリリース
JPEGコーデックライブラリ「Libjpeg-Turbo」の開発プロジェクトが資金不足で続行困難に
JPEGコーデックライブラリ「Libjpeg-Turbo」の開発プロジェクトが資金不足で続行困難に
JPEGコーデックライブラリ「Libjpeg-Turbo」のバージョン3.0.0が2023年7月3日にリリースされました。しかし、プロジェクトの続行は資金不足のため困難であることを開発者が報告しています。
·gigazine.net·
JPEGコーデックライブラリ「Libjpeg-Turbo」の開発プロジェクトが資金不足で続行困難に