画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2306 bookmarks
Custom sorting
イーロン・マスクのAI企業が画像を理解可能なマルチモーダルAI「Grok-1.5」を発表、「GPT-4V」や「Gemini Pro 1.5」に匹敵する性能
イーロン・マスクのAI企業が画像を理解可能なマルチモーダルAI「Grok-1.5」を発表、「GPT-4V」や「Gemini Pro 1.5」に匹敵する性能
イーロン・マスク氏が設立したAI企業「xAI」が、同社初のマルチモーダルAIモデル「Grok-1.5」を発表しました。Grok-1.5は画像の理解が可能で、「フローチャートを認識してコードを書く」「栄養成分表示を見てカロリーを計算する」といった操作が可能です。
·gigazine.net·
イーロン・マスクのAI企業が画像を理解可能なマルチモーダルAI「Grok-1.5」を発表、「GPT-4V」や「Gemini Pro 1.5」に匹敵する性能
Adobeの画像生成AI「Firefly」の学習用データセットにMidjourneyなど別の画像生成AIが生成した画像が全体の約5%ほど混入していることが判明
Adobeの画像生成AI「Firefly」の学習用データセットにMidjourneyなど別の画像生成AIが生成した画像が全体の約5%ほど混入していることが判明
Adobeの画像生成AI「Firefly」は、Adobe Stockという写真や映像のライブラリでトレーニングされていることが特徴で、インターネット上の画像をスクレイピングして学習した他の画像生成AIと異なり、商業的にも安全なAIだとAdobeは主張しています。しかし、実際はFireflyの学習したデータセットにMidjourneyなどによって生成された画像が含まれていると、アメリカ経済紙のBloombergが報じています。
·gigazine.net·
Adobeの画像生成AI「Firefly」の学習用データセットにMidjourneyなど別の画像生成AIが生成した画像が全体の約5%ほど混入していることが判明
NTT、大規模言語モデルを使った視覚読解技術を実現、図表などを含む「文書」を読めるAIに
NTT、大規模言語モデルを使った視覚読解技術を実現、図表などを含む「文書」を読めるAIに
日本電信電話株式会社(NTT)は4月12日、大規模言語モデル(LLM)により、図表やグラフ、文字修飾やレイアウトといった情報を含む文書を読解する、視覚読解技術を実現したと発表した。同社製のLLM「tsuzumi」のアダプタ技術として採用・導入されている。
·internet.watch.impress.co.jp·
NTT、大規模言語モデルを使った視覚読解技術を実現、図表などを含む「文書」を読めるAIに
“機械学習パラダイス”…AI学習し放題に歯止め、文化庁など業界に指針 ニュースイッチ by 日刊工業新聞社
“機械学習パラダイス”…AI学習し放題に歯止め、文化庁など業界に指針 ニュースイッチ by 日刊工業新聞社
人工知能(AI)技術と著作権など、生成AIに対して社会が抱える懸念に対処する方向性が見えてきた。文化庁の小委員会は著作権の考え方を、内閣府の知的財産戦略推進事務局は知財全般の骨子案をそれぞれ示した。流...
·newswitch.jp·
“機械学習パラダイス”…AI学習し放題に歯止め、文化庁など業界に指針 ニュースイッチ by 日刊工業新聞社
FFmpeg 7.0が公開される、「ネイティブVVCデコーダーの追加」「CLIツールのマルチスレッド化」「非推奨APIの削除」など
FFmpeg 7.0が公開される、「ネイティブVVCデコーダーの追加」「CLIツールのマルチスレッド化」「非推奨APIの削除」など
マルチメディアフレームワーク「FFmpeg」のバージョン7.0(コードネーム:Dijkstra)が2024年4月5日に公開されました。FFmpeg 7.0では「ネイティブVVCデコーダーの追加」「IAMFのサポート」「CLIツールのマルチスレッド化」「非推奨APIの削除」といった変更が加わっています。
·gigazine.net·
FFmpeg 7.0が公開される、「ネイティブVVCデコーダーの追加」「CLIツールのマルチスレッド化」「非推奨APIの削除」など
100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明
100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明
OpenAIが、AIモデルのトレーニングに用いるために100万時間を超える分量のYouTube動画をダウンロードして利用していたことがThe NewYork Timesの指摘でわかりました。なお、YouTubeと同じ親会社AlphabetのもとにいるGoogleは、OpenAIの行為に気付いていましたが、自分たちも独自のAIモデルのトレーニングにYouTubeの動画を活用していたため、行動を起こさなかったとのことです。
·gigazine.net·
100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明
インターネットアーカイブがカリブ海の島「アルバ」と協力して10万点超の歴史的資料をデジタルアーカイブとして公開
インターネットアーカイブがカリブ海の島「アルバ」と協力して10万点超の歴史的資料をデジタルアーカイブとして公開
さまざまなウェブページやデジタルコンテンツの保存活動を行う非営利団体のインターネットアーカイブが、カリブ海に浮かぶオランダ領アルバの公的機関と協力し、アルバにまつわる10万点超の歴史的資料をデジタル化して公開しました。「Coleccion Aruba」と名付けられたこのデジタルアーカイブは、インターネットアーカイブのウェブサイトを通じて世界中のどこからでも閲覧可能です。
·gigazine.net·
インターネットアーカイブがカリブ海の島「アルバ」と協力して10万点超の歴史的資料をデジタルアーカイブとして公開
Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も
Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も
Appleの研究者が、スマートフォンのアプリUIを理解するために設計したマルチモーダル大規模言語モデル(MLLM)の「Ferret-UI」を開発したという論文を、未査読論文リポジトリであるarXivで公開しました。
·gigazine.net·
Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も
Googleが放射線科医向けに画像診断・病歴チェック・論文検索が可能なAIシステムをバイエルと提携して構築
Googleが放射線科医向けに画像診断・病歴チェック・論文検索が可能なAIシステムをバイエルと提携して構築
Google Cloudが医薬品メーカーのバイエルと提携し、放射線科医向けのAI搭載ヘルスケアアプリケーションを開発することが明らかになりました。主に医療データの約90%を占めるとされる画像データの分析が行われる予定で、患者の画像を以前の画像と比較したり、画像内の異常にフラグを立てて関連する医療情報を提示したりすることが可能になります。
·gigazine.net·
Googleが放射線科医向けに画像診断・病歴チェック・論文検索が可能なAIシステムをバイエルと提携して構築
生成AIの学習に用いた資料の公開を義務付ける「生成AI著作権開示法」案が提出される
生成AIの学習に用いた資料の公開を義務付ける「生成AI著作権開示法」案が提出される
アメリカ・民主党のアダム・シフ下院議員がAI企業に対し、生成AIモデルの開発に使用した著作権のある素材を開示することを義務付ける「生成AI著作権開示法(Generative AI Copyright Disclosure Act)」案を提出しました。この法案は、AI企業が著作権のあるコンテンツを不正に使用してツールを開発しているのではないかという懸念から生まれたものです。
·gigazine.net·
生成AIの学習に用いた資料の公開を義務付ける「生成AI著作権開示法」案が提出される
Googleが「消しゴムマジック」などのAI画像編集ツールをiPhoneも含めた全Googleフォトユーザーに無料開放
Googleが「消しゴムマジック」などのAI画像編集ツールをiPhoneも含めた全Googleフォトユーザーに無料開放
Googleフォトに搭載されている、写真内の不要なものを削除する「消しゴムマジック」や撮影時のボケや手ぶれを取り除く「ボケ補正」などのAIを利用した編集ツールが、Google Pixelユーザーおよびサブスクリプションサービス「Google One」の加入者だけでなく、Googleフォトユーザー全体に無料で開放されることがわかりました。
·gigazine.net·
Googleが「消しゴムマジック」などのAI画像編集ツールをiPhoneも含めた全Googleフォトユーザーに無料開放
Instagramが10代の若者のDMでヌード画像を自動検出してぼかして送信者と受信者に警告画面を表示する機能をテスト予定
Instagramが10代の若者のDMでヌード画像を自動検出してぼかして送信者と受信者に警告画面を表示する機能をテスト予定
Metaが、未成年がSNSで性的脅迫を受ける「セクストーション」被害への対策として、ダイレクトメッセージ(DM)で送られるヌード画像を検出してぼかしを加え、さらに警告画面を表示する機能をInstagramに搭載するテストを行うと発表しました。
·gigazine.net·
Instagramが10代の若者のDMでヌード画像を自動検出してぼかして送信者と受信者に警告画面を表示する機能をテスト予定
2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは?
2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは?
インターネット上には膨大なデータが存在しており、それらを学習させることで作られたAIが続々と登場するようになりました。AIの普及が爆発的に進む一方、研究者からはAIシステムを動かす燃料である学習データが枯渇する可能性があると懸念する声が上がっています。
·gigazine.net·
2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは?
Adobeが動画生成AIのトレーニング用コンテンツ収集のため「動画1分に最大1000円超」の報酬を用意
Adobeが動画生成AIのトレーニング用コンテンツ収集のため「動画1分に最大1000円超」の報酬を用意
ジェネレーティブAI「Adobe Firefly」に画像生成だけではなく動画生成を行わせるため、Adobeがトレーニング用のコンテンツ収集に動き出したことをBloombergが報じました。動画提供に対する報酬は、1分につき最高7.25ドル(約1110円)ほどになる可能性があるとのことです。
·gigazine.net·
Adobeが動画生成AIのトレーニング用コンテンツ収集のため「動画1分に最大1000円超」の報酬を用意
Metaがテキストベースのプロンプトに視覚情報ベースで回答するAIエージェントのベンチマーク「OpenEQA」をリリース
Metaがテキストベースのプロンプトに視覚情報ベースで回答するAIエージェントのベンチマーク「OpenEQA」をリリース
現地時間の2024年4月11日、Metaがテキストベースの質問に対してAIエージェントの物理空間の理解度を測定することができるベンチマーク「OpenEQA」をリリースしました。
·gigazine.net·
Metaがテキストベースのプロンプトに視覚情報ベースで回答するAIエージェントのベンチマーク「OpenEQA」をリリース
生成AIアプリで男子学生が女子の「ディープヌード」を作成する問題が深刻化している
生成AIアプリで男子学生が女子の「ディープヌード」を作成する問題が深刻化している
2023年に、アメリカ・ニュージャージー州ウェストフィールド高等学校の男子生徒らが、AIを使用して作成した女子生徒のヌード画像を共有する事件が発生しました。この事件の続報と、他の地域でも次々と発生している類似の問題を、The New York Timesがまとめています。
·gigazine.net·
生成AIアプリで男子学生が女子の「ディープヌード」を作成する問題が深刻化している
「AI脚本」を人気声優が朗読…銘打ったイベントは中止、「盗作」と批判相次ぎ
「AI脚本」を人気声優が朗読…銘打ったイベントは中止、「盗作」と批判相次ぎ
【読売新聞】「AI脚本」を、人気声優が朗読する――。そう銘打ったイベントが3月、中止に追い込まれる事態が起きた。生成AI(人工知能)が脚本などの著作物を無断学習している可能性を踏まえ、「盗作脚本ではないか」「声優を応援できない」など
·yomiuri.co.jp·
「AI脚本」を人気声優が朗読…銘打ったイベントは中止、「盗作」と批判相次ぎ
Appleが空中に人の顔が浮かぶApple Vision Proの「空間ペルソナ」のパブリックベータ版をリリース
Appleが空中に人の顔が浮かぶApple Vision Proの「空間ペルソナ」のパブリックベータ版をリリース
Appleは2024年4月2日に、visionOS 1.1がインストールされたApple Vision Pro向けに「空間ペルソナ」を導入しました。この空間ペルソナを実際に試した複数のメディアが、その使用感をレビューしています。
·gigazine.net·
Appleが空中に人の顔が浮かぶApple Vision Proの「空間ペルソナ」のパブリックベータ版をリリース
音声を盗んだりアーティストを置き換えたりする「略奪的AI」を非難する書簡にビリー・アイリッシュやスティーヴィー・ワンダーなど200人以上の著名人が署名
音声を盗んだりアーティストを置き換えたりする「略奪的AI」を非難する書簡にビリー・アイリッシュやスティーヴィー・ワンダーなど200人以上の著名人が署名
近年ではAIの発展により、人間のアーティストの歌声などを学習して新たな楽曲を作り出す技術が登場しています。アーティストの権利団体「Artist Rights Alliance(ARA)」は2024年4月2日、「人間のアーティストの権利を侵害し、音楽の価値を下げかねないAIの使用は控えるべき」との書簡を発表しました。この書簡には、ビリー・アイリッシュ氏やスティーヴィー・ワンダー氏など、200名以上の著名アーティストが署名しています。
·gigazine.net·
音声を盗んだりアーティストを置き換えたりする「略奪的AI」を非難する書簡にビリー・アイリッシュやスティーヴィー・ワンダーなど200人以上の著名人が署名
AppleにiPhoneの「写真」アプリを代替するサードパーティー製アプリを認めるようにEUが要求する可能性
AppleにiPhoneの「写真」アプリを代替するサードパーティー製アプリを認めるようにEUが要求する可能性
EUの競争政策担当委員であるマルグレーテ・ベステアー氏が、iPhoneのユーザーがiPhoneにプリインストールされている「写真」アプリの代わりとなるサードパーティー製アプリをAppleに認めるように要求する可能性を示唆したと報じられています。
·gigazine.net·
AppleにiPhoneの「写真」アプリを代替するサードパーティー製アプリを認めるようにEUが要求する可能性
無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」
無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」
PNG・JPEG・GIFといった画像ファイルやPDFファイルから、TesseractによるOCR(光学文字認識)でテキストを抽出できる「OCR PDFs and images directly in your browser」をエンジニアのサイモン・ウィルソン氏が公開しました。OCR PDFs and images directly in your browserはすべての処理をブラウザ上で実行するため、ファイルをどこかのサーバーにアップロードすることがないというのが大きな特徴です。
·gigazine.net·
無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」
Googleが「生成AIを使った検索機能」の有料化を検討している
Googleが「生成AIを使った検索機能」の有料化を検討している
Googleが生成AIを活用した新しい「プレミアム」機能の有料化を検討していると、イギリス経済紙のFinancial Timesが報じています。GoogleがOpenAIやMicrosoftなどの競合への対応に追われる中で、Googleの主力である検索事業の収益モデルを見直す動きといえます。
·gigazine.net·
Googleが「生成AIを使った検索機能」の有料化を検討している
MetaのAIでアジア人が一時生成不可に、「アジア人と白人のカップル」を出力できない問題で
MetaのAIでアジア人が一時生成不可に、「アジア人と白人のカップル」を出力できない問題で
「アジア人男性と白人女性のカップル」など画像が生成ができないことが取り沙汰されたMetaの画像生成AIが、一時的にアジア人の出力をすべて一律に停止したことがわかりました。
·gigazine.net·
MetaのAIでアジア人が一時生成不可に、「アジア人と白人のカップル」を出力できない問題で
Googleが高品質なJPEG画像の圧縮率を35%向上させる新たなコーディングライブラリ「Jpegli」を発表
Googleが高品質なJPEG画像の圧縮率を35%向上させる新たなコーディングライブラリ「Jpegli」を発表
Googleが2024年4月3日、新たなJPEGのコーディングライブラリである「Jpegli」を発表しました。Jpegliは高い下位互換性を維持しながら機能が強化されており、高品質の圧縮設定で圧縮率を35%も向上したとのことです。
·gigazine.net·
Googleが高品質なJPEG画像の圧縮率を35%向上させる新たなコーディングライブラリ「Jpegli」を発表
Metaの画像生成AIは「アジア人男性と白人女性のカップル」をイメージできないという報告
Metaの画像生成AIは「アジア人男性と白人女性のカップル」をイメージできないという報告
Metaは画像生成AI「Imagine」を無料で使えるウェブアプリ「Imagine with Meta AI」を公開しています。The Vergeの記者がこのImagine with Meta AIで「アジア人と白人のカップル」を生成しようと試みたものの、成功しなかったと報告しています。
·gigazine.net·
Metaの画像生成AIは「アジア人男性と白人女性のカップル」をイメージできないという報告
AI生成の偽情報と戦う非営利団体「TrueMedia.org」がディープフェイク検出器を公開
AI生成の偽情報と戦う非営利団体「TrueMedia.org」がディープフェイク検出器を公開
2024年のアメリカ合衆国大統領選に向けて、非営利団体のTrueMedia.orgがディープフェイクの検出技術を発表しました。検出ツールはこれまでに公開されたことがないAI技術に基づく前例のないモデルを試用し、メディアが操作された兆候を調査することができます。
·gigazine.net·
AI生成の偽情報と戦う非営利団体「TrueMedia.org」がディープフェイク検出器を公開
YouTubeのCEOが「AIのトレーニングへの利用はルール違反」「大事なのはクリエイターがYouTubeで成功すること」と語る
YouTubeのCEOが「AIのトレーニングへの利用はルール違反」「大事なのはクリエイターがYouTubeで成功すること」と語る
YouTubeのニール・モハンCEOがBloombergのエミリー・チャン氏によるインタビューの中で、OpenAIが2024年2月に公開した動画生成AI「Sora」について、もしYouTubeの動画を用いてトレーニングしたのであればルール違反にあたると述べました。
·gigazine.net·
YouTubeのCEOが「AIのトレーニングへの利用はルール違反」「大事なのはクリエイターがYouTubeで成功すること」と語る
従来の技術だと2時間はかかるところわずか4分で高解像度の脳画像を撮影するMRI「イズールト」が開発される
従来の技術だと2時間はかかるところわずか4分で高解像度の脳画像を撮影するMRI「イズールト」が開発される
11.7T(テスラ)の磁場強度を持ち、わずか4分で高解像度の脳画像を撮影することが可能なMRI「イズールト(Iseult)」が開発され、初めて人間の脳がスキャンされました。
·gigazine.net·
従来の技術だと2時間はかかるところわずか4分で高解像度の脳画像を撮影するMRI「イズールト」が開発される