画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2587 bookmarks
Custom sorting
ビデオ会議で感じる「Zoom疲れ」を避けるには背景画像を変更することが有効だと実験で明らかに
ビデオ会議で感じる「Zoom疲れ」を避けるには背景画像を変更することが有効だと実験で明らかに
近年は感染症のパンデミックやリモートワークの普及により、ZoomやMicrosoft Teamsなどを利用したビデオ会議が一般的になりましたが、ビデオ会議は「videoconference fatigue(ビデオ会議疲労/Zoom疲れ)」と呼ばれる現象も引き起こしています。シンガポール・南洋理工大学の研究チームが実施した新たな研究により、ZOOM疲れを解消するための簡単な方法が明らかになりました。
·gigazine.net·
ビデオ会議で感じる「Zoom疲れ」を避けるには背景画像を変更することが有効だと実験で明らかに
山形大学がAIを使ってナスカの地上絵を半年で303個発見することに成功、地上絵の目的も明らかに
山形大学がAIを使ってナスカの地上絵を半年で303個発見することに成功、地上絵の目的も明らかに
山形大学ナスカ研究所とIBM研究所の共同研究プロジェクトが、AIを用いた6カ月間におよぶナスカでの現地調査により、新たに303個の地上絵を発見したと報告しています。これによりナスカ台地で確認済みの地上絵の数はほぼ倍増しました。
·gigazine.net·
山形大学がAIを使ってナスカの地上絵を半年で303個発見することに成功、地上絵の目的も明らかに
「Gemini 1.5 Flash」「Gemini 1.5 Pro」の更新版リリース、数学性能や視覚理解性能が向上してProの価格は大幅値下げ
「Gemini 1.5 Flash」「Gemini 1.5 Pro」の更新版リリース、数学性能や視覚理解性能が向上してProの価格は大幅値下げ
GoogleがGemini 1.5シリーズの性能強化版モデル「Gemini-1.5-Pro-002」と「Gemini-1.5-Flash-002」を発表しました。両モデルは強化前と比べて数学性能や視覚理解性能などが向上しているとのこと。また、Gemini 1.5 Proの値下げも発表されています。
·gigazine.net·
「Gemini 1.5 Flash」「Gemini 1.5 Pro」の更新版リリース、数学性能や視覚理解性能が向上してProの価格は大幅値下げ
「アバター」「タイタニック」のジェームズ・キャメロン監督が画像生成AIのStable Diffusionを開発するStability AIの取締役に就任
「アバター」「タイタニック」のジェームズ・キャメロン監督が画像生成AIのStable Diffusionを開発するStability AIの取締役に就任
映画「アバター」「タイタニック」「ターミネーター」の監督で知られるジェームズ・キャメロン氏が、画像生成AIのStable Diffusionを開発するStability AIの取締役に就任したことが2024年9月24日(火)に発表されました。
·gigazine.net·
「アバター」「タイタニック」のジェームズ・キャメロン監督が画像生成AIのStable Diffusionを開発するStability AIの取締役に就任
OpenAIの著作権訴訟でChatGPTのトレーニングデータが一部の人間に開示されることが決定、オフライン・記録機器持ち込み禁止の厳重警備体制
OpenAIの著作権訴訟でChatGPTのトレーニングデータが一部の人間に開示されることが決定、オフライン・記録機器持ち込み禁止の厳重警備体制
自分たちの書籍が同意なくAIのトレーニングに使われたとして、サラ・シルバーマン氏を含む3人の作家がOpenAIを訴えた裁判で、原告らが厳重な警備のもとでAIのトレーニングに使われた資料を精査することが認められたことがわかりました。
·gigazine.net·
OpenAIの著作権訴訟でChatGPTのトレーニングデータが一部の人間に開示されることが決定、オフライン・記録機器持ち込み禁止の厳重警備体制
Metaが「Llama 3.2」を公開、画像認識性能が向上&スマホ特化の小型版もあり
Metaが「Llama 3.2」を公開、画像認識性能が向上&スマホ特化の小型版もあり
MetaがAIモデル「Llama 3.2」を2024年9月26日に発表しました。Llama 3.2には画像認識性能が向上した中規模モデルの「Llama 3.2 90B」と「Llama 3.2 11B」のほかに、スマートフォン上でのローカル動作に最適化された小規模モデル「Llama 3.2 3B」および「Llama 3.2 1B」もラインナップされています。
·gigazine.net·
Metaが「Llama 3.2」を公開、画像認識性能が向上&スマホ特化の小型版もあり
小型ながらOpenAIやGoogleのAIに匹敵する性能を持つマルチモーダルAI「Molmo」がオープンソースで公開される、ブラウザ版のデモページも
小型ながらOpenAIやGoogleのAIに匹敵する性能を持つマルチモーダルAI「Molmo」がオープンソースで公開される、ブラウザ版のデモページも
2024年9月25日、アレン人工知能研究所(Ai2)が新たなマルチモーダルAI「Molmo」をオープンソースでリリースしました。MolmoはOpenAIのGPT-4oやGoogleのGemini 1.5 Proといった、大手企業が開発した最先端のAIに匹敵する性能を持ちながら、モデルのサイズは約10分の1と非常に小さくなっています。ブラウザでMolmoの性能をチェックできるデモページも公開されていたので、実際に試してみました。
·gigazine.net·
小型ながらOpenAIやGoogleのAIに匹敵する性能を持つマルチモーダルAI「Molmo」がオープンソースで公開される、ブラウザ版のデモページも
OpenAIがGPT-4oベースの有害なテキストや画像を検出できる新しいマルチモーダルモデレーションモデルを「Moderation API」に導入
OpenAIがGPT-4oベースの有害なテキストや画像を検出できる新しいマルチモーダルモデレーションモデルを「Moderation API」に導入
AI開発企業のOpenAIが、Moderation APIに新しいマルチモーダルモデレーションモデルを導入しました。このマルチモーダルモデレーションモデルはGPT-4oをベースとしており、テキストと画像の両方の入力をサポート。特に、英語以外の言語で以前のモデルよりも正確にモデレーションを実行してくれます。
·gigazine.net·
OpenAIがGPT-4oベースの有害なテキストや画像を検出できる新しいマルチモーダルモデレーションモデルを「Moderation API」に導入
iPhone 16から搭載された「カメラコントロール」は画面を触れずにカメラの設定を調整できる新機能、ただし慣れには時間がかかりそう
iPhone 16から搭載された「カメラコントロール」は画面を触れずにカメラの設定を調整できる新機能、ただし慣れには時間がかかりそう
iPhone 16の中身はiPhone 15と比べて進化していることがベンチマークの結果からわかりました。そして、サイズこそiPhone 15とほとんど変化はありませんが、iPhone 16は空間ビデオを撮影できるようにカメラが縦2列になり、さらに「カメラコントロール」という新しいボタンが追加されました。このカメラコントロールは果たしてどんなボタンなのかを使って確かめてみました。
·gigazine.net·
iPhone 16から搭載された「カメラコントロール」は画面を触れずにカメラの設定を調整できる新機能、ただし慣れには時間がかかりそう
全ベンチマークでGPT-4oを上回る世界トップのオープンソース大規模言語モデル「Reflection 70B」が登場、Llama 3.1 70B Instructをベースにリフレクションチューニングを施す
全ベンチマークでGPT-4oを上回る世界トップのオープンソース大規模言語モデル「Reflection 70B」が登場、Llama 3.1 70B Instructをベースにリフレクションチューニングを施す
大規模言語モデル(LLM)が自分の間違いを修正できるように開発されたトレーニング手法の「リフレクションチューニング」を用いてトレーニングされたオープンソースのLLM「Reflection 70B」が発表されました。
·gigazine.net·
全ベンチマークでGPT-4oを上回る世界トップのオープンソース大規模言語モデル「Reflection 70B」が登場、Llama 3.1 70B Instructをベースにリフレクションチューニングを施す
Alibabaが新AIモデル「Qwen2-VL」をリリース、20分を超えるビデオを分析し内容についての質問に要約して回答可能
Alibabaが新AIモデル「Qwen2-VL」をリリース、20分を超えるビデオを分析し内容についての質問に要約して回答可能
卓越した画像・動画の理解能力を持つというAIモデル「Qwen2-VL」をAlibabaが発表しました。OpenAIの「GPT-4o」やAnthropicの「Claude 3.5-Sonnet」といった他社モデルと比較して上回る点が多くあり、すでに英語と中国語に加えて日本語や韓国語にも対応済み。無料でデモを試すこともできます。
·gigazine.net·
Alibabaが新AIモデル「Qwen2-VL」をリリース、20分を超えるビデオを分析し内容についての質問に要約して回答可能
Google フォトの検索機能がアップデートされ「青い空」などの自然な文章で絞り込み検索可能に
Google フォトの検索機能がアップデートされ「青い空」などの自然な文章で絞り込み検索可能に
Googleの写真管理サービス「Google フォト」には高度な検索機能が搭載されており、「食べ物」「海」「山」といった単語で検索することで膨大な写真ライブラリから目的の写真を探すことが可能です。この検索機能の強化アップデートが2024年9月5日(木)に実施され、自然な文章で条件を細かく指定して絞り込み検索できるようになりました。
·gigazine.net·
Google フォトの検索機能がアップデートされ「青い空」などの自然な文章で絞り込み検索可能に
YouTubeが顔や声を含むクリエイターの肖像のコピーを防ぐAI検出ツールを発表、AIのトレーニングのためのスクレイピングも厳しく批判
YouTubeが顔や声を含むクリエイターの肖像のコピーを防ぐAI検出ツールを発表、AIのトレーニングのためのスクレイピングも厳しく批判
YouTubeが2024年9月5日に、クリエイターが自身の顔や声などの肖像がコピーされてほかの動画で使用されるのを防ぐためのAI検出ツールを発表しました。
·gigazine.net·
YouTubeが顔や声を含むクリエイターの肖像のコピーを防ぐAI検出ツールを発表、AIのトレーニングのためのスクレイピングも厳しく批判
iPhone 16 Proではカメラのアップグレードによりマクロ撮影時にも高画質の写真が撮影できるようになる可能性
iPhone 16 Proではカメラのアップグレードによりマクロ撮影時にも高画質の写真が撮影できるようになる可能性
日本時間の2024年9月10日2時から開催予定のAppleの発表イベントでは、iPhone 16シリーズが発表されると目されています。この中のハイエンドモデルとなるiPhone 16 ProおよびiPhone 16 Pro Maxでは、iPhoneカメラの欠点のひとつがついに改善される可能性があると9to5Macが報じました。
·gigazine.net·
iPhone 16 Proではカメラのアップグレードによりマクロ撮影時にも高画質の写真が撮影できるようになる可能性
YouTubeが「特定の体重や見た目を理想化する動画」を未成年ユーザーのおすすめに表示しないと宣言
YouTubeが「特定の体重や見た目を理想化する動画」を未成年ユーザーのおすすめに表示しないと宣言
体重や外見の理想をうたう動画を繰り返し視聴すると有害になる可能性があるという専門家からの警告を受けて、YouTubeがそのような動画を10代のユーザーにおすすめ表示することをやめると発表しました。
·gigazine.net·
YouTubeが「特定の体重や見た目を理想化する動画」を未成年ユーザーのおすすめに表示しないと宣言
スーパーマリオのプレイ映像を学習してテキストからゲーム動画を自動生成するAIモデル「MarioVGG」
スーパーマリオのプレイ映像を学習してテキストからゲーム動画を自動生成するAIモデル「MarioVGG」
AI開発スタートアップのVirtuals Protocolが、テキストを入力することで「スーパーマリオブラザーズ」のゲームプレイ映像を生成できるAIモデル「MarioVGG」を開発したと発表しました。MarioVGGは約73万フレームに及ぶ「スーパーマリオブラザーズ」のゲームプレイ動画で学習しています。
·gigazine.net·
スーパーマリオのプレイ映像を学習してテキストからゲーム動画を自動生成するAIモデル「MarioVGG」
Stable Diffusionにも使われるデータセット「LAION-5B」に児童性的虐待コンテンツが見つかり開発元がリンクを削除した「Re-LAION-5B」をリリース
Stable Diffusionにも使われるデータセット「LAION-5B」に児童性的虐待コンテンツが見つかり開発元がリンクを削除した「Re-LAION-5B」をリリース
Stable DiffusionやMidjourneyなど著名な画像生成AIにも使われたデータセット「LAION-5B」に児童性的虐待コンテンツ(CSAM)が見つかった問題で、LAION-5Bの開発元であるLAIONがデータセットからCSAMを削除した「Re-LAION-5B」を新たに発表しました。
·gigazine.net·
Stable Diffusionにも使われるデータセット「LAION-5B」に児童性的虐待コンテンツが見つかり開発元がリンクを削除した「Re-LAION-5B」をリリース
Pixel 9に搭載された画像生成AIはフェイク画像を作るのが簡単すぎて写真を信じられなくなるレベルでした
Pixel 9に搭載された画像生成AIはフェイク画像を作るのが簡単すぎて写真を信じられなくなるレベルでした
「Pixel 9」「Pixel 9 Pro」「Pixel 9 Pro XL」には、写真に新たな物体を追加したり写真の一部を置き換えたりできるAI機能「イマジネーション」が搭載されています。スマートフォンに標準搭載された画像生成AI機能でどんな編集が可能なのか気になったので、実際に複数の写真でイマジネーションを実行してみました。
·gigazine.net·
Pixel 9に搭載された画像生成AIはフェイク画像を作るのが簡単すぎて写真を信じられなくなるレベルでした
Pixelの「あとから写真をズームできる機能」を使ってみた
Pixelの「あとから写真をズームできる機能」を使ってみた
スマートフォンで撮影した写真を鑑賞していると「もっとズームで撮影しておけばよかった」と感じることがありますが、撮影済みの写真を拡大しても画質が低下してしまいます。Google製スマートフォン「Pixel」の一部の機種に搭載された「ズーム画質向上」という機能を使えば撮影済み写真をキレイに拡大できるらしいので、実際に使ってみましたた。
·gigazine.net·
Pixelの「あとから写真をズームできる機能」を使ってみた
カマラ・ハリス陣営が投稿した集会写真はAI生成の偽画像とドナルド・トランプが主張し「これが民主党が選挙で勝つ方法」と痛烈に批判、しかし実際の写真である証拠が続々集まる
カマラ・ハリス陣営が投稿した集会写真はAI生成の偽画像とドナルド・トランプが主張し「これが民主党が選挙で勝つ方法」と痛烈に批判、しかし実際の写真である証拠が続々集まる
アメリカの第49代副大統領で、2024年アメリカ合衆国大統領選挙からの撤退を表明したジョー・バイデン大統領の後任候補として民主党の指名候補となったのがカマラ・ハリス氏です。同氏はすでに各地で選挙資金集めのための集会を開催しており、地元であるサンフランシスコでは総額1200万ドル(約17億7000万円)以上を集めたと報じられている通り、大統領選挙に向けて着々と準備を進めています。しかし、ハリス氏が各地で開催している集会の写真は「AIで作成された偽画像である」と、共和党の指名候補であるドナルド・トランプ前大統領が主張していることが明らかになりました。
·gigazine.net·
カマラ・ハリス陣営が投稿した集会写真はAI生成の偽画像とドナルド・トランプが主張し「これが民主党が選挙で勝つ方法」と痛烈に批判、しかし実際の写真である証拠が続々集まる
Xに画像生成AIが搭載され「喫煙するエルモ」「戦車に乗るカマラ・ハリス」など大量のセンシティブ画像が世に放たれる
Xに画像生成AIが搭載され「喫煙するエルモ」「戦車に乗るカマラ・ハリス」など大量のセンシティブ画像が世に放たれる
X(旧Twitter)にはチャットAI「Grok」が搭載されています。このGrokのバージョンアップ版である「Grok-2」のベータテストが2024年8月13日(火)に始まりました。Grok-2には画像生成機能も搭載されており、X上で画像を生成することができます。
·gigazine.net·
Xに画像生成AIが搭載され「喫煙するエルモ」「戦車に乗るカマラ・ハリス」など大量のセンシティブ画像が世に放たれる
ディープフェイク詐欺動画の約25%にイーロン・マスクが登場していたことが判明
ディープフェイク詐欺動画の約25%にイーロン・マスクが登場していたことが判明
AIの発展と普及により、実在する人物にそっくりな顔や声で話すディープフェイク動画を誰でも容易に作成できるようになり、それに伴ってディープフェイク動画の詐欺も急増しています。日刊紙のニューヨーク・タイムズは、インターネット上にあふれているディープフェイク詐欺動画の中でも、特にテスラやSpaceXのCEOを務めるイーロン・マスク氏を登場させたものが多いことを報じました。
·gigazine.net·
ディープフェイク詐欺動画の約25%にイーロン・マスクが登場していたことが判明
Googleが高品質で文字のレンダリングも可能な画像生成モデル「Imagen 3」をリリースしたので使ってみた
Googleが高品質で文字のレンダリングも可能な画像生成モデル「Imagen 3」をリリースしたので使ってみた
Google DeepMindがテキストから画像を生成できる新たなモデル「Imagen 3」をリリースするとともにImagen 3の研究論文を公開しました。Imagen 3はGoogleの画像生成ツール「ImageFX」で試せるとのことなので、実際に試してみました。
·gigazine.net·
Googleが高品質で文字のレンダリングも可能な画像生成モデル「Imagen 3」をリリースしたので使ってみた
Runwayが動画生成AIの「Gen-3 Alpha Turbo」をリリース、Gen-3 Alphaよりも高速かつ安価&5秒と10秒の動画生成&無料トライアル含むすべてのプランで利用可能
Runwayが動画生成AIの「Gen-3 Alpha Turbo」をリリース、Gen-3 Alphaよりも高速かつ安価&5秒と10秒の動画生成&無料トライアル含むすべてのプランで利用可能
AI企業のRunwayが、画像から動画を生成する「Gen-3 Alpha Turbo」をリリースしました。無料トライアルを含むすべてのプランで利用できることが特徴で、既に発表済みの「Gen-3 Alpha」より安価ながら同等のパフォーマンスを発揮するとされています。
·gigazine.net·
Runwayが動画生成AIの「Gen-3 Alpha Turbo」をリリース、Gen-3 Alphaよりも高速かつ安価&5秒と10秒の動画生成&無料トライアル含むすべてのプランで利用可能
YouTuberが生成AIのモデル学習に用いたとしてNVIDIAとOpenAIを提訴、著作権侵害ではなく「不当利得」を主張
YouTuberが生成AIのモデル学習に用いたとしてNVIDIAとOpenAIを提訴、著作権侵害ではなく「不当利得」を主張
YouTuberとして活動しているデビッド・ミレット氏が、コンテンツをAIのトレーニングに利用されているとしてNVIDIAを相手取り集団訴訟を起こしています。ミレット氏はこの2週間前にOpenAIのことも訴えています。
·gigazine.net·
YouTuberが生成AIのモデル学習に用いたとしてNVIDIAとOpenAIを提訴、著作権侵害ではなく「不当利得」を主張
ドナルド・トランプが「テイラー・スウィフトがトランプ支持者である」とする生成AIによる虚偽の画像を共有
ドナルド・トランプが「テイラー・スウィフトがトランプ支持者である」とする生成AIによる虚偽の画像を共有
2024年に開催されるアメリカ大統領選挙で共和党候補として出馬する予定のドナルド・トランプ氏が、自身のメディア会社が所有するSNS「Truth Social」に、「歌手のテイラー・スウィフト氏とそのファンがトランプ氏を支持しているように思わせる画像」を共有しました。しかし、これらの画像がAIで生成されたものだったため、物議を醸しています。
·gigazine.net·
ドナルド・トランプが「テイラー・スウィフトがトランプ支持者である」とする生成AIによる虚偽の画像を共有