画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2722 bookmarks

Custom sorting

AlibabaのQwenチームが画像を認識できるオープンウェイトAIモデル「QVQ」をリリース

Alibabaの大規模言語モデル「Qwen」の研究チームが、視覚的推論機能の強化に重点を置いた実験的研究モデルとして「QVQ-72B-Preview」を公開しました。

·gigazine.net·Dec 27, 2024

AlibabaのQwenチームが画像を認識できるオープンウェイトAIモデル「QVQ」をリリース

ついにAI学習のためのデータが枯渇へ、データセットが不足しているAI企業は大規模で汎用的なLLMから小規模で専門性の高いモデルへの移行を余儀なくされる可能性大

AIモデルの開発には学習資料となるデータセットが必要不可欠ですが、すでに大規模なモデルはアクセスできるデータのほとんどを食い尽くしており、2028年までにデータを使い果たしてしまう可能性が指摘されています。AIとデータセットの現状について、学術雑誌のNatureがまとめています。

·gigazine.net·Dec 22, 2024

Googleが画像をリミックスして新たな画像を生成できる画像生成AIアプリ「Whisk」を発表

Googleが2024年12月16日に、画像を入力することでさまざまな画像を生成できる新たな画像生成AI「Whisk」を発表しました。

·gigazine.net·Dec 22, 2024

Googleが画像をリミックスして新たな画像を生成できる画像生成AIアプリ「Whisk」を発表

Googleが最大4Kの動画を生成できるAI「Veo 2」を発表、人間による評価でOpenAIのSoraを上回る

Googleが2024年12月16日に動画生成AIの「Veo 2」を発表しました。最大4Kまでの解像度の動画を作成できるほか、実写風動画以外にアニメ調の動画を作成可能で、カメラに対する指示も忠実に反映できると述べられています。

·gigazine.net·Dec 22, 2024

Googleが最大4Kの動画を生成できるAI「Veo 2」を発表、人間による評価でOpenAIのSoraを上回る

YouTubeで「サードパーティーが自分の動画でAIをトレーニングすることを許可するかどうか」をクリエイターが選択可能に

YouTubeが日本時間の2024年12月17日、クリエイターが「サードパーティー企業のAIトレーニングに自分の動画が使用されることを許可するかどうか」を選択可能にすると発表しました。この設定はデフォルトでオフになっていますが、もしAmazon・Meta・OpenAIなどのサードパーティー企業によるAIトレーニングを許可したい場合、クリエイターが自分で設定を変更できます。

·gigazine.net·Dec 22, 2024

YouTubeで「サードパーティーが自分の動画でAIをトレーニングすることを許可するかどうか」をクリエイターが選択可能に

既存の動画生成AIを8倍高速化できる「FastVideo」登場

動画生成AIの生成速度を高速化できるフレームワーク「FastVideo」が登場しました。この技術により、既存の動画生成モデルの生成速度を8倍に高速化できることが確認されています。

·gigazine.net·Dec 22, 2024

既存の動画生成AIを8倍高速化できる「FastVideo」登場

GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ

OpenAIやGoogle、Anthropic、Metaなど、さまざまな企業が大規模言語モデルを開発しており、各社の開発するモデルの性能差はベンチマークを使って比較されます。エンジニアのサイモン・ウィリソン氏が、「自転車に乗ったペリカン」を描かせるという独自のベンチマークを考案したと報告しています。

·gigazine.net·Dec 22, 2024

GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ

Apple Vision Proの3D動画「空間ビデオ」用カメラ「Blackmagic URSA Cine Immersive」が予約可能に

映像機器メーカーのBlackmagic Designが、MRヘッドセット「Apple Vision Pro」の3D動画「空間ビデオ」が撮影できるカメラ「Blackmagic URSA Cine Immersive」の先行予約受付を開始しました。

·gigazine.net·Dec 22, 2024

Apple Vision Proの3D動画「空間ビデオ」用カメラ「Blackmagic URSA Cine Immersive」が予約可能に

「研究妨害」でTiktokに訴えられた元インターンの論文、AI研究会議の最優秀賞に選ばれ物議

AI研究の権威であるNeurIPS会議で、田柯宇が筆頭著者となった論文が最優秀賞を受賞した。田は、インターン先だったバイトダンスから、ほかの研究者の実験を妨害した疑いで訴訟を起こされていると報じられており、この受賞決定には異議を唱える声が上がっている。

·wired.jp·Dec 22, 2024

「研究妨害」でTiktokに訴えられた元インターンの論文、AI研究会議の最優秀賞に選ばれ物議

動画生成AI「Sora」ついに登場──OpenAIが提供最大20秒の動画作成可能ディープフェイク対策にも慎重

米OpenAIは12月9日（現地時間）、動画生成AI「Sora」を同日から提供すると発表した。

·itmedia.co.jp·Dec 17, 2024

動画生成AI「Sora」ついに登場──OpenAIが提供最大20秒の動画作成可能ディープフェイク対策にも慎重

動画生成AI「Sora」爆速レビュー 50本生成して分かった、得意なこと・苦手なこと

米OpenAIが一般提供を始めた動画生成AI「Sora」。リリース当初はアクセス集中により一部ユーザーが利用できない状態だったが、徐々に利用可能に。記者も使えるようになったので、いくつか思い付いた動画を生成してみた。

·itmedia.co.jp·Dec 17, 2024

動画生成AI「Sora」爆速レビュー 50本生成して分かった、得意なこと・苦手なこと

Google、画像プロンプトで画像をリミックス生成する「Whisk」

Googleは、新しい画像生成AIツール「Whisk」を発表した。被写体、シーン、スタイルの3つの画像をドラッグ＆ドロップするとそれらをリミックスした画像を生成する。まずは米国向けにGoogle Labsで公開した。

·itmedia.co.jp·Dec 17, 2024

Google、画像プロンプトで画像をリミックス生成する「Whisk」

米Google、動画生成AI「Veo 2」発表最大4Kの解像度に対応性能評価は米OpenAIの「Sora」超え

米Googleは、動画生成AI「Veo 2」を発表した。最大4Kの解像度で数分尺の動画を作成できる。米Metaのベンチマーク「MovieGenBench」で他の動画生成AIと性能を比べたところ、米OpenAIの動画生成AI「Sora Turbo」などよりも高い性能を記録したとしている。

·itmedia.co.jp·Dec 17, 2024

米Google、動画生成AI「Veo 2」発表最大4Kの解像度に対応性能評価は米OpenAIの「Sora」超え

Adobeが写真からガラスの映り込みを削除できる「Reflection Removal tool」を公開

Adobeが、窓越しに撮影した写真に写り込む反射を除去できるツール「Reflection Removal tool」を発表しました。記事作成時点でテクノロジープレビューが、Adobe Camera Rawで使用可能です。

·gigazine.net·Dec 16, 2024

Adobeが写真からガラスの映り込みを削除できる「Reflection Removal tool」を公開

MetaのAI生成動画に不可視の透かしを適用するAIツール「Meta Video Seal」や人型モデルの動きを制御する「Meta Motivo」など新情報山盛り発表

2024年12月12日、MetaがAIや機械学習の進歩に関する複数の研究成果物を発表しました。AI生成の動画に肉眼では認識できない「透かし」を入れて出所を特定できるようにするツールなどが公開されています。

·gigazine.net·Dec 16, 2024

MetaのAI生成動画に不可視の透かしを適用するAIツール「Meta Video Seal」や人型モデルの動きを制御する「Meta Motivo」など新情報山盛り発表

一般家庭の手頃なハードウェア上で瞬時に画像を生成できるオープンソースAIモデル「NitroFusion」がリリースされる

イギリス・サリー大学のサリー人間中心人工知能研究所が、控えめで手頃な価格のハードウェアのみを使用して瞬時に画像を生成するAIモデル「NitroFusion」を作成したと発表しました。

·gigazine.net·Dec 12, 2024

一般家庭の手頃なハードウェア上で瞬時に画像を生成できるオープンソースAIモデル「NitroFusion」がリリースされる

GoogleがAIでChromeを自動操作できる「Project Mariner」を発表

Googleが現地時間2024年12月11日に、ブラウザ上の情報を理解して自動操作できるAI「Project Mariner」を発表しました。Project Marinerを使えば「スプレッドシートにまとめた企業名をもとに各企業のメールアドレスを検索してまとめる」といった複雑な操作を自動で実行できます。

·gigazine.net·Dec 12, 2024

GoogleがAIでChromeを自動操作できる「Project Mariner」を発表

映像や音声を理解してリアルタイムで質問に答えてくれるGoogle製AIアシスタント「Project Astra」をスマホやスマートグラスで使いまくるデモ動画が公開中

Googleは2024年5月、映像や音声を理解してリアルタイムで質問に答えてくれるAIアシスタント「Project Astra(Astra)」を発表しました。現地時間の12月11日に公開された新たな動画では、Astraのテストビルドを搭載したPixelスマートフォンやプロトタイプのスマートグラスを持ち出し、街中のあらゆる場面でAstraを使いまくる様子を確認できます。

·gigazine.net·Dec 12, 2024

ロボットや自動運転車が周囲を把握するためのツール「LiDAR」の仕組みとは？

周囲の状況を把握するために役立つスキャンシステム「LiDAR」は、周囲の状況に応じた処理が必要となる自動運転技術を始め、自律型ロボットや周囲をスキャンする3Dアプリなどさまざまな分野に使用されています。そんなLiDARの仕組みがどうなっているのかについて、エンジニアリングが専門のヴィクラム・セカール氏が解説しました。

·gigazine.net·Dec 10, 2024

ロボットや自動運転車が周囲を把握するためのツール「LiDAR」の仕組みとは？

OpenAIの動画生成AI「Sora」の早期アクセスが漏えい

OpenAIは2024年2月に発表した動画生成AIの「Sora」を一般向けには公開しておらず、一部の動画クリエイターなどにのみ早期アクセス権を付与しています。そんなSoraの早期アクセス権を取得した何者かが、Soraが誰でも利用できるようにフロントエンドを作成し、リークしました。

·gigazine.net·Dec 10, 2024

OpenAIの動画生成AI「Sora」の早期アクセスが漏えい

Googleの生成AI「Gemini」と「Imagen 3」でオリジナルなチェスの駒を生成できるサイト「GenChess」

Googleのチャットボットである「Gemini」と、画像生成モデル「Imagen 3」を組み合わせて、クリエイティブで個性豊かなデザインをしたチェスの駒を生成できるサイト「GenChess」が公開されたので、さっそく使ってみました。

·gigazine.net·Dec 10, 2024

Googleの生成AI「Gemini」と「Imagen 3」でオリジナルなチェスの駒を生成できるサイト「GenChess」

ノートPCのウェブカメラでLEDを点灯させずにこっそり撮影するハッキングが可能である事が実証される

Linuxカーネルセキュリティエンジニアのアンドレイ・コノヴァロフ氏が、ThinkPad X230に付属しているウェブカメラのLEDがコードで制御できることを実証しました。これにより、マルウェアはLEDを点灯させずユーザーに気付かれることなくウェブカメラを使用して撮影することが可能とのことです。

·gigazine.net·Dec 10, 2024

ノートPCのウェブカメラでLEDを点灯させずにこっそり撮影するハッキングが可能である事が実証される

「youtube-dl」のホスティングプロバイダーには著作権侵害の責任があるとの判決

YouTubeから動画をダウンロードできるオープンソースツール「youtube-dl」は、YouTubeにおける著作権侵害を助長しているとして、ソニー・エンタテインメントをはじめとするレコード大手3社がyoutube-dlをホスティングしていたプロバイダーのUberspaceを提訴した訴訟で、ドイツの裁判所がUberspaceの控訴を却下する判決を下しました。

·gigazine.net·Dec 10, 2024

「youtube-dl」のホスティングプロバイダーには著作権侵害の責任があるとの判決

不正な顔認識を阻止するAIモデル「カメレオン」が開発される

顔写真に特殊なプライバシーマスクを施すことで、顔をスキャンしても顔写真を特定できないようにする技術「Chameleon(カメレオン)」をジョージア工科大学の研究者らが開発しました。

·gigazine.net·Dec 10, 2024

不正な顔認識を阻止するAIモデル「カメレオン」が開発される

「画像からゲームのように視点操作可能な3Dシーンを生成するAI」をWorld Labsが発表、実際に3Dシーンを探索できるデモページも公開中

「AIのゴッドマザー」とも呼ばれるフェイフェイ・リ氏が設立したAI開発企業のWorld Labsが、「1枚の画像からゲームのように視点を操作して探索できる3Dシーンを生成するAI」を開発しました。AIが生成した3Dシーンを探索できるデモページも公開されていたので、実際にAI生成の3Dシーンがどのようなものになっているのか確かめてみました。

·gigazine.net·Dec 10, 2024

「画像からゲームのように視点操作可能な3Dシーンを生成するAI」をWorld Labsが発表、実際に3Dシーンを探索できるデモページも公開中

AmazonがAWS上で利用可能なマルチモーダル生成AIモデル「Amazon Nova」を発表

Amazonのクラウドコンピューティング部門であるAmazon Web Services(AWS)は、2024年12月2日からラスベガスで開催されているイベント「re:Invent 2024」で、独自のマルチモーダル生成AIモデル「Amazon Nova」を発表しました。Amazon Novaは複数モデルが用意されており、そのうち3モデルは12月3日からAWSの顧客向けに提供されます。

·gigazine.net·Dec 10, 2024

AmazonがAWS上で利用可能なマルチモーダル生成AIモデル「Amazon Nova」を発表

Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表

Google DeepMindが、単一の入力画像からプレイ可能な3D環境を生成できる基盤的世界モデル「Genie 2」を2024年12月4日に発表しました。Genie 2で生成した世界は、人間やAIエージェントがキーボードとマウスを使った操作で移動することが可能です。

·gigazine.net·Dec 10, 2024

Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表

Googleの最先端動画生成モデル「Veo」と最高品質の画像生成モデル「Imagen 3」のプレビュー提供がAI開発プラットフォーム「Vertex AI」でスタート

AIの開発・運用が簡単に行えるようになるGoogleのプラットフォーム「Vertex AI」で、動画生成モデルの「Veo」と画像生成モデル「Imagen 3」のプライベートプレビュー版提供が始まりました。

·gigazine.net·Dec 10, 2024

Googleの最先端動画生成モデル「Veo」と最高品質の画像生成モデル「Imagen 3」のプレビュー提供がAI開発プラットフォーム「Vertex AI」でスタート

Googleがファインチューニングしやすいビジュアル言語モデル「PaliGemma 2」をリリース

Googleが2024年12月5日に、オープンかつ軽量な言語モデル「Gemma 2」をベースに視覚機能を追加したビジュアル言語モデルの「PaliGemma 2」を発表しました。

·gigazine.net·Dec 10, 2024

Googleがファインチューニングしやすいビジュアル言語モデル「PaliGemma 2」をリリース

MicrosoftがAIでウェブページ上のテキストと画像を分析して回答する「Copilot Vision」のプレビュー版をリリース

2024年12月5日にMicrosoftが、ウェブブラウザ「Edge」で閲覧中のウェブページを分析し、ユーザーからの質問への回答やテキストの要約・翻訳、割引商品にスポットを当てるなどのタスクを処理できるAI機能「Copilot Vision」のプレビュー版を一部ユーザー向けにリリースしたことを発表しました。

·gigazine.net·Dec 10, 2024

MicrosoftがAIでウェブページ上のテキストと画像を分析して回答する「Copilot Vision」のプレビュー版をリリース