画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2695 bookmarks
Custom sorting
テキストから複数の図形で構成されたベクター画像を生成可能なAIツール「NeuralSVG」をMITの研究チームが発表
テキストから複数の図形で構成されたベクター画像を生成可能なAIツール「NeuralSVG」をMITの研究チームが発表
テキストのプロンプトに基づいて、複数の図形からなるベクター画像を生成するAIツール「NeuralSVG」を、テルアビブ大学とマサチューセッツ工科大学コンピュータ科学・人工知能研究所の研究チームが発表しました。
·gigazine.net·
テキストから複数の図形で構成されたベクター画像を生成可能なAIツール「NeuralSVG」をMITの研究チームが発表
AIチップ内蔵カメラ「Raspberry Pi AI Camera」レビュー、AI処理をカメラ側で実行するので母艦デバイスが非力でもOK
AIチップ内蔵カメラ「Raspberry Pi AI Camera」レビュー、AI処理をカメラ側で実行するので母艦デバイスが非力でもOK
「Raspberry Pi AI Camera」はソニーのインテリジェントビジョンセンサー「IMX500」を搭載したRaspberry Pi向けカメラモジュールです。IMX500はイメージセンサーとAIアクセラレーターを積層した構造で、母艦デバイスに負荷をかけることなくAI処理をカメラ側で実行可能。そんなRaspberry Pi AI CameraがGIGAZINE編集部に届いたので、実際にRaspberry Pi 5と接続して物体検知AIを実行してみました。
·gigazine.net·
AIチップ内蔵カメラ「Raspberry Pi AI Camera」レビュー、AI処理をカメラ側で実行するので母艦デバイスが非力でもOK
ついにAI学習のためのデータが枯渇へ、データセットが不足しているAI企業は大規模で汎用的なLLMから小規模で専門性の高いモデルへの移行を余儀なくされる可能性大
ついにAI学習のためのデータが枯渇へ、データセットが不足しているAI企業は大規模で汎用的なLLMから小規模で専門性の高いモデルへの移行を余儀なくされる可能性大
AIモデルの開発には学習資料となるデータセットが必要不可欠ですが、すでに大規模なモデルはアクセスできるデータのほとんどを食い尽くしており、2028年までにデータを使い果たしてしまう可能性が指摘されています。AIとデータセットの現状について、学術雑誌のNatureがまとめています。
·gigazine.net·
ついにAI学習のためのデータが枯渇へ、データセットが不足しているAI企業は大規模で汎用的なLLMから小規模で専門性の高いモデルへの移行を余儀なくされる可能性大
Googleが最大4Kの動画を生成できるAI「Veo 2」を発表、人間による評価でOpenAIのSoraを上回る
Googleが最大4Kの動画を生成できるAI「Veo 2」を発表、人間による評価でOpenAIのSoraを上回る
Googleが2024年12月16日に動画生成AIの「Veo 2」を発表しました。最大4Kまでの解像度の動画を作成できるほか、実写風動画以外にアニメ調の動画を作成可能で、カメラに対する指示も忠実に反映できると述べられています。
·gigazine.net·
Googleが最大4Kの動画を生成できるAI「Veo 2」を発表、人間による評価でOpenAIのSoraを上回る
YouTubeで「サードパーティーが自分の動画でAIをトレーニングすることを許可するかどうか」をクリエイターが選択可能に
YouTubeで「サードパーティーが自分の動画でAIをトレーニングすることを許可するかどうか」をクリエイターが選択可能に
YouTubeが日本時間の2024年12月17日、クリエイターが「サードパーティー企業のAIトレーニングに自分の動画が使用されることを許可するかどうか」を選択可能にすると発表しました。この設定はデフォルトでオフになっていますが、もしAmazon・Meta・OpenAIなどのサードパーティー企業によるAIトレーニングを許可したい場合、クリエイターが自分で設定を変更できます。
·gigazine.net·
YouTubeで「サードパーティーが自分の動画でAIをトレーニングすることを許可するかどうか」をクリエイターが選択可能に
既存の動画生成AIを8倍高速化できる「FastVideo」登場
既存の動画生成AIを8倍高速化できる「FastVideo」登場
動画生成AIの生成速度を高速化できるフレームワーク「FastVideo」が登場しました。この技術により、既存の動画生成モデルの生成速度を8倍に高速化できることが確認されています。
·gigazine.net·
既存の動画生成AIを8倍高速化できる「FastVideo」登場
GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ
GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ
OpenAIやGoogle、Anthropic、Metaなど、さまざまな企業が大規模言語モデルを開発しており、各社の開発するモデルの性能差はベンチマークを使って比較されます。エンジニアのサイモン・ウィリソン氏が、「自転車に乗ったペリカン」を描かせるという独自のベンチマークを考案したと報告しています。
·gigazine.net·
GPT-4oやGoogle Geminiに「自転車に乗ったペリカン」をSVG形式で描かせるベンチマークを試すとこんな感じ
「研究妨害」でTiktokに訴えられた元インターンの論文、AI研究会議の最優秀賞に選ばれ物議
「研究妨害」でTiktokに訴えられた元インターンの論文、AI研究会議の最優秀賞に選ばれ物議
AI研究の権威であるNeurIPS会議で、田柯宇が筆頭著者となった論文が最優秀賞を受賞した。田は、インターン先だったバイトダンスから、ほかの研究者の実験を妨害した疑いで訴訟を起こされていると報じられており、この受賞決定には異議を唱える声が上がっている。
·wired.jp·
「研究妨害」でTiktokに訴えられた元インターンの論文、AI研究会議の最優秀賞に選ばれ物議
動画生成AI「Sora」爆速レビュー 50本生成して分かった、得意なこと・苦手なこと
動画生成AI「Sora」爆速レビュー 50本生成して分かった、得意なこと・苦手なこと
米OpenAIが一般提供を始めた動画生成AI「Sora」。リリース当初はアクセス集中により一部ユーザーが利用できない状態だったが、徐々に利用可能に。記者も使えるようになったので、いくつか思い付いた動画を生成してみた。
·itmedia.co.jp·
動画生成AI「Sora」爆速レビュー 50本生成して分かった、得意なこと・苦手なこと
Google、画像プロンプトで画像をリミックス生成する「Whisk」
Google、画像プロンプトで画像をリミックス生成する「Whisk」
Googleは、新しい画像生成AIツール「Whisk」を発表した。被写体、シーン、スタイルの3つの画像をドラッグ&ドロップするとそれらをリミックスした画像を生成する。まずは米国向けにGoogle Labsで公開した。
·itmedia.co.jp·
Google、画像プロンプトで画像をリミックス生成する「Whisk」
米Google、動画生成AI「Veo 2」発表 最大4Kの解像度に対応 性能評価は米OpenAIの「Sora」超え
米Google、動画生成AI「Veo 2」発表 最大4Kの解像度に対応 性能評価は米OpenAIの「Sora」超え
米Googleは、動画生成AI「Veo 2」を発表した。最大4Kの解像度で数分尺の動画を作成できる。米Metaのベンチマーク「MovieGenBench」で他の動画生成AIと性能を比べたところ、米OpenAIの動画生成AI「Sora Turbo」などよりも高い性能を記録したとしている。
·itmedia.co.jp·
米Google、動画生成AI「Veo 2」発表 最大4Kの解像度に対応 性能評価は米OpenAIの「Sora」超え
MetaのAI生成動画に不可視の透かしを適用するAIツール「Meta Video Seal」や人型モデルの動きを制御する「Meta Motivo」など新情報山盛り発表
MetaのAI生成動画に不可視の透かしを適用するAIツール「Meta Video Seal」や人型モデルの動きを制御する「Meta Motivo」など新情報山盛り発表
2024年12月12日、MetaがAIや機械学習の進歩に関する複数の研究成果物を発表しました。AI生成の動画に肉眼では認識できない「透かし」を入れて出所を特定できるようにするツールなどが公開されています。
·gigazine.net·
MetaのAI生成動画に不可視の透かしを適用するAIツール「Meta Video Seal」や人型モデルの動きを制御する「Meta Motivo」など新情報山盛り発表
一般家庭の手頃なハードウェア上で瞬時に画像を生成できるオープンソースAIモデル「NitroFusion」がリリースされる
一般家庭の手頃なハードウェア上で瞬時に画像を生成できるオープンソースAIモデル「NitroFusion」がリリースされる
イギリス・サリー大学のサリー人間中心人工知能研究所が、控えめで手頃な価格のハードウェアのみを使用して瞬時に画像を生成するAIモデル「NitroFusion」を作成したと発表しました。
·gigazine.net·
一般家庭の手頃なハードウェア上で瞬時に画像を生成できるオープンソースAIモデル「NitroFusion」がリリースされる
GoogleがAIでChromeを自動操作できる「Project Mariner」を発表
GoogleがAIでChromeを自動操作できる「Project Mariner」を発表
Googleが現地時間2024年12月11日に、ブラウザ上の情報を理解して自動操作できるAI「Project Mariner」を発表しました。Project Marinerを使えば「スプレッドシートにまとめた企業名をもとに各企業のメールアドレスを検索してまとめる」といった複雑な操作を自動で実行できます。
·gigazine.net·
GoogleがAIでChromeを自動操作できる「Project Mariner」を発表
映像や音声を理解してリアルタイムで質問に答えてくれるGoogle製AIアシスタント「Project Astra」をスマホやスマートグラスで使いまくるデモ動画が公開中
映像や音声を理解してリアルタイムで質問に答えてくれるGoogle製AIアシスタント「Project Astra」をスマホやスマートグラスで使いまくるデモ動画が公開中
Googleは2024年5月、映像や音声を理解してリアルタイムで質問に答えてくれるAIアシスタント「Project Astra(Astra)」を発表しました。現地時間の12月11日に公開された新たな動画では、Astraのテストビルドを搭載したPixelスマートフォンやプロトタイプのスマートグラスを持ち出し、街中のあらゆる場面でAstraを使いまくる様子を確認できます。
·gigazine.net·
映像や音声を理解してリアルタイムで質問に答えてくれるGoogle製AIアシスタント「Project Astra」をスマホやスマートグラスで使いまくるデモ動画が公開中
ロボットや自動運転車が周囲を把握するためのツール「LiDAR」の仕組みとは?
ロボットや自動運転車が周囲を把握するためのツール「LiDAR」の仕組みとは?
周囲の状況を把握するために役立つスキャンシステム「LiDAR」は、周囲の状況に応じた処理が必要となる自動運転技術を始め、自律型ロボットや周囲をスキャンする3Dアプリなどさまざまな分野に使用されています。そんなLiDARの仕組みがどうなっているのかについて、エンジニアリングが専門のヴィクラム・セカール氏が解説しました。
·gigazine.net·
ロボットや自動運転車が周囲を把握するためのツール「LiDAR」の仕組みとは?
OpenAIの動画生成AI「Sora」の早期アクセスが漏えい
OpenAIの動画生成AI「Sora」の早期アクセスが漏えい
OpenAIは2024年2月に発表した動画生成AIの「Sora」を一般向けには公開しておらず、一部の動画クリエイターなどにのみ早期アクセス権を付与しています。そんなSoraの早期アクセス権を取得した何者かが、Soraが誰でも利用できるようにフロントエンドを作成し、リークしました。
·gigazine.net·
OpenAIの動画生成AI「Sora」の早期アクセスが漏えい
Googleの生成AI「Gemini」と「Imagen 3」でオリジナルなチェスの駒を生成できるサイト「GenChess」
Googleの生成AI「Gemini」と「Imagen 3」でオリジナルなチェスの駒を生成できるサイト「GenChess」
Googleのチャットボットである「Gemini」と、画像生成モデル「Imagen 3」を組み合わせて、クリエイティブで個性豊かなデザインをしたチェスの駒を生成できるサイト「GenChess」が公開されたので、さっそく使ってみました。
·gigazine.net·
Googleの生成AI「Gemini」と「Imagen 3」でオリジナルなチェスの駒を生成できるサイト「GenChess」
ノートPCのウェブカメラでLEDを点灯させずにこっそり撮影するハッキングが可能である事が実証される
ノートPCのウェブカメラでLEDを点灯させずにこっそり撮影するハッキングが可能である事が実証される
Linuxカーネルセキュリティエンジニアのアンドレイ・コノヴァロフ氏が、ThinkPad X230に付属しているウェブカメラのLEDがコードで制御できることを実証しました。これにより、マルウェアはLEDを点灯させずユーザーに気付かれることなくウェブカメラを使用して撮影することが可能とのことです。
·gigazine.net·
ノートPCのウェブカメラでLEDを点灯させずにこっそり撮影するハッキングが可能である事が実証される
「youtube-dl」のホスティングプロバイダーには著作権侵害の責任があるとの判決
「youtube-dl」のホスティングプロバイダーには著作権侵害の責任があるとの判決
YouTubeから動画をダウンロードできるオープンソースツール「youtube-dl」は、YouTubeにおける著作権侵害を助長しているとして、ソニー・エンタテインメントをはじめとするレコード大手3社がyoutube-dlをホスティングしていたプロバイダーのUberspaceを提訴した訴訟で、ドイツの裁判所がUberspaceの控訴を却下する判決を下しました。
·gigazine.net·
「youtube-dl」のホスティングプロバイダーには著作権侵害の責任があるとの判決
不正な顔認識を阻止するAIモデル「カメレオン」が開発される
不正な顔認識を阻止するAIモデル「カメレオン」が開発される
顔写真に特殊なプライバシーマスクを施すことで、顔をスキャンしても顔写真を特定できないようにする技術「Chameleon(カメレオン)」をジョージア工科大学の研究者らが開発しました。
·gigazine.net·
不正な顔認識を阻止するAIモデル「カメレオン」が開発される
「画像からゲームのように視点操作可能な3Dシーンを生成するAI」をWorld Labsが発表、実際に3Dシーンを探索できるデモページも公開中
「画像からゲームのように視点操作可能な3Dシーンを生成するAI」をWorld Labsが発表、実際に3Dシーンを探索できるデモページも公開中
「AIのゴッドマザー」とも呼ばれるフェイフェイ・リ氏が設立したAI開発企業のWorld Labsが、「1枚の画像からゲームのように視点を操作して探索できる3Dシーンを生成するAI」を開発しました。AIが生成した3Dシーンを探索できるデモページも公開されていたので、実際にAI生成の3Dシーンがどのようなものになっているのか確かめてみました。
·gigazine.net·
「画像からゲームのように視点操作可能な3Dシーンを生成するAI」をWorld Labsが発表、実際に3Dシーンを探索できるデモページも公開中
AmazonがAWS上で利用可能なマルチモーダル生成AIモデル「Amazon Nova」を発表
AmazonがAWS上で利用可能なマルチモーダル生成AIモデル「Amazon Nova」を発表
Amazonのクラウドコンピューティング部門であるAmazon Web Services(AWS)は、2024年12月2日からラスベガスで開催されているイベント「re:Invent 2024」で、独自のマルチモーダル生成AIモデル「Amazon Nova」を発表しました。Amazon Novaは複数モデルが用意されており、そのうち3モデルは12月3日からAWSの顧客向けに提供されます。
·gigazine.net·
AmazonがAWS上で利用可能なマルチモーダル生成AIモデル「Amazon Nova」を発表
Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表
Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表
Google DeepMindが、単一の入力画像からプレイ可能な3D環境を生成できる基盤的世界モデル「Genie 2」を2024年12月4日に発表しました。Genie 2で生成した世界は、人間やAIエージェントがキーボードとマウスを使った操作で移動することが可能です。
·gigazine.net·
Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表