画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2708 bookmarks

Custom sorting

OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上

OpenAIが2024年5月にリリースしたAIモデル「GPT-4o」に、2024年10月1日から「画像でファインチューニングする機能」が追加されました。すでにテキストでGPT-4oをファインチューニングする機能は提供されていましたが、画像でのファインチューニングが可能になったことで、視覚検索やオブジェクト検出などの機能を向上させることができます。

·gigazine.net·Oct 19, 2024

OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上

ついに配信開始したWindows 11 バージョン24H2でCopilot+ PC向けに生成AIベースの塗りつぶし機能が「ペイント」に追加

Microsoftが、Windows 11の機能更新プログラムである「Windows 11 2024 Update(バージョン24H2)」を、Windows Insider Programに加入していない一般ユーザー向けに段階的な公開を開始したと発表しました。このWindows 11 バージョン24H2には、「ペイント」アプリに生成AIベースの塗りつぶし機能が搭載されるなどといったCopilot+ PC専用機能が盛り込まれています。

·gigazine.net·Oct 19, 2024

ついに配信開始したWindows 11 バージョン24H2でCopilot+ PC向けに生成AIベースの塗りつぶし機能が「ペイント」に追加

Googleの「AIによる概要」に正式に広告が掲載されるように

Googleが2024年5月に実装し、8月には日本語にも対応している「AIによる概要(AI Overview)」に、広告公開機能を正式実装したことを発表しました。

·gigazine.net·Oct 19, 2024

Googleの「AIによる概要」に正式に広告が掲載されるように

Google レンズに動画での検索機能が登場、音声での質問も可能に

Google レンズに動画を使った検索機能と、撮影中のものについて音声で尋ねることができる機能が実装されました。これにより、Googleの試験運用機能を使えるプログラム「Search Labs」に登録している人は、映像と音声の質問を組み合わせてより簡単にリアルタイムな検索が可能となります。

·gigazine.net·Oct 19, 2024

Google レンズに動画での検索機能が登場、音声での質問も可能に

Stable Diffusionのオリジナル開発陣によるAI企業「Black Forest Labs」が画像生成AI「FLUX1.1 [pro]」とアプリケーション統合用の「BFL API」をリリース

画像生成AIの「Stable Diffusion」などの開発に携わったAI研究者が立ち上げたAI開発企業「Black Forest Labs」が、次世代画像生成AIの「FLUX1.1 [pro]」をリリースしました。同時に、画像生成AIを自身のアプリケーションに統合するための「BFL API」のベータ版も公開しています。

·gigazine.net·Oct 19, 2024

Stable Diffusionのオリジナル開発陣によるAI企業「Black Forest Labs」が画像生成AI「FLUX1.1 [pro]」とアプリケーション統合用の「BFL API」をリリース

2D画像を3D空間に落とし込んで「物理的に違和感のない編集」を可能にする編集手法「MiraGe」

生成AIを用いると「画像内の物体を移動」「1枚の画像をもとにアニメーションを作成」といった編集作業が可能ですが、物理的にあり得ない結果が出力されることも多々あります。ヤギェウォ大学やケンブリッジ大学の研究チームが開発した画像編集手法「MiraGe」は「画像を三次元空間に落とし込む」というアプローチで物理的に正しい編集を可能とします。

·gigazine.net·Oct 19, 2024

2D画像を3D空間に落とし込んで「物理的に違和感のない編集」を可能にする編集手法「MiraGe」

Metaが動画生成AI「Movie Gen」を開発、テキストからの動画生成に加えて「登場人物の指定」「BGMの付与」「既存動画の編集」にも対応

2024年10月4日、 Metaが動画生成AI「Movie Gen」を発表しました。Movie Genは「テキストから動画生成」「画像で登場人物を指定してテキストから動画生成」「既存の動画の編集」「動画にBGMや効果音を付与」という操作が可能で、競合する動画生成AIと比べて高品質な動画を生成可能とのことです。

·gigazine.net·Oct 19, 2024

Metaが動画生成AI「Movie Gen」を開発、テキストからの動画生成に加えて「登場人物の指定」「BGMの付与」「既存動画の編集」にも対応

AppleのAI研究チームがAIモデル「Depth Pro」をリリース、単一の画像を使用して標準GPUで225万ピクセルの3D深度マップを0.3秒で生成できる

機械が深度(奥行き)を認識する方法を大幅に進歩させるモデル「Depth Pro」をAppleのAI研究チームがリリースしました。他の方法では見落とされがちな「髪の毛」や「草木」といった細かいディテールを持った物体の深度も正確に認識可能で、高解像度の深度マップをわずか0.3秒で生成することが可能な点が特徴。自動運転車などリアルタイムで深度を推定するシステムに応用可能だと期待されています。

·gigazine.net·Oct 19, 2024

AppleのAI研究チームがAIモデル「Depth Pro」をリリース、単一の画像を使用して標準GPUで225万ピクセルの3D深度マップを0.3秒で生成できる

Xはディープフェイクポルノを「非合意親密メディア」で報告しても一切対応しないが著作権侵害だと迅速に対応することが研究で明らかに

X(旧Twitter)が「合意のない親密なメディア(NCIM)」にどう対応しているのか、実際にディープフェイクポルノ画像を用意して行った研究により、NCIMとして報告しても何も対応がなかった一方で、「著作権侵害」で報告すると25時間以内にすべての画像が削除されるという対応の違いが明らかになりました。

·gigazine.net·Oct 19, 2024

Xはディープフェイクポルノを「非合意親密メディア」で報告しても一切対応しないが著作権侵害だと迅速に対応することが研究で明らかに

Amazon配送員が配送車の荷台から素早く荷物を見つけるためのAIツール「Vision-Assisted Package Retrieval」が2025年初頭までに1000台のバンに導入へ

荷物に○×マークを照射し、Amazon配送員が目当ての荷物を探しやすくするAIツール「Vision-Assisted Package Retrieval(VAPR)」が開発されました。

·gigazine.net·Oct 19, 2024

Amazon配送員が配送車の荷台から素早く荷物を見つけるためのAIツール「Vision-Assisted Package Retrieval」が2025年初頭までに1000台のバンに導入へ

Zoomが「自分のAI生成アバター」を使って動画を作成する機能などAIを活用した新機能を多数発表

ビデオ会議サービスを展開するZoomが2024年10月9日に開催した年次イベントのZoomtopiaで、「AIに会議やチャットの内容をまとめてもらう機能」「自分のAI生成アバターで動画を作る機能」など、ビジネスに役立つ新機能を発表しました。

·gigazine.net·Oct 19, 2024

Zoomが「自分のAI生成アバター」を使って動画を作成する機能などAIを活用した新機能を多数発表

Adobeが動画生成AI「Firefly Video Model」のベータ版をリリース、Premiere Proの動画生成機能も順次公開へ

Adobeが2024年10月14日に開催したカンファレンスイベント「Adobe MAX」で、生成AI「Firefly」の派生となる動画生成AI「Firefly Video Model」ベータ版の提供を開始すると発表しました。Adobeによると、Firefly Video Modelは安全に商用利用ができるように設計された初の動画生成モデルだとのことです。

·gigazine.net·Oct 19, 2024

Adobeが動画生成AI「Firefly Video Model」のベータ版をリリース、Premiere Proの動画生成機能も順次公開へ

Photoshopで簡単に背景を除去する「Distraction Removal」やIllustratorで画像をベクター化する「Enhanced Image Trace」など便利な新機能をAdobeが発表

現地時間の2024年10月14日、Adobeが開催するクリエイティブカンファレンスのAdobe MAX 2024で、PhotoshopやIllustrator、InDesign、Lightroomなどの新機能が発表されました。新機能には、Photoshopで不要な背景を簡単に除去する「Distraction Removal」や、Illustratorで画像をベクター化する「Enhanced Image Trace」などが含まれています。

·gigazine.net·Oct 19, 2024

Photoshopで簡単に背景を除去する「Distraction Removal」やIllustratorで画像をベクター化する「Enhanced Image Trace」など便利な新機能をAdobeが発表

MetaがAIで生成したオーロラの画像をThreadsに投稿して猛非難を受ける

2024年10月に起きた大規模な太陽活動による低緯度オーロラ現象で、SNS上では普段オーロラを観測できないような低緯度地域で撮影されたオーロラの画像が多数共有されました。そんな中、ThreadsでMetaの公式アカウントがAI生成のオーロラ写真を投稿したことで、多くのユーザーから批判を受けています。

·gigazine.net·Oct 19, 2024

MetaがAIで生成したオーロラの画像をThreadsに投稿して猛非難を受ける

画像や動画内のフラッシュやカメラを横切った人など邪魔なものをほどよく修正するAdobeの「Project Clean Machine」

「Firefly Video Model」ベータ版などが発表されたカンファレンスイベント「Adobe MAX 2024」の最後、まだまだ実験的な機能などが先行公開される「Sneaks」で、被写体の色を変えてしまうほどのフラッシュやカメラを横切る人など、画像や動画の中で邪魔になる要素をうまく修正する編集ツール「Project Clean Machine」が披露されました。

·gigazine.net·Oct 19, 2024

画像や動画内のフラッシュやカメラを横切った人など邪魔なものをほどよく修正するAdobeの「Project Clean Machine」

リンガーハットの工場で「餃子の具が多すぎる」「パッケージの印字がズレている」といった問題を検出するため自社開発したAI画像認識検査システム「ディアマ」

リンガーハットの工場でも使われているAIで異物検査するシステム「ディアマ」のデモ機が食品関連見本市「FABEX 関西 2024」で展示されていたので、どんな仕組みなのかいろいろ聞いてきました。

·gigazine.net·Oct 19, 2024

最大4096×4096の解像度の画像を数秒以内に自動生成できるAIモデル「Sana」をNVIDIAなどの研究チームがリリース

NVIDIAやマサチューセッツ工科大学(MIT)、精華大学の研究チームが、最大4096×4096の解像度の画像を数秒以内に生成できる画像生成AI「Sana」を発表しました。

·gigazine.net·Oct 19, 2024

最大4096×4096の解像度の画像を数秒以内に自動生成できるAIモデル「Sana」をNVIDIAなどの研究チームがリリース

牛丼をグラノーラと誤認識健康管理アプリ「あすけん」が“おわび”

あすけんの画像解析機能において、牛丼をグラノーラと誤認した──ユーザーのこんな報告をきっかけに、運営元のaskenが公式Xアカウントで機能の不備を“おわび”した。

·itmedia.co.jp·Oct 1, 2024

牛丼をグラノーラと誤認識健康管理アプリ「あすけん」が“おわび”

OpenAIが複雑な推論能力をもつAIモデル「OpenAI o1」と「OpenAI o1-mini」を発表、プログラミングや数学で高い能力を発揮

OpenAIが新たなAIモデル「OpenAI o1」および「OpenAI o1-mini」を発表しました。段階的に推論を行う「思考の連鎖」テクニックを使用することで複雑な推論を正しく行えるようになり、数学オリンピックの予選で全米500位にランクインしたほか、物理学・生物学・化学の分野で人間の博士レベルの能力を持っているとのことです。

·gigazine.net·Sep 29, 2024

OpenAIが複雑な推論能力をもつAIモデル「OpenAI o1」と「OpenAI o1-mini」を発表、プログラミングや数学で高い能力を発揮

Googleがロボットアームに「靴ひもを結ぶ」「別のロボットを修理」などの難しいタスクを学習させる手法を発表

GoogleのAI研究部門であるGoogle DeepMindが、ロボットアームに複雑なタスクを学習させる手法を発表しました。発表された手法は人間の操作から学習する「ALOHA Unleashed」と物理シミュレーターでの学習をベースにした「DemoStart」の2種類で、それぞれ異なる手法でロボットアームにタスクを学習させられます。

·gigazine.net·Sep 29, 2024

Googleがロボットアームに「靴ひもを結ぶ」「別のロボットを修理」などの難しいタスクを学習させる手法を発表

手のひらから離着陸可能な小型ドローン「DJI Neo」ではボタン1つで「被写体を追いかける映像」や「被写体の周囲を旋回する映像」を撮影可能

2024年9月5日(木)に登場した「DJI Neo」は、バッテリー込みでわずか137gという軽量な機体ながら4K・30fpsでの録画が可能な高性能カメラを搭載しているのが特徴です。さらに、DJI Neoには「手のひらをかざすだけで着陸させられる機能」や「自動で被写体を追尾する機能」なども搭載されているので、各種便利機能を使ってみました。

·gigazine.net·Sep 29, 2024

手のひらから離着陸可能な小型ドローン「DJI Neo」ではボタン1つで「被写体を追いかける映像」や「被写体の周囲を旋回する映像」を撮影可能

パナソニックの「LUMIX DC-GH7」はプロキシ記録・リアルタイムLUT・ダイナミックレンジブーストで動画撮影カメラとしてGH6からさらに進化

パナソニックが2024年7月26日(金)にリリースしたミラーレス一眼カメラ「LUMIX DC-GH7」は、前モデルのGH6からダイナミックレンジが広がり、プロキシ記録やリアルタイムLUTも可能になったことで、動画撮影用のカメラとして大きく進化しました。そこで、GH7で追加された機能をいろいろと試してみました。

·gigazine.net·Sep 29, 2024

パナソニックの「LUMIX DC-GH7」はプロキシ記録・リアルタイムLUT・ダイナミックレンジブーストで動画撮影カメラとしてGH6からさらに進化

世界1位のYouTuber「MrBeast」の動画制作マニュアルが流出、多数の動画で1億再生以上を達成した制作手法が明らかに

MrBeast(ミスタービースト)は2024年9月17日時点で3億1500万人以上のチャンネル登録者を抱える世界トップのYouTuberです。そんなMrBeastの制作チームに新たに加入した人向けの制作マニュアルが流出し、誰でも閲覧可能な状態となっています。

·gigazine.net·Sep 29, 2024

世界1位のYouTuber「MrBeast」の動画制作マニュアルが流出、多数の動画で1億再生以上を達成した制作手法が明らかに

中国がオンラインに投稿されるすべてのAI生成コンテンツにラベル付けを義務づける計画を提案

中国のインターネット規制を担当している中国サイバースペース管理局(CAC)が、「デジタルプラットフォームがAIによって生成されたすべてのコンテンツにラベル付けすることを義務づける計画」を発表しました。

·gigazine.net·Sep 29, 2024

中国がオンラインに投稿されるすべてのAI生成コンテンツにラベル付けを義務づける計画を提案

Apple Vision Proでユーザーの視線を追跡してパスワードを盗み取る攻撃「GAZEploit」が発見される

Apple初の空間コンピューティングデバイス「Apple Vision Pro」は、Appleとしては初めてのMR(複合現実)に対応したヘッドセットです。税込60万円近くという高価格帯デバイスな一方で、「ロック解除用のパスコードを忘れると二度と起動できなくなる」「何もしていないのにガラスにヒビが入った」などの不具合も報告されていますが、Apple Vision Proでユーザーが文字を入力する際の目の動きを追跡する「GAZEploit」という攻撃が新たに発見されたと研究者が報告しています。

·gigazine.net·Sep 29, 2024

Apple Vision Proでユーザーの視線を追跡してパスワードを盗み取る攻撃「GAZEploit」が発見される

Googleが「画像の来歴を表示する機能」を開発中、AI生成画像やフェイク画像を見分けやすくする「C2PA」への対応を強化

画像生成AIを用いてフェイク画像の拡散が問題になる中、画像内に画像の来歴を示すメタデータを埋め込む技術「C2PA」の規格策定が進んでいます。新たに、Googleが「C2PAの情報を読み取って画像の来歴を表示する機能」を開発中であることを発表しました。

·gigazine.net·Sep 29, 2024

Googleが「画像の来歴を表示する機能」を開発中、AI生成画像やフェイク画像を見分けやすくする「C2PA」への対応を強化

イーロン・マスクのNeuralinkが視神経を失った人でも視力を取り戻すことができるインプラント「Blindsight」でFDAから「画期的デバイス」認定を取得

イーロン・マスク氏が共同設立した脳に埋め込まれるブレイン・マシン・インターフェイスを開発するNeuralinkが、同社の開発する視力回復を目的とした実験的なインプラントである「Blindsight」で、アメリカ食品医薬品局(FDA)から「画期的デバイス」認定を取得したことを発表しました。

·gigazine.net·Sep 29, 2024

イーロン・マスクのNeuralinkが視神経を失った人でも視力を取り戻すことができるインプラント「Blindsight」でFDAから「画期的デバイス」認定を取得

YouTubeショートで6秒間のAI生成動画を作成可能に、Google DeepMindの動画生成モデル「Veo」を採用

YouTubeが新機能を発表するイベント「Made on YouTube 2024」で、Google DeepMindの動画生成モデル「Veo」をYouTube Shortsに統合することを明らかにしました。これにより、クリエイターはより高品質な背景映像を生成したり、6秒間の独立したクリップを作成したりすることが可能になります。

·gigazine.net·Sep 29, 2024

YouTubeショートで6秒間のAI生成動画を作成可能に、Google DeepMindの動画生成モデル「Veo」を採用

OpenAIが新モデル「o1-preview」の思考内容を出力させようとしたユーザーに警告

複雑な推論を行えるOpenAIのモデル「o1-preview」では「思考の連鎖(chain of thought)」プロセスを挟むことで推論の精度を高めています。思考の連鎖プロセスの中身は非公開ですが、ユーザーの中には何とかして中身を出力させようとする人もいます。OpenAIがそうしたユーザーに対し警告を行っていることが明らかになりました。

·gigazine.net·Sep 29, 2024

OpenAIが新モデル「o1-preview」の思考内容を出力させようとしたユーザーに警告

顕微鏡でしか見えないミクロの世界をとらえたニコンの動画コンテスト「Small World in Motion Competition」受賞作が発表される

光学機器メーカーのニコンが光学顕微鏡で撮影したムービーやタイムラプス写真に焦点を当てるコンテスト「Small World in Motion Competition」の2024年度受賞作品が発表されました。

·gigazine.net·Sep 29, 2024

顕微鏡でしか見えないミクロの世界をとらえたニコンの動画コンテスト「Small World in Motion Competition」受賞作が発表される