画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2692 bookmarks
Custom sorting
最大4096×4096の解像度の画像を数秒以内に自動生成できるAIモデル「Sana」をNVIDIAなどの研究チームがリリース
最大4096×4096の解像度の画像を数秒以内に自動生成できるAIモデル「Sana」をNVIDIAなどの研究チームがリリース
NVIDIAやマサチューセッツ工科大学(MIT)、精華大学の研究チームが、最大4096×4096の解像度の画像を数秒以内に生成できる画像生成AI「Sana」を発表しました。
·gigazine.net·
最大4096×4096の解像度の画像を数秒以内に自動生成できるAIモデル「Sana」をNVIDIAなどの研究チームがリリース
OpenAIが複雑な推論能力をもつAIモデル「OpenAI o1」と「OpenAI o1-mini」を発表、プログラミングや数学で高い能力を発揮
OpenAIが複雑な推論能力をもつAIモデル「OpenAI o1」と「OpenAI o1-mini」を発表、プログラミングや数学で高い能力を発揮
OpenAIが新たなAIモデル「OpenAI o1」および「OpenAI o1-mini」を発表しました。段階的に推論を行う「思考の連鎖」テクニックを使用することで複雑な推論を正しく行えるようになり、数学オリンピックの予選で全米500位にランクインしたほか、物理学・生物学・化学の分野で人間の博士レベルの能力を持っているとのことです。
·gigazine.net·
OpenAIが複雑な推論能力をもつAIモデル「OpenAI o1」と「OpenAI o1-mini」を発表、プログラミングや数学で高い能力を発揮
Googleがロボットアームに「靴ひもを結ぶ」「別のロボットを修理」などの難しいタスクを学習させる手法を発表
Googleがロボットアームに「靴ひもを結ぶ」「別のロボットを修理」などの難しいタスクを学習させる手法を発表
GoogleのAI研究部門であるGoogle DeepMindが、ロボットアームに複雑なタスクを学習させる手法を発表しました。発表された手法は人間の操作から学習する「ALOHA Unleashed」と物理シミュレーターでの学習をベースにした「DemoStart」の2種類で、それぞれ異なる手法でロボットアームにタスクを学習させられます。
·gigazine.net·
Googleがロボットアームに「靴ひもを結ぶ」「別のロボットを修理」などの難しいタスクを学習させる手法を発表
手のひらから離着陸可能な小型ドローン「DJI Neo」ではボタン1つで「被写体を追いかける映像」や「被写体の周囲を旋回する映像」を撮影可能
手のひらから離着陸可能な小型ドローン「DJI Neo」ではボタン1つで「被写体を追いかける映像」や「被写体の周囲を旋回する映像」を撮影可能
2024年9月5日(木)に登場した「DJI Neo」は、バッテリー込みでわずか137gという軽量な機体ながら4K・30fpsでの録画が可能な高性能カメラを搭載しているのが特徴です。さらに、DJI Neoには「手のひらをかざすだけで着陸させられる機能」や「自動で被写体を追尾する機能」なども搭載されているので、各種便利機能を使ってみました。
·gigazine.net·
手のひらから離着陸可能な小型ドローン「DJI Neo」ではボタン1つで「被写体を追いかける映像」や「被写体の周囲を旋回する映像」を撮影可能
パナソニックの「LUMIX DC-GH7」はプロキシ記録・リアルタイムLUT・ダイナミックレンジブーストで動画撮影カメラとしてGH6からさらに進化
パナソニックの「LUMIX DC-GH7」はプロキシ記録・リアルタイムLUT・ダイナミックレンジブーストで動画撮影カメラとしてGH6からさらに進化
パナソニックが2024年7月26日(金)にリリースしたミラーレス一眼カメラ「LUMIX DC-GH7」は、前モデルのGH6からダイナミックレンジが広がり、プロキシ記録やリアルタイムLUTも可能になったことで、動画撮影用のカメラとして大きく進化しました。そこで、GH7で追加された機能をいろいろと試してみました。
·gigazine.net·
パナソニックの「LUMIX DC-GH7」はプロキシ記録・リアルタイムLUT・ダイナミックレンジブーストで動画撮影カメラとしてGH6からさらに進化
世界1位のYouTuber「MrBeast」の動画制作マニュアルが流出、多数の動画で1億再生以上を達成した制作手法が明らかに
世界1位のYouTuber「MrBeast」の動画制作マニュアルが流出、多数の動画で1億再生以上を達成した制作手法が明らかに
MrBeast(ミスタービースト)は2024年9月17日時点で3億1500万人以上のチャンネル登録者を抱える世界トップのYouTuberです。そんなMrBeastの制作チームに新たに加入した人向けの制作マニュアルが流出し、誰でも閲覧可能な状態となっています。
·gigazine.net·
世界1位のYouTuber「MrBeast」の動画制作マニュアルが流出、多数の動画で1億再生以上を達成した制作手法が明らかに
中国がオンラインに投稿されるすべてのAI生成コンテンツにラベル付けを義務づける計画を提案
中国がオンラインに投稿されるすべてのAI生成コンテンツにラベル付けを義務づける計画を提案
中国のインターネット規制を担当している中国サイバースペース管理局(CAC)が、「デジタルプラットフォームがAIによって生成されたすべてのコンテンツにラベル付けすることを義務づける計画」を発表しました。
·gigazine.net·
中国がオンラインに投稿されるすべてのAI生成コンテンツにラベル付けを義務づける計画を提案
Apple Vision Proでユーザーの視線を追跡してパスワードを盗み取る攻撃「GAZEploit」が発見される
Apple Vision Proでユーザーの視線を追跡してパスワードを盗み取る攻撃「GAZEploit」が発見される
Apple初の空間コンピューティングデバイス「Apple Vision Pro」は、Appleとしては初めてのMR(複合現実)に対応したヘッドセットです。税込60万円近くという高価格帯デバイスな一方で、「ロック解除用のパスコードを忘れると二度と起動できなくなる」「何もしていないのにガラスにヒビが入った」などの不具合も報告されていますが、Apple Vision Proでユーザーが文字を入力する際の目の動きを追跡する「GAZEploit」という攻撃が新たに発見されたと研究者が報告しています。
·gigazine.net·
Apple Vision Proでユーザーの視線を追跡してパスワードを盗み取る攻撃「GAZEploit」が発見される
Googleが「画像の来歴を表示する機能」を開発中、AI生成画像やフェイク画像を見分けやすくする「C2PA」への対応を強化
Googleが「画像の来歴を表示する機能」を開発中、AI生成画像やフェイク画像を見分けやすくする「C2PA」への対応を強化
画像生成AIを用いてフェイク画像の拡散が問題になる中、画像内に画像の来歴を示すメタデータを埋め込む技術「C2PA」の規格策定が進んでいます。新たに、Googleが「C2PAの情報を読み取って画像の来歴を表示する機能」を開発中であることを発表しました。
·gigazine.net·
Googleが「画像の来歴を表示する機能」を開発中、AI生成画像やフェイク画像を見分けやすくする「C2PA」への対応を強化
イーロン・マスクのNeuralinkが視神経を失った人でも視力を取り戻すことができるインプラント「Blindsight」でFDAから「画期的デバイス」認定を取得
イーロン・マスクのNeuralinkが視神経を失った人でも視力を取り戻すことができるインプラント「Blindsight」でFDAから「画期的デバイス」認定を取得
イーロン・マスク氏が共同設立した脳に埋め込まれるブレイン・マシン・インターフェイスを開発するNeuralinkが、同社の開発する視力回復を目的とした実験的なインプラントである「Blindsight」で、アメリカ食品医薬品局(FDA)から「画期的デバイス」認定を取得したことを発表しました。
·gigazine.net·
イーロン・マスクのNeuralinkが視神経を失った人でも視力を取り戻すことができるインプラント「Blindsight」でFDAから「画期的デバイス」認定を取得
YouTubeショートで6秒間のAI生成動画を作成可能に、Google DeepMindの動画生成モデル「Veo」を採用
YouTubeショートで6秒間のAI生成動画を作成可能に、Google DeepMindの動画生成モデル「Veo」を採用
YouTubeが新機能を発表するイベント「Made on YouTube 2024」で、Google DeepMindの動画生成モデル「Veo」をYouTube Shortsに統合することを明らかにしました。これにより、クリエイターはより高品質な背景映像を生成したり、6秒間の独立したクリップを作成したりすることが可能になります。
·gigazine.net·
YouTubeショートで6秒間のAI生成動画を作成可能に、Google DeepMindの動画生成モデル「Veo」を採用
OpenAIが新モデル「o1-preview」の思考内容を出力させようとしたユーザーに警告
OpenAIが新モデル「o1-preview」の思考内容を出力させようとしたユーザーに警告
複雑な推論を行えるOpenAIのモデル「o1-preview」では「思考の連鎖(chain of thought)」プロセスを挟むことで推論の精度を高めています。思考の連鎖プロセスの中身は非公開ですが、ユーザーの中には何とかして中身を出力させようとする人もいます。OpenAIがそうしたユーザーに対し警告を行っていることが明らかになりました。
·gigazine.net·
OpenAIが新モデル「o1-preview」の思考内容を出力させようとしたユーザーに警告
顕微鏡でしか見えないミクロの世界をとらえたニコンの動画コンテスト「Small World in Motion Competition」受賞作が発表される
顕微鏡でしか見えないミクロの世界をとらえたニコンの動画コンテスト「Small World in Motion Competition」受賞作が発表される
光学機器メーカーのニコンが光学顕微鏡で撮影したムービーやタイムラプス写真に焦点を当てるコンテスト「Small World in Motion Competition」の2024年度受賞作品が発表されました。
·gigazine.net·
顕微鏡でしか見えないミクロの世界をとらえたニコンの動画コンテスト「Small World in Motion Competition」受賞作が発表される
アメリカでは警察がAI生成の少女の画像を使用しておとり捜査をしている
アメリカでは警察がAI生成の少女の画像を使用しておとり捜査をしている
警察がAIで生成した少女の画像を使い、性犯罪者を捕まえるおとり捜査を行っていると報じられました。捜査の過程で、オンラインコミュニケーションサービス「Snapchat」で不適切なモデレーションがあった可能性が浮上しています。
·gigazine.net·
アメリカでは警察がAI生成の少女の画像を使用しておとり捜査をしている
ビデオ会議で感じる「Zoom疲れ」を避けるには背景画像を変更することが有効だと実験で明らかに
ビデオ会議で感じる「Zoom疲れ」を避けるには背景画像を変更することが有効だと実験で明らかに
近年は感染症のパンデミックやリモートワークの普及により、ZoomやMicrosoft Teamsなどを利用したビデオ会議が一般的になりましたが、ビデオ会議は「videoconference fatigue(ビデオ会議疲労/Zoom疲れ)」と呼ばれる現象も引き起こしています。シンガポール・南洋理工大学の研究チームが実施した新たな研究により、ZOOM疲れを解消するための簡単な方法が明らかになりました。
·gigazine.net·
ビデオ会議で感じる「Zoom疲れ」を避けるには背景画像を変更することが有効だと実験で明らかに
山形大学がAIを使ってナスカの地上絵を半年で303個発見することに成功、地上絵の目的も明らかに
山形大学がAIを使ってナスカの地上絵を半年で303個発見することに成功、地上絵の目的も明らかに
山形大学ナスカ研究所とIBM研究所の共同研究プロジェクトが、AIを用いた6カ月間におよぶナスカでの現地調査により、新たに303個の地上絵を発見したと報告しています。これによりナスカ台地で確認済みの地上絵の数はほぼ倍増しました。
·gigazine.net·
山形大学がAIを使ってナスカの地上絵を半年で303個発見することに成功、地上絵の目的も明らかに
「Gemini 1.5 Flash」「Gemini 1.5 Pro」の更新版リリース、数学性能や視覚理解性能が向上してProの価格は大幅値下げ
「Gemini 1.5 Flash」「Gemini 1.5 Pro」の更新版リリース、数学性能や視覚理解性能が向上してProの価格は大幅値下げ
GoogleがGemini 1.5シリーズの性能強化版モデル「Gemini-1.5-Pro-002」と「Gemini-1.5-Flash-002」を発表しました。両モデルは強化前と比べて数学性能や視覚理解性能などが向上しているとのこと。また、Gemini 1.5 Proの値下げも発表されています。
·gigazine.net·
「Gemini 1.5 Flash」「Gemini 1.5 Pro」の更新版リリース、数学性能や視覚理解性能が向上してProの価格は大幅値下げ
「アバター」「タイタニック」のジェームズ・キャメロン監督が画像生成AIのStable Diffusionを開発するStability AIの取締役に就任
「アバター」「タイタニック」のジェームズ・キャメロン監督が画像生成AIのStable Diffusionを開発するStability AIの取締役に就任
映画「アバター」「タイタニック」「ターミネーター」の監督で知られるジェームズ・キャメロン氏が、画像生成AIのStable Diffusionを開発するStability AIの取締役に就任したことが2024年9月24日(火)に発表されました。
·gigazine.net·
「アバター」「タイタニック」のジェームズ・キャメロン監督が画像生成AIのStable Diffusionを開発するStability AIの取締役に就任
OpenAIの著作権訴訟でChatGPTのトレーニングデータが一部の人間に開示されることが決定、オフライン・記録機器持ち込み禁止の厳重警備体制
OpenAIの著作権訴訟でChatGPTのトレーニングデータが一部の人間に開示されることが決定、オフライン・記録機器持ち込み禁止の厳重警備体制
自分たちの書籍が同意なくAIのトレーニングに使われたとして、サラ・シルバーマン氏を含む3人の作家がOpenAIを訴えた裁判で、原告らが厳重な警備のもとでAIのトレーニングに使われた資料を精査することが認められたことがわかりました。
·gigazine.net·
OpenAIの著作権訴訟でChatGPTのトレーニングデータが一部の人間に開示されることが決定、オフライン・記録機器持ち込み禁止の厳重警備体制
Metaが「Llama 3.2」を公開、画像認識性能が向上&スマホ特化の小型版もあり
Metaが「Llama 3.2」を公開、画像認識性能が向上&スマホ特化の小型版もあり
MetaがAIモデル「Llama 3.2」を2024年9月26日に発表しました。Llama 3.2には画像認識性能が向上した中規模モデルの「Llama 3.2 90B」と「Llama 3.2 11B」のほかに、スマートフォン上でのローカル動作に最適化された小規模モデル「Llama 3.2 3B」および「Llama 3.2 1B」もラインナップされています。
·gigazine.net·
Metaが「Llama 3.2」を公開、画像認識性能が向上&スマホ特化の小型版もあり
小型ながらOpenAIやGoogleのAIに匹敵する性能を持つマルチモーダルAI「Molmo」がオープンソースで公開される、ブラウザ版のデモページも
小型ながらOpenAIやGoogleのAIに匹敵する性能を持つマルチモーダルAI「Molmo」がオープンソースで公開される、ブラウザ版のデモページも
2024年9月25日、アレン人工知能研究所(Ai2)が新たなマルチモーダルAI「Molmo」をオープンソースでリリースしました。MolmoはOpenAIのGPT-4oやGoogleのGemini 1.5 Proといった、大手企業が開発した最先端のAIに匹敵する性能を持ちながら、モデルのサイズは約10分の1と非常に小さくなっています。ブラウザでMolmoの性能をチェックできるデモページも公開されていたので、実際に試してみました。
·gigazine.net·
小型ながらOpenAIやGoogleのAIに匹敵する性能を持つマルチモーダルAI「Molmo」がオープンソースで公開される、ブラウザ版のデモページも
OpenAIがGPT-4oベースの有害なテキストや画像を検出できる新しいマルチモーダルモデレーションモデルを「Moderation API」に導入
OpenAIがGPT-4oベースの有害なテキストや画像を検出できる新しいマルチモーダルモデレーションモデルを「Moderation API」に導入
AI開発企業のOpenAIが、Moderation APIに新しいマルチモーダルモデレーションモデルを導入しました。このマルチモーダルモデレーションモデルはGPT-4oをベースとしており、テキストと画像の両方の入力をサポート。特に、英語以外の言語で以前のモデルよりも正確にモデレーションを実行してくれます。
·gigazine.net·
OpenAIがGPT-4oベースの有害なテキストや画像を検出できる新しいマルチモーダルモデレーションモデルを「Moderation API」に導入
iPhone 16から搭載された「カメラコントロール」は画面を触れずにカメラの設定を調整できる新機能、ただし慣れには時間がかかりそう
iPhone 16から搭載された「カメラコントロール」は画面を触れずにカメラの設定を調整できる新機能、ただし慣れには時間がかかりそう
iPhone 16の中身はiPhone 15と比べて進化していることがベンチマークの結果からわかりました。そして、サイズこそiPhone 15とほとんど変化はありませんが、iPhone 16は空間ビデオを撮影できるようにカメラが縦2列になり、さらに「カメラコントロール」という新しいボタンが追加されました。このカメラコントロールは果たしてどんなボタンなのかを使って確かめてみました。
·gigazine.net·
iPhone 16から搭載された「カメラコントロール」は画面を触れずにカメラの設定を調整できる新機能、ただし慣れには時間がかかりそう
全ベンチマークでGPT-4oを上回る世界トップのオープンソース大規模言語モデル「Reflection 70B」が登場、Llama 3.1 70B Instructをベースにリフレクションチューニングを施す
全ベンチマークでGPT-4oを上回る世界トップのオープンソース大規模言語モデル「Reflection 70B」が登場、Llama 3.1 70B Instructをベースにリフレクションチューニングを施す
大規模言語モデル(LLM)が自分の間違いを修正できるように開発されたトレーニング手法の「リフレクションチューニング」を用いてトレーニングされたオープンソースのLLM「Reflection 70B」が発表されました。
·gigazine.net·
全ベンチマークでGPT-4oを上回る世界トップのオープンソース大規模言語モデル「Reflection 70B」が登場、Llama 3.1 70B Instructをベースにリフレクションチューニングを施す
Alibabaが新AIモデル「Qwen2-VL」をリリース、20分を超えるビデオを分析し内容についての質問に要約して回答可能
Alibabaが新AIモデル「Qwen2-VL」をリリース、20分を超えるビデオを分析し内容についての質問に要約して回答可能
卓越した画像・動画の理解能力を持つというAIモデル「Qwen2-VL」をAlibabaが発表しました。OpenAIの「GPT-4o」やAnthropicの「Claude 3.5-Sonnet」といった他社モデルと比較して上回る点が多くあり、すでに英語と中国語に加えて日本語や韓国語にも対応済み。無料でデモを試すこともできます。
·gigazine.net·
Alibabaが新AIモデル「Qwen2-VL」をリリース、20分を超えるビデオを分析し内容についての質問に要約して回答可能
Google フォトの検索機能がアップデートされ「青い空」などの自然な文章で絞り込み検索可能に
Google フォトの検索機能がアップデートされ「青い空」などの自然な文章で絞り込み検索可能に
Googleの写真管理サービス「Google フォト」には高度な検索機能が搭載されており、「食べ物」「海」「山」といった単語で検索することで膨大な写真ライブラリから目的の写真を探すことが可能です。この検索機能の強化アップデートが2024年9月5日(木)に実施され、自然な文章で条件を細かく指定して絞り込み検索できるようになりました。
·gigazine.net·
Google フォトの検索機能がアップデートされ「青い空」などの自然な文章で絞り込み検索可能に