Googleの最先端動画生成モデル「Veo」と最高品質の画像生成モデル「Imagen 3」のプレビュー提供がAI開発プラットフォーム「Vertex AI」でスタートAIの開発・運用が簡単に行えるようになるGoogleのプラットフォーム「Vertex AI」で、動画生成モデルの「Veo」と画像生成モデル「Imagen 3」のプライベートプレビュー版提供が始まりました。·gigazine.net·Dec 10, 2024Googleの最先端動画生成モデル「Veo」と最高品質の画像生成モデル「Imagen 3」のプレビュー提供がAI開発プラットフォーム「Vertex AI」でスタート
Googleがファインチューニングしやすいビジュアル言語モデル「PaliGemma 2」をリリースGoogleが2024年12月5日に、オープンかつ軽量な言語モデル「Gemma 2」をベースに視覚機能を追加したビジュアル言語モデルの「PaliGemma 2」を発表しました。·gigazine.net·Dec 10, 2024Googleがファインチューニングしやすいビジュアル言語モデル「PaliGemma 2」をリリース
MicrosoftがAIでウェブページ上のテキストと画像を分析して回答する「Copilot Vision」のプレビュー版をリリース2024年12月5日にMicrosoftが、ウェブブラウザ「Edge」で閲覧中のウェブページを分析し、ユーザーからの質問への回答やテキストの要約・翻訳、割引商品にスポットを当てるなどのタスクを処理できるAI機能「Copilot Vision」のプレビュー版を一部ユーザー向けにリリースしたことを発表しました。·gigazine.net·Dec 10, 2024MicrosoftがAIでウェブページ上のテキストと画像を分析して回答する「Copilot Vision」のプレビュー版をリリース
自分の創作物がAI学習に使用されたかどうかを確認できるようになる「AIの透明性と責任に関する法案」がアメリカで提出される自分の作品がAIの学習に許可なく使用されたかどうかを簡単に確認できるようにするための法案「人工知能ネットワークの透明性と責任(TRAIN)法」がアメリカで提出されました。この法案が実現すれば、著作権者は学習の記録にアクセスできるようになり、自分の作品が使用されたかどうかを確認できるようになるとのことです。·gigazine.net·Dec 10, 2024自分の創作物がAI学習に使用されたかどうかを確認できるようになる「AIの透明性と責任に関する法案」がアメリカで提出される
MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮Metaが大規模言語モデル「Llama 3.3」を2024年12月6日(土)にリリースしました。記事作成時点ではパラメーター数70Bのモデルがリリースされており、Amazonの基盤モデル「Amazon Nova Pro」と比べて低コストかつ高性能であることや、旧世代の上位モデルに匹敵する性能を備えていることがアピールされています。·gigazine.net·Dec 10, 2024MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮
Xに「実写風の写真を作れる画像生成AI」が一瞬だけ追加されるX(旧Twitter)に、実写風画像に特化した画像生成AI「Aurora」が一瞬だけ実装されたことがわかりました。実在の人物や「血まみれのドナルド・トランプ」などさまざまな画像がユーザーにより生成されましたが、Auroraは数時間で利用できなくなりました。·gigazine.net·Dec 10, 2024Xに「実写風の写真を作れる画像生成AI」が一瞬だけ追加される
顔認識を回避するには顔をどのくらい変更する必要があるのか?スマートフォンやPCのログインにも導入されている顔認識技術は、はじめに素顔を登録していれば、メガネをかけたり化粧をしたりしても認識可能で、マスクやスカーフ、サングラスなどで変装しても問題なく本人だと認識できるものもあります。顔認識による監視システムを導入する国がある中で、そのような監視から逃れて「顔認証で本人と特定されない変装方法」について複数の専門家が解説しています。·gigazine.net·Dec 10, 2024顔認識を回避するには顔をどのくらい変更する必要があるのか?
OpenAIが動画生成AI「Sora」を正式にリリース、ChatGPT Plus・Proプランで利用可能OpenAIが2024年2月より研究プレビューを行っていた動画生成AI「Sora」の新たなバージョンとして「Sora Turbo」を開発し、正式にリリースしました。ChatGPTのPlusおよびProプランに加入することで利用可能となります。·gigazine.net·Dec 10, 2024OpenAIが動画生成AI「Sora」を正式にリリース、ChatGPT Plus・Proプランで利用可能
OpenAIは動画生成AI「Sora」で実在の人物が映る動画や既存のアーティストをまねる動画の生成を制限しているOpenAIは動画生成AIのSoraの製品版となる「Sora Turbo」を2024年12月9日にリリースしました。しかし、OpenAIはさらなるテストが完了するまで、実在の人物を取り込んだ動画を生成できる機能をごく一部のユーザー以外には公開しないことを明らかにしています。·gigazine.net·Dec 10, 2024OpenAIは動画生成AI「Sora」で実在の人物が映る動画や既存のアーティストをまねる動画の生成を制限している
NVIDIAが「自由に視点変更可能なライブ配信」を実現するオープンソースAIモデル「QUEEN」を発表、コンパクトなファイルサイズでありながら競合高画質半導体大手のNVIDIAが、ビデオ会議やライブ配信などで「自由に視点を変更できる映像」を配信することが可能になるオープンソースのAIモデル「QUEEN」を発表しました。QUEENは出力が低帯域幅でありながら、高品質なシーンの生成が可能であるため、NVIDIAは「ライブ配信を新たな次元に導く」とアピールしています。·gigazine.net·Dec 10, 2024NVIDIAが「自由に視点変更可能なライブ配信」を実現するオープンソースAIモデル「QUEEN」を発表、コンパクトなファイルサイズでありながら競合高画質
【無料コード配布中】髪の毛や半透明オブジェクトなどでも完璧にAIで背景透過に変える「Aiarty Image Matting」でいろんな写真を透過しまくってみた髪の毛や毛皮、低照度画像、透明・半透明のオブジェクトなど背景とオブジェクトの判別が難しい写真でも完璧に背景の透過ができるというAIソフトウェアが「Aiarty Image Matting」です。32万枚の4K画像でトレーニングしたという4つのAIモデルを駆使して精巧な背景透過を実現しているということだったので、実際に使ってみました。·gigazine.net·Dec 10, 2024【無料コード配布中】髪の毛や半透明オブジェクトなどでも完璧にAIで背景透過に変える「Aiarty Image Matting」でいろんな写真を透過しまくってみた
テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」テキスト入力から多用途かつ高品質な3Dアセットを自動生成できる新しい3D生成AIモデル「TRELLIS」を、清華大学・中国科学技術大学・Microsoft Researchの共同研究チームが発表しました。このTRELLISには、「SLAT(Structured LATents)」と呼ばれる新しい手法が用いられています。·gigazine.net·Dec 10, 2024テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」
人物写真に特化した画像生成AI学習ツール「FLUX Portrait Trainer」登場画像生成AI「FLUX」の開発チームが、高品質なポートレートの生成に特化した新たなトレーナー「FLUX Portrait Trainer」を公開しました。特徴としてはディテールの細かさや瞳のハイライト、さまざまな顔の大きさのよりよい表現などが挙げられています。·gigazine.net·Nov 29, 2024人物写真に特化した画像生成AI学習ツール「FLUX Portrait Trainer」登場
AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっているAIのスケーリング則は2020年1月にOpenAIが提唱した法則で、「AIモデルの性能は、『学習に使われるデータの規模』『学習に使われる計算量』『モデルのパラメーター数』が増加するほど強化される」というものです。この法則について、AIの動向に詳しいゲイリー・マーカス氏が「AI業界ではスケーリング則が通用しなくなっている」と指摘する記事を公開しています。·gigazine.net·Nov 29, 2024AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている
Amazonの新しい生成AIモデル「Olympus」は画像・動画・文章を処理でき、早ければ来週のAWS re:Inventで発表される可能性ありAmazonが画像・動画・文章を処理可能なマルチモーダルAIモデル「Olympus」の開発を進めており、2024年12月2日~6日に開催予定のAWS re:Inventで発表する可能性が高いとアメリカのニュースサイト「The Information」が報じました。·gigazine.net·Nov 29, 2024Amazonの新しい生成AIモデル「Olympus」は画像・動画・文章を処理でき、早ければ来週のAWS re:Inventで発表される可能性あり
LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無しSkyvernはテキストでAIに指示することでブラウザを使用するワークフローを自動化してくれるツールです。コードで自動化する場合と異なり、多少ウェブサイトの構造が変わっても問題なく対応可能なのが特徴です。有料のサービスであるものの、記事作成時点ではアカウントを作成すると5ドル(約770円)分のクレジットが付与されるとのことだったので、実際に使い勝手を確かめてみました。·gigazine.net·Nov 24, 2024LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し
ノーコード・ローコードに限界 生成AIのコード自動生成で一変ノーコード・ローコードツールはソフトウエア開発を容易にしたが、カスタマイズ性が低い。生成AIを活用したコーディング支援サービスの登場がそんな状況を一変させた。新たなコード自動生成サービスが続々登場し、ユースケースを広げている。·xtech.nikkei.com·Nov 23, 2024ノーコード・ローコードに限界 生成AIのコード自動生成で一変
ヤギの顔から痛みを感じているかどうかを判別するAIが登場フロリダ大学の研究チームが、AIを使ってヤギの痛みを検出する手法を開発したと発表しました。結石に苦しむヤギから手術後のヤギまで、さまざまな状態のヤギの表情を分析し、痛みの有無を判別することに成功したとのことです。·gigazine.net·Nov 23, 2024ヤギの顔から痛みを感じているかどうかを判別するAIが登場
Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表MetaのAI研究部門であるMeta FAIRは、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」や量子暗号の強度を検証できる「Salsa」など、複数の研究成果を発表した。·atmarkit.itmedia.co.jp·Nov 23, 2024Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表
約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札されるAIを搭載したヒューマノイドロボット「Ai-Da」が描いた計算機科学者アラン・チューリングの肖像画がオークションにかけられ、事前の予想を大幅に上回る108万4800ドル(約1億6600万円)で落札されました。·gigazine.net·Nov 22, 2024約1億6600万円でAI搭載のヒューマノイドロボット「Ai-Da」が描いたアラン・チューリングの肖像画が落札される
無料の画像編集ソフト「GIMP」が20年の時を経てついにバージョン3.0を迎えるオープンソースで開発されている無料の画像編集ソフト「GIMP」のバージョン3.0が、まもなくリリース予定であることが告知されました。GIMPのメジャーアップデートは実に20年ぶりのことです。·gigazine.net·Nov 22, 2024無料の画像編集ソフト「GIMP」が20年の時を経てついにバージョン3.0を迎える
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?大規模言語モデル(LLM)のセキュリティを研究するスタートアップ・Lakeraのエンジニアであるダニエル・ティンブレル氏が、画像認識も可能なチャットボットAIに対する「ビジュアルプロンプトインジェクション」攻撃について解説しています。·gigazine.net·Nov 22, 2024AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張Stable DiffusionやDALL-E 3などの画像生成AIでは、拡散モデルと呼ばれる生成モデルが使用されています。新たにアメリカのハーバード大学やタフツ大学、オーストリアのウィーン工科大学などの研究チームが、「拡散モデルは本質的に進化的アルゴリズムだ」と主張する論文を発表し、話題を呼んでいます。·gigazine.net·Nov 22, 2024Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張
Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に1230億パラメーターと128kコンテキストウィンドウを備えGPT-4oに匹敵するベンチマーク性能を記録した「Mistral Large 2」やマルチモーダルAI「Pixtral 12B」、小規模モデルの「Ministral 3B/8B」などを展開しているAI開発企業のMistral AIが、チャットAI「Le Chat」の大幅なアップデートを発表しました。·gigazine.net·Nov 22, 2024Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に
ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写&強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさんソニーがフルサイズミラーレスカメラ「α1 II」を2024年11月19日に発表しました。α1 IIは「有効画素数5010万のフルサイズ積層型CMOSイメージセンサ」「画像処理エンジンBIONZ XR」「AI処理に特化した最新のAIプロセッシングユニット」などを搭載しており、高精度なリアルタイム認識AFやブラックアウトフリーでの秒間30コマ連写などに対応しています。·gigazine.net·Nov 22, 2024ソニーがフラッグシップカメラ「α1 II」を発表、「高速連写&強力追跡AF」に加えて「生成AIフェイク画像でないことを証明する機能」や「2.5Gbpsの有線LAN通信」など機能盛りだくさん
高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能画像生成AI「FLUX1.1 [pro]」の開発チームが、FLUX1.1 [pro]と組み合わせて使えるAIモデルシリーズ「FLUX.1 Tools」を発表しました。FLUX.1 Toolsにはインペインティングやアウトペインティングが可能な「FLUX.1 Fill」、深度抽出が可能な「FLUX.1 Depth」、輪郭抽出が可能な「FLUX.1 Canny」、被写体を維持したスタイル変更が可能な「FLUX.1 Redux」の4種が含まれています。·gigazine.net·Nov 22, 2024高品質画像生成AI「FLUX」向けの拡張AIモデル「FLUX.1 Tools」登場、「生成拡張」「深度抽出」「被写体維持してスタイル変更」などが可能
サイバーエージェント、日本語に強い“視覚言語モデル”公開 パラメータ75億、商用利用もOKサイバーエージェントは、75億パラメータの日本語大規模視覚言語モデル(Vision Language Model、VLM)を一般公開した。·itmedia.co.jp·Nov 22, 2024サイバーエージェント、日本語に強い“視覚言語モデル”公開 パラメータ75億、商用利用もOK
ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いたソニーセミコンダクタソリューションズと英国Raspberry Pi社が、シングルボードコンピュータ「Raspberry Pi」用のAIカメラを共同開発した。今回、両社にこの製品が開発者にもたらすメリットや事業展開における狙いなどを聞いた。·eetimes.itmedia.co.jp·Nov 22, 2024ソニーとラズパイが「AIカメラ」を共同開発、両社に狙いを聞いた
Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表2024年10月14日から16日にかけて行われたAdobeの年次イベント「Adobe MAX」で、クリエイティブな分野における最新のイノベーションの種を披露する「Sneaks」セッションが開催され、その中で2D画像を3Dのように回転させる「Project Turntable」が発表されました。·gigazine.net·Nov 8, 2024Adobeが実験的なアイデアとして2D画像を3Dのように回転させる「Project Turntable」を発表
画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?GoogleのマルチモーダルAI「Gemini」を利用して、録画した映像から必要なデータを抽出する「ビデオスクレイピング」について、AI研究者でデータジャーナリストのサイモン・ウィルソン氏が解説しています。·gigazine.net·Nov 8, 2024画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?