OpenAIが「自社史上最も高度な推論モデル」と評価する「o3」と「o4-mini」を発表、テキストと同様に画像も使って考える「Thinking with images」が可能OpenAIが新しいAI推論モデルとなる「o3」「o4-mini」のリリースを発表しました。OpenAIは特にo3を「OpenAIで史上最も高度な推論モデル」と称し、数学やコーディング、推論、科学、視覚理解能力を測定するベンチマークで従来モデルを上回る性能を発揮したとアピールしています。·gigazine.net·Apr 21, 2025OpenAIが「自社史上最も高度な推論モデル」と評価する「o3」と「o4-mini」を発表、テキストと同様に画像も使って考える「Thinking with images」が可能
Raspberry PiとLiDARセンサーで360度3Dパノラマスキャナーを自作するオープンソースプロジェクト「PiLiDAR」「PiLiDAR」は、シングルボードコンピューターのRaspberry PiとLiDARセンサーを活用した自作360度3Dパノラマスキャナーを開発するオープンソースプロジェクトで、比較的低コストで誰でも構築可能なポータブル3Dスキャンシステムを構築できます。·gigazine.net·Apr 21, 2025Raspberry PiとLiDARセンサーで360度3Dパノラマスキャナーを自作するオープンソースプロジェクト「PiLiDAR」
GoogleのAIモデル「Gemini 2.0 Flash」の画像生成機能で画像からウォーターマーク(透かし)を削除できると話題に2025年2月に一般公開されたGoogleのAIモデルである「Gemini 2.0 Flash」には、3月12日に画像生成機能が開発者向けに試験導入されました。この機能を使い、フォトストックサービスが配信する画像からウォーターマーク(透かし)を削除できることが明らかになっており、問題視されています。·gigazine.net·Apr 4, 2025GoogleのAIモデル「Gemini 2.0 Flash」の画像生成機能で画像からウォーターマーク(透かし)を削除できると話題に
Robloxが3Dオブジェクトを自動生成するAIモデル「Cube 3D」をオープンソースで公開ユーザーがゲームを作成したり、他人の作成したゲームを遊んだりすることができるオンラインゲーミングプラットフォームの「Roblox」が、テキストプロンプトを用いて3Dオブジェクトを生成できるAIモデル「Cube 3D」をオープンソースで公開しました。·gigazine.net·Apr 4, 2025Robloxが3Dオブジェクトを自動生成するAIモデル「Cube 3D」をオープンソースで公開
AI生成の粗雑な動画がInstagramやTikTokのアルゴリズムをハックする「インターネットへのブルートフォース攻撃」が起きているという指摘近年は生成AIの発達により、インターネット上でAI生成の画像や動画を投稿してインプレッションを稼ぎ、広告収益を得ようとするスパムアカウントが急増しています。海外メディア・404 Mediaの記者であるジェイソン・ケブラー氏が、スパマーが大量のAI生成動画を投稿してInstagramやTikTokのアルゴリズムをハックし、「インターネットへのブルートフォース攻撃」を仕掛けていると指摘しました。·gigazine.net·Apr 4, 2025AI生成の粗雑な動画がInstagramやTikTokのアルゴリズムをハックする「インターネットへのブルートフォース攻撃」が起きているという指摘
「AIが生成した芸術作品は著作権で保護できない」とアメリカの控訴裁判所が判断2025年3月18日に、アメリカの連邦控訴裁判所がAIが生成した芸術作品に対する著作権保護を求める裁判を棄却しました。裁判所は「人間の入力なしにAIによって生成された芸術作品は、アメリカの著作権法では保護できない」と判断しています。·gigazine.net·Apr 4, 2025「AIが生成した芸術作品は著作権で保護できない」とアメリカの控訴裁判所が判断
ついに「GIMP 3.0」がリリースされる、編集内容を後から変更できる「非破壊フィルター」やGTK 3への対応など新機能盛りだくさんで新たな公式ロゴも登場2025年3月16日(日)にオープンソースの画像編集アプリ「GIMP」のバージョン3.0がリリースされました。GIMP 2.10のリリースから実に7年ぶりのメジャーバージョンアップで、GTK 3への対応や非破壊フィルターの実装など複数の大きな変更が加わっています。·gigazine.net·Apr 4, 2025ついに「GIMP 3.0」がリリースされる、編集内容を後から変更できる「非破壊フィルター」やGTK 3への対応など新機能盛りだくさんで新たな公式ロゴも登場
2D画像を入力するだけで遠近感のある没入型3D動画を生成できる動画生成AI「Stable Virtual Camera」をStability AIが発表Stable Diffusionなどの生成AIを開発するStability AIが、2D画像をリアルな奥行きと遠近感を備えた没入型3D動画に変換できる動画生成AIの「Stable Virtual Camera」を発表しました。·gigazine.net·Apr 4, 20252D画像を入力するだけで遠近感のある没入型3D動画を生成できる動画生成AI「Stable Virtual Camera」をStability AIが発表
無料でYouTubeやXなど多数のサイトから動画・画像・音楽をダウンロードできるオープンソースのツール「You-Get」を使ってみたYou-Getはウェブサイトから動画や画像、音楽形式のファイルをダウンロードできるシンプルなコマンドラインツールです。どれくらいシンプルに使用できるのか、実際にYouTubeとXから動画をダウンロードして確かめてみました。·gigazine.net·Apr 4, 2025無料でYouTubeやXなど多数のサイトから動画・画像・音楽をダウンロードできるオープンソースのツール「You-Get」を使ってみた
写真撮影に適したゴールデンアワーとブルーアワーが何時なのかわかる「Sunsethue」日没前後および日の出前後に空がオレンジ色に染まる「ゴールデンアワー」や、日の出前と日の入り後に濃い青色に染まる「ブルーアワー」には印象深い写真を撮影できます。ブラウザからアクセスできる「Sunsethue」では、撮影したい場所を検索することでゴールデンアワーやブルーアワーの時間帯やどれくらいキレイに見ることができるかの品質を予測できます。·gigazine.net·Apr 4, 2025写真撮影に適したゴールデンアワーとブルーアワーが何時なのかわかる「Sunsethue」
ChatGPTに高精度な画像生成機能「4o Image Generation」が追加される、GPT-4oの知識を活用しつつ画像を生成可能で著名人を含む画像も可OpenAIがGPT-4oに高精度な画像生成機能「4o Image Generation」を組み込んだことを発表しました。4o Image GenerationはChatGPTやSoraで利用可能になっており、GPT-4oの知識を活用した画像生成や対話しながら成果物のクオリティを向上させる操作などが可能です。·gigazine.net·Apr 4, 2025ChatGPTに高精度な画像生成機能「4o Image Generation」が追加される、GPT-4oの知識を活用しつつ画像を生成可能で著名人を含む画像も可
大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?多くの人々は幼少期から地図の読み取り方を身につけており、地下鉄構内の地図を見て目指す出口を探したり、遊園地の地図を見て乗りたいアトラクションへの行き方を調べたり、ロードマップを見て高速道路の入り口を見つけたりすることができます。「大規模視覚言語モデル(LVLM)も人間のように地図を読み取って適切なルートを見つけられるのか」という疑問に取り組むため、研究者らが「MapBench」という新たなベンチマークを考案しました。·gigazine.net·Apr 4, 2025大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか?
画像や動画から主要な3D情報を爆速で自動抽出できる「VGGT」が登場、カメラパラメータ・ポイントマップ・深度マップ・3Dポイントトラックなどオックスフォード大学の研究チームとMetaのAI研究部門が、画像から3D情報を取り出す新しいAIモデル「VGGT」を発表しました。従来の技術では、3D情報を得るために複雑な計算処理が必要でしたが、VGGTは一度の処理で画像から直接、カメラの位置や向き、物体の奥行き、3D空間での点の位置などを素早く計算できます。·gigazine.net·Apr 4, 2025画像や動画から主要な3D情報を爆速で自動抽出できる「VGGT」が登場、カメラパラメータ・ポイントマップ・深度マップ・3Dポイントトラックなど
ChatGPTにGPT-4oでの画像生成機能が実装されスタジオジブリ風のミーム画像が大量生成されるようになり著作権問題が浮き彫りに2025年3月26日、OpenAIがGPT-4oによる高精度な画像生成機能「4o Image Generation」を発表しました。4o Image GenerationはチャットボットのChatGPTでも利用可能となっているのですが、これを使ったスタジオジブリ風のミーム画像が大量生成されており、改めてAIによる著作権侵害問題が浮き彫りになっています。·gigazine.net·Apr 4, 2025ChatGPTにGPT-4oでの画像生成機能が実装されスタジオジブリ風のミーム画像が大量生成されるようになり著作権問題が浮き彫りに
OpenAIがChatGPTの新画像生成機能が「GPUが溶ける」ほど人気と発言、一時的に制限を設けざるを得ない状況2025年3月26日、OpenAIはChatGPTで利用可能な高精度な画像生成機能として「4o Image Generation」を発表しました。この4o Image Generationの人気により、OpenAIのサーバーのGPUが溶けるほど過剰な負荷がかかっていると、同社のサム・アルトマンCEOが発言しています。·gigazine.net·Apr 4, 2025OpenAIがChatGPTの新画像生成機能が「GPUが溶ける」ほど人気と発言、一時的に制限を設けざるを得ない状況
数百台のカメラを使う大規模イベントの撮影で色を合わせる方法大規模なスポーツイベントや音楽イベントの様子を映像として記録する場合、会場のさまざまな場所に合計数十台~数百台のカメラを設置する必要があります。大量のカメラの色を合わせる方法について、プログラミング言語「Elixir」の公式ブログに解説記事が掲載されています。·gigazine.net·Apr 4, 2025数百台のカメラを使う大規模イベントの撮影で色を合わせる方法
AIは黒人と女性の病気を見逃してしまう、胸部X線写真の分析で判明カリフォルニア大学ロサンゼルス校の研究チームが、スタンフォード大学で2022年に開発された「CheXzero」というAIモデルによる疾患検出の精度を検証した結果、黒人や女性の患者における疾患の検出で偏りがあったと報告しています。·gigazine.net·Apr 4, 2025AIは黒人と女性の病気を見逃してしまう、胸部X線写真の分析で判明
「Copilot+ PC」の画像生成やリアルタイム文字起こしなどのAI機能がAMDやIntelのCPU搭載デバイスに解禁へMicrosoftが2025年3月31日に、これまでQualcommのSnapdragon Xシリーズ搭載デバイスでのみ利用できたCopilot+ PCの便利なAI機能を、「AMD Ryzen AI 300」シリーズと「Intel Core Ultra 200V」シリーズを搭載したCopilot+ PCでも利用可能にすることを発表しました。·gigazine.net·Apr 4, 2025「Copilot+ PC」の画像生成やリアルタイム文字起こしなどのAI機能がAMDやIntelのCPU搭載デバイスに解禁へ
ついにApple Intelligenceが日本語に対応してiPhoneで「ラフな文章をビジネス用に書き換える機能」や「画像生成機能」が利用可能になったので使ってみた2025年3月31日(月)に「iOS 18.4」「iPadOS 18.4」「macOS Sequoia 15.4」がリリースされました。これにより、Apple製AIアシスタント「Apple Intelligence」の日本語版がiPhoneやiPad、Macで利用可能になったので、実際に使ってみました。·gigazine.net·Apr 4, 2025ついにApple Intelligenceが日本語に対応してiPhoneで「ラフな文章をビジネス用に書き換える機能」や「画像生成機能」が利用可能になったので使ってみた
Apple Intelligenceの「カメラに写った物の詳細をAIに聞ける機能」や「画像内の不要物を消せる消しゴムマジックっぽい機能」を使ってみた2025年3月31日(月)に「iOS 18.4」「iPadOS 18.4」「macOS Sequoia 15.4」がリリースされ、Apple製AIアシスタント「Apple Intelligence」の日本語版がiPhoneやiPad、Macで利用可能になりました。Apple Intelligenceで使える「カメラに写った物の詳細をAIに聞ける機能」や「画像内の不要物を除去する機能」の使い方をまとめてみました。·gigazine.net·Apr 4, 2025Apple Intelligenceの「カメラに写った物の詳細をAIに聞ける機能」や「画像内の不要物を消せる消しゴムマジックっぽい機能」を使ってみた
ChatGPTの新たな画像生成機能を1週間で1億3000万人が使って7億枚以上を生成OpenAIは現地時間の2025年3月25日、ChatGPTにGPT-4oを用いた高精度な画像生成機能「4o Image Generation」を追加しました。この新たな画像生成機能は世界中で大きな人気となり、リリースからわずか1週間で1億3000万人超が7億枚以上の画像を生成したとのことです。·gigazine.net·Apr 4, 2025ChatGPTの新たな画像生成機能を1週間で1億3000万人が使って7億枚以上を生成
Googleによるアイトラッキング技術スタートアップ「AdHawk Microsystems」買収は最終段階2025年3月11日に、Googleによるアイトラッキング技術を専門とするカナダのスタートアップ「AdHawk Microsystems」の買収に向けた交渉が最終段階に入っていることが報じられました。買収額は1億1500万ドル(約170億円)にのぼるとのことです。·gigazine.net·Mar 14, 2025Googleによるアイトラッキング技術スタートアップ「AdHawk Microsystems」買収は最終段階
【無料コード配布中】AIが画像や写真の背景をうまく透明化してくれる「Aiarty Image Matting」使ってみたレビュー、商品画像やポートレート写真にピッタリでお役立ち商品画像やポートレート写真、動物写真、イラスト素材、ロゴ画像などの背景をほぼ完璧に透過してしまうという、AIを活用したソフトウェアが「Aiarty Image Matting」です。32万枚の4K画像からなるデータセットでトレーニングされたAIモデルを使った高度な切り抜きが可能ということで、その実力を実際に使って確かめてみました。·gigazine.net·Mar 14, 2025【無料コード配布中】AIが画像や写真の背景をうまく透明化してくれる「Aiarty Image Matting」使ってみたレビュー、商品画像やポートレート写真にピッタリでお役立ち
カメラ付きインターホンで「隕石衝突の瞬間」の録画に成功、大きな衝撃音もバッチリ録音カナダ・プリンスエドワード島のある住宅に設置されたドアベルカメラが、2024年7月に地球に飛来した隕石(いんせき)が落下する様子を捉えました。·gigazine.net·Mar 7, 2025カメラ付きインターホンで「隕石衝突の瞬間」の録画に成功、大きな衝撃音もバッチリ録音
写真の撮影場所を瞬時に特定できるAIツール「GeoSpy」建物や植生、建築物同士の距離などをもとに、写真に写っている場所がどこなのかを秒単位で高精度で予測する「GeoSpy」というAIツールが、法執行機関を対象として販売されていることをニュースサイト・404 Mediaが報じています。·gigazine.net·Mar 7, 2025写真の撮影場所を瞬時に特定できるAIツール「GeoSpy」
10年以上かけて撮影されたアンドロメダ銀河の超巨大パノラマ写真をNASAが公開、ピクセル数は脅威の約4億1000万アメリカ航空宇宙局(NASA)がハッブル宇宙望遠鏡を用いて、10年以上をかけて撮影してきたアンドロメダ銀河の画像600枚をつなぎ合わせて作成した42208×9870ピクセルものパノラマ写真を公開しました。·gigazine.net·Mar 7, 202510年以上かけて撮影されたアンドロメダ銀河の超巨大パノラマ写真をNASAが公開、ピクセル数は脅威の約4億1000万
写真の閲覧&コレクション管理に特化したBlueskyクライアント「Atlas」のベータ版を使ってみたよレビューBlueskyはオープンなネットワークプロトコル「AT Protocol」をベースに開発されており、誰でも自由にサードパーティークライアントを開発することができます。「Atlas」はBluesky上に存在する画像付きポストの閲覧およびコレクション管理に特化しており、インスピレーションの共有などに役立つとのこと。面白そうだったので、Atlasのベータ版を使ってみました。·gigazine.net·Mar 7, 2025写真の閲覧&コレクション管理に特化したBlueskyクライアント「Atlas」のベータ版を使ってみたよレビュー
テキストや画像から高精度な3Dアセットを作り出すAIシステム「Hunyuan3D 2.0」をTencentがオープンソースで公開中国の大手IT企業であるTencentが、単一の画像やテキストのプロンプトから高精度の3Dアセットを生成するAIシステム「Hunyuan3D 2.0」を発表しました。「Hunyuan3D 2.0」のソースコードは、AIプラットフォームのHugging Faceでオープンソースとして公開されています。·gigazine.net·Mar 7, 2025テキストや画像から高精度な3Dアセットを作り出すAIシステム「Hunyuan3D 2.0」をTencentがオープンソースで公開
ChromeOSに顔でPCを操作できる機能「Face control」が登場Googleが2025年1月22日、ロンドンで開催されたヨーロッパ最大の教育テクノロジー見本市「Bett 2025」で、顔を動かしてデバイスを操作できるユーザー補助機能である「Face Control」をChromebookに統合することを発表しました。·gigazine.net·Mar 7, 2025ChromeOSに顔でPCを操作できる機能「Face control」が登場
メモリ1GB未満のノートPCでも動くビジュアル言語モデル「Smolvlm-256m」「Smolvlm-500m」をHugging FaceがリリースAI開発プラットフォームのHugging Faceが、画像や短い動画、テキストを分析できるAIモデルとしては最小となる「SmolVLM-256M」「SmolVLM-500M」をリリースしました。Hugging Faceによれば、この2モデルはメモリが1GB未満のノートPCでも適切に動作するように設計されているとのことです。·gigazine.net·Mar 7, 2025メモリ1GB未満のノートPCでも動くビジュアル言語モデル「Smolvlm-256m」「Smolvlm-500m」をHugging Faceがリリース