ニュースイミー

SRE

ふかぼりSRE ー現場の深淵ー

layerx.connpass.com

SREの現場に焦点を当てた勉強会。 AI時代においても、インフラ・SREの実践知、特にDB運用やトラブルシューティングといった技術的な深掘りを、経験豊富なエンジニア同士で共有する。 DB運用経験のあるバックエンドエンジニア、技術的な深さを求めるテックリード、インフラの本質について語りたいエンジニアにおすすめ。

SRE

MIXI SRE Topics Monthly 2026-02 号

zenn.dev

MIXI SRE Topics Monthly 2026-02 号の記事です。 SREエンジニア向けの月次共有会で、ポストモーテム、TIPS、AI活用、データガバナンス、Grafanaの活用事例などを共有します。 SRE、インフラ、プラットフォームエンジニア、機械学習エンジニア、バックエンドエンジニアが対象です。

SRE

独自アクセスログ基盤の構築

speakerdeck.com

・RECRUIT TECH CONFERENCE 2026で発表された、独自アクセスログ基盤の構築事例に関する資料です。 ・大規模なトラフィックを効率的に処理し、分析に活用するための基盤設計や運用について解説しています。 ・インフラエンジニア、バックエンドエンジニア、SRE、アーキテクトなど、システム基盤の設計・構築・運用に携わるエンジニア向けです。

SRE

Vertex AI のプロビジョンド スループット(PT)に関するガイド

cloud.google.com

Vertex AIのプロビジョンド スループット(PT)が、モデルの多様性、マルチモーダル対応、運用柔軟性の3つの主要な改善によりアップデートされました。 これにより、AIエージェントが必要とする予測可能で一貫したパフォーマンスを保証し、Anthropicやオープンソースモデルを含む多様なモデル、Gemini 3やVeo 3.1などのマルチモーダル機能、そして柔軟な期間設定や事前対応型キャパシティプランニングといった運用面での強化が実現されます。 本記事は、AIインフラの容量計画と管理に責任を持つエンジニア、アーキテクト、プロダクトマネージャー、およびテックリード向けの内容です。

グーグル・クラウド・ジャパン合同会社 <name>Raiyaan Serang</name><title>Senior Product Manager, Vertex AI</title><department></department><company></company>
SRE

【4コマ漫画】まいにちSRE vol.10~vol.11

levtech.jp

SRE(サイト信頼性エンジニアリング)に関する4コマ漫画の第10回と第11回。 SREの日常業務や考え方を、ユーモラスに描いています。 SRE担当者や、SREに興味のあるエンジニア向け。

レバレジーズ株式会社 レバテックLAB
SRE

【スゴ本】知らないと現場が燃え尽きる。システム障害対応で本当に優先すべき5つのこと

levtech.jp

- システム障害発生時に、現場の燃え尽きを防ぐために、本当に優先すべき5つのことを解説しています。 - 障害対応の原則、コミュニケーション、ツールの活用、心理的安全性の確保、そして学習の重要性について触れています。 - エンジニア、特にSREやインフラ担当者、マネージャー層が、持続可能な障害対応体制を構築するために役立つ記事です。

レバレジーズ株式会社 レバテックLAB
SRE

GitHub CopilotのSkillsは手順書だ:3桁行差分の大規模Terraform移行に使い回す

zenn.dev

GitHub Copilotの「Skills」機能を、AI用の手順書と捉え直すことで、複雑なTerraform移行を再現性高く実行した事例を紹介。 - GitHub Copilotの「Skills」を「AI用手順書」と解釈することで、導入のハードルを下げる。 - 大規模なTerraform移行において、3桁行差分が発生するような複雑な作業を、Skillsを活用して効率化・再現性向上させた。 - エンタープライズ環境でのAIツールの活用方法について、実践的な視点を提供する。

イオン株式会社 もりはや
SRE

さくらのクラウドの「モニタリングスイート」で多様なシステムを統合監視しよう!

knowledge.sakura.ad.jp

さくらのクラウドが提供する「モニタリングスイート」は、自社サーバーや他社クラウドなど、多様なシステム環境の監視を一元化できるオブザーバビリティプラットフォームです。 * 多様なシステム環境(さくらのクラウド、オンプレミス、他社クラウド等)の統合監視が可能です。 *オブザーバビリティプラットフォームとして、システムの状態を可視化・分析します。 *インフラエンジニア、SRE、バックエンドエンジニアなど、システム運用・管理に携わる担当者におすすめです。

SRE

【4コマ漫画】まいにちSRE vol.8~vol.9

levtech.jp

SRE(サイト信頼性エンジニアリング)の日常業務に焦点を当てた4コマ漫画シリーズの第8巻と第9巻です。 SREの仕事内容や考え方を、ユーモラスかつ分かりやすく紹介しています。 SRE担当者や、SREに興味のあるエンジニア、IT担当者全般におすすめです。

レバレジーズ株式会社 レバテックLAB
SRE

Kubernetesの「内部構造」を理解し、クラスタ運用で差をつける6冊。自宅ラボでも実務でも

levtech.jp

Kubernetesの内部構造を深く理解するための書籍6選を紹介します。 これにより、クラスタ運用における深い知識と実践的なスキルを習得できます。 自宅ラボや実務でKubernetes運用スキルを向上させたいエンジニア向けです。

レバレジーズ株式会社 レバテックLAB
SRE

【4コマ漫画】まいにちSRE vol.6~vol.7

levtech.jp

- SRE(サイト信頼性エンジニアリング)に関する4コマ漫画。 - 現場で起きる具体的な出来事を、ユーモアを交えて紹介。 - SREやインフラエンジニア、開発者全般に役立つ内容。

レバレジーズ株式会社 レバテックLAB
SRE

GKE Inference Gateway で Vertex AI のレイテンシを 35% 削減した方法

cloud.google.com

Vertex AI は、GKE Inference Gateway を導入することで、推論サービングにおけるレイテンシとコストの課題を解決しました。このゲートウェイは、負荷認識ルーティングとコンテンツ認識ルーティングという 2 つのインテリジェンス レイヤを追加し、モデルサーバーの Prometheus エンドポイントからリアルタイム指標をスクレイピングして最適な Pod にルーティングしたり、リクエストの接頭辞を検査して KV キャッシュに存在する Pod にルーティングしたりします。これにより、Qwen3-Coder の TTFT レイテンシが 35% 向上し、Deepseek V3.1 の P95 TTFT レイテンシが 52% 改善され、接頭辞キャッシュ ヒット率が 35% から 70% に倍増しました。 * コンテキストを多用するワークロードやバースト性の高いワークロードにおける推論サービングのレイテンシとコストの課題を解決する方法。 * GKE Inference Gateway の負荷認識ルーティングとコンテンツ認識ルーティングの仕組みとその効果。 * プラットフォームエンジニア、SRE、機械学習エンジニア、データサイエンティストなどが、カスタムインフラストラクチャを維持せずに Vertex AI の実績あるスケジューリング機能を利用する方法。

グーグル・クラウド・ジャパン合同会社 <name>Yao Yuan</name><title>Software Engineer</title><department></department><company></company>
SRE

CA.ai#4 〜AIOpsの最前線〜

cyberagent.connpass.com

サイバーエージェントが主催する、生成AIとAIOpsの最前線に焦点を当てた技術勉強会「CA.ai#4」の開催告知です。 生成AIやAIエージェントの活用・運用事例、実践的なノウハウが紹介され、Google CloudからのゲストスピーカーによるAIOpsの特別セッションも予定されています。 対象者は、生成AIやAIOps技術に関心のあるエンジニア、テックリード、マネージャー、およびAI技術の活用・運用に携わる方々です。

SRE

OpenTelemetryコレクターで実現する、賢いトレース情報管理とコスト削減

mackerel.io

OpenTelemetryコレクターを用いてMackerel APMのコストを最適化する方法を解説する記事です。 フィルタリングやテイルサンプリングといった具体的な設定例を交え、必要なトレース情報のみを効率的に収集し、データ量を大幅に削減する「賢いトレース管理」の実現方法を示します。 インフラエンジニアやSRE、プラットフォームエンジニアで、オブザーバビリティを維持しつつコストを削減したいと考えている読者向けです。

SRE

プラットフォーム使用の落とし穴(パート 1): アクティビティの多さが必ずしも価値の高さを示すとは限らない理由

cloud.google.com

プラットフォームの成功を測る上で、単なる利用率ではなく、リードタイム、DORA指標、技術的健全性などの多角的なアプローチの重要性を解説しています。 プラットフォームエンジニア、プロダクトマネージャー、エンジニアリングマネージャーなど、開発チームの生産性向上やプラットフォームの価値最大化に関心のある技術職・管理職向けです。 プラットフォームの導入から価値測定、指標の進化、そしてデータに基づいた意思決定のプロセスを理解し、自社プラットフォームの改善に役立てたい読者におすすめです。

グーグル・クラウド・ジャパン合同会社 <name>Alex Moss</name><title>Principal Platform Engineer, John Lewis Partnership</title><department></department><company></company>
SRE

【4コマ漫画】まいにちSRE vol.4~vol.5

levtech.jp

SRE(サイト信頼性エンジニアリング)に関する4コマ漫画の紹介です。 SREの業務内容や考え方について、ユーモラスに描かれています。 SRE担当者や、SREに興味のあるエンジニアにおすすめです。

レバレジーズ株式会社 レバテックLAB
SRE

New Relic の Lookup Table を GitHub Actions で更新して運用を自動化

qiita.com

New RelicのLookup TableをGitHub Actionsで自動更新する方法について解説します。 この技術により、ログやメトリクスに含まれるIDを、業務上の意味を持つ情報(例:店舗名、サービス名)に紐づけて可視化できるようになります。 インフラ・プラットフォームエンジニア、SRE、データ分析に関わる方々におすすめの記事です。

SRE

SRE Kaigi 2026レポート

zenn.dev

SRE Kaigi 2026への初参加・登壇経験について共有するレポートです。 本記事は、SRE(Site Reliability Engineering)に携わるエンジニアや、カンファレンスでの経験を共有したいと考えている方々に向けて書かれています。 SRE Kaigi 2026の概要や、参加を通じて得られた経験について触れています。

イオン株式会社 Masahiko Kawada
SRE

高トラフィックな分散システムのSLO改善事例

tech.plaid.co.jp

KARTEの秒間10万リクエストを超える分散システムにおけるSLO改善事例。 - Load Balancerのログ分析、Datadog APM・Profiling、NTP同期問題の特定と対応について詳述。 - 高トラフィックシステム運用における課題解決と信頼性向上のための実践的なアプローチを紹介。 この記事は、以下のような読者におすすめです。 - 高トラフィックな分散システムの運用に携わるバックエンドエンジニア。 - SREやインフラエンジニアで、システム監視や障害対応の事例を知りたい方。 - Google Cloudなどのクラウド環境でのシステム改善やトラブルシューティングに関心のある方。

SRE

KubernetesのPod終了時に発生するエラーの調査とリリース戦略の改善

developers.cyberagent.co.jp

KubernetesのPod終了時に発生するエラーの原因を調査し、それに基づいたリリース戦略の改善策を解説します。 ・Podの終了処理における一般的な問題点とその影響。 ・効果的なデバッグ手法と、再発防止のためのプラクティス。 ・SRE、プラットフォームエンジニア、インフラエンジニア向けの記事です。

SRE

Terraformをモノレポ化した話 — tfactionを使ったプロダクト横断IaC運用の実践

www.estie.jp

Terraformによるモノレポ化の経験談。 ・背景: 多数のプロダクトのIaC管理コスト増大。 ・tfaction導入: GitHub Actionsベースのモノレポ構築ツールを活用。 ・メリット: CI/CDのメンテナンスコスト削減、新規プロダクト導入の容易化。 対象読者: ・SRE ・インフラエンジニア ・プラットフォームエンジニア