ニュースイミー

SRE

カオナビCREチーム・平尾元紀が語る、事後対応から事前検知へ「お客様の“ありがとう”をいちばん早く受け取れる席にいる」

note.com

カオナビのCRE(Customer Reliability Engineering)チームは、障害対応だけでなく、お客様の体験品質向上を目指しています。 事後対応から事前検知、問い合わせ対応から体験改善へと進化させるため、AI活用やプロセス再設計に取り組んでいます。 このチームは、お客様の声に最も近いエンジニアとして、プロダクトの品質と顧客満足度を高めることに注力しています。

SRE

New Relic アップデート(2026年5月)

newrelic.com

New Relicの2026年5月のアップデートについて解説しています。 本記事は、New Relicの最新情報を知りたいプラットフォームエンジニアやインフラエンジニア、SRE担当者, そしてエンジニアリングマネージャーやテックリードの方々におすすめです。

New Relic株式会社 伊藤 基靖
SRE

Platform Engineeringをどう進めてきたか ─ 使われるプラットフォームにするために大事にしたこと

zenn.dev

この記事は、ログラス社がプラットフォームエンジニアリングの取り組みをどのように進めているかについて解説しています。 * プラットフォームエンジニアリングを効果的に進めるための重要なポイントに焦点を当てています。 * SREチームがプラットフォームエンジニアリングに取り組むことになった経緯や、1年間での変化についても触れています。 * プラットフォームを「使われる」ものにするために、どのような工夫がなされたかが語られています。 対象読者: * プラットフォームエンジニア * SRE * インフラエンジニア * エンジニアリングマネージャー

SRE

New Relicで複数ウィンドウのバーンレートアラートを設定してみよう

qiita.com

New Relicで複数ウィンドウのバーンレートアラートを設定する方法について解説します。 SLOのアラート設定で、エラーバジェットの消費速度を監視するバーンレートアラートは重要です。 この記事では、Site Reliability Workbookに記載されている複数ウィンドウのバーンレートアラート機能に焦点を当てています。

SRE

オブザーバビリティとは?——監視との違いと実践の第一歩をわかりやすく解説

mackerel.io

・オブザーバビリティ(可観測性)とは、システムの外部出力から内部状態を理解する能力を指し、未知の問題にもデータで対処できる状態を目指す概念です。 ・監視が既知の問題を検知するのに対し、オブザーバビリティは複雑化するシステムにおける未知の問題の原因究明を可能にし、メトリック、ログ、トレースの3つのシグナルを組み合わせることで実現されます。 ・この記事は、オブザーバビリティの基本を理解し、監視との違いを知りたいインフラエンジニア、SRE、バックエンドエンジニアなどを対象に、実践への第一歩や定着のポイントを解説しています。

SRE

アノマリ検知とは?しきい値検知との違いや課題、高度化の方法を解説

newrelic.com

「アノマリ検知」について、固定しきい値では検知が難しいシステムの異常を、より効果的に検出する手法として解説。 しきい値検知との違いや、アノマリ検知が抱える課題、そしてその高度化について掘り下げています。 システムの開発・運用に携わるエンジニアや、SRE、インフラ担当者向けの記事です。

New Relic株式会社 伊藤 覚宏
SRE

GKE スタンバイ バッファの概要: 予算を抑えながらノードの起動時間を短縮

cloud.google.com

Google Kubernetes Engine(GKE)に「スタンバイ バッファ」機能が追加され、ノードの起動時間を短縮しつつ、コストを大幅に削減できるようになりました。 この機能は、オーバープロビジョニングに費用をかけず、コールドスタートによる遅延を回避するためのものです。 プラットフォームエンジニアやアーキテクトが、ワークロードの急増に対応する際のパフォーマンスとコストのバランスを最適化するのに役立ちます。

グーグル・クラウド・ジャパン合同会社 <name>Konrad Kurdej</name><title>Staff Software Engineer, Google Kubernetes Engine</title><department></department><company></company>
SRE

freee Tech Night「スピードと品質を両立!使い捨て環境で実現する進化した開発フロー」

freee-tech-night.connpass.com

* freee株式会社が、AIコーディング普及によるPR量増加に対応するため、「PRごとに使い捨てられる検証環境(Preview環境)」を構築した事例を紹介する。 * 開発者はラベルを貼るだけで、依存関係の調整やチーム間調整の手間なく検証環境を立ち上げられるようになった。 * この進化した開発フローについて、SEQ、SRE、開発者の視点から、構築の工夫や開発フローの変化を解説するイベント告知。

SRE

Change Tracking Eventのカスタマイズ

newrelic.com

New RelicのChange Tracking機能について解説。 この機能を使うことで、アプリケーションのデプロイやシステム構成の変更、機能フラグの更新などを記録できます。 これにより、問題発生時の原因分析や変更前後のパフォーマンス比較が容易になります。 - システム変更の記録と分析に役立つNew RelicのChange Tracking機能の紹介 - デプロイ、構成変更、機能フラグ変更などをイベントとして登録可能 - 問題発生時の原因究明や変更前後のパフォーマンス比較に活用できる

New Relic株式会社 Naoaki Hashimoto
SRE

TPU、GKE マネージド DRANET、マルチクラスタ推論ゲートウェイを使用したテスト

cloud.google.com

Google Cloud Platform (GCP) 上で、TPUやGKEマネージドDRANET、マルチクラスタ推論ゲートウェイを活用し、高可用性を持つAI推論ワークロードを構築する手法を解説しています。 * 複数のGKEクラスタとTPUを組み合わせ、Cloud Storage FUSEでモデルを共有し、マルチクラスタ推論ゲートウェイで負荷分散とフェイルオーバーを実現します。 * DRANETによるリソース管理と、Gemmaモデルを使った具体的な設定手順、そしてフェイルオーバーテストについても触れています。 * この記事は、GCPインフラストラクチャ上でスケーラブルかつ高可用なAI推論システムを構築したいエンジニアやインフラ担当者向けです。

グーグル・クラウド・ジャパン合同会社 <name>Ammett Williams</name><title>Developer Relations Engineer</title><department></department><company></company>
SRE

イオンスマートテクノロジーの「SRE×AI」実践録​ -インシデントからIaC、可観測性まで-/Aeon Smart Technology’s SRE × AI in Practice

speakerdeck.com

イオンフィナンシャルサービスが、SRE(サイト信頼性エンジニアリング)とAI(人工知能)をどのように連携させて、インシデント対応、IaC(Infrastructure as Code)、可観測性の向上に取り組んでいるかを解説した資料です。 - SREとAIの具体的な活用事例を学びたいインフラエンジニア。 - IaCや可観測性の実践的なノウハウを求めているエンジニア。 - 技術を活用したサービス信頼性向上のアプローチに興味がある方。

SRE

MCPで繋いで完璧だ!と思ったらそう甘くはなかった話

qiita.com

NewsPicksでQAエンジニアとしてSREと兼任している筆者が、MCP(Managed Change Process)で「完璧だ」と思った運用が、実際にはそう甘くはなく、予期せぬ問題が発生した経験を共有する。 - QAエンジニアがSRE的な業務に携わる中で直面した、変更管理プロセスの落とし穴について。 - MCP導入の理想と現実、そしてそこから得られた教訓。 - SREやQAエンジニア、インフラ担当者などが、変更管理プロセスにおける注意点や改善点について学ぶための記事。

SRE

Claude Code と Datadog MCP で、SRE エージェントの評価から改善まで一気通貫でやってみた

zenn.dev

Claude CodeとDatadog MCPを用いて、SREエージェントの評価から改善までの一連のプロセスを実践した経験について解説します。 AI WorkforceのSREとして、具体的なツール連携と実践例を通じて、SRE業務の効率化と品質向上を目指すアプローチを紹介します。 SRE、プラットフォームエンジニア、インフラエンジニア、エンジニアリングマネージャー、アーキテクトなど、システム運用と改善に関わるエンジニアに向けた記事です。

SRE

TPU 上で兆単位のパラメータを扱うモデルのクラスタレベルの信頼性

cloud.google.com

・Google Cloud TPUのクラスタレベルの信頼性フレームワークを紹介。 ・大規模AIモデルのトレーニングに必要な、数千のTPUチップを統合したSuperpodにおける信頼性確保の重要性を解説。 ・インスタンスレベルの信頼性からクラスタレベルへの移行と、それによるAIスーパーコンピュータの可用性向上について説明。

グーグル・クラウド・ジャパン合同会社 <name>Mohan Pichika</name><title>Group Product Manager</title><department></department><company></company>
SRE

New Relic Workflow Automation 実践ガイド ― Alert Trigger の正しい設定順序とテストのコツ

qiita.com

・New Relic Workflow Automation(Alert Trigger)の設定手順を解説 ・データ型確認、最小構成テスト、バージョン同期ズレ回避策などを紹介 ・プラットフォームエンジニア、SRE、QAエンジニア向け

SRE

インフラもアプリも同じAIに書かせたら、境界面のズレが消えた

toranoana-lab.hatenablog.com

・AIにインフラ(IaC)とアプリケーションコードを同一リポジトリで一貫して記述させることで、両者の連携部分のズレが解消される。 ・IaCをコードとしてAIが読み書きできるため、インフラの制約を考慮したアプリ設計が可能になる。 ・このアプローチは、インフラとアプリ開発者が分かれている場合に発生しがちな、境界面での認識齟齬や手戻りを削減できる。

SRE

パーサ回帰で Datadog Agent の CPU が急増する問題

developers.cyberagent.co.jp

- Datadog AgentのCPU使用率がパーサ回帰によって予期せず急増した問題について、その原因と解決策を解説。 - SREやプラットフォームエンジニアが直面する可能性のある、パフォーマンスチューニングとデバッグの実践的な事例。 - システムの安定稼働とリソース効率の改善を目指すエンジニアにとって役立つ情報。