zenn.dev
MIXI SRE Topics Monthly 2026-03号では、SREエンジニア間の情報交換会で共有された内容が紹介されています。今月は特に「AIとオブザーバビリティ」というテーマで、AWS Observability Kiro Powerについて触れられています。
- SREエンジニア向けの、MIXI社内でのSRE活動に関する共有記事。
- AIとオブザーバビリティ、特にAWSのサービスに焦点を当てた内容。
- SREチーム内の情報共有やベストプラクティスに関心のあるエンジニアが対象。
mackerel.io
OpenTelemetryは、システムの内部状態を可視化する「オブザーバビリティ」を実現するための、テレメトリーデータ(メトリック、トレース、ログ)を標準的な方法で生成・収集・エクスポートするフレームワークです。
ベンダーロックインの回避、計装の一元化、シグナル間の相関分析といったメリットがあり、Cloud Native Computing Foundation(CNCF)のプロジェクトとしてオープンソースで開発されています。
バックエンドエンジニア、インフラエンジニア、プラットフォームエンジニア、アーキテクトなど、システムのオブザーバビリティ向上に関心のある開発者や技術リーダー向けの記事です。
toranoana-lab.hatenablog.com
- 通販システムの運用における「監視対象の多さと判断の難しさ」「手作業によるミス」という2つの悩みを、AIを活用して解決する事例を紹介。
- OracleDBのアラートログ監視や、Slackからの自然言語指示によるサーバー調査用Slackbotの開発について、具体的な仕組みと効果を解説。
- AIのシステム運用への組み込みは、効率化だけでなく、作業者の心理的負担軽減にも繋がり、今後は自動復旧なども視野に入れている。
この技術記事は、以下のような方々を対象としています。
* システム運用担当者
* バックエンドエンジニア
* インフラエンジニア
* アーキテクト
toranoana-lab.hatenablog.com
関西のエンジニアコミュニティ「第四回 唐揚げ会」のイベントレポート。
テーマは「AIとエンジニア」で、LTやスポンサーセッショントークを通じて、AIの組織導入の難しさやエンジニアキャリアの変化などが語られた。
特にAIの権限設定に関するSREの視点からの発表が注目された。
・AIとエンジニアリングに興味のあるエンジニア
・AIの組織導入や運用における課題解決に関心のある方
・関西のエンジニアコミュニティの動向を知りたい方
sansan.connpass.com
「データ活用のリアル」と題したSansan Tech Talk @関西 vol.3のイベントレポート。
データ活用における表面的な華やかさだけでなく、データ収集、定義統一、品質担保といった地道で泥臭い基盤整備の重要性に焦点を当てる。
エンジニア、データ基盤構築者、データ活用推進者、関西のエンジニアコミュニティ参加者におすすめ。
speakerdeck.com
CRE (Customer Reliability Engineer) の役割が、従来のSREの枠を超えて、より顧客の信頼性向上に焦点を当てたものへと進化していく様子を解説します。
・CREは、顧客のビジネス成果に直結する信頼性を提供することを目指します。
・この変化は、SREの概念を顧客視点で拡張したものです。
・弁護士ドットコム株式会社のCREチームの事例紹介や、関連する採用情報、テックブログ、SNSへのリンクも提供されています。
qiita.com
New Relic Flexを用いてLinuxサーバーのCPUコアごとの使用率を可視化する方法を解説します。
標準のInfrastructure Agentでは難しい、コアごとの詳細な負荷状況やシングルスレッドプロセスのボトルネック特定を可能にします。
インフラエンジニアやSRE担当者、サーバー運用に携わる方々におすすめの記事です。
mackerel.io
Mackerelは、Webフロントエンドやモバイルアプリからのトレース投稿に特化したクライアントトークンをリリースしました。これにより、セキュアなクライアントサイドからのトレース送信が可能になります。
また、トレース課題通知のスヌーズ解除までの残り時間表示、Slack連携設定場所の変更、Azure Front Doorメトリック取得、オーガニゼーション絞り込み機能、ホスト詳細画面の管理名表示、グラフ描画フォント変更、terraform-provider-mackerel v0.9.0リリースなど、多数の機能改善が行われました。
この記事は、Webフロントエンドエンジニア、モバイルアプリ開発者、インフラエンジニア、SRE、およびMackerelを利用する開発者全般を対象としています。
qiita.com
2026年2月のNew Relicのアップデート情報。
AIエージェントによる障害調査の自動化・復旧や、ノーコードでのログ解析ルール作成(Public Preview)について。
SRE、インフラ、バックエンドエンジニア向け。
qiita.com
動画配信サービスにおけるオブザーバビリティ(観測可能性)の重要性について解説したまとめ記事です。
基本的なアプリのパフォーマンスやエラーに加え、動画特有の遅延やバッファリングといった動画品質の観測が不可欠であることを説明しています。
SRE、インフラエンジニア、バックエンドエンジニア、プラットフォームエンジニア、QAエンジニア向けの記事です。
zenn.dev
イオンシネマ シアタス調布で開催されたイベント「シネマ de LT会#2 〜Back to the Screen〜」の運営レポートです。
イベントの感想は、参加者のブログ記事が紹介されています。
この記事は、イベント運営や技術共有に関心のあるインフラエンジニアやSRE、コーポレートエンジニア向けの内容です。
developers.cyberagent.co.jp
Datadog MCPが利用できない状況でも、agent-skillsとpup、Github Actionsを連携させることでAIを活用したインシデント調査を可能にする方法を解説します。
- Datadog MCPの代替手段としてAIを活用したインシデント調査の実現方法
- Github Actionsとagent-skills、pupの連携による自動化
- インフラエンジニア、SRE、コーポレートエンジニア向け
newrelic.com
- AWS Integration導入後にメトリクスがリソースタグで装飾されない問題のトラブルシューティングガイドです。
- タグ/メタデータ収集の仕組みと具体的な解決手順について解説します。
- AWSのインフラ運用やSRE、プラットフォームエンジニア向けの記事です。
speakerdeck.com
LINEヤフーにおけるAIOpsの導入状況についての発表資料です。
AIOpsの現在地と今後の展望について解説しています。
プラットフォームエンジニア、SRE、インフラエンジニア、ネットワークエンジニア向けの記事です。
mackerel.io
Mackerel SREチームが実践した、誤検知を減らし運用負荷を軽減するための監視設定改善事例を紹介します。Terraformでの具体的な設定変更や、OpenTelemetryを用いたメトリック化、アラート名の工夫など、実践的なノウハウが解説されています。
* Mackerelでのアラート誤検知を減らすための具体的な監視設定改善方法
* 障害発生時の通知精度向上と運用負荷軽減のためのテクニック
* TerraformやOpenTelemetryを活用した実践的な監視設定の例
qiita.com
Synthetic Monitoringを用いてICMPポーリングを実装した際の、取得データの可視化方法について解説します。
記事では、スクリプトの共有だけでなく、そのデータをどのように活用できるかについてのアイデアも提案します。
インフラやSRE、ネットワークエンジニア、QAエンジニアなど、システム監視やデータ活用に関心のある方におすすめです。
qiita.com
- "トラフィックの再ルーティング"について、DNSやBlue/Greenデプロイなどの技術を解説。
- デプロイ作業におけるサーバー切り替えの概念を、AWSの経験が浅い読者にも分かりやすく説明。
- 曖昧な理解を解消し、デプロイ方法の全体像を掴むための記事。
levtech.jp
SRE(サイト信頼性エンジニアリング)に関する4コマ漫画の第14回と第15回。
SREの日常業務や考え方について、ユーモラスに描かれています。
SRE担当者や、SREに興味のあるエンジニア向けの記事です。
zenn.dev
Azure Backupが適用できないPremium Blob Storageのデータに対して、Azure Storage MoverとGitHub Actionsを組み合わせた定期バックアップ運用を紹介する記事です。
- Azure BackupでバックアップできないPremium Blob Storageのデータ保護方法について解説します。
- Azure Storage MoverとGitHub Actionsを活用した具体的なバックアップ運用の手順を示します。
- Azureのストレージ管理における実用的なソリューションを求めているSREやインフラエンジニア向けです。
mackerel.io
Mackerelのアップデート情報。
* トレースのスパン概算使用量がラベル付きメトリックとしてリアルタイムで投稿されるようになり、サービスごとの利用状況把握が容易になりました。
* 課題発生時の通知を一時停止できる「スヌーズ」機能が追加されました。
* クエリによる監視のアラートメールで、属性名ではなく実際の値が表示されるよう改善されました。
この記事は、Mackerelを利用しているエンジニア、特にインフラ・SRE・プラットフォーム担当者、およびプロダクトマネージャーやエンジニアリングマネージャー向けです。
blog.kinto-technologies.com
RenovateというOSSツールが、ソフトウェアの依存関係を自動でアップデートする利便性を解説しています。
特に、GitHubのDependabotと比較し、カスタムマネージャーによるインラインスクリプトのアップデート対応、ローカルでの設定デバッグの容易さ、複数リポジトリでの設定共通化の3点を評価しています。
インフラエンジニア、SRE、QAエンジニア、プラットフォームエンジニア、バックエンドエンジニアなど、ソフトウェア開発に関わるエンジニア全般が対象です。
zenn.dev
- Azureのコスト管理・削減のため、社内全体のコスト意識強化を目的とした「Dailyコスト通知」の導入について解説しています。
- 普段意識しないAzureの莫大な費用とその削減に向けたSREチームの取り組みを紹介しています。
- Azureコストの現状把握と削減効果の可視化に関心のあるエンジニア、マネージャー向けの記事です。
levtech.jp
・SREの日常業務における出来事を描いた4コマ漫画の紹介です。
・vol.12とvol.13の内容が含まれています。
・SREやインフラエンジニア、またはIT業界に関心のある方におすすめです。
knowledge.sakura.ad.jp
メールサーバーソフトウェア「Stalwart Mail Server」の導入について解説します。
さくらのVPS環境で、既存のメールサーバーに代わる選択肢として試した経験を共有します。
メールサーバーの運用やインフラ管理に携わるエンジニア、または新しい技術に興味のある方におすすめです。
cloud.google.com
Google CloudのSpannerへの移行を推進する記事です。
* Apache Cassandraからの移行により、TCO削減、スケーラビリティ向上、運用負荷低減を実現します。
* ネイティブCQLエンドポイントにより、既存アプリケーションのコード変更を最小限に抑えつつSpannerの機能を利用可能です。
* この記事は、データベース管理者、SRE、インフラエンジニア、バックエンドエンジニア、アーキテクトなど、データベースの移行や最適化に関わる技術者向けです。
グーグル・クラウド・ジャパン合同会社 <name>Nitin Sagar</name><title>Product Manager</title><department></department><company></company> speakerdeck.com
KRaftモード(開発段階)からZooKeeperモードへのダウングレード手順について解説しています。
- KRaftモードからZooKeeperモードへの安全なロールバック方法
- 運用中のシステムで発生した問題への対処法
- インフラエンジニア、SRE、データベース管理者向け
speakerdeck.com
LYの大規模Kafkaクラスタ運用における、一見無害なListOffsets呼び出しが原因で発生した障害のトラブルシューティング事例を紹介します。
- Kafkaクラスタの運用で発生した予期せぬ障害とその原因究明について解説。
- 大規模システムにおけるインシデント対応や、根本原因の特定に役立つ知見を提供。
- インフラエンジニア、SRE、バックエンドエンジニア向けの記事。
developers.cyberagent.co.jp
Fastlyがメトリクス基盤をGKE(Google Kubernetes Engine)へ移行した事例について解説しています。
移行により、メトリクスの精度向上や運用負荷の軽減といったメリットが得られたとのことです。
インフラエンジニアやSRE、GKEの利用を検討しているエンジニアにおすすめの記事です。
m3-engineer.connpass.com
エムスリー株式会社が開催するSREエンジニア向けの企業説明会イベントです。
医療DXを推進するプロダクト開発、全国リモートを支えるSREの技術基盤、SREチームの文化や働き方、採用ポジションやキャリアパスについて、VPoEやリードエンジニアが解説します。
SRE、バックエンド、フロントエンド、インフラ、ML、QA、セキュリティ、PdMなど、エンジニア職希望者全般が対象です。
zenn.dev
GitHub Copilot CLIのGAを機に、筆者が公式ドキュメントを読みながら入門する様子を記した記事です。
VSCodeでのCopilot利用が主だった筆者が、CLI版の機能や使い方を模索します。
想定や感想が多く含まれる、入門者向けの速報的な内容となっています。
developers.cyberagent.co.jp
CAMのSRE Unitでの経験を通して、Cloud Nativeな基盤を安全に運用し続けるための視点と設計について解説する記事です。
- SREの観点からCloud Native基盤の安全な運用方法を学びたいエンジニア。
- 安定したシステム運用を目指すインフラエンジニアやプラットフォームエンジニア。
- Cloud Native技術の運用設計に関心のあるアーキテクトやテックリード。