Codex 업무 확장 · Agent Control · Claude Mythos

오늘의 핵심

오늘의 흐름은 AI 에이전트의 “업무 배치”입니다. 오픈AI는 Codex를 개발자 도구에서 지식근로자용 생산성 도구로 확장했고, 마이크로소프트는 에이전트 평가와 통제를 위한 ASSERT·Agent Control Specification을 공개했습니다. Anthropic과 구글은 각각 사이버 방어와 AI 딥페이크 전화 사기 대응으로, 에이전트 시대의 보안 운영 문제를 전면에 올렸습니다.

오픈AI, Codex를 모든 직무용 업무 도구로 확장

오픈AI가 Codex에 직무별 플러그인, Sites, annotations를 추가했습니다. Codex는 이제 500만 명 이상의 주간 활성 사용자를 보유했고, 비개발 지식근로자가 전체 사용자의 약 20 %를 차지한다고 밝혔습니다.

직무별 플러그인: 데이터 분석, 크리에이티브 제작, 세일즈, 제품 디자인, 주식 투자, 투자은행 업무용 플러그인이 먼저 공개됐습니다.
업무 통합: 6개 플러그인은 62개 앱과 110개 skills를 묶어 직무별 컨텍스트, 워크플로, 외부 도구 연결을 제공합니다.
협업 산출물: Sites 기능은 Codex가 대시보드, 플래너, 리뷰 공간, 프로젝트 보드 같은 인터랙티브 웹 산출물을 URL로 공유하게 합니다.

📢 Codex의 경쟁 범위가 “코드를 고치는 에이전트”에서 “조직 안의 업무 산출물을 만드는 에이전트”로 넓어지고 있습니다.

출처: Codex for every role, tool, and workflow — OpenAI, Codex is becoming a productivity tool for everyone — OpenAI

오픈AI, Codex 지식근로 보고서 공개 — 비개발 사용자가 3배 빠르게 성장

오픈AI는 The Next Era of Knowledge Work 보고서를 통해 Codex 사용이 소프트웨어 개발을 넘어 보고서, 스프레드시트, 발표 자료, 계약서, 리서치, 데이터 분석으로 확장되고 있다고 설명했습니다.

사용자 증가: 2월 데스크톱 앱 출시 이후 Codex 주간 활성 사용자는 6배 이상 증가했습니다.
빠른 성장 영역: 비개발 지식근로자는 개발자보다 3배 이상 빠르게 늘고 있습니다.
작업 방식 변화: 여러 Codex 작업을 병렬로 실행해 데이터 조사, 자료 작성, 워크플로 자동화를 동시에 처리하는 패턴이 늘고 있습니다.

📢 지식근로자의 AI 채택은 챗봇 질문이 아니라 “동시에 여러 산출물을 맡기는 작업 큐” 형태로 바뀌고 있습니다.

출처: Codex is becoming a productivity tool for everyone — OpenAI

마이크로소프트, 에이전트 행동 평가 프레임워크 ASSERT 공개

마이크로소프트가 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)를 오픈소스로 공개했습니다. 자연어로 작성한 제품 요구사항과 정책을 구조화된 테스트 케이스로 바꿔 AI 앱과 에이전트의 행동을 평가하는 프레임워크입니다.

스펙 기반 평가: 제품 요구사항, 정책, 시스템 프롬프트, 출시 기준을 기준으로 행동 카테고리와 테스트 케이스를 생성합니다.
프레임워크 독립성: OpenAI, Anthropic, Vertex AI, Bedrock, Hugging Face, vLLM 등 다양한 모델 엔드포인트와 LangGraph·CrewAI·AutoGen 등 에이전트 프레임워크를 평가 대상으로 삼을 수 있습니다.
추적 기반 판정: OpenTelemetry span을 캡처해 최종 응답뿐 아니라 도구 호출, 라우팅, 모델 호출, 지연시간을 근거로 판정합니다.

📢 에이전트 품질 관리는 벤치마크 점수보다 “우리 제품 정책을 반복적으로 어기지 않는가”를 검증하는 회귀 테스트로 이동하고 있습니다.

출처: responsibleai/ASSERT — GitHub, New Microsoft tool lets devs spin up AI behavior tests using text descriptions — TechCrunch

마이크로소프트, Agent Control Specification으로 에이전트 통제 표준 제안

마이크로소프트가 Agent Control Specification(ACS)을 공개했습니다. 에이전트가 입력을 받기 전, 모델 호출, 상태 변경, 도구 실행, 최종 출력 단계에서 어떤 통제를 적용할지 YAML 정책으로 정의하는 표준입니다.

5개 체크포인트: 입력, LLM, 상태, 도구 실행, 출력 단계에서 검증 로직을 둘 수 있습니다.
정책 이식성: 정책을 에이전트와 함께 배포해 프레임워크가 바뀌어도 같은 보안 기준을 적용하도록 설계했습니다.
생태계 확장: Microsoft Foundry, Microsoft Agent Framework, LangChain 등에서 적용할 수 있는 참조 구현과 파트너 통합을 제시했습니다.

📢 에이전트 보안의 핵심은 프롬프트 주의문이 아니라 실행 루프 곳곳에 들어가는 표준화된 정책 레이어입니다.

출처: Build agents you can trust across any framework with open evals and a control standard — Microsoft Foundry Blog, Microsoft offers devs a better way to control AI agent behavior — TechCrunch

Microsoft Foundry, 에이전트 운영 루프에 평가·통제·최적화 연결

Microsoft Foundry는 Build 2026 발표에서 에이전트를 대규모로 배포하고 개선하는 운영 흐름을 공개했습니다. ASSERT로 정책 기반 테스트를 만들고, ACS로 런타임 가드레일을 적용하며, Rubric과 Agent optimizer로 품질 개선 후보를 비교하는 구조입니다.

연결된 평가 파이프라인: ASSERT는 정책에서 테스트를 만들고, Rubric은 과업 성공·톤·안전·비용·지연시간 같은 평가 기준을 정의합니다.
운영 루프: Agent optimizer는 관찰, 평가, 최적화, 배포를 반복하며 어떤 후보가 개선됐고 무엇이 회귀했는지 비교합니다.
프레임워크 독립성: Microsoft Agent Framework, GitHub Copilot SDK, LangGraph 등에서 만든 에이전트를 재작성 없이 배포하는 방향을 제시했습니다.

📢 에이전트 플랫폼 경쟁은 모델 호출 API가 아니라 평가, 통제, 배포, 롤백까지 포함한 운영 체계 경쟁으로 바뀌고 있습니다.

출처: Build and run agents at scale with Microsoft Foundry at Build 2026 — Microsoft Foundry Blog

마이크로소프트, OpenClaw 기반 개인 비서 Scout 공개

마이크로소프트가 OpenClaw 프레임워크에서 영감을 받은 개인 비서 Scout를 공개했습니다. Microsoft 365 생태계 안에서 사용자의 업무 방식, 기억, skills를 지속적으로 학습하는 상시 실행형 에이전트입니다.

배포 방식: Microsoft Frontier 프로그램을 통해 초기 사용자에게 제공되며 GitHub Copilot 구독이 필요합니다.
업무 표면: 클라우드를 기반으로 데스크톱과 웹 브라우저를 오가며 메일, 일정, 회의 아젠다 같은 업무에 연결됩니다.
안전 장치: 내장 policy conformance system이 에이전트 동작이 지침을 따르는지 지속 점검하고 감사 추적을 남깁니다.

📢 개인 비서 에이전트의 차별점은 답변 품질보다 사용자의 반복 업무를 장기 기억과 정책 검증 아래에서 얼마나 안정적으로 수행하는가입니다.

출처: Microsoft launches Scout, an OpenClaw-inspired personal assistant — TechCrunch

Anthropic, Project Glasswing을 15개국 이상 핵심 인프라 조직으로 확대

Anthropic이 Claude Mythos Preview를 중심으로 한 Project Glasswing을 약 150개 신규 조직으로 확대했습니다. 전력, 수도, 의료, 통신, 하드웨어 등 초기 코호트에서 부족했던 핵심 인프라 분야가 포함됐습니다.

참여 범위: 새 그룹은 15개국 이상에 기반을 두고 있으며, 다수 조직은 다른 기업과 정부가 의존하는 코드베이스를 유지합니다.
위험 규모: Anthropic은 대부분 파트너의 주요 공격이 1억 명 이상에게 영향을 줄 수 있다고 추정했습니다.
방어 전환: Mythos급 모델이 취약점 발견뿐 아니라 패치 작성, 사전 릴리스 점검, 침투 테스트, 위협 탐지에도 쓰일 수 있다고 설명했습니다.

📢 강력한 사이버 모델은 공격 능력의 민주화와 방어 자동화라는 두 방향을 동시에 열기 때문에, 접근 통제와 패치 체계가 모델 성능만큼 중요해집니다.

출처: Expanding Project Glasswing — Anthropic, Anthropic scales Claude Mythos to critical infrastructure in 15+ countries — TechCrunch

구글 SRE, AI 운영 안전을 위한 자율성 단계와 가드레일 공개

구글 SRE 팀이 “AI in SRE” 논문형 리소스를 공개했습니다. AI 코딩과 배포 속도가 빨라지는 상황에서 SRE를 수동 운영자에서 AI 운영 안전을 설계하는 아키텍트로 재정의하는 내용입니다.

안전 3요소: 투명성, 실시간 위험 평가, 점진적 권한 부여를 AI 운영의 핵심 원칙으로 제시했습니다.
실행 가드레일: 에이전트 전용 신원, 최소 권한, circuit breaker, dry-run 지원, 안전한 actuation control plane을 강조했습니다.
운영 사례: Detectr는 Gemini 기반으로 사용자 피드백을 분석해 지표 기반 모니터링이 놓친 장애를 더 빨리 탐지하는 플랫폼입니다.

📢 프로덕션 에이전트는 “잘 추론하는 모델”보다 “실행해도 되는 행동만 하게 만드는 운영 제어면”이 먼저 필요합니다.

출처: AI in SRE: How Google is Engineering the Future of Reliable Operations — Google SRE

구글, AI 딥페이크 전화 사기 감지 기능을 Android에 배포

구글이 Phone by Google에 fake call detection 기능을 배포합니다. Android 12 이상 기기에 글로벌로 제공되며, Pixel 기기부터 시작됩니다.

딥페이크 대응: 가족, 직장 상사, 기관 관계자처럼 들리는 AI 음성 사기 전화를 감지하는 데 초점을 맞췄습니다.
검증 방식: 연락처가 전화를 걸 때 상대 기기에서 조용한 확인 신호를 보내 실제 기기에서 온 전화인지 확인합니다.
확장 가능성: RCS 위에 구축돼 다른 앱과 회사도 비슷한 검증 방식을 채택할 수 있다고 설명했습니다.

📢 생성형 음성 사기가 일상 통화 표면으로 들어오면서, 신원 확인은 콘텐츠 판별보다 기기 간 암호학적 확인 쪽으로 이동하고 있습니다.

출처: Google rolls out fake call detection to protect against AI deepfake impersonation scams — TechCrunch

오픈AI, Travelers의 자율 음성 보험 청구 사례 공개

오픈AI가 Travelers의 AI Claim Assistant 사례를 공개했습니다. Travelers는 OpenAI Realtime API와 프런티어 모델을 활용해 자동차 물적 손해 청구 접수를 자연어 음성으로 처리하는 자율 솔루션을 전국 단위로 확대했습니다.

처리율: AI Assistant를 이용한 고객 중 85~90 %가 청구 접수를 AI로 완료한다고 밝혔습니다.
운영 배경: Travelers는 지난해 150만 건 이상의 청구를 처리했고, 대형 재난 상황에서는 며칠 사이 10만 건 이상 청구가 발생할 수 있다고 설명했습니다.
엔터프라이즈 연결: 모델은 청구 인프라, 오케스트레이션 시스템, 내부 도구와 연결돼 24/7 접수를 처리합니다.

📢 음성 AI의 엔터프라이즈 가치는 “대화가 자연스러운가”보다 핵심 업무 시스템 안에서 상태 변경을 안전하게 완료하는가로 측정됩니다.

출처: Travelers deploys AI-powered claims countrywide with OpenAI — OpenAI

MiniMax-M3, 저비용 장문·에이전트 모델 경쟁 신호

MiniMax가 M3를 공개하며 낮은 비용과 긴 컨텍스트 성능을 전면에 세웠습니다. VentureBeat 보도에 따르면 MiniMax-M3는 제한 기간 API 가격 기준 입력 $0.30, 출력 $1.20 / 1M tokens로 제시됐고, 1M 토큰 컨텍스트에서 이전 세대 대비 큰 폭의 효율 개선을 주장했습니다.

효율 구조: MiniMax Sparse Attention(MSA)을 통해 긴 입력에서 계산량과 메모리 접근을 줄이는 구조를 설명했습니다.
벤치마크 주장: SWE-Bench Pro 59.0 %, Terminal Bench 2.1 66.0 %, MCP Atlas 74.2 %를 제시했습니다.
시장 의미: 고가 폐쇄형 모델만 담당하던 장문·도구 사용·멀티모달 작업을 저비용 모델이 압박하는 흐름입니다.

📢 모델 경쟁은 최고 성능뿐 아니라 “에이전트 루프를 얼마나 싼 비용으로 오래 돌릴 수 있는가”로 재편되고 있습니다.

출처: MiniMax-M3 debuts, eclipsing GPT-5.5 and Gemini 3.1 Pro on key benchmark performance for just 5-10% of the cost — VentureBeat

GitHub 트렌딩, 에이전트 비용·메모리·하네스 도구가 상위권

오늘 GitHub 트렌딩에는 headroom, ECC, supermemory처럼 에이전트 실행 비용과 운영 품질을 다루는 도구가 상위권에 올랐습니다. 모델 자체보다 에이전트 주변 인프라를 개선하려는 개발자 수요가 강하게 보입니다.

headroom: 도구 출력, 로그, 파일, RAG chunk를 LLM에 넣기 전에 압축해 60~95 % 토큰 절감을 목표로 합니다.
ECC: Claude Code, Codex, Opencode, Cursor 등 에이전트 하네스 성능 최적화와 skills, memory, security를 표방합니다.
supermemory: “AI 시대의 Memory API”를 내세운 메모리 엔진과 앱입니다.

📢 에이전트 생태계의 병목은 모델 호출 그 자체보다 컨텍스트 비용, 기억 품질, 실행 하네스 관리로 이동하고 있습니다.

출처: Trending repositories on GitHub today — GitHub

오늘의 도구 추천

ASSERT — 자연어 요구사항과 정책을 AI 앱·에이전트 회귀 테스트로 바꾸는 오픈소스 평가 프레임워크입니다. 에이전트를 실제 제품에 붙이기 전, “우리 정책을 지속적으로 지키는가”를 검증해야 하는 팀에 특히 유용합니다.

에디터 노트

오늘 발표들을 한 줄로 묶으면 “에이전트의 업무화”입니다. 오픈AI는 Codex를 더 많은 직무로 넓히고, 마이크로소프트는 그 에이전트가 지켜야 할 정책과 평가 체계를 만들고, Anthropic과 구글은 강력한 AI가 보안 현장에서 어떤 위험과 방어 가능성을 동시에 만드는지 보여줍니다.

이제 팀이 물어야 할 질문은 “어떤 모델이 제일 똑똑한가”만이 아닙니다. 어떤 일을 맡길지, 어떤 권한을 줄지, 실패를 어떻게 기록하고 되돌릴지, 그리고 매일 바뀌는 업무 환경에서 무엇을 계속 평가할지가 더 중요해지고 있습니다.

다음에 또 찾아옵니다. — 에이브랜치