No. 56

Claude Opus 4.8 · Codex Windows · Gemini Spark

Anthropic은 장기 실행 에이전트를 밀고, OpenAI·Google은 데스크톱과 개인 업무 에이전트 배포면을 넓혔습니다.

오늘의 핵심

오늘의 흐름은 모델 성능 경쟁보다 “에이전트를 어디까지 실제 업무 환경에 붙일 수 있는가”에 가깝습니다. Anthropic은 Opus 4.8과 Claude Code Dynamic Workflows로 장기 실행·병렬 작업을 전면에 세웠고, OpenAI는 Codex의 Windows 데스크톱 조작과 모바일 원격 제어를 열었습니다. Google은 Gemini Spark를 통해 개인 업무 에이전트의 상시 실행 모델을 구체화하고 있습니다.


Anthropic, Claude Opus 4.8 출시 — 더 정직한 장기 실행 모델 강조

Anthropic이 Claude Opus 4.8을 공개했습니다. Opus 4.7 대비 코딩·에이전트·추론·전문 업무 벤치마크를 개선했고, 특히 코드 결함을 묵살하지 않는 “정직성”을 전면에 내세웠습니다.

  • 협업 성향: 초기 사용자 피드백에서 질문, 자기 검증, 계획 반박 능력을 강조했습니다.
  • 에이전트 성능: 브라우저 에이전트, 법률 에이전트, 자율 엔지니어링 워크로드에서 개선 사례를 제시했습니다.
  • 가격 정책: 일반 사용 가격은 Opus 4.7과 동일하게 유지하고, fast mode 가격 구조를 별도로 제시했습니다.
📢 프런티어 모델 경쟁의 초점이 “더 많이 맞히는 모델”에서 “틀렸을 때 멈추고 말할 수 있는 모델”로 이동하고 있습니다.

출처: Introducing Claude Opus 4.8 — Anthropic


Claude Code, Dynamic Workflows로 수십~수백 개 하위 에이전트 오케스트레이션

Claude Code에 Dynamic Workflows 연구 프리뷰가 추가됐습니다. Claude가 작업별 오케스트레이션 스크립트를 만들고, 한 세션 안에서 여러 하위 에이전트를 병렬 실행한 뒤 검증 결과를 합쳐 보고하는 방식입니다.

  • 대상 작업: 대규모 마이그레이션, 코드베이스 전역 버그 헌트, 보안 감사, 계획 스트레스 테스트
  • 제공 범위: Claude Code CLI, Desktop, VS Code 확장, Claude API, Bedrock, Vertex AI, Microsoft Foundry
  • 운영 특징: 첫 실행 시 어떤 워크플로가 실행될지 보여주고 사용자 확인을 받는 구조
📢 에이전트 제품의 차별점은 모델 하나가 아니라 “작업을 쪼개고 검증하며 다시 합치는 실행 하네스”가 되고 있습니다.

출처: Introducing dynamic workflows in Claude Code — Claude


Claude API, 대화 중 system 메시지로 장기 작업 지시 갱신 지원

Anthropic 문서에 따르면 Claude Opus 4.8은 messages 배열 안에 system 메시지를 넣어 대화 중 지시를 갱신할 수 있습니다. 기존 최상위 system 지시만 쓰는 방식보다 장기 실행 에이전트에서 권한, 예산, 환경 맥락을 중간에 바꾸기 쉬워집니다.

  • 우선순위: 나중에 들어온 system 메시지가 앞선 system 지시보다 우선합니다.
  • 캐시 영향: 중간 system 지시를 추가해도 프롬프트 캐시를 깨지 않도록 설계됐습니다.
  • 활용처: 에이전트가 작업 도중 승인 범위, 토큰 예산, 실행 환경을 갱신해야 하는 하네스
📢 장기 실행 에이전트가 늘수록 “처음에 완벽한 프롬프트”보다 “작업 중 안전하게 지시를 재구성하는 API”가 중요해집니다.

출처: Mid-conversation system messages — Claude API Docs


OpenAI, Codex에 Windows Computer Use와 모바일 원격 제어 추가

OpenAI가 ChatGPT 릴리스 노트에서 Codex 앱의 Windows Computer Use 지원을 발표했습니다. 적격 사용자는 Codex가 Windows 앱 화면을 보고 클릭·입력하며 테스트와 디버깅을 수행하도록 할 수 있고, iOS·Android ChatGPT나 Mac Codex에서 Windows 작업을 이어서 조종할 수 있습니다.

  • 데스크톱 자동화: Codex가 GUI 앱을 직접 조작해 API나 CLI만으로 어려운 흐름을 테스트합니다.
  • 원격 제어: 프로젝트 파일과 서버는 Windows 호스트에 두고 모바일에서 진행 상황 확인과 지시가 가능합니다.
  • 제한 지역: 유럽경제지역, 영국, 스위스에서는 출시 시점에 제공되지 않습니다.
📢 코딩 에이전트가 파일 편집기를 넘어 실제 사용자가 보는 OS와 앱 표면까지 들어가면서 QA와 디버깅의 자동화 범위가 넓어지고 있습니다.

출처: ChatGPT release notes — May 29, 2026 — OpenAI Help Center


OpenAI, GPT-5.5 Instant 응답 품질 조정과 구형 모델 은퇴 일정 공개

OpenAI는 GPT-5.5 Instant를 더 자연스럽고 읽기 쉬운 응답 스타일로 업데이트했다고 밝혔습니다. 동시에 ChatGPT에서 GPT-4.5는 2026년 6월 27일, OpenAI o3는 2026년 8월 26일 은퇴한다고 공지했습니다.

  • 응답 스타일: 과도하게 길거나 bullet-heavy한 답변을 줄이고 실무 도움 과제의 페이싱을 조정했습니다.
  • Canvas 변화: GPT-5.5 Instant와 GPT-5.5 Thinking에서는 canvas 대신 채팅 안의 writing/code block을 중심으로 지원합니다.
  • 운영 메시지: 빠른 제품 반복과 모델 정리가 동시에 진행되며, 사용자는 워크플로 의존성을 더 자주 점검해야 합니다.
📢 모델 교체 주기가 짧아질수록 팀은 “어떤 모델을 쓰는가”뿐 아니라 “모델 은퇴에 얼마나 덜 묶여 있는가”를 관리해야 합니다.

출처: ChatGPT release notes — May 28, 2026 — OpenAI Help Center


Anthropic, $65B Series H로 기업가치 $965B 도달

Anthropic이 Altimeter Capital, Dragoneer, Greenoaks, Sequoia Capital이 주도한 $65B Series H 투자를 발표했습니다. 회사는 post-money 기준 $965B 평가를 받았고, Claude와 Claude Code 수요 확대, 안전·해석가능성 연구, 컴퓨트 확장에 자금을 투입하겠다고 밝혔습니다.

  • 자금 규모: $65B Series H
  • 평가액: post-money $965B
  • 사용처: 안전·해석가능성 연구, Claude 수요 대응을 위한 컴퓨트 확장, 제품·파트너십 스케일업
📢 프런티어 AI 경쟁은 모델 릴리스 경쟁이면서 동시에 자본, 컴퓨트, 엔터프라이즈 유통망을 묶는 장기전입니다.

출처: Anthropic raises $65B in Series H funding at $965B post-money valuation — Anthropic


Braintrust, Codex로 고객 요청을 몇 분 만에 프리뷰 브랜치로 전환

OpenAI는 Braintrust가 Codex와 GPT-5.5를 활용해 고객 기능 요청을 빠르게 프리뷰 브랜치로 바꾸고 있다고 소개했습니다. Braintrust 팀의 절반이 한 달 만에 Codex로 이동했고, 핵심 변화는 단순 코딩 속도보다 고객 피드백 루프 단축이라고 설명했습니다.

  • 적용 영역: 관측성·평가 플랫폼 제품 개발
  • 운영 방식: 고객 요청을 실제 작동하는 프리뷰 브랜치로 만들어 빠르게 검증
  • 조직 변화: 한 달 안에 팀의 50 %가 Codex로 이동
📢 에이전트 도입의 실전 가치는 “개발자가 빨라짐”보다 “고객과 실험을 주고받는 주기가 짧아짐”에서 먼저 드러납니다.

출처: How Braintrust turns customer requests into code with Codex — OpenAI


Google, Gemini Spark로 24/7 개인 에이전트 배포면 확대

Google은 I/O 2026에서 Gemini Spark를 공개하며 Gemini를 질문 응답형 비서에서 업무를 실제로 수행하는 개인 에이전트로 확장하겠다고 밝혔습니다. Spark는 Gemini 3.5와 Antigravity harness 위에서 Gmail, Docs, Slides 등 Workspace 도구와 통합되고, 클라우드에서 계속 실행되는 구조입니다.

  • 상시 실행: 노트북을 닫거나 휴대폰을 잠가도 클라우드에서 계속 동작합니다.
  • 업무 예시: 카드 명세서의 구독료 탐지, 학교 메일 요약, 회의 메모 통합과 이메일 초안 작성
  • 안전장치: 지출이나 이메일 전송 같은 고위험 행동 전에는 사용자 확인을 요구하도록 설계됐습니다.
📢 개인 에이전트 경쟁은 답변 품질보다 계정 연결, 권한 위임, 민감 행동 승인 UX가 승부처가 되고 있습니다.

출처: The Gemini app becomes more agentic, delivering proactive, 24/7 help — Google


Dell, AI 서버 수요로 연간 전망 상향

Dell은 AI 데이터센터 구축 수요를 배경으로 연간 매출·이익 전망을 상향했습니다. Reuters 보도에 따르면 Dell은 FY27 매출 전망을 $165B~$169B로 높였고, AI 서버 매출 전망도 약 $60B로 제시했습니다.

  • AI 서버 수요: Nvidia 기반 AI 서버 수요가 실적과 가이던스를 끌어올렸습니다.
  • 전망 변화: 기존 FY27 매출 전망보다 큰 폭으로 상향 조정했습니다.
  • 시장 신호: 모델 기업뿐 아니라 서버·스토리지·네트워킹 공급망으로 AI 투자 수혜가 확산되고 있습니다.
📢 AI 인프라 붐은 GPU 제조사만의 이야기가 아니라 랙 단위 통합, 서버 공급, 데이터센터 운영 역량을 가진 기업의 매출 구조를 바꾸고 있습니다.

출처: Dell rallies about 40% on strong Nvidia-powered AI server demand — Reuters via Investing.com


Salesforce, Claude Code 기반 에이전트 워크플로로 231인일 마이그레이션을 13일에 완료

Salesforce는 내부 엔지니어링 조직이 Claude Code를 핵심 AI 에이전트 도구로 채택하면서 대규모 마이그레이션과 반복 작업의 속도를 끌어올렸다고 공개했습니다. 한 제품팀은 231인일 규모로 추정한 마이그레이션을 13일에 끝냈다고 설명했습니다.

  • 운영 전환: 조직 차원에서 Claude Code를 주요 에이전트 도구로 채택했습니다.
  • 속도 개선: 231인일 추정 작업을 13일에 완료한 사례를 제시했습니다.
  • 품질 장치: Salesforce 전용 skill과 내부 벤치마크로 정확도·비용을 관리한다고 밝혔습니다.
📢 대기업의 에이전트 생산성은 “누가 모델을 쓰는가”보다 “조직 지식과 검증 루프를 어떻게 제품화했는가”에 달려 있습니다.

출처: How Salesforce Engineering Became Truly Agentic — Salesforce


llama.cpp, llama.app와 설치 경로 정비로 로컬 추론 접근성 강화

llama.cpp 생태계는 공식 홈 성격의 llama.app과 GitHub README의 설치 경로를 통해 로컬·클라우드 LLM 추론 진입 장벽을 계속 낮추고 있습니다. brew, nix, winget, Docker, pre-built binary, source build를 안내하고, Hugging Face 모델을 바로 실행하거나 OpenAI 호환 서버를 띄우는 예시를 제공합니다.

  • 실행 경로: llama-cli -hf ...로 모델 다운로드와 실행을 묶을 수 있습니다.
  • 서버 모드: llama-server로 OpenAI 호환 API 서버를 실행할 수 있습니다.
  • 하드웨어 범위: Apple silicon, x86, RISC-V, CUDA, HIP, Vulkan, SYCL 등 폭넓은 백엔드를 지원합니다.
📢 로컬 LLM은 더 이상 연구자용 빌드 과제가 아니라 에이전트·개인 데이터·프라이버시 워크플로의 실용적 선택지가 되고 있습니다.

출처: llama.app — llama.cpp, ggml-org/llama.cpp — GitHub


Decepticon, 자율 레드팀 에이전트로 공격 체인 자동화 실험 확산

GeekNews에서 주목받은 Decepticon은 단순 스캐너가 아니라 정찰, 익스플로잇, 권한 상승, 수평 이동, C2까지 실제 적대자식 공격 체인을 수행하는 자율 레드팀 에이전트를 표방합니다. GitHub 저장소는 명시적으로 허가받은 시스템에서만 사용하라는 경고를 함께 두고 있습니다.

  • 목표 영역: 전문 레드팀 운영과 공격 체인 자동화
  • 구성 요소: knowledge graph, engagement workflow, offensive vaccine loop 등
  • 주의점: 보안 도구인 동시에 오남용 위험이 높은 범주이므로 승인·격리·감사 체계가 필요합니다.
📢 보안 분야의 에이전트화는 방어 생산성뿐 아니라 공격 자동화도 밀어 올리므로, 조직의 승인·관측·차단 체계가 함께 성숙해야 합니다.

출처: PurpleAILAB/Decepticon — GitHub


오늘의 도구 추천

llama.app — llama.cpp를 더 쉽게 시작할 수 있게 정리한 홈입니다. 로컬 모델 실행, Hugging Face 모델 실행, OpenAI 호환 서버 구동까지 개발자에게 필요한 첫 진입 동선을 짧게 만들어 줍니다.


에디터 노트

오늘 소식의 공통점은 에이전트가 “말을 잘하는 모델”에서 “권한을 받고, 작업을 쪼개고, 검증하고, 실제 앱을 조작하는 실행 시스템”으로 바뀌고 있다는 점입니다. 이 변화는 생산성을 높이지만 비용·권한·감사·중단 지점을 새로 설계해야 한다는 뜻이기도 합니다.

다음에 또 찾아옵니다. — 에이브랜치