Claude CLI ve Computer Use ile Blog Yazmak - Mustafa Saraç

Camın arkasındaki mekanik ajan, terminal konsolu ve MDX el yazması gravür metaforu — Ajan bilgisayarı kullanıyor, ama imlecimi çalmıyor. Hedef tam olarak buydu.

İmlecimi çalmasın istedim.

Bir ajanın benim adıma bilgisayarı kullanmasını istiyorum ama oturup beklemek istemiyorum. Ekran kaydında bir yapay zekanın fareyi kaydırışını izlemek, kendi makinemi seyreden bir turist olmaktan farksız. O yüzden son birkaç haftadır Anthropic'in Computer Use yeteneğini, kendi iş akışıma bir misafir olarak değil, arka planda çalışan bir kabiliyet olarak yerleştirmeye çalışıyorum.

Bu yazı da öyle yazıldı. Anlattığım sistemin kendisi, yazının taslağını üretti. Ben sadece orkestrayı kurdum, sınırları çizdim ve son redaksiyonu yaptım.

Kullandığım yığın

İşin omurgası üç parçadan oluşuyor:

Hermes/RICK: Kendi orkestratörüm. Görev planlıyor, RUNE briefi yazıyor, izinleri doğruluyor, Claude'a verilecek prompt'u hazırlıyor, çıktıyı redakte ediyor.
Claude CLI Opus: Ağır düşünmeyi ve yazmayı yapan model. API'den değil, Claude Max hesabımla yerel oturum üzerinden çalışıyor. Bu detay önemli; token saymadan uzun düşünebiliyor.
cua-driver: macOS için yazılmış küçük ve odaklı bir komut satırı aracı. AX (Accessibility) ağacını okur, ekran görüntüsü alır, uygulamaya özelleyerek tıklama/yazma yapar. MCP üzerinden Claude'a "göz ve el" sağlıyor.

Bu üç parça birleştiğinde, Claude'un içerikle konuşmaktan çıkıp, ortamı doğrulayarak yazmaya geçtiği bir akış kuruluyor.

Ortamı doğrulamak

Computer Use'u açıp ajana "her şeyi yap" demek, kendi ayağına sıkmanın en hızlı yolu. Bu yüzden işe önce ortamı doğrulamakla başlıyorum.

hermes computer-use install
hermes computer-use status

İlk komut cua-driver'ı /Users/mustafa/.local/bin/cua-driver altına kuruyor. İkincisi, gerekli TCC izinlerinin verilip verilmediğini söylüyor: Accessibility ve Screen Recording. Bu iki izin olmadan ajan kör ve sağır.

Sonra aracın kendisine soruyorum:

cua-driver diagnose

Bu çıktıda görmek istediğim üç satır var: cua-driver binary'sinin yeri, Accessibility durumu, Screen Recording durumu. Bende üçü de hazırdı; Accessibility true, Screen Recording true, binary yerinde. Eğer bunlardan biri eksikse sürece başlamıyorum, çünkü Claude'un yarı görür durumda hareket etmesi, görmüyor olmasından daha tehlikeli.

Claude'a göz ve el vermek

Claude CLI'nın MCP desteği, bu işin can damarı. cua-driver kendi MCP konfigürasyonunu üretebiliyor:

cua-driver mcp-config > /tmp/cua-driver-mcp.json

Bu JSON, Claude CLI'ye "şu sunucuyu çağırırsan ekrana bakabilir, AX ağacını okuyabilir, ekran boyutunu öğrenebilirsin" diyor. Eylemler ayrı; ben yalnızca doğrulama (read-only) tarafını açık tutuyorum, tıklama/yazma kapasitelerini ihtiyaç doğmadıkça serbest bırakmıyorum.

Sonrası tek satır:

claude -p "RUNE briefini oku, ortamı doğrula, MDX taslağını üret." \
  --model opus \
  --mcp-config /tmp/cua-driver-mcp.json

-p ile prompt'u doğrudan veriyorum, --model opus ile yazımı Opus'a bırakıyorum, --mcp-config ile cua-driver'a erişim sağlıyorum. Claude Code'un kendi versiyonu 2.1.139; bu sürümde MCP konfigürasyonu komut satırı bayrağıyla net biçimde alınıyor.

Bu noktada Claude, sadece dosya okuyup yazan bir asistan değil. Ortamı doğrulayan, gözleriyle bakıp sonra eline kalem alan bir şey.

Akış

İşin sıkıcı tarafı genelde şu: bir ajan yazıyor, bir başkası kontrol ediyor, sen ortada arkaplanı bilen tek insan olarak hepsini birbirine bağlıyorsun. Ben bu yazı için şu hattı kurdum:

RICK, RUNE briefini ve planını content/_drafts/ altına yazıyor. Tarih, hedef, kısıtlar, gözlemlenmiş gerçekler, kabul kriterleri.
RICK, cua-driver'ın izin durumunu kontrol ediyor. Bir şey eksikse durup bana soruyor.
Claude CLI Opus, briefi ve planı okuyor. Computer Use üzerinden ortamı doğruluyor (örneğin izin durumu, ekran boyutu). Şüpheli bir şey görürse yazmıyor.
Claude, MDX taslağını üretiyor. Frontmatter, başlıklar, kod blokları, görsel promptları dahil.
RICK son redaksiyonu yapıyor: Türkçe ses tonu, AI tortusu temizliği, MDX doğrulaması, hatalı iddiaların ayıklanması.
Dosya content/ altına yazılıyor, önce draft: true ile bekliyor. Yayın benim onayımla oluyor.

Bu döngünün anahtarı 5. adım. Bir model ne kadar iyi yazarsa yazsın, kendine has bir tortusu oluyor: gereksiz başlık şişirmeleri, "bu yazıda gördük ki" türü kapanışlar, dengesiz bold dağılımı. Bu tortuyu süpürmeyen her ajan akışı, sonunda kendine benzer metinler üretiyor. O yüzden son redaksiyonu hiç atlamıyorum.

Mimari

Orkestratör, yazıcı model ve computer-use driver katmanlarını gösteren mekanik gravür — Yazıyı üreten hattın basit hali: RICK orkestre eder, Claude yazar, cua-driver ortamı görür.

┌──────────────────────────────────────────────────────────────┐
│                        Hermes / RICK                         │
│  - RUNE plan + brief                                         │
│  - izin doğrulama                                            │
│  - prompt hazırlama                                          │
│  - son redaksiyon, MDX validasyon                            │
└────────────────────┬─────────────────────────────────────────┘
                     │
                     ▼
┌──────────────────────────────────────────────────────────────┐
│                    Claude CLI (Opus)                         │
│  - briefi okur                                               │
│  - MCP üzerinden cua-driver'ı çağırır                        │
│  - MDX taslağını üretir                                      │
└────────────────────┬─────────────────────────────────────────┘
                     │
                     ▼
┌──────────────────────────────────────────────────────────────┐
│                       cua-driver                             │
│  - AX ağacı, ekran görüntüsü, ekran boyutu                   │
│  - uygulama listesi, pencere durumu                          │
│  - (gerektiğinde) tıklama / yazma — kısıtlı                  │
└────────────────────┬─────────────────────────────────────────┘
                     │
                     ▼
┌──────────────────────────────────────────────────────────────┐
│                         macOS                                │
│  - TCC izinleri (Accessibility, Screen Recording)            │
│  - uygulamalar, pencereler                                   │
└──────────────────────────────────────────────────────────────┘

Çıktı: content/claude-cli-computer-use-ile-blog-yazmak.mdx

Sade. Karmaşıklık, bileşenleri çoğaltmaktan değil, her bileşenin kendi sorumluluğunda kalmasından geliyor.

Operasyon notu: ajan neyi yapmaz

Computer Use izin halkaları, korunan masaüstü adası ve yasaklı gizli alanlar gravürü — Computer Use tarafında güç, neye dokunmadığını bilince anlamlı oluyor.

Computer Use'un "her şeyi yapabilir" söylemi pazarlama. Gerçek hayatta, ajan yapmadığı şeylerle değerli oluyor.

Bu akışta cua-driver şunlara dokunmuyor:

Şifre, ödeme, 2FA, izin diyalogları. Bu pencereler ajan için yoktur.
Şahsi içerik. Mesajlar, fotoğraflar, mail kutusu, banka uygulamaları okunmuyor.
Yıkıcı GUI eylemleri. Dosya silme, klasör boşaltma, çöp kutusu temizleme.
Tarayıcıda formla etkileşim. Aksini açıkça söylemediğim sürece browser kapsam dışı.

Computer Use varsayılan olarak okuma odaklı. Eylem (tıklama/yazma) yalnızca tanımlanmış, dar bir hedef için açılır ve sonrasında ekran görüntüsüyle doğrulanır. Yazılım sektöründe "verify after capture" diye bir disiplin var; ajanın yaptığını gördüğünden emin olana kadar bir sonraki adıma geçmemesi gerekiyor. Bende kural şu: ajan tıkladıysa, tıkladıktan sonra ekran görüntüsü alır ve durumu yeniden okur. Sessiz tıklama yok.

Bir başka pratik nokta: AX ağacındaki element indeksleri uçucudur. Bir uygulama tek bir update'le ağacı yeniden numaralandırabilir. Bu yüzden script'lerimde sabit indeks yok; her eylem önce label/role ile arama yapar, indeksi orada hesaplar.

Bu yazı nasıl yazıldı

Brief, gözlem, otomatik daktilo ve redaksiyon neşterinden geçen özyinelemeli kağıt şerit gravürü — Bu yazı, anlattığı döngünün içinden çıktı: brief, doğrula, yaz, redakte et.

Bu yazının doğum süreci özetle şöyle ilerledi:

RICK, planı (content/_drafts/computer-use-claude-cli-rune-plan-2026-05-12.md) ve briefi (content/_drafts/computer-use-claude-cli-rune-brief-2026-05-12.md) yazdı.
Claude CLI Opus, cua-driver MCP üzerinden read-only iki aracı çağırdı: izin durumu kontrolü ve ekran boyutu sorgusu. Sonuç netti: Accessibility granted, Screen Recording granted, ekran 1920x1080. Tıklama, yazma, app açma yok; sadece ortam doğrulama.
Mevcut MDX yazılarımdan üç tanesi (orkestrasyon-cagi.mdx, voice-to-knowledge-ai-powered-thought-transfer.mdx, claude-code-50-pro-techniques.mdx) ses tonu referansı olarak okundu.
Claude CLI Opus, briefe sadık biçimde taslağı üretti. Frontmatter sahanın konvansiyonuna uyduruldu.
RICK son redaksiyonu yaptı: AI klişelerini ayıkladı, başlıkları sadeleştirdi, kod bloklarını gerçek komutlarla hizaladı.
Görseller, loginli Gemini oturumunda Nano Banana / Nano Banana Pro görüntü üretimiyle tek tek üretildi. Browser otomasyonu promptları gönderdi, Computer Use tarafı da Gemini penceresinin açık olduğunu read-only olarak doğruladı. İndirme yerine güvenli kopyalama akışı kullanıldı; görseller WebP'e çevrilip yazıya bağlandı.

Sonuç, elinizdeki dosya. Tek bir oturumda, tek bir terminal penceresinden, tek bir insan onayıyla.

Görsel promptları ve çıktılar

Bu dört görsel aynı seri olarak üretildi: Victorian scientific field manual estetiği, krem parşömen zemin, siyah mürekkep gravür, dense cross-hatching, stipple shading ve ince çift çerçeve. Her görsel Gemini'de ayrı yeni sohbet içinde üretildi; bağlam karışmasın diye promptlar tek tek gönderildi. Promptları burada bilerek saklıyorum: sonraki yazılarda aynı görsel aileye dönebilmek için iz bırakıyorlar.

Seri konsepti

Aynı aileden dört teknik gravür: eski mühendislik el kitabı / Victorian scientific field manual estetiği, krem parşömen zemin, siyah mürekkep line-art, yoğun cross-hatching, halftone köşeler, ince çift çerçeve, surreal ama teknik metaforlar. System Debugging görsellerindeki gravür disiplinini korur; Voice-to-Knowledge görselindeki akış/enerji fikrini yalnızca biçimsel bir motif olarak içeri alır. No logos, no UI screenshots, no photorealism, no glossy corporate 3D. Görseller metinden ziyade sembol taşımalı; yazılar caption ve MDX içinde tutulmalı.

Hero — Plate I: The Agent Behind the Glass

Use Google Gemini's latest Nano Banana / Nano Banana Pro image generation. Create a 16:9 wide editorial hero illustration for a Turkish personal technical blog. Style: antique scientific field manual plate, cream aged paper background, black ink engraving, dense cross-hatching, stipple shading, thin double-line border, slightly surreal engineering diagram. Scene: a solitary 1950s terminal console on a floating stone platform; behind it, a transparent glass pane separates the human workspace from a small mechanical observer-agent made of lenses, calipers, and cursor-shaped instruments. The agent is not touching the real keyboard; it observes through the glass and writes into a separate MDX manuscript spool. A faint beam converts screen observations into structured paper ribbons. Mood: precise, restrained, contemplative. Same visual family as a Victorian debugging atlas. No readable real UI, no logos, no brand marks, no photorealism, no modern glossy 3D, no watermark. Keep any labels minimal, fictional, and optional; composition must work without text.

Mimari — Plate II: Orchestrator, Writer, Driver

Use Google Gemini's latest Nano Banana / Nano Banana Pro image generation. Create a 16:9 technical metaphor illustration in the same antique scientific field manual style: cream aged paper, black ink engraving, cross-hatching, stipple shadows, thin double border, no color except paper tone. Scene: a layered mechanical observatory. Top tier: a conductor's metronome and compass representing an orchestrator. Middle tier: an automated typewriter with a quill arm representing a writing model. Lower tier: a small inspection crawler with lenses and accessibility-tree branches representing a computer-use driver. Bottom tier: a calm macOS-like desk represented abstractly as a map, not a real UI. All tiers connected by pipes, pulleys, and paper tape, ending in a clean manuscript sheet. The architecture should feel clear but poetic, like an engineering plate from an impossible machine manual. No logos, no brand names, no readable interface text, no corporate 3D, no watermark.

Güvenlik modeli — Plate III: Permission Rings

Use Google Gemini's latest Nano Banana / Nano Banana Pro image generation. Create a 16:9 security model illustration in a Victorian scientific engraving style, same concept family: cream parchment, black ink, cross-hatching, stippled shadows, diagrammatic border. Scene: a protected desktop represented as a small island inside concentric mechanical permission rings. Around the island: observation lenses, measuring arms, and verification seals. Outside the rings: locked vaults, sealed envelopes, payment coins, keyholes, and forbidden dialog boxes shown as symbolic objects behind a fence. The visual message: an agent can observe, plan, act narrowly, then verify, but cannot enter secrets or destructive zones. Make it elegant, calm, and operational; no alarmist red, no cyberpunk neon. Avoid readable text except tiny fictional plate marks; no logos, no real UI, no watermark.

Özyinelemeli yazım döngüsü — Plate IV: The Article Writes Its Instrument

Use Google Gemini's latest Nano Banana / Nano Banana Pro image generation. Create a 16:9 conceptual illustration matching the same antique scientific field manual series: aged cream paper, black ink line engraving, dense cross-hatching, stipple, thin double border. Scene: an ouroboros-like paper tape loop moving through four mechanical stations: a sealed brief capsule, an observing lens, an automatic drafting typewriter, and a redaction scalpel. The tape returns to the first station while a finished manuscript emerges from the center. The idea: the article describes the system that produced it. Use recursive geometry, calm precision, and hand-drawn mechanical detail. No modern UI screenshots, no logos, no brand marks, no photorealism, no glossy 3D, no watermark. Minimal or no text inside the image; captions will carry the explanation.

Okura hediye: kendi writing-loop skill'iniz

Bu yazıdan yalnızca fikir çıkmasın; kopyalanabilir bir parça da çıksın istedim. Aşağıdaki küçük skill, kendi Claude CLI / Claude Code ya da Hermes akışınızda aynı disiplini başlatmak için kullanılabilir: önce brief, sonra read-only doğrulama, sonra taslak, sonra validasyon.

Claude / Claude Code için kişisel skill olarak kurmak:

mkdir -p ~/.claude/skills/computer-use-writing-loop
curl -L https://mustafasarac.com/static/downloads/claude-computer-use-writing-skill/SKILL.md \
  -o ~/.claude/skills/computer-use-writing-loop/SKILL.md

Hermes için kişisel skill olarak kurmak:

mkdir -p ~/.hermes/skills/writing/computer-use-writing-loop
curl -L https://mustafasarac.com/static/downloads/claude-computer-use-writing-skill/SKILL.md \
  -o ~/.hermes/skills/writing/computer-use-writing-loop/SKILL.md

Sonra Claude CLI içinde şöyle çağırabilirsiniz:

claude -p "Use the computer-use-writing-loop skill. Draft a technical article from this brief, inspect the repo first, preserve prompts, and validate before reporting."

Hermes tarafında da aynı niyetle çağırabilirsiniz:

hermes chat -q "Use the computer-use-writing-loop skill. Draft a technical article from this brief, inspect the repo first, preserve prompts, and validate before reporting."

Skill dosyasını elle görmek isteyenler için düz bağlantı: computer-use-writing-loop/SKILL.md.

Bu bir sihirli değnek değil. Daha çok küçük bir fren sistemi. Ajan yazmadan önce bakıyor, dokunmadan önce düşünüyor, bitirdim demeden önce doğruluyor. Yani otomasyona biraz edep öğretiyoruz; sektörün buna itirazı olmaz umarım.

Neyi değiştiriyor

Computer Use'u bir gösteri olarak değil, bir altyapı olarak görünce işin değeri ortaya çıkıyor. Bir ajan artık sadece API'lerle değil, kendi makinemde duran asıl iş ortamımla konuşabiliyor. Bu, agresif bir otomasyon değil; aksine, daha dikkatli bir otomasyon. Çünkü makineye gerçekten bakabilen bir ajan, kör bir ajandan çok daha az saçma şey yapıyor.

Sınırlar açık: macOS'a bağımlı, TCC izinleri olmadan çalışmıyor, hassas pencerelere yaklaştırılmıyor, ekran görüntüleri yanlış ellerde gizli içerik sızdırabilir, AX indeksleri uçucudur. Bu sınırlar bug değil, tasarım. Computer Use'u sevmemin sebebi de bu: kullanışlı olduğu kadar reddedebilir.

Ben bu yazıyı yazarken bir ajana ne yapacağını anlattım, o da yazdı. Ama "autopilot" değildi. Daha çok, iyi bir asistanla çalışmak gibiydi; ona kalemi verdim, sınırı çizdim, ortamı doğrulattım, sonuca el attım. Spinoza'nın conatus'unu hatırlatıyor: her şey kendi varlığında ısrar eder, ama yapısının izin verdiği kadar. Ajanlar da öyle. Onları daha güçlü kılmak değil, daha doğru yapılandırmak işimiz.

Bilgisayarı kullanmaya niyetli ajanlar geliyor. Mesele onları durdurmak değil, doğru yere doğru sınırlarla yerleştirmek. Bu yazı, o yerleştirmenin bir denemesi.