یک قدم عقبتر…
قبل از معرفی ابزارها، یه مرور کنیم که: Agent Skill چیه و چرا اصلاً باید بهش اهمیت داد؟
هر بار که یه AI agent، مثل Claude Code، Copilot، یا Cursor داره روی کد شما کار میکنه، از یه context window محدود استفاده میکنه. این context میتونه شامل تاریخچهٔ مکالمه، کد پروژه، و یا «مهارت»هایی باشه که از قبل تعریف شدن. Agent Skill یه پکیجِ مستندشدهست که به agent میگه «وقتی با این نوع task روبرو شدی، اینجوری رفتار کن.» یه نوع SOP (Standard Operating Procedure) برای agent. مثل «مهارت کدنویسی اصولی با جاوا» یا مثل «مهارت کامنتگذاری خوب روی کدها» یا «مهارت رعایت قوانین کدنویس تیم یا شرکت شما» و…
مشکل اینجاست که نوشتنِ یه skill خوب، سادهتر از validate و test کردنش به نظر میرسه. و دقیقاً همینجاست که ابزارهای نوظهوری مثل Waza و skill-validator وارد میشن.
Waza: یه Platform یکپارچه برای چرخهٔ حیاتِ Skill
Waza (به ژاپنی 技، به معنای «مهارت» یا «تکنیک») است. و یک CLI tool جدید که Microsoft با استفاده از زبان Go ساخته؛ پس یه binary واحد داره، و بدون dependency اضافی، روی Linux/macOS/Windows قابل استفاده است. هدفش اینه که کل lifecycle توسعهٔ skill رو در یه ابزار جمع کنه.
مشکلی که Waza حل میکنه
تصور کنید که یه skill جدید نوشتید. حالا چند تا سؤال پیش میاد:
آیا این skill واقعاً توسط ایجنت تشخیص داده میشه و در زمان مناسب مورد استفاده قرار گرفته میشه؟ آیا روی GPT و Claude هر دو به یه شکل عمل میکنه؟ آیا token budget رو بهخوبی مدیریت میکنه؟ چجوری میتونم این رو به CI/CD pipeline وصل کنم؟ آیا ساختار frontmatter رو درست ساختم و ساختار کلی اسکیل درسته؟
قبل از Waza، جواب این سؤالها یعنی چند ابزار جداگانه و تست دستی. Waza سعی میکنه این پراکندگی رو از بین ببره.
ساختار کار با Waza
چرخهٔ کار با Waza چهار مرحله داره:
Scaffold: یه ساختار منطق با اصول و استاندارد اولیه تولید میکنه تا از اول اشتباه نزنید.
Develop: با real-time compliance scoring، وقتی دارید محتوا مینویسید فیدبک میده تا نهایتا یه اسکیل درست داشته باشین.
Test: با اجرای واقعی روی LLMها، رفتار ایجنت رو توی یک حلقه بررسی میکنه تا مطمئن شه همه چیز درسته.
Evaluate: مقایسهٔ cross-model با متریکهای جامع و متنوع.
مثال عملی: مقایسهٔ دو مدل
فرض کنید یه skill نوشتید برای تولید کد مایگریشن روی PostgreSQL. میخواید ببینید Claude Sonnet 4.6 و GPT-4.4 چقدر متفاوت با این skill تعامل میکنن:
waza run eval.yaml --model claude-sonnet-4-6 -o claude.json
waza run eval.yaml --model gpt-4-4 -o gpt4.json
waza compare claude.json gpt4.json
این یعنی بهجای اینکه با هر مدل دستی تست کنید و نتایج رو ذهنی مقایسه کنید، یه خروجی structured دارید که میگه کدوم مدل چقدر با skill شما همسوتره.
۱۱ نوع Validator
Waza برای ارزیابی خروجی، ۱۱ نوع validator داره: از text matching ساده گرفته تا Python assertion، JSON Schema validation، و حتی LLM-powered evaluation (جایی که یه LLM دیگه قضاوت میکنه). مهمترینشون از نظر طراحی، «Action Sequence» و «Skill Invocation» هستن؛ یعنی میتونید بررسی کنید که ایجنت دقیقاً از چه ابزارهایی و با چه ترتیبی عبور کرده.
Roadmap فعلی
پروژه هنوز در حال توسعهست. بخشهای E2 (Sensei Engine برای compliance scoring) و E3 (Evaluation Framework با statistical analysis) هنوز کامل نشدن. اگه الان میخواید از Waza استفاده کنید، E1 (CLI پایه) و E6 (CI/CD integration) کامل و stable هستن.
skill-validator: وقتی «compliance» کافی نیست
skill-validator یه CLI tool مستقله. با Go نوشتهشده، و ماهیتش سنجش سلامت و اعتبار اسکیلهاست. برای اینکه مطمئن بشیم یه اسکیل درست کار میکنه؛ هم باید ساختار درست داشته باشه، هم محتوای درست. مثلا frontmatter رو درست نوشته باشین (مثلا توی نسخههای اولیه اسکیل جای metadata با نسخههای فعلی فرق داره و مهمه که ساختار فایل درست باشه).
از طرف دیگه گاهی ساختار درست و کاملا منطبق با استاندارد است؛ ولی ولی لینکهاش سالم نیستن یا به یه فایل ۶۰ هزار کلمهای رفرنس داده شده، از نظر فنی پاس میشه؛ ولی در عمل افتضاحه!
این ابزار فراتر از validation میره و کیفیت محتوا رو هم اندازه میگیره.
چه فاکتورهایی رو چک میکنه؟
ساختار: آیا SKILL.md وجود داره؟ آیا فیلدهای frontmatter درسته؟ آیا token budget رعایت شده؟ (SKILL.md body نباید از ۵۰۰۰ توکن (کلمه) بیشتر بشه، هر reference file نباید از ۲۵۰۰۰ توکن عبور کنه.)
لینکها: لینکهای خارجی واقعاً resolve میشن؟ نکته: HTTP 403 رو بهعنوان warning گزارش میده نه error، چون خیلی از سایتها هدر درخواست رو چک میکنن و چون درخواست از سمت یک مرورگر نیومده و از سمت یک ایجنت هوشمصنوعی اومده، بلاکش میکنن.
کیفیت محتوا: چند تا متریک داره: نسبت کد به متن، نسبت جملات imperative، «instruction specificity» (نسبت زبان directive مثل «must/always/never» به زبان advisory مثل «may/consider»)، و «information density».
Contamination: یکی از جالبترین featureهاست. اگه یه skill که برای MongoDB نوشته شده، مثالهای Python و JavaScript و Shell با هم داشته باشه، ممکنه agent رو گیج کنه. این ابزار این cross-language contamination رو detect میکنه.
LLM-as-judge: با استفاده از Claude یا GPT-4o، اسکیل شما رو روی ۶ بُعد امتیاز میده: Clarity، Actionability، Token Efficiency، Scope Discipline، Directive Precision، و Novelty. مهمترینشون از نظر تحقیقات آکادمیک، Novelty است؛ skillهایی که اطلاعاتی میدن که مدل قبلاً نمیدونسته، بیشترین value رو به agent اضافه میکنن.
مثال عملی: اجرای کامل check
skill-validator check --strict --emit-annotations ./my-skill/
خروجی چیزی شبیه اینه:
Validating skill: my-skill/
Structure
✓ SKILL.md found
Frontmatter
✓ name: "my-skill" (valid)
✓ description: (54 chars)
Tokens
SKILL.md body: 1,250 tokens
references/guide.md: 820 tokens
─────────────────────────────────────
Total: 2,070 tokens
Result: passed
یکپارچهسازی با CI/CD
یه GitHub Actions workflow کامل اینجوری به نظر میرسه:
name: Validate Skills
on:
pull_request:
paths:
- "skills/**"
jobs:
validate:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- name: Install skill-validator
run: brew install agent-ecosystem/tap/skill-validator
- name: Validate skills
run: |
skill-validator check --strict --emit-annotations skills/
skill-validator check --strict -o markdown skills/ >> "$GITHUB_STEP_SUMMARY"
نکتهٔ مهم: --strict یعنی هم error هم warning باعث fail شدن pipeline میشه. برای draft skillها میتونید --strict رو بردارید تا warningها non-blocking بمونن.
مقایسه: کِی کدوم رو استفاده کنیم؟
این دو ابزار رقیب هم نیستن؛ مکمل هم هستن.
skill-validator برای validation و quality check طراحی شده. سریعه، بدون API key کار میکنه (بهجز بخش LLM scoring)، و بهعنوان pre-commit hook عالیه. اگه میخواید مطمئن بشین که skill شما از نظر ساختاری و محتوایی سالمه، ابزار خوبیه.
Waza برای اجرا، ارزیابی، و مقایسهٔ cross-model طراحی شده. میخواید بدونید skillی که ساختین واقعاً در کنار یه ایجنت چجوری رفتار میکنه؟ میخواید GPT و Claude رو مقایسه کنین؟ Waza برای پاسخ دادن به این سوالهاست.
اگر یه pipeline بالغ طراحی کنیم، هر دو تاشون کاربرد دارن: skill-validator توی مرحله pre-commit و PR validation، و Waza توی regression testing و benchmark tracking.
جمعبندی:
اگه میخواین skillها رو به صورت جدی توی فرایند توسعهتون پیاده کنین که دیگه این روزها یه موضوع بدیهیه، این ابزارها مستقیماً به کارتون مییاد. چون اسکیل بد، مثل کد بد میمونه ولی با سطح اثرگذاری گاها خیلی وسیعتر!
از یه زاویهٔ دیگه هم مهمه: ما داریم وارد دورانی میشیم که agent skillها بهعنوان یه artifact مستقل؛ مثل یه پکیج یا لایبری شدن. همونطور که برای npm package یه linter و test suite داریم، برای skill هم به همین زیرساختها و ابزارها نیاز داریم. Waza و skill-validator اولین generation از این infrastructure هستن.