کارگزاران هوش مصنوعی (AI Agents) به‌مانند کاربران

AI Agents as Users

نویسندگان: سارا گیبونز و کیت موران
تاریخ انتشار: ۱۰ آوریل ۲۰۲۶

این مقاله با رویکرد حفظ لغات تخصصی و تخصصی-مانند برای درک بهتر ترجمه شده است.

خلاصه برای ذهن‌های کم‌طاقت

AI Agents اکنون در کنار انسان‌ها با رابط‌های دیجیتال تعامل دارند. طراحی برای هر دو نیازمند بازاندیشی در معنای “User” و اولویت‌بندی Accessibility است.

۱۲ نکته کلیدی از مقاله “AI Agents as Users”

۱. تعریف “User” باید تغییر کند

Agentها در هر sense functional یک user هستند: آنها goal دارند، با interface مواجه می‌شوند، سعی می‌کنند goal را انجام دهند، و interface یا موفق می‌شود یا نمی‌شود. فرض core باید به‌روز شود: “User” دیگر مترادف با “Human” نیست.

۲. سه روش اصلی تعامل Agents با Interfaces

Vision-Based Interaction: agent از صفحه screenshot می‌گیرد و با vision model تفسیر می‌کند. (slow، error-prone، token-intensive)

Accessibility-Tree Parsing: agent درخت دسترس‌پذیری مرورگر را می‌خواند. (ارزان‌تر، قابل اعتمادتر)

Direct API Access: agent مستقیماً از طریق API با سیستم ارتباط برقرار می‌کند. (بدون نیاز به interface)

۳. Accessibility کلید طراحی برای Agents است

Interfaces که برای accessibility خوب ساخته شده‌اند، برای agents نیز legibleتر هستند: semantic HTML، برچسب‌گذاری مناسب، roles واضح، و hierarchy منطقی. همان اصول accessibility به agents نیز خدمت می‌کند.

۴. طراحی برای هر دو (Human و Agent) در کوتاه‌مدت

سه توصیه اصلی:

برچسب‌گذاری clear و descriptive (اجتناب از icon-only buttons)

الگوهای consistent و predictable

حداقل وابستگی به visual-only information architecture

۵. کارهای ساده برای Agents به tasks بزرگ تبدیل می‌شوند

یک parent که می‌خواهد رویدادهای مدرسه را با calendar خانواده تطبیق دهد، برای agent تبدیل می‌شود به: پردازش screenshot، تشخیص dates از pixel clusters، handling محتوای dynamic، PDFها، و loginهای مختلف. هر مرحله احتمال error و token-use را افزایش می‌دهد.

۶. Accessibility سرمایه‌گذاری با ROI واضح است

کسب‌وکارهایی که در accessibility دقیق بوده‌اند، بدون اینکه بدانند، interfaces ساخته‌اند که agents می‌توانند به طور مؤثر در آنها حرکت کنند. اکنون یک business case واضح برای سرمایه‌گذاری در accessibility وجود دارد.

۷. گاهی نمی‌خواهید Agents در محصول شما باشند

چهار سناریو:

وقتی خود visit محصول ارزش دارد (سایت‌های ad-supported)

وقتی friction عمدی است (خدمات مالی، healthcare برای دلایل regulatory)

وقتی از competitive intelligence محافظت می‌کنید (price data airlines)

وقتی خودتان می‌خواهید لایه agent باشید

۸. ریسک رقابتی blocking agents

اگر بانکی به دلایل امنیتی agents را block کند، اما رقیب شروع به تبلیغ “پشتیبانی از agentic wealth managers” کند، چه؟ خروج کامل از agents نیز ریسک خاص خود را دارد.

۹. استاندارد MCP (Model Context Protocol)

استانداردهای در حال ظهور مانند MCP، رویکرد direct API access را استانداردتر می‌کنند. این agents را قادر می‌سازد بدون تعامل با representation بصری صفحه، مستقیماً داده‌ها را query و actions را execute کنند.

۱۰. در بلندمدت، لایه Interface واگرا می‌شود

زمانی که agents بتوانند structured data را مستقیماً query کنند، interface بصری برای آنها irrelevant می‌شود. اما humans هنوز به interfaces بصری و interactive برای comprehension و decision-making نیاز دارند.

۱۱. مشکلات فعلی با Vision-Based Interaction

یک screenshot واحد نیاز به پردازش ده‌ها هزار token دارد، محتوای dynamic را در نظر نمی‌گیرد، و agents مجبورند از pixel clusters استنباط کنند که کدام متن date است، کدام title، و چگونه به هم مرتبط هستند.

۱۲. حرف آخر مقاله

تشخیص agents به عنوان users نیازمند گسترش فرضی implicit است که از ابتدای رشته طراحی داشتیم. آنچه تغییر می‌کند دامنه کسانی است که برای آنها طراحی می‌کنیم، و urgency اقداماتی که قبلاً می‌دانستیم مهم هستند: semantic structure، accessibility، clear labeling، و predictable interaction patterns.

مقدمه

جامعه طراحی دهه‌ها را صرف refine کردن معنای طراحی برای users کرده است. ما رفتارهای آنها را مطالعه می‌کنیم، journeys آنها را نقشه‌برداری می‌کنیم، و فرضیات خود را در برابر نیازهایشان آزمایش می‌کنیم.

AI Agents (سیستم‌هایی که با انجام اقدامات تکراری، ارزیابی پیشرفت، و تصمیم‌گیری برای گام‌های بعدی خود، یک هدف را دنبال می‌کنند) اکنون با همان رابط‌های دیجیتالی که برای انسان‌ها طراحی می‌کنیم، تعامل دارند.

آنها در وب‌سایت‌ها حرکت می‌کنند، فرم‌ها را پر می‌کنند، گزینه‌ها را مقایسه می‌کنند، و تراکنش‌ها را اجرا می‌کنند. از نظر functional، آنها users رابط‌های ما هستند، حتی اگر آنها را به این عنوان نشناخته باشیم. یک تغییر conceptual مورد نیاز است. یک فرض core باید به‌روز شود: “User” دیگر مترادف با “Human” نیست.

در این مقاله:

تعریف در حال گسترش “User”
چگونه Agents امروز با Interfaces تعامل می‌کنند
چه چیزی هنگامی که Agents کاربر هستند خراب می‌شود
کوتاه‌مدت: طراحی برای هر دو
بلندمدت: زمانی که لایه Interface واگرا می‌شود

۱. تعریف در حال گسترش “User”

در بیشتر تاریخچه طراحی دیجیتال، کلمه “User” به طور ضمنی به معنای یک human در مقابل صفحه نمایش بوده است. بیشتر design heuristics، usability principles، و research methods یک human را در آن سوی خط فرض می‌کنند.

People در حال واگذاری یک تنوع تقریباً نامحدود از tasks به agents خود هستند: ترکیب calendars و اضافه کردن رویدادهای جدید، رزرو پرواز، بررسی پر شدن مجدد prescription، پیدا کردن بهترین محصول بررسی‌شده زیر یک قیمت مشخص. Agent با interfaces دیجیتال تعامل می‌کند تا اطلاعات را پیدا کند، actions موجود را درک کند، و آنها را execute کند، درست مانند یک human user.

اگرچه ممکن است برخلاف فلسفه user experience به نظر برسد، این واقعیت به این معناست که agent از هر جهت functional یک user است:

یک goal دارد
با یک interface روبرو می‌شود
سعی می‌کند آن goal را از طریق آن interface به انجام برساند
یا interface از آن تلاش پشتیبانی می‌کند یا نمی‌کند

این تمایز مهم است زیرا interfacesی که امروز طراحی می‌کنیم در حال fail کردن این نوع جدید user هستند. و آن agents نیز به نوبه خود، human آن سوی صفحه را fail می‌کنند.

۲. چگونه Agents امروز با Interfaces تعامل می‌کنند

سه رویکرد primary وجود دارد که agents برای تعامل با interfaces دیجیتال استفاده می‌کنند، و هر کدام مجموعه متفاوتی از فرضیات طراحی را نشان می‌دهد که از کار می‌افتند.

Vision-Based Interaction

رویکرد ابتدایی‌ترین، مشابه آن چیزی است که humans انجام می‌دهند: agent از interface یک screenshot می‌گیرد و از یک vision model برای تفسیر آنچه می‌بیند استفاده می‌کند. Agent به صفحه نگاه می‌کند، elements (buttons، text fields، navigation items) را شناسایی می‌کند، تصمیم می‌گیرد روی چه چیزی کلیک کند، و تکرار می‌کند.

این رویکرد expensive است — slow، از نظر محاسباتی wasteful، error-prone، و token-intensive است. یک screenshot واحد نیاز به پردازش ده‌ها هزار token توسط model دارد و محتوای dynamic یا workflows چند مرحله‌ای را در نظر نمی‌گیرد.

Accessibility-Tree Parsing

به جای screenshot گرفتن از صفحه، agents همچنین می‌توانند accessibility tree مرورگر را بخوانند (the structured representation of the page که browsers از HTML تولید می‌کنند). این همان data structure است که screen readers برای navigable کردن interfaces برای people با اختلالات بینایی استفاده می‌کنند.

Accessibility tree یک representation hierarchical و تمیز از page elements ارائه می‌دهد: roles، labels، states، و relationships آنها. پردازش آن به چند هزار token نیاز دارد (کسری از چیزی که یک screenshot نیاز دارد) و اطلاعات قابل اعتمادتری ارائه می‌دهد.

Interfacesی که به خوبی برای accessibility ساخته شده‌اند، در حال حاضر برای agents نیز legibleتر هستند: semantic HTML، elements با برچسب‌گذاری مناسب، roles واضح، و logical page hierarchy نیز به agent users خدمت می‌کنند.

Direct API Access

رویکرد سوم به طور کامل interface را با agent-to-agent interactions و agent-to-API interactions دور می‌زند. زمانی که structured APIs در دسترس هستند، agents می‌توانند داده‌ها را query کنند و actions را مستقیماً execute کنند، بدون نیاز به تعامل با هر representation بصری یا ساختاری از یک صفحه.

استانداردهای در حال ظهور مانند Model Context Protocol (MCP) این رویکرد را استانداردتر می‌کنند، اما نه لزوماً گسترده‌تر.

۳. چه چیزی هنگامی که Agents کاربر هستند خراب می‌شود

یک مثال معمولی را در نظر بگیرید. یک parent از agent خود می‌خواهد وب‌سایت مدرسه را برای رویدادهای پیش‌رو بررسی کند، آن تاریخ‌ها را با shared calendar خانواده تطبیق دهد، و هر گونه تداخلی را علامت‌گذاری کند. یک human صفحه رویدادها را scan می‌کند، تاریخ‌ها را یادداشت می‌کند، و calendar را بررسی می‌کند.

تجربه agent متفاوت است. وب‌سایت مدرسه برای این طراحی شده که یک parent به صورت بصری scan کند. رویدادها با dates، times، و descriptions مرتب شده از طریق spatial grouping فهرست شده‌اند. یک human ممکن است برای خواندن این مشکل نداشته باشد، اما برای یک agent که یک screenshot را پردازش می‌کند، هر قطعه اطلاعات باید از pixel clusters استنباط شود: کدام متن یک date است، کدام یک title است، و چگونه به هم مرتبط هستند. صفحه رویدادها ممکن است به صورت dynamic لود شود و یک صفحه ناقص را capture کند. برخی رویدادها در وب‌سایت هستند، برخی دیگر در یک PDF قابل دانلود، و برخی دیگر پشت یک parent-portal login قرار دارند.

هر مرحله احتمال error و همچنین token-use را افزایش می‌دهد. انجام چنین چیزی معمولی و روزمره به یک task بزرگ تبدیل می‌شود، چه برسد به agents که tasks پیچیده‌تری را انجام می‌دهند: ایجاد تغییرات در یک profile، سفارش یک کالا، یا بررسی availability و رزرو.

۴. کوتاه‌مدت: طراحی برای هر دو

در کوتاه‌مدت، سوال طراحی این است: “چگونه interfaces بسازیم که هم به human users و هم به agent users به طور همزمان خدمت کنند؟”

Accessibility Guidelines به این هدف طراحی می‌رسند:

Clear, descriptive element names
Predictable interaction patterns
Logical page hierarchy
Semantic HTML
ARIA standards

سرمایه‌گذاری در accessibility کار درستی بوده است، اما اکنون یک business case واضح برای آن وجود دارد، زیرا agents در کوتاه‌مدت از این طریق از محصولات و services استفاده خواهند کرد. سازمان‌هایی که در مورد accessibility دقیق بوده‌اند، شاید بدون اینکه متوجه شده باشند، interfaces ساخته‌اند که agents در حال حاضر می‌توانند به طور مؤثرتری در آنها حرکت کنند:

Clear, descriptive labeling: از icon-only buttons، ambiguous link text (“اینجا کلیک کنید”)، و labels که به visual context وابسته هستند اجتناب کنید.
Predictable, consistent patterns: ساختارهای navigation consistent، الگوهای فرم استاندارد، و state changes قابل پیش‌بینی احتمال compounding errors agents را در workflows چند مرحله‌ای کاهش می‌دهند.
Minimal reliance on visual-only information architecture: ساختار markup باید منعکس‌کننده grouping بصری باشد تا agents بتوانند relationships را درک کنند.

هیچ یک از این توصیه‌ها جدید نیستند. آنها همان اصولی هستند که interfaces را برای humans با disabilities کاربردی‌تر، در دستگاه‌ها و contextهای مختلف robustتر، و در طول زمان maintainableتر می‌کنند.

چه می‌شود اگر Agent را در محصول خود نمی‌خواهید؟

مطمئناً مدل‌های business و دسته‌بندی‌های محصولی وجود دارند که داشتن یک agent در محصول ممکن است نامطلوب باشد. استدلال برای طراحی با در نظر گرفتن agents این فرض را می‌کند که اهداف users شما و اهداف business شما هنگامی که یک machine از طرف user عمل می‌کند، همسو باقی می‌مانند. این همیشه درست نیست.

زمانی که Visit خود محصول است

برخی businesses به این بستگی دارند که humans واقعاً از محصول بازدید کنند. برای این شرکت‌ها، یک agent که value را بدون بازدید استخراج می‌کند، یک مشکل existential است. Ad-supported content و content marketing sites قبلاً شروع به دیدن impacts این تغییر در metrics خود کرده‌اند.

Streaming services نیز نسخه‌ای از این مشکل را دارند. Netflix می‌خواهد شما browse کنید — browse time محتوای original را نمایان می‌کند و حلقه engagement را عمیق‌تر می‌کند که retention را هدایت می‌کند. یک agent که به این سوال پاسخ می‌دهد “امشب چه چیزی تماشا کنم؟” بدون اینکه user هرگز اپ را باز کند، تجربه discovery را که Netflix سال‌هاست بهینه‌سازی کرده تضعیف می‌کند.

زمانی که Friction عمدی است

هر friction در یک interface یک شکست طراحی نیست. در برخی domains، friction به دلایل regulatory، legal، یا safety وجود دارد — و حذف آن ایجاد liability می‌کند.

Financial services پر از مثال‌های این موضوع است. یک کارگزاری که اجرای trades توسط یک agent را بدون safety checkpoints و افشای legal آسان می‌کند، خود را در معرض regulatory risk قرار می‌دهد. Friction ضروری است.

Healthcare products با چالش‌های مشابهی روبرو خواهند شد. HIPAA محدود می‌کند که داده‌های patient چگونه و توسط چه کسی قابل دسترسی باشد، و این سوال که آیا یک AI agent که از طرف یک patient عمل می‌کند به عنوان یک authorized accessor واجد شرایط است یا خیر، حل نشده است.

زمانی که از Competitive Intelligence محافظت می‌کنید

برخی interfaces عمداً برای machines opaque هستند زیرا داده‌های پشت آنها competitively sensitive است.

Airlines، هتل‌ها، و شرکت‌های اجاره ماشین سال‌ها را صرف مبارزه با screen-scraping bots کرده‌اند. pricing آنها dynamic، proprietary، و به صورت استراتژیک مدیریت می‌شود — دسترسی real-time به آن داده‌ها دقیقاً همان چیزی است که competitors و price-comparison aggregators می‌خواهند. Agent-friendly کردن interfaces همه آن را خنثی می‌کند.

زمانی که می‌خواهید محصول خود Agent باشد

platformهای زیادی هستند که خودشان می‌خواهند لایه agent باشند. برخی محصولات به طور فعال دسترسی third-party agents را مسدود می‌کنند — blocking external MCP calls، محدود کردن API surface area — زیرا آنها قابلیت‌های AI خود را یک differentiator می‌بینند.

ریسک رقابتی انتخاب نکردن

هیچ یک از اینها به این معنا نیست که تصمیم به blocking agents بدون ریسک است. سوال دشوارتر این است: چه اتفاقی می‌افتد وقتی یک رقیب آنها را block نمی‌کند؟

اگر برای یک بانک کار می‌کنید، ممکن است انتخاب معقولی برای جلوگیری از execute کردن تراکنش‌ها توسط agents از طرف مشتریان خود به دلایل امنیتی داشته باشید. اما چه اتفاقی می‌افتد وقتی یک رقیب که محصولات مالی مشابهی ارائه می‌دهد شروع به تبلیغ کند که آنها از agentic wealth managers پشتیبانی می‌کنند؟

این یک calculus استراتژیک است، نه یک imperative جهانی. طراحی برای agents همیشه تصمیم درستی نیست، اما خروج کامل نیز ریسک خاص خود را دارد. چه برای agents بهینه‌سازی کنید و چه نه، همه ما حداقل باید تشخیص دهیم که agents سعی خواهند کرد از محصولات ما استفاده کنند.

۵. بلندمدت: زمانی که لایه Interface واگرا می‌شود

زمانی که agents بتوانند structured data را query کنند و actions را execute کنند، interface بصری برای آنها irrelevant خواهد شد. همانطور که سازمان‌های بیشتری services خود را از در معرض agent-compatible APIs قرار می‌دهند، مسئله طراحی برای human users و agent users به طور فزاینده‌ای از هم جدا خواهد شد.

علیرغم این، humans هنوز به interfaces نیاز خواهند داشت — visual، interactive طراحی شده برای مقایسه و تصمیم‌گیری.

Agents مستقیماً با داده‌ها و logic underlying تعامل خواهند کرد. تجربه‌ای که یک human خواهد داشت به توانایی agent او برای تکمیل یک task بستگی دارد.

نتیجه‌گیری

کلمه “User” همیشه یک shorthand یا کوتاه‌نویسی مفهومی بود. این موجودی را توصیف می‌کرد که سعی دارد از طریق چیزی که ما طراحی کردیم به یک goal برسد. برای دهه‌ها، آن موجود منحصراً human بود، که دیگر اینطور نیست.

تشخیص agents به عنوان users نیازمند گسترش فرضی است که از زمان شروع این رشته در کار ما implicit بوده است. آنچه با این تغییر تغییر می‌کند، دامنه کسانی است که برای آنها طراحی می‌کنیم، و urgency اقداماتی که قبلاً می‌دانیم مهم هستند: semantic structure، accessibility، clear labeling، و predictable interaction patterns.

مقاله اصلی: nngroup.com/articles/ai-agents-as-users