یادگیری
در برخی موارد، طراح یک عامل ممکن است مدل خوبی از عامل و محیط آن داشته باشد. اغلب یک طراح مدل خوبی ندارد و یک نماینده باید از داده های تجربیات گذشته خود و سایر منابع استفاده کند تا به او کمک کند تصمیم بگیرد چه کاری انجام دهد. بعد یادگیری تعیین می کند که آیا دانش داده می شود یا دانش آموخته می شود (از داده ها یا تجربیات گذشته). یادگیری معمولاً به معنای یافتن بهترین مدل متناسب با داده ها است. گاهی اوقات این کار به سادگی تنظیم یک مجموعه ثابت از پارامترها است، اما همچنین می تواند به معنای انتخاب بهترین نمایش از بین یک کلاس از نمایش ها باشد. یادگیری به خودی خود یک زمینه بزرگ است اما از بقیه هوش مصنوعی جدا نیست. مسائل زیادی فراتر از برازش دادهها وجود دارد، از جمله نحوه ترکیب دانش پسزمینه، چه دادههایی برای جمعآوری، نحوه نمایش دادهها و نمایشهای حاصل، چه سوگیریهای یادگیری مناسب هستند، و چگونه میتوان از دانش آموختهشده برای تأثیرگذاری بر نحوه عملکرد عامل استفاده کرد.
محدودیت های محاسباتی
گاهی اوقات یک عامل می تواند به اندازه کافی سریع در مورد بهترین عملکرد خود تصمیم بگیرد تا بتواند عمل کند. اغلب محدودیتهای منابع محاسباتی وجود دارد که مانع از انجام بهترین عملکرد توسط یک عامل میشود. به این معنا که ممکن است عامل نتواند بهترین اقدام را با سرعت کافی در محدوده محدودیت های حافظه خود پیدا کند تا عمل کند در حالی که آن عمل هنوز بهترین کار برای انجام است. به عنوان مثال، زمانی که نماینده باید همین الان اقدام کند، ممکن است 10 دقیقه وقت گذاشتن برای بدست آوردن بهترین کاری که 10 دقیقه پیش انجام می شد، فایده زیادی نداشته باشد. اغلب، در عوض، یک نماینده باید مدت زمانی که برای دستیابی به یک راه حل طول می کشد را با میزان خوب بودن راه حل معاوضه کند. شاید بهتر باشد سریع یک راه حل معقول پیدا کنید تا اینکه بعداً راه حل بهتری پیدا کنید زیرا جهان در طول محاسبه تغییر خواهد کرد. بعد محدودیت های محاسباتی تعیین می کند که آیا یک عامل از عقلانیت کاملی برخوردار است یا خیر، جایی که یک عامل در مورد بهترین اقدام بدون در نظر گرفتن منابع محاسباتی محدود خود استدلال می کند. یا • عقلانیت محدود، که در آن یک عامل با توجه به محدودیت های محاسباتی خود، بهترین اقدامی را که می تواند پیدا کند، تصمیم می گیرد. محدودیت های منابع محاسباتی شامل زمان محاسبات، حافظه و دقت عددی ناشی از عدم نمایش دقیق اعداد واقعی توسط کامپیوترها است. الگوریتم هر زمان الگوریتمی است که کیفیت حل آن با گذشت زمان بهبود می یابد. به طور خاص، این راه حلی است که می تواند بهترین راه حل فعلی خود را در هر زمان ارائه دهد، اما با توجه به زمان بیشتر، می تواند راه حل های بهتری نیز تولید کند. ما میتوانیم اطمینان حاصل کنیم که کیفیت کاهش نمییابد با اجازه دادن به نماینده برای ذخیره بهترین راهحلی که تاکنون پیدا شده و در صورت درخواست راهحل، آن را برگرداند.