تالار گفتمان مانشت

نسخه‌ی کامل: شبیه سازی مقاله Q-Learning
شما در حال مشاهده‌ی نسخه‌ی متنی این صفحه می‌باشید. مشاهده‌ی نسخه‌ی کامل با قالب بندی مناسب.
صفحه‌ها: 1 2
با سلام
به تازگی با مباحث یادگیری ماشین آشنا شدم و به دلیل استفاده روز افزون از هوش مصنوعی در شبکه های بی سیم، باید تزم را در این زمینه انجام بدم.
به همین دلیل باید یه مقاله که از multi-agent Q-Learning برای حل یک مسئله بهینه سازی در شبکه های بی سیم استفاده کرده را شبیه سازی کنم.
کسی از دوستان با Q-Learning آشنایی داره یا کد آماده یا منبعی سراغ دارین بتونم استفاده کنم.
لطفا راهنمائیم کنید
متشکرم
کیو لرنینگ یعنی یادگیری تقویتی
معنیش هم میشه یادگیری کیو
سوالی باشه در خدمتم
(17 تير 1397 08:01 ب.ظ)خانه سبز نوشته شده توسط: [ -> ]کیو لرنینگ یعنی یادگیری تقویتی
معنیش هم میشه یادگیری کیو
سوالی باشه در خدمتم

سلام
ممنون از جوابتون
من روش Q-learning رو بلدم، ولی تو پیاده سازی مقاله مشکل دارم.
از اینترنت یه سری کدهای Q-learning پیدا کردم ولی همشون single agent هستن در حالی که مقاله ای که من باید پیاده سازی کنم multi agent هستش،
می تونید تو پیاده سازی مقاله کمکم کنید؟
(17 تير 1397 11:43 ب.ظ)kadoos نوشته شده توسط: [ -> ]
(17 تير 1397 08:01 ب.ظ)خانه سبز نوشته شده توسط: [ -> ]کیو لرنینگ یعنی یادگیری تقویتی
معنیش هم میشه یادگیری کیو
سوالی باشه در خدمتم

سلام
ممنون از جوابتون
من روش Q-learning رو بلدم، ولی تو پیاده سازی مقاله مشکل دارم.
از اینترنت یه سری کدهای Q-learning پیدا کردم ولی همشون single agent هستن در حالی که مقاله ای که من باید پیاده سازی کنم multi agent هستش،
می تونید تو پیاده سازی مقاله کمکم کنید؟

سلام، من چیزی که از کیولرنینگ یادم می‌آد اینه که یه ایجنت یه سری اکشن وقتی تو یک استیت هست انتخاب می‌کنه بعد یه سری وزن که نشون دهنده ارزش اون حرکت در اون استیت هست رو تخمین می‌زنه و به‌روزرسانی انجام می‌ده. اینقد این کاررو می‌کنه تا همگرا بشه یعنی به ازای هر استیت و هر حرکت بدونیم هزینه و سودش چقده. البته فک کنم این واسه وقتی بود که محیط و حرکت‌ها یا اکشن‌ها در هر استیت بدونیم چیه. اگه اون چن تا ایجنتتون با هم همکاری خاصی ندارن و از هم مستقلن خیلی تاثیری نداره رو استراکچری که محیط بعد از همگرا شدنه الگوریتم بدست می‌آد. وقتی هم که ارزش‌ها به ازای هر استیت و عمل به دست اومد هر ایجنت اگه مستقله می‌تونه حریصانه عمل کنه همیشه بهترین رو انتخاب کنه.
[

سلام، من چیزی که از کیولرنینگ یادم می‌آد اینه که یه ایجنت یه سری اکشن وقتی تو یک استیت هست انتخاب می‌کنه بعد یه سری وزن که نشون دهنده ارزش اون حرکت در اون استیت هست رو تخمین می‌زنه و به‌روزرسانی انجام می‌ده. اینقد این کاررو می‌کنه تا همگرا بشه یعنی به ازای هر استیت و هر حرکت بدونیم هزینه و سودش چقده. البته فک کنم این واسه وقتی بود که محیط و حرکت‌ها یا اکشن‌ها در هر استیت بدونیم چیه. اگه اون چن تا ایجنتتون با هم همکاری خاصی ندارن و از هم مستقلن خیلی تاثیری نداره رو استراکچری که محیط بعد از همگرا شدنه الگوریتم بدست می‌آد. وقتی هم که ارزش‌ها به ازای هر استیت و عمل به دست اومد هر ایجنت اگه مستقله می‌تونه حریصانه عمل کنه همیشه بهترین رو انتخاب کنه.
[/quote]

عملکرد agentها روی هم تاثیر داره و مهمه که هر agent چه اکشنی رو انتخاب کنه
(18 تير 1397 01:21 ق.ظ)kadoos نوشته شده توسط: [ -> ][

سلام، من چیزی که از کیولرنینگ یادم می‌آد اینه که یه ایجنت یه سری اکشن وقتی تو یک استیت هست انتخاب می‌کنه بعد یه سری وزن که نشون دهنده ارزش اون حرکت در اون استیت هست رو تخمین می‌زنه و به‌روزرسانی انجام می‌ده. اینقد این کاررو می‌کنه تا همگرا بشه یعنی به ازای هر استیت و هر حرکت بدونیم هزینه و سودش چقده. البته فک کنم این واسه وقتی بود که محیط و حرکت‌ها یا اکشن‌ها در هر استیت بدونیم چیه. اگه اون چن تا ایجنتتون با هم همکاری خاصی ندارن و از هم مستقلن خیلی تاثیری نداره رو استراکچری که محیط بعد از همگرا شدنه الگوریتم بدست می‌آد. وقتی هم که ارزش‌ها به ازای هر استیت و عمل به دست اومد هر ایجنت اگه مستقله می‌تونه حریصانه عمل کنه همیشه بهترین رو انتخاب کنه.

عملکرد agentها روی هم تاثیر داره و مهمه که هر agent چه اکشنی رو انتخاب کنه
[/quote]

حدسی که برای جواب به این مساله می‌تونم بزنم یه همچین چیزیه که اگه ایجنت‌هاتون عین همن، مثلا فرض کنیم ۴ تا ایجنت داریم، تو یه محیط استیت‌ها و حرکت‌هاشون رو در نظر می‌گیریم و ترتیب حرکتشون هم مثلا به صورت رندم در نظر می‌گیریم (چون حرکت هر کدوم رو بقیه قراره یه تاثیری بذاره) با این شرایط یه دفعه کیو‌هارو آپدیت می‌کنیم بعد دوباره یه سری استیت رندم برای ایجنت‌ها در نظر می‌گیریم (به جای رندم می‌تونه ادامه حرکت قبل باشه یعنی بزاریم بعد از مقداردهی تصادفی استیت برای هر ایجنت چند بار حرکت کنه از همون جا و کیو‌هارو آپدیت کنه) و همین داستانو ادامه می‌دیم بعد از یه تعداد زیادی تکرار به نظرم کیو‌ها همگرا می‌شه، البته فقط نظره. دوباره که کیو‌ها بدست اومد بازم داستان قبلی با یه الگوی حریصانه بهترین کیو رو انتخاب می‌کنه هر ایجنت به ازای حرکت بقیه.
سلام
ممنون از جوابتون
من مفاهیم رو بلدم ولی نمی دونم که چطور باید این مقاله رو شبیه سازی کرد.
شبیه سازی این مقاله خیلی برام اهمیت داره چون قراره مبنای تزم باشه ولی تا حالا نتونستم شبیه سازی کنم و نتونستم کسی رو پیدا کنم که تو این زمینه کار کرده باشه و بتونم تو شبیه سازی ازشون کمک بگیرم.
کیو لرنینگ خیلی روش خوبی هست
ایده ایی که من دارم این هست QR لرنینگ ارائه بشه
یعنی ترکیب R و Q کیو آر لرنینگ
البته آی کیو لرنینگ هم خوبه
سوالی باشه باز درخدمتم
(18 تير 1397 12:43 ب.ظ)خانه سبز نوشته شده توسط: [ -> ]کیو لرنینگ خیلی روش خوبی هست
ایده ایی که من دارم این هست QR لرنینگ ارائه بشه
یعنی ترکیب R و Q کیو آر لرنینگ
البته آی کیو لرنینگ هم خوبه
سوالی باشه باز درخدمتم

این مقاله که باید شبیه سازیش کنم از Q-Learning استفاده کرده.
(18 تير 1397 04:36 ب.ظ)kadoos نوشته شده توسط: [ -> ]
(18 تير 1397 12:43 ب.ظ)خانه سبز نوشته شده توسط: [ -> ]کیو لرنینگ خیلی روش خوبی هست
ایده ایی که من دارم این هست QR لرنینگ ارائه بشه
یعنی ترکیب R و Q کیو آر لرنینگ
البته آی کیو لرنینگ هم خوبه
سوالی باشه باز درخدمتم

این مقاله که باید شبیه سازیش کنم از Q-Learning استفاده کرده.

من نظرم رو QR یا IQ لرنینگ هست که میمونه بعد این پیاده سازی مقالتون اونا پیاده بشن اگه نتایج خوب بود بفرستیم برای کنفرانس
(18 تير 1397 06:12 ب.ظ)خانه سبز نوشته شده توسط: [ -> ]
(18 تير 1397 04:36 ب.ظ)kadoos نوشته شده توسط: [ -> ]
(18 تير 1397 12:43 ب.ظ)خانه سبز نوشته شده توسط: [ -> ]کیو لرنینگ خیلی روش خوبی هست
ایده ایی که من دارم این هست QR لرنینگ ارائه بشه
یعنی ترکیب R و Q کیو آر لرنینگ
البته آی کیو لرنینگ هم خوبه
سوالی باشه باز درخدمتم

این مقاله که باید شبیه سازیش کنم از Q-Learning استفاده کرده.

من نظرم رو QR یا IQ لرنینگ هست که میمونه بعد این پیاده سازی مقالتون اونا پیاده بشن اگه نتایج خوب بود بفرستیم برای کنفرانس
اگه نتایج خوب بود بفرستیم برای کنفرانس HuhHuhHuh
در حال حاضر مشکل من پیاده سازی این مقالست، اگه بتونم این مقاله رو پیاده سازی کنم، سعی می کنم بهبودش بدم و مقاله بفرستم.
ولی فعلا تو پیاده سازی این موندم چه برسه به پیاده سازی کار خودم
(18 تير 1397 09:11 ب.ظ)kadoos نوشته شده توسط: [ -> ]در حال حاضر مشکل من پیاده سازی این مقالست،
سلام ،منم همین مشکلُ دارم و سورس کد خوبی پیدا نکردم.
چرا از اساتید هوش یا طراحی الگوریتمی کمک نمیگیرید؟
سخت نیست قدم اول انتخاب عنوان و کشیدن طرح هست قدم دوم داده سازی هست قدم سوم نگارش

قدم اول رو ما الان برداشتیم برای مثال QR learning یا IQ Learning

حالا باید یه طرح از این عنوان در بیاریم و تو مقاله بنویسیم این الگوریتم ما و این داده ها دادیم بهش

خروجی هم باید نتایج 5 درصد دقت بهتر بشه و بگیم یکم سرعتش بده ولی دقتش خوبه

در نهایت میمونه نگارشش یک نویسنده حرفه ایی باید طوری بنویسه که واقعی نشون بده از رم 8 گیگ و لبتاب دوال کور 2 استفاده شده در متلب 2014 بعد می فرستیم برای ژورنال شانسمون امتحان می کنیم.
(18 تير 1397 10:00 ب.ظ)Katerina Petrova نوشته شده توسط: [ -> ]
(18 تير 1397 09:11 ب.ظ)kadoos نوشته شده توسط: [ -> ]در حال حاضر مشکل من پیاده سازی این مقالست،
سلام ،منم همین مشکلُ دارم و سورس کد خوبی پیدا نکردم.
چرا از اساتید هوش یا طراحی الگوریتمی کمک نمیگیرید؟
سلام
ببخشید من انقدر دیر جواب دادم.
راستش پیامتونو الان دیدم.
همین کارو باید انجام بدم.
از یه سری احتمالات و روش ها توی این مقاله استفاده شده که من نمی تونم چطور باید پیاده سازی شن یا اصلا مفهومشون چیه.
شما مشکلتون حل شد؟
ممنون از راهنماییتون
(05 مرداد 1397 06:38 ب.ظ)kadoos نوشته شده توسط: [ -> ]سلام
ببخشید من انقدر دیر جواب دادم.
راستش پیامتونو الان دیدم.
همین کارو باید انجام بدم.
از یه سری احتمالات و روش ها توی این مقاله استفاده شده که من نمی تونم چطور باید پیاده سازی شن یا اصلا مفهومشون چیه.
شما مشکلتون حل شد؟
ممنون از راهنماییتون
سلام ،خواهش میکنم
اول روش ارائه شده توی مقاله رو باید کاملا درک کنید بتونید و بعد برید سراغ مقالاتی که با Q learning کار کردند... اینجوری تا حدودی دستتون میاد که چطور باید پیش برین.
توصیه میکنم از فیلم های آموزشی رو هم ببینید.
من بخاطر کوچک بودن سایز مسئله ،به توصیه استاد مشاور ،فعلا ،دارم با الگوریتم های زیستی کار میکنم و بعد از اتمام این پروژه قراره بریم سراغ دیپ و مخلفات.. Smile
صفحه‌ها: 1 2
لینک مرجع