ساختن يك روبات كاووش گر

Ealireza · Apr 19, 2004

سلام دوستان
من توي يك مقاله خوندم كه گوگل چندين روبات داره كه بصورت خودكا و شاخه اي عمل ميكنند يعني يك وب سايت رو مورد حمله قرار ميدن بعد وارد تمامي لينك هاش ميشن و از آن سايت يك كپي برميدارند
حالا نميدونم اين اطلاعات چقدر صحت داره :roll:
اما سوال من اينه كه چطوري ميتونم يك روبات طراحي كنم كه دقيقا
بره همينجوري تمامي Url/Mail ها رو توي يك بانك اطلاعاتي ذخيره كنه 8O :wink:

يك استفاده بسيار خوب :lol:

هركس در اين زمينه اطلاعاتي داره لطفا يه كمكي به من بكنه :wink:

:arrow:

omidak · Apr 19, 2004

سلام:
اين خبر تابلوه كه دروغه
و اين كار هم امكان نداره :wink:

hoom · Apr 19, 2004

با سلام

راستش رو بخوایین به نظر من اصلا هم کاری نداره. فقط باید یه برنامه Webextractor بنویسین که محتویات وب سایت رو بخونه و اونا رو توی یه دیتابیس ذخیره کنه و بعدش هم ایندکس کنه. من خودم خیلی وقت پیشا یه همچین برنامه ای نوشتم.
برای اینکار میتونین از برنامه های مختلفی استفاده کننین. راستش این مطلب منو یاد یه مقاله ای انداخت که دوسال پیش خوندم. لینکش اینه که به زبون خیلی ساده روش ایندکس کردن گوگل رو توضیح داده http://www.thedelphimagazine.com/samples/1374/1374.htm

این دوتا مقاله هم با فرمت پاورپوینت هستند که منطق ریاضی جستجوی گوگل رو توضیح دادن
http://fdc.fullerton.edu/crispen/powerpoint/google_101.zip
http://fdc.fullerton.edu/crispen/powerpoint/new_google_201.zip

ارادتمند

oxygenws · Apr 20, 2004

سلام،

گوگل از طریق آدرس هایی که داره CRAWL یا پیمایش می کنه و تعدادی لینک رو به ترتیب می ره جلو.

چرا همهء لینک ها رو با هم نمی ره؟؟؟ چون اول ممکنه که سرور طرف رو down کنه و دوم اینکه باید نوبت بقیه هم بشه!!

کی سایت شما رو پیدا می کنه؟؟ زمانی که یا شما خودتون رو بهش معرفی کنید یا اینکه لینک شما رو تو یکی از صفحه هایی که بگرده پیدا کنه.

مهم پیمایش وب نیست، چون خود این عمل به تنهایی کار سختی نیست. مهم اینه که چطوری کلمات رو توی پایگاه داده بریزید و اونها رو مدیریت کنید.
توجه کن که گوگل حدود 3-4 میلیارد صفحه رو تو خودش داره و یک نتیجه رو در کمتر از 1 ثانیه برات لیست می کنه!!!

به نظرت این سرعن چطوری بدست میاد؟!!

این رو هم بگم که گوگل وقتی یه سایت رو گشت و تمومش کرد که کارش تموم نمی شه.... بلکه این تازه آغاز کاره... هفته ای یک بار یا ..... سایت طرف رو می ره دوباره می گرده و نتایج بانک هاش رو به روز می کنه.

گوگل تقریبا چاره ای جز کپی برداری از سایت ها نداره (منظور من دقیقا عمل کپی نیست!!!!) اگر دقت کنی حتی بخشی به نام cached page داره که صفحات قدیمی سایت ها رو می تونید از تو اون پیدا کنید!!!!

موفق باشید، امید

Ealireza · Apr 20, 2004

مرسي اكسيژن جان اين رو هم يجا خوندم
http://www.miladkdz.com
ببين ميخواهم منم يكي رو براي خودم دست كنم كه بره ايميل ها رو بخونه و تو يه جا سيو كنه
در باره اينم كه سرچ كردم يه سري چيزها پيدا كردم و دو ستا برنامه
دستت درد نكنه كه راهنمايي كردي

hoom · Apr 20, 2004

سلام

اگه خواستید من توی وبلاگم یه برنامه به ویژوال بیسیک گذاشته ام که دقیقا همون کاری رو که میخواهید میکند.

ارادتمند

omidak · Apr 20, 2004

Ealireza گفت:
مرسي اكسيژن جان اين رو هم يجا خوندم
http://www.miladkdz.com
ببين ميخواهم منم يكي رو براي خودم دست كنم كه بره ايميل ها رو بخونه و تو يه جا سيو كنه
در باره اينم كه سرچ كردم يه سري چيزها پيدا كردم و دو ستا برنامه
دستت درد نكنه كه راهنمايي كردي

سلام:
اون كد فقط HTML رو میگیره.
در ضمن من فکر کردم منظور شما خود Source سایت بود :roll:
مثلاً ASP ایش یا... :wink: