گوگل در حفظ اسرار كاري خودش خيلي سختگيره - ولي در منابع مختلف اخباري خوندم كه خلاصه اش رو ميگم:
1- سيستم عامل كامپيوتراش براساس RedHat Linux هست كه تمام شاخ و برگهاي اضافيش رو حذف و صرفا براي كار خودش بهينه كرده.
2- از فايل سيستم اختصاصي خودش استفاده ميكنه كه براي بلوكهاي 64 مگابايتي بهينه شده.
3- بجاي چند سرور قوي از هزاران كامپيوتر معمولي بعنوان سرور ارزانقيمت استفاده ميكنه و كل مجموعه در مقابل خرابي ديسك يا شبكه هر كامپيوتر مقاوم هست.
4- اطلاعات در 3 محل replicate ميشه و از مجموعه اي از سرورها بعنوان master براي تعيين محل نگهداري اطلاعات استفاده ميكنه
5- يك ايندكس از كليه لغات صفحات وب داره كه بصورت آرايه اي از فايلهاي خيلي بزرگ نگهداري ميشه
6- صفحاتي رو كه از وب دانلود ميكنه در Document Server هاي جداگانه نگهداري ميكنه
7- برنامه جستجو (هموني كه مورد نظر شماست) بر اساس روش Map Reduce نوشته شده (كه براي سيستم هاي پردازش موازي ايجاد و مديريت مجموعه هاي عظيم اطلاعات كه بصورت كليد-مقدار نگهداري ميشن مناسب هست)
مزيتش به اينه كه اضافه كردن تدريجي كامپيوترها به مجموعه سرورها نياز به تغيير در كد برنامه جستجو نداره
8- هر درخواست كه دريافت ميشه در بين سرورهاي مختلف تقسيم و جوابهاي هر كدوم قبل از ارسال در كنار هم قرار ميگيره و تشكيل يك جواب واحد رو ميده