Thu thập dữ liệu
(crawling), việc
thu thập dữ liệu của Google bằng cách sử dụng những con Spider ( con bọ tìm kiếm
của Google) vào các website đọc và thu thập toàn bộ dữ liệu qua việc đọc các đoạn
mã HTML, Spider ( con bọ tìm kiếm của Google) Crawling & Indexing như thế
nào?
Spider có thể:
- Crawling qua link trên các site đã index theo chỉ định của Meta name.
- Crawling qua Add URL form
- Crawling qua Ip server reversed, DNS
- Crawling qua full domain search
Cơ chế tìm kiếm của spider
Cái sơ đồ này có vẻ hơi loằng ngoằng và chưa rõ nghĩa phải không?
Chúng ta theo dõi qua sơ đồ này vậy!
- Đầu tiên nó lấy danh sách các máy chủ và trang web phổ biến. Spider sẽ bắt đầu tìm kiếm với một site nào đó, nó đánh chỉ mục các từ trên trang của nó và theo các liên kết ( link) tìm thấy bên trong Site này. Theo phương pháp này, hệ thống tìm kiếm của Google sẽ nhanh chóng thực hiện công việc và trải rộng ra toàn bộ các phần được sử dụng rộng rãi nhất của web.
- Khi Spider xem xét các trang web ( định dạng HTML), nó lưu ý: Các từ bên trong trang web & Nơi nó tìm thấy các từ đó
Các từ xuất hiện trong các thẻ Title, Meta Description.... nó nhận định đó là phần quan trọng có liên quan đến sự tìm kiếm của người dùng sau này. Vì thế đối với mỗi website google nó sẽ có nhiều phương pháp để index lại chỉ mục, liệt kê lại các từ khóa chính. Nhưng dù dùng cách nào thì Google cũng luôn cố gắng làm cho hệ thống tìm kiếm diễn ra nhanh hơn để người dùng có thể tìm kiếm hiệu quả hơn hoặc cả hai.
Lập chỉ mục
(index).
- Kế đó Google sẽ xây dựng chỉ mục.
Sau khi nó tìm thông tin trên website nó sẽ nhận ra rằng nhiệm vụ tìm kếm thông tin trên website sẽ không thể nào hoàn thành... bởi vì các QTV luôn thay đổi thông tin, cập nhật thông tin lên website và điều đó có nghĩa rằng Spider sẽ luôn thực hiện nhiệm vụ Crawling. Và chắc chắn rằng Google sẽ phải lưu các thông tin mà nó tìm được bằng một cách nào đó để có lợi nhất.
- Kế đó Google sẽ xây dựng chỉ mục.
Sau khi nó tìm thông tin trên website nó sẽ nhận ra rằng nhiệm vụ tìm kếm thông tin trên website sẽ không thể nào hoàn thành... bởi vì các QTV luôn thay đổi thông tin, cập nhật thông tin lên website và điều đó có nghĩa rằng Spider sẽ luôn thực hiện nhiệm vụ Crawling. Và chắc chắn rằng Google sẽ phải lưu các thông tin mà nó tìm được bằng một cách nào đó để có lợi nhất.
- Sau đó nó sẽ mã hóa thông tin để lưu trữ dữ liệu trong CSDL đồ sộ của nó theo một thuật toán nào đó... chắc chắn là rất bảo mật rồi.
Tiếp
theo SE phân tích và xủ lý dữ liệu kể cả việc sắp xếp thứ hạng. Người dung tìm
kiếm thông qua các tuy vấn và phản hồi thông tin từ các dữ liệu đã xử lý.
Nguồn tham khảo Cơ chế tìm kiếm của Google
Tham khảo thêm một số bài viết kiến thức seo khác tại Kiến thức seo vietsol
Nguồn tham khảo Cơ chế tìm kiếm của Google
Tham khảo thêm một số bài viết kiến thức seo khác tại Kiến thức seo vietsol
Cảm ơn tác giả.
Trả lờiXóaTác giả cho em hỏi thêm, sau khoảng bao lâu thì spider quay lại trang web của mình ạ?