Đăng bởi: daoquanghuynh | 09/06/2009

Tổng quan về Search Engine

Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được up lên nhằm làm giàu nguồn tài nguyên vô tận này đồng thời đáp ứng một cách đầy đủ nhu cầu tìm kiếm của con người thông các Search Engine.

search_engine

Các bộ phận cấu thành Search Engine

Robot – Bộ thu thập thông tin

Robot được biết đến dưới nhiều tên gọi khác nhau : spider, bot, crawler, hoặc web worm,…Về bản chất robot chỉ là một chương trình duyệt và thu thập thông tin từ các Website trên mạng, nó tự động duyệt qua các cấu trúc siêu liên kết và trả về các danh mục kết quả của công cụ tìm kiếm. Những trình duyệt thông thường không được xem là robot do thiếu tính chủ động, chúng chỉ duyệt web khi có sự tác động của con người.

Bộ lập chỉ mục – Index

Hệ thống lập chỉ mục trong các công cụ tìm kiếm thực hiện việc phân tích, chọn lựa và lưu trữ những thông tin cần thiết (thường là các từ khoá hay cụm từ khoá) một cách nhanh chóng và chính xác từ những dữ liệu mà robot thu được. Hệ thống chỉ mục cho biết cách danh mục từ khoá cần tìm nằm ở trang nào.

Bộ tìm kiếm thông tin – Search Engine

Search Engine hay còn gọi là Web Search Engine là một công cụ tìm kiếm được thiết kế để tìm kiếm các thông tin trên World Wide Web. Thông tin này có thể bao gồm những trang Web, hình ảnh hay bất cứ một kiểu file nào trên mạng. Nói rộng ra, Search Engine là hệ thống bao gồm cả bộ thu thập thông tin và bộ lập chỉ mục. Các bộ này hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn nhau về mặt dữ liệu nhưng độc lập với nhau về nguyên tắc hoạt động.

Chức năng chính của Search Engine cũng như tên gọi của nó, là công cụ tìm kiếm thông tin mà thực ra là tìm kiếm các từ khoá trong câu truy vấn xuất hiện nhiều nhất, ngoại trừ các stop words (là các giới từ hay mạo từ như the, a, an….). Khi gõ một từ khoá (keyword) cần tìm vào một công cụ tìm kiếm, các Search Engine này có nhiệm vụ tìm các từ khoá đó ở tất cả các trang Web theo hình thức các trang Web chứa nhiều từ khoá cần tìm sẽ dễ dàng trả về danh mục kết quả của các Search Engine. Ngày nay, hầu hết các search engine đều hỗ trợ chức năng tìm cơ bản và nâng cao, tìm từ đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm như trên đề mục, tiêu đề …

Ngoài việc tìm chính xác các từ khoá, các Search Engine phải được trang bị các phương pháp tìm kiếm đa ngôn ngữ, có nghĩa là nó phải hiểu được ý nghĩa của từ khoá cần tìm hay thậm chí là sửa cả lỗi chính tả khi người dùng đánh sai. Ví dụ, khi bạn gõ type vào Google, công cụ tìm kiếm này sẽ trả về kết quả gồm typing, typist…

Nguyên lý hoạt động

Một Search Engine hoạt động theo các bước sau:

  1. Web crawling
  2. Indexing
  3. Searhing

Search Engine làm việc bằng cách lưu trữ thông tin về nhiều trang Web trên WWW. Những thông tin này sẽ được thu thập bởi các Spider (chính là Web crawling) và nội dung của mỗi trang sẽ được phân tích để SE quyết định nên index cái nào (ví dụ, những từ khoá được thu thập từ các titles, heading hay một số trường đặc biệt gọi là meta tags) để trả về những thông tin mà người tìm kiếm mong muốn nhất. Dữ liệu về những trang Web sẽ được lưu trữ tại các cơ sở dữ liệu chỉ mục để sử dụng cho những lần truy vấn sau. Một số Search Engine, như Google chẳng hạn, sẽ lưu trữ toàn bộ hay một phần trang gốc (được xem như một cache) cũng như thông tin về trang Web đó, trái lại với một số SE khác, như AltaVista, sẽ lữu trữ tất cả các từ của những trang mà nó tìm thấy.

Khi người dùng nhập vào các Search Engine một truy vấn (chủ yếu là các keyword), các SE này sẽ kiểm các index của nó và cung cấp danh sách các trang Web phù hợp nhất, thường là các cụm từ ngắn hay một phần của một đoạn văn bản. Hầu hết các Search Engine đều sử dụng các Boolean Operators (toán tử luận lý) như AND, OR và NOT để xác định các search query (truy vấn tìm kiếm). Một số SE khác lại sử dụng những phương pháp tiên tiến hơn như Proximity Search (tìm kiếm gần kề) để cho phép người dùng xác định được khoảng cách giữa các từ khoá.

Sự hữu ích của các Search Engine phụ thuộc vào mức độ phù hợp của các kết quả mà nó mang lại. Ta có thể tìm được hàng triệu trang Web chứa từ khoá mà ta cần tìm, tuy nhiên, những trang có SE mạnh sẽ cho ra các kết quả phù hợp hơn cả.

Hiện nay, đa số các Search Engines được điều hành bởi các công ty tư nhân sử dụng những thuật toán chuyên dụng và một cơ sỡ dữ liệu kín, mặc dù vậy một số SE vẫn là nguồn mở.

Sưu tầm%


Danh mục

%d bloggers like this: