VN-INDEX 1.277,35 -3,16/-0,25% | HNX-INDEX 292,82 +0,90/+0,31% | UPCOM-INDEX 91,78 -0,66/-0,71% | VN30 1.298,15 -3,29/-0,25% | HNX30 530,32 +2,70/+0,51% Show
05 Tháng Chín 2022 8:06:58 CH - Mở cửa
Trở lại những ngày chưa có Internet, bạn cần tham khảo cuốn bách khoa toàn thư để tìm câu trả lời cho một vấn đề, tra cứu quyển danh bạ điện thoại để liên lạc với 1 ai đó. Sự ra đời của các công cụ tìm kiếm đã làm thay đổi hoàn toàn thói quen tra cứu thông tin của con người, cách mạng hóa việc truy suất thông tin với những kết quả trả về gần như ngay lập tức. Về cơ bản khi tìm kiếm thông tin, người dùng không tìm kiếm trên nền tảng liveweb thực mà chỉ đang tìm kiếm trong chỉ mục của các Search Engine. Nói cách khác, người dùng đang tìm kiếm dựa trên những gì mà Search Engine lưu trữ, hiểu về thế giới. Quá trình lưu trữ, tổng hợp thông tin này được gọi là Indexing. Trong bài hướng dẫn này cùng tìm hiểu Indexing là gì? Toàn bộ vấn đề xoay quanh việc index trong SEO. Index hay Indexing là quá trình các công cụ tìm kiếm (search engine) phân loại, lưu trữ nội dung vào cơ sở dữ liệu của mình. Chỉ những trang được index mới có thể xuất hiện trên kết quả tìm kiếm. Indexing là gì
Về cơ bản thì sau khi thu thập dữ liệu (quá trình Crawling), Google sẽ lưu trữ thông tin đã thu thập được vào 1 nơi (Google index). Khi có ai đó tìm kiếm thông tin, Google sẽ tìm các câu trả lời bên trong kho lưu trữ của mình, kết hợp với các thuật toán để đưa ra câu trả lời nhanh nhất và liên quan nhất. Kho chứa các webpage mà Google thu thập được có tên gọi là Google Index và sau này đổi thành Google Caffeine. Google index là gì?Năm 2010, Google giới thiệu hệ thống lập chỉ mục mới – Google Caffeine với khả năng cung cấp kết quả nhanh gấp 2 lần so với hệ thống cũ.
Hệ thống google index cũ sẽ lưu trữ các Web page thành từng lớp xếp chồng lên nhau. Khi 1 lớp được cập nhật, Google sẽ phải phân tích lại toàn bộ website, gây nên sự lãng phí, chậm trễ trong quá trình đánh giá xếp hạng. Với Caffeine, website được phân tích thành từng phần riêng biệt và tiến hành cập nhật thông tin liên tục. Khi tìm thấy các trang mới hay thông tin mới, Google có thể thêm ngay các trang này vào chỉ mục. Google caffeine Người dùng có thể tìm thấy thông tin mới ngay lập tức bất kể nó được xuất bản ở đâu và khi nào. Chỉ có những web page được các công cụ tìm kiếm lập chỉ mục mới thể xuất hiện trên các trang kết quả tìm kiếm. Quá trình lập chỉ mục của Google được diễn ra sau khi các Crawler tìm thấy nội dung mới trên internet. Gồm 3 giai đoạn:
Trong quá trình đánh giá nội dung trên website, các Search Engine hay cụ thể ở đây là Google sẽ xác định xem 1 trang có phải là trang trùng lặp (duplicate) hay trang chính tắc (canonical). Nếu trang đó được xác định là trùng lặp, Google sẽ ít thu thập dữ liệu trên trang đó hơn. Các trang tương tự nhau sẽ được nhóm vào 1 tài liệu (document). Document bao gồm 1 hoặc nhiều trang chính tắc và các trang trùng lặp có nội dung tương tự nhau. Khái niệm Document là gì? trang chính tắc và trang trùng lặp
Về khái niệm Document là gì? Google giải thích như sau: Google sẽ sử dụng 1 lượng lớn các Document (tài liệu) làm đại diện cho 1 hoặc nhiều trang trong Website.
Khái niệm document Google sẽ chọn ra 1 URL trong Document làm URL chính tắc (canonical) của tài liệu. URL này sẽ được Google thu thập dữ liệu và lập chỉ mục thường xuyên hơn. Các trang còn lại được xem như trang trùng lặp (duplicate) hay trang thay thế (alternates). Các trang này sẽ ít được Google thu thập và cập nhật dữ liệu. Công cụ kiểm tra URL trong Search console có thể giúp người dùng xác định xem URL đó là trang chính tắc hay trang thay thế. Google có thể xác định nhầm 1 trang chính tắc (canonical) trên website làm trang thay thế bởi nhiều lý do. Qua đó gây ra nhiều hậu quả như:
Kiểm tra xem Google đã xác định chính xác trang nội dung chính trên website làm trang chính tắc hay chưa để hạn chế lỗi trong quá trình SEO. Các Crawler sẽ ưu tiên thu thập dữ liệu trên thiết bị di động trước, điều đó càng được thể hiện rõ hơn qua bản cập nhật Mobile First-indexing. Mobile first indexing là gì?
Mobile first index Người dùng ngày nay càng có xu hướng sử dụng điện thoại thông minh để lướt web và tìm kiếm thông tin. Chính vì vậy mà Google sẽ ưu tiên thu thập dữ liệu và lập chỉ mục trên các thiết bị di động và xem xét đây là trình thu thập dữ liệu chính cho website. Để phản hồi thông tin người dùng tra cứu 1 cách nhanh chóng, Google hay các công cụ tìm kiếm sử dụng Inverted Index (chỉ mục nghịch đảo) Inverted index (chỉ mục nghịch đảo) là gì?Inverted index là cấu trúc dữ liệu nhằm liên kết giữa term (từ khóa) với các webpage (document) chứa từ khóa đó. Đây là kỹ thuật index theo từng đơn vị từ khóa (term) thay vì index theo từng dòng trước đây. Inverted index giúp các công cụ tìm kiếm giảm tải lượng tài nguyên cần thiết để lưu trữ và truy xuất dữ liệu. Cách tiếp cận này nhanh hơn nhiều lần so với việc liệt kê các kết quả dựa trên ngữ nghĩa của từ khóa và ký tự có liên quan. Inverted index Lấy một ví dụ tương đối: có 3 webpage lần lượt là d1, d2, d3 và một cụm từ tìm kiếm “khá bảnh múa quạt”
Với cách tìm kiếm thông thường, các công cụ tìm kiếm sẽ dùng cụm từ “khá bảnh múa quạt” lần lượt kiểm tra trong d1 không tìm thấy, chuyển sang d2
tìm thấy, rồi lại tiếp tục tìm trong d3. Với inverted index, các webpage được lưu dưới dạng:
Công việc trở nên nhanh chóng hơn khi chỉ cần tìm kiếm webpage có chứa 4 từ {“khá”, “bảnh”, “múa”, “quạt”} Với inverted index, tốc độ truy xuất, lưu trữ dữ liệu của các công cụ tìm kiếm hiệu quả hơn 50% so với phương pháp thông thường. Đây chỉ là một ví dụ đơn giản mang tính chất tương đối, trong thực tế inverted index diễn ra phức tạp hơn nhiều. Tham khảo thêm bằng sáng chế về hệ thống chỉ mục nghịch đảo và phương pháp cho các thuộc tính số của Google Cùng với sự phát triển của thế giới, các website mới liên tục được xuất bản khiến cho việc lưu trữ, lập chỉ mục càng ngày càng trở nên khó khăn với các công cụ tìm kiếm. Để giải quyết tình trạng này, các Crawler (trình thu thập dữ liệu) được tích hợp thuật toán đặc biệt giúp chúng có thể bỏ qua các URL không quan trọng. Google có lập chỉ mục tất cả website trên internet không?Theo số liệu của Worldwidewebsize, tính đến hết tháng 3 năm 2021, Thế giới Internet có khoảng 5,27 tỷ Website, Google có gần 54 tỷ trang trong cơ sở dữ liệu (số liệu từ worldwidewebsize) Trong đó hầu hết là các trang kém chất lượng, lừa đảo, nội dung trùng lặp, các phần mềm độc hại, không mang lại giá trị cho người dùng. Google hay các công cụ tìm kiếm cần tránh xa các website này thay vì lập chỉ mục chúng. Google index phần tốt đẹp của thế giới Các Website ngày càng trở nên đẹp hơn, nhiều hiệu ứng hơn đồng nghĩa với việc chúng ngày càng trở nên “nặng” hơn với nhiều định dạng nội dung siêu văn bản: hình ảnh, video độ phân giải cao. Điều này gây khó khăn cho các công cụ tìm kiếm trong việc truy cập, trích xuất thông tin để hiểu nội dung những website này. Vì thế giới internet quá rộng lớn nên Google cần phải lựa chọn những trang mà nó muốn lập chỉ mục. Rõ ràng, Google sẽ tập trung vào những trang chất lượng mang lại giá trị cho người dùng.
Google có thể bỏ qua việc thu thập thông tin 1 số trang trên website và đánh giá nó là trang có nội dung kém chất lượng. Để làm điều này, Google gán cho các URL chỉ số về mức độ ưu tiên trước khi thu thập dữ liệu. Chỉ thị mức độ ưu tiên cho các URL
Google chỉ thị mức độ ưu tiên cho các URL trước khi thu thập thông tin. Các trang được coi là ít quan trọng hơn sẽ không được thu thập thông tin. Theo bằng sáng chế của Google, mức độ ưu tiên của URL có thể được xác định bởi các yếu tố:
Quy trình lập chỉ mục của Google rất phức tạp với nhiều bước liên kết lẫn nhau. Nếu 1 trong những bước này gặp trục trặc sẽ dẫn đến các quy trình khác cũng bị ảnh hưởng. Vào ngày 10/08/2020, cộng đồng SEO nhận thấy 1 loạt thay đổi trong kết quả tìm kiếm. Nhiều ý kiến cho rằng, Google tung ra 1 bản cập nhật thuật toán quan trọng. Nhưng hôm sau, Google đã thông báo đó là 1 lỗi liên quan đến hệ thống lập chỉ mục khiến cho thứ hạng từ khóa bị thay đổi.
Để làm sáng tỏ sự phức tạp của quá trình Indexing, Google’s Gary illyes đã giải thích quy trình lập chỉ mục của Google Caffeine
Cùng với sự kiện này, Vào tháng 5 năm 2020, Google tung ra bản cập nhật thuật toán cốt lõi ảnh hưởng đến quá trình lập chỉ mục. Kể từ đó, việc lập chỉ mục trở nên khó khăn, nghiêm ngặt hơn rất nhiều so với trước đây. Trải qua 1 quá trình phức tạp từ discovery, crawling đến indexing, Url mới được lập chỉ mục trong cơ sở dữ liệu của Google. Có bao nhiêu cách để kiểm tra việc này. Cách kiểm tra index websiteCó 3 cách để xác định liệu URL đã được Google lập chỉ mục hay chưa: Bạn có thể sử dụng lệnh site:url để kiểm tra xem đường dẫn đã được index hay chưa. Ví dụ:
site:domain Lệnh kiểm tra index Một cách đơn giản để kiểm tra index 1 trang đó chính là gõ thẳng tiêu đề bài viết hoặc sử dụng lệnh inurl:tieu-de-url vào ô tìm kiếm của Google. Nếu URL đã được lập chỉ mục, trang web của bạn sẽ hiện ra. Kiểm tra xem URL của bạn có được lưu trong bộ nhớ đệm của Google hay không với cú pháp cache:URL. Nếu hiển thị kết quả, chứng tỏ URL đã được index. Thời gian ghi trong URL chính lần gần nhất Google lập chỉ mục trang web. Google có thể thu thập dữ liệu về 1 trang nhưng chưa chắc đã index trang đó. Gary illyes đã giải thích về điều này qua dòng tweet
Theo Gary, thời gian ghi trong cache là khoảng thời gian trang được lập chỉ mục gần nhất, không phải thời gian trang được thu thập thông tin bởi các công cụ tìm kiếm. Googlebot có thể thu thập thông tin một trang, nhưng nếu trang đó không có nội dung mới hoặc nội dung không khác biệt với phiên bản cũ, nó sẽ cân nhắc sử giữ nguyên chỉ mục của phiên bản cũ. Sử dụng báo cáo về phạm vi chỉ mục trong Google search console để kiểm tra tổng thể index Website. Kiểm tra index với GSC Báo cáo đưa ra 4 loại trạng thái:
Cách kiểm tra tình trang index của URL trên Website trong Google search console:
Nếu công cụ cho biết URL chưa được lập chỉ mục hãy nhấn vào “yêu cầu lập chỉ mục” để gửi URL vào hàng chờ ưu tiên. Quá trình indexing là bước lớn thứ 2 tiếp ngay sau quá trình Crawling của Google hay các công cụ tìm kiếm. Google ngày càng khó tính hơn trong việc lựa chọn và lập chỉ mục các website. Vậy có những cách nào để cải thiện kết quả lập chỉ mục trên Website? Việc Index trên Google ngày càng trở nên khó khăn và mất nhiều thời gian hơn trước. Tham khảo hướng dẫn dưới đây để chắc chắn nội dung của bạn được index trên Google:
File Robots.txt, Robots meta tag, X-Robots-tagTrước khi nghĩ tới index bạn cần chắc chắn rằng các trình thu thập dữ liệu có thể dễ dàng truy cập vào những trang quan trong. Hãy kiểm tra lại các file robots.txt, robot-meta-tag, x-robots-tag xem bạn đã triển khai chuẩn hay chưa? Các file robots cần chú ý File Robot.txt nằm trong thư mục root của Website ngang cấp với thư mục index. File này hướng dẫn cho các trình thu thập dữ liệu biết nơi nào nên và không nên thu thập dữ liệu trên site. Sử dụng file robots.txt để chỉ cho các Crawler biết nơi nào cần ưu tiên thu thập dữ liệu, bảo vệ tải website. Không nên sử dụng File Robots.txt để chặn 1 trang xuất hiện trong chỉ mục của Google. Các trang bị chặn trong File Robots.txt vẫn có thể xuất hiện trong Google index nếu như có liên kết trỏ đến trang đó. Thẻ Meta Robots giúp chủ website kiểm soát cách Google lập chỉ mục ở cấp độ trang riêng lẻ. Theo như ví dụ trên, thẻ này đang chỉ thị các googlebot không lập chỉ mục trang trong kết quả tìm kiếm. X-Robots-tag giúp kiểm soát quá trình thu thập thông tin, index của các công cụ tìm kiếm ở cấp độ toàn website. Không giống như thẻ meta Robots chỉ áp dụng cho các tài liệu HTML, thẻ X-Robots-tag có thể áp dụng cho các tài liệu non-html như PDF. location ~* \.pdf$ { add_header X-Robots-Tag "noindex, follow"; } Bạn cần có quyền truy cập vào file htaccess hoặc tệp cấu hình máy chủ của tiêu đề website để điều chỉnh X-robots-tag. X-Robots-Tag có tác động đến toàn bộ trang web chứ không phải từng trang riêng lẻ. Thiết lập thẻ chính tắc (Canonical)Với các site ecommerce, 1 số thuộc tính như size, color sẽ sinh ra các URL khác nhau nhưng nội dung gần như giống nhau hoàn toàn. Thiết lập thẻ Canonical Sử dụng thẻ chính tắc (canonical) chính xác sẽ giúp các trình thu thập thông tin xác định nhanh hơn phiên bản chuẩn của nội dung. Google sẽ không lập chỉ mục các phiên bản phụ dẫn đến không sinh ra lỗi về Duplicate content. Bạn có thể kiểm tra xem Google đã xác định đúng trang canonical của Website chưa thông qua Google search console. Submit URL trong Google search consoleMột việc đơn giản giúp URL của bạn được thêm vào hàng chờ ưu tiên là gửi URL trong Google search console. Submit link trong google search console Đăng bài lên Google my businessNhững năm gần đây Google ưu tiên Google my business, việc đăng bài, share link lên Google my business sẽ thúc đẩy quá trình indexing thêm nhanh hơn. Sử dụng API của Google để thúc đẩy index
Tác dụng của Api chỉ mục Google:
Api chỉ mục của Google chỉ có tác dụng với 3 loại trang sự kiện, tuyển dụng, video tuy nhiên khi áp dụng với các lĩnh vực khác vẫn có tác dung. Sử dụng internal link hợp lýInternal link (liên kết nội bộ) giúp Google hiểu được cấu trúc cũng như độ phân tầng của Website. Internal link biểu thị mối quan hệ của Page với Website cũng như giữa các Page khác nhau. Sử dụng hợp lý, kết nối các bài viết, phần quan trọng lại với nhau sẽ khiến cho Google bot dễ dàng trong việc đánh giá và phân tích nội dung website. Đảm bảo mật độ link hợp lý giữa các phần trên Website để dòng chảy sức mạnh được phân bổ đúng những trang bạn mong muốn. Xây dựng backlink cùng chủ đềPagerank và Backlinks là cốt lõi thuật toán của Google trong xếp hạng từ khóa. Backlink giúp Google tìm kiếm, khám phá các website mới trên internet. Backlink truyền 1 phần độ uy tín cho website được trỏ tới. Website của bạn sẽ được index nhanh hơn nếu như có các Backlink từ những trang có độ uy tín (authority) cao. Submit Sitemap WebsiteSau khi tạo sơ đồ trang web hãy gửi sitemap này qua công cụ submit sitemap trong Google search console. Nhớ rằng sitemap bao gồm những URL quan trọng mà bạn muốn các trình thu thập thông tin index trong cơ sở dữ liệu. Bạn không cần trực tiếp làm điều này, các công cụ như Yoast SEO, Rank Math đều có sẵn công cụ tự động giúp bạn tạo sitemap. Submit sitemap Share socialGoogle có thể truy cập firehose của twitter hay các social phổ biến khác nên các nội dung được chia sẻ trên các mạng xã hội sẽ có tỷ lệ lập chỉ mục cao hơn các bài viết không được chia sẻ. Mặt khác, tín hiệu mạng xã hội sẽ báo hiệu cho Google biết về độ phổ biến của nội dung đó trên internet qua đó thúc đẩy quá trình index. Thêm #hashtag trên twitter hay các mạng xã hội khác để phân loại rõ chủ đề nội dung. Ghi chú
Nguồn tham khảo trong bài viết: Moz
|