star star star star star

Google DeepRank: Thuật toán tối ưu kết quả tìm kiếm

DeepRank/BERT Google Google Algorithm search thuật toán Google Tìm kiếm
avt
hoangquinhnhu
26 tháng 10, 2022  

Quá trình hình thành thuật toán DeepRank được mô tả kỹ lưỡng thông qua một video tường thuật đầy đủ cách thức hoạt động của việc tìm kiếm trên cỗ máy tìm kiếm Google – Google Search Engine.

Google đang hé lộ chi tiết mới về cách thức họ hình thành thuật toán cho DeepRank – thành tố quyết định hiển thị kết quả tìm kiếm liên quan dựa trên sự hiểu biết về ngôn ngữ như người bình thường.

1. DeepRank/BERT là gì

dr-0
DeepRank

DeepRank là một trong những chủ đề chính trong video mới nhất của Google lý giải cách người ta tìm kiếm, bên cạnh các khía cạnh của việc tìm kiếm trong video về cách Google phát triển, thử nghiệm và công nhận các lần cập nhật của mỗi thuật toán – Google algorithm.

DeepRank được ra mắt vào năm 2019 với cái tên BERT – tên gọi được lấy cảm hứng từ phương thức học hỏi sử dụng BERT và khía cạnh xếp hạng của việc tìm kiếm. Nói một cách khác, DeepRank là một tích hợp của BERT vào Google Search, nhưng không hẳn đơn giản như vậy.

DeepRank được xây dựng trên khả năng học hỏi và xử lý ngôn ngữ sẵn có của Google. Khả năng xử lý ngôn ngữ tự nhiên cho phép người tìm kiếm nhập những câu hỏi của mình vào máy như thể họ đang trò chuyện với một người bạn qua tin nhắn. 

Google Search - DR
Google Search

Google đã tìm cách cải tiến khả năng này trong suốt 20 năm, bắt đầu bằng việc hiểu đúng chính tả và hiểu các từ đồng nghĩa. Khả năng học hỏi của bộ máy Google đã được phát triển trong suốt 10 năm. BERT càng cải tiến khả năng này của thuật toán tìm kiếm trong việc xử lý các câu hỏi của người tìm kiếm. 

Xếp hạng kết quả tìm kiếm đã có nhiều cải thiện trong 2 thập kỷ. Nhưng trước khi có BERT, thuật toán không thể hiểu được ngụ ý tinh tế của ngôn ngữ như con người chúng ta. DeepRank là dấu hiệu đầu tiên cho thấy Google Search đã bước đầu hiểu được mối quan hệ giữa người với người thông qua ngôn ngữ. Mục đích cuối cùng là nó được thiết kế sao cho chúng ta – những người dùng –  cảm thấy cỗ máy này có trực giác và nó hiểu được điều chúng ta muốn nói.

2. Phát triển và thử nghiệm DeepRank

Việc nhận ra và hiểu được các ngụ ý tinh tế của ngôn ngữ là khả năng tự nhiên của con người. Nhưng đối với máy móc, đây là một trở ngại lớn lao. DeepRank được coi là giải pháp cho điều này. 

DeepRank-DR-Vd
Ví dụ về cách xử lý ngôn ngữ thường

Thuật toán tìm kiếm của Google thường phớt lờ những từ theo thuật toán là những từ dừng không cần thiết và loại bỏ chúng khỏi câu hỏi. Qua một thời gian, Google học được rằng những từ đó đóng vai trò quan trọng trong việc truyền tải những gì con người muốn nói. Với DeepRank, người dùng có thể dùng những câu hỏi một cách tự nhiên mà không phải lo lắng cỗ máy tìm kiếm không hiểu ý họ. 

Một ví dụ được mô tả trong video là câu hỏi “Nên làm nóng lò nướng bao nhiêu độ trước khi bỏ cá vào?”. Không có DeepRank, thuật toán của Google vẫn cho ra một số thông tin hữu ích, nhưng bản thân thuật toán cũng bối rối trước câu hỏi. Như hình bên dưới chứng minh, thuật toán không có hỗ trợ của DeepRank đưa các kết quả về công thức về bánh. Giải thích: câu hỏi nguyên văn là “What temperature should you pre-heat your oven to when cooking fish?”. Thuật toán thường nhận thấy từ cooking tương đồng với cookie – bánh, nên cũng hiển thị kết quả về nó. Nhưng với DeepRank, thuật toán hiểu ý chính của câu hỏi là về cá (Fish), nên đã ẩn kết quả liên quan đến bánh.

DeepRank-Vd
Xử lý ngôn ngữ không có DeepRank
DeepRank-Vd2
Xử lý ngôn ngữ có DeepRank

Một ví dụ nữa về ứng dụng của DeepRank trong thuật toán tìm kiếm là câu hỏi “Tôi có thể lấy thuốc dùm người khác ở hiệu thuốc” (Ở Mỹ, một số loại thuốc phải có toa của bác sĩ và người lấy thuốc phải chứng minh mình là người được kê toa đó mới lấy được thuốc).

Hai kết quả trong hình dưới đây cho thấy sự ứng dụng của DeepRank. Bên trái là kết quả được hiểu tường tận nhờ có Deepank, trong khi bên phải là kết quả chung chung về việc lấy thuốc theo toa. 

DeepRank-Vd3
Xử lý ngôn ngữ với DeepRank (2)

DeepRank có thể là giải pháp cho việc hiểu ngôn ngữ của thuật toán tìm kiếm, nhưng để BERT hoạt động trơn tru với quá trình tìm kiếm là không dễ – theo Google. Việc thử nghiệm DeepRank kéo dài hàng tháng trời, như video đã chứng minh. Những cảnh hậu trường cho thấy các kỹ sư phụ trách Google Search Engine phân tích kỹ lưỡng mỗi một câu hỏi để quyết định xem liệu DeepRank có thể giúp được kết quả tìm kiếm tốt hơn hay làm chúng tệ đi.

Mỗi một thay đổi về việc tìm kiếm, dù lớn hay nhỏ, đều bị đặt dưới sự soi xét gắt gao. Tuy nhiên, quỹ thời gian nghiên cứu dự án của các kỹ sư là hữu hạn. Ngay cả khi trong quá trình thử nghiệm, DeepRank vẫn đòi hỏi một sức mạnh vi tính khổng lồ. Nếu nhóm phụ trách không thể đặt được tiến độ như mong đợi, tài nguyên máy tính phải được tái cơ cấu sang một dự án khác.

Đoạn video còn nhiều phân cảnh hậu trường của buổi họp trình bày tiến độ của DeepRank trước ủy ban ra mắt sản phẩm của Google. Uỷ ban sản phẩm của Google đã chấp nhận điểm đổi mới, nên sự vui mừng của các kỹ sư là điều dễ hiểu.

Nếu bạn muốn chứng kiến quá trình các kỹ sư phải trải qua để các cập nhật và thay đổi họ đề nghị được thông qua, đoạn video này có lẽ là nguồn thông tin tốt nhất đến thời điểm hiện tại. Video đầy đủ dưới đây. Phần về quá trình xử lý ngôn ngữ và DeepRank bắt đầu ở mốc 42 phút.  

Nguồn tham khảo: https://www.searchenginejournal.com/google-deeprank/386563/