Các nhà phát triển tiết lộ một phương pháp dựa trên GPT-4 mới để tự đánh giá các LLM, đạt được 80% sự đồng ý với đánh giá của con người


Trong một loạt bài viết gần đây thảo luận về việc đánh giá các LLM , người ta đã nhấn mạnh rằng khả năng mở rộng và hiệu quả chi phí đã dẫn đến việc áp dụng phương pháp so sánh GPT-4. Điều này liên quan đến việc sử dụng một mô hình để đánh giá các câu trả lời khác nhau cho cùng một câu hỏi, chọn câu trả lời tốt nhất để tạo ra một hệ thống xếp hạng. Như đã đề cập trước đó, phương pháp này có những hạn chế đáng chú ý. Những người tạo ra xếp hạng LMSYS.org , những người đã giới thiệu phương pháp này cách đây vài tháng, hiện đã quyết định thay thế nó bằng một phương pháp đánh giá mới.
Trong suốt quá trình làm việc, nhóm đã thu thập hàng chục nghìn câu trả lời thực của con người so sánh sở thích cho các câu trả lời khác nhau. Tập dữ liệu mở rộng này cho phép họ hiểu chính xác hơn về những ưu và nhược điểm liên quan đến từng phản hồi. Phương pháp đánh giá mới vẫn dựa trên GPT-4, sử dụng tự động hóa và khả năng mở rộng. Nó có sẵn cho tất cả mọi người ở một mức giá phải chăng.
Để đảm bảo tính công bằng trong quá trình đánh giá bằng GPT-4, chúng tôi đã giải quyết những thách thức sau:
- Ước tính sai lệch do ưu tiên vị trí.
- Có xu hướng dài dòng, thích câu trả lời dài hơn mà không xem xét chất lượng của chúng.
- Xu hướng tự khẳng định, trong đó sở thích nghiêng về câu trả lời của chính mô hình hoặc mô hình được đào tạo về chúng.
- Khả năng suy luận hạn chế khi đánh giá các câu hỏi toán học và logic.
Dưới đây là một số hình ảnh minh họa của 80 câu hỏi đã được thẩm định. Đối với mỗi nhóm trong số ba nhóm, có hai phần cho cùng một câu hỏi. Bạn có thể xem tất cả các câu hỏi, tất cả các câu trả lời của mô hình và so sánh theo cặp giữa hơn 20 mô hình trên một trang web chuyên dụng ( https://huggingface.co/spaces/lmsys/mt-bench ). Như thường lệ, phần Lý luận và Mã hóa chứa các ví dụ hấp dẫn nhất. Sau khi thực hiện nhiều giải pháp khác nhau để giảm thiểu những vấn đề này, các tác giả phát hiện ra rằng các mô hình ngôn ngữ mạnh mẽ như GPT-4 phù hợp rất tốt với sở thích của con người, đạt được hơn 80% sự đồng ý trong đánh giá. Điều này có nghĩa là đánh giá của mô hình trùng khớp với xếp hạng của con người trong 80% trường hợp, mức độ đồng ý có thể so sánh với hai người đánh giá con người khác nhau làm việc trên cùng một nhiệm vụ. OpenAI cũng đã báo cáo rằng ngay cả đồng tác giả của một bài báo, những người cộng tác chặt chẽ, cũng đồng ý trong 82-86% trường hợp.
Điểm chuẩn này cho thấy các mô hình khác nhau rõ rệt như thế nào trong các nhóm câu hỏi khác nhau. Khoảng cách lớn nhất là về lý luận và mã hóa, nơi cấp độ của các mô hình vượt xa GPT-4. Tuy nhiên, các mô hình có thể được sử dụng trong cả nhập vai và viết văn bản thông thường. Các tác giả đã xuất bản các mô hình Vicuna v1.3 mới với kích thước từ 7 đến 33 tỷ tham số tại đây https://github.com/lm-sys/FastChat/tree/main#vicuna-weights .Điều quan trọng cần lưu ý là mặc dù đây không phải là một cách đánh giá “hoàn hảo”, nhưng nó thể hiện một sự cải tiến đáng kể so với các phương pháp trước đó. Các tác giả hiện đang nhắm đến việc mở rộng tập dữ liệu của họ để bao gồm 1000 câu hỏi thay vì 80 và họ đang tích cực làm việc để tinh chỉnh các lời nhắc nhằm giảm sai lệch trong ước tính GPT-4. Họ xem xét hai đánh giá khách quan hơn: một đánh giá dựa trên bình chọn của người thật (được gọi là “đấu trường”, nơi các người mẫu thi đấu) sử dụng điểm Elo và một đánh giá khác dựa trên dự đoán từ điểm chuẩn MMLU .
Một sự thật hấp dẫn khác là mẫu GPT-4 là mẫu duy nhất duy trì chất lượng khi trả lời câu hỏi thứ hai. Điều này hơi gây tranh cãi vì hai lý do: 1) Mô hình vẫn tự đánh giá 2) Mặc dù sự khác biệt là không đáng kể, nhưng nó cho thấy các mô hình khác không phù hợp như thế nào khi tuân theo các hướng dẫn và hộp thoại nhiều lượt. Tăng cường so sánh mô hình với GPT-4
Với sự xuất hiện gần đây của các mô hình ngôn ngữ khác nhau như Vicuna, Koala và Dolly, việc thực hành so sánh các mô hình sử dụng GPT-4 đã trở nên phổ biến. Một lời nhắc duy nhất được cung cấp khi hai câu trả lời cho cùng một câu hỏi, một từ mô hình A và một từ mô hình B, được đưa vào. Sau đó, những người đánh giá được yêu cầu xếp hạng các câu trả lời theo thang điểm từ 1 đến 8, với 1 cho biết mô hình A tốt hơn đáng kể, 8 cho mô hình B và 4-5 cho thấy kết quả hòa. Điểm số 2-3 và 6-7 biểu thị một “mô hình tốt hơn”.
Có vẻ hợp lý khi hoán đổi mô hình A và B sẽ không ảnh hưởng đáng kể đến điểm số (ví dụ: 7 trở thành 2, 8 trở thành 1) và tính ưu việt nhất quán của một mô hình sẽ dẫn đến chiến thắng của mô hình đó. Tuy nhiên, hiện tượng “thiên vị vị trí” phát sinh, trong đó mô hình có xu hướng gán điểm số cao hơn thường xuyên hơn cho mô hình A (một). Xu hướng này dự kiến sẽ thể hiện tính đối xứng xung quanh điểm giữa 4-5, vì các mẫu dấu nhắc được xáo trộn ngẫu nhiên. Đánh giá của con người giải thích cho sự thiên vị này để đảm bảo sự công bằng.
Trong một nghiên cứu sâu sắc được thực hiện bởi nhóm tại HuggingFace, họ đã đánh giá câu trả lời của bốn mô hình cho 329 câu hỏi khác nhau. Trong số những phát hiện thú vị, nghiên cứu đã tiết lộ những điều sau:
- Xếp hạng của bốn mô hình dựa trên so sánh theo cặp là nhất quán giữa đánh giá của con người và GPT-4, mặc dù đã quan sát thấy các khoảng cách xếp hạng Elo khác nhau. Điều này chỉ ra rằng mô hình có thể phân biệt giữa câu trả lời tốt và xấu nhưng gặp khó khăn với các trường hợp ranh giới ít phù hợp với đánh giá của con người.
- Thật thú vị, mô hình đã xếp hạng các câu trả lời từ các mô hình khác, đặc biệt là những mô hình được đào tạo về câu trả lời GPT-4, cao hơn so với câu trả lời thực của con người.
- Có mối tương quan cao (Pearson=0,96) giữa điểm số GPT-4 và số lượng mã thông báo duy nhất trong phản hồi. Điều này cho thấy rằng mô hình không đánh giá chất lượng của câu trả lời, nhấn mạnh sự cần thiết phải giải thích thận trọng.
Những phát hiện này nhấn mạnh tầm quan trọng của việc đánh giá cẩn thận khi sử dụng GPT-4 để so sánh mô hình. Mặc dù mô hình có thể phân biệt giữa các câu trả lời ở một mức độ nào đó, nhưng các đánh giá của nó có thể không phải lúc nào cũng phù hợp hoàn hảo với phán đoán của con người, đặc biệt là trong các tình huống nhiều sắc thái. Điều quan trọng là phải thận trọng và xem xét các yếu tố bổ sung khi chỉ dựa vào điểm số GPT-4. Bằng cách tinh chỉnh lời nhắc và kết hợp các đánh giá đa dạng, các nhà nghiên cứu nhằm mục đích nâng cao độ tin cậy và độ chính xác của các ước tính GPT-4.
Bài báo được viết với sự hỗ trợ của cộng đồng kênh telegram .