Phương pháp biên tập của Chọn Mã

Chọn Mã sản xuất hơn 100.000 trang nội dung tiếng Việt — từ trang Cấp hàng hóa (Commodity, mã 8 chữ số, mức chi tiết nhất) tới trang tổng quan ngành. Để giữ chất lượng ổn định ở quy mô đó, chúng tôi vận hành quy trình ba lớp: mô hình ngôn ngữ tạo bản nháp → kiểm tra tự động bằng validator → biên tập viên người duyệt các trang quan trọng.

Trang này mô tả chi tiết quy trình, các loại nội dung, và cam kết minh bạch về trạng thái biên tập của từng trang. Mục tiêu là để bạn — người đọc — biết rõ "ai đang nói chuyện với mình" trên mỗi trang Chọn Mã.

Ba luồng nội dung (Lane A / B / C) #

Chúng tôi chia nội dung thành ba luồng theo mức độ rủi ro và độ chi tiết cần thiết:

Luồng A — Trang dài, chuyên sâu: bao gồm trang ngành (/nganh/<ten>), trang tình huống nghiệp vụ (/tinh-huong/<ten>), trang hướng dẫn (/huong-dan/<ten>). Mỗi trang 600–1500 từ, có cấu trúc nhiều mục, FAQ, và liên kết tới các mã UNSPSC liên quan. Đây là các trang có giá trị SEO cao nhất và được biên tập viên người duyệt thủ công trước khi xuất bản.

Luồng B — Trang Cấp ngành (Segment), Cấp nhóm (Family), Cấp lớp (Class), Hub: 300–600 từ, mô tả cấp phân loại và liệt kê các mã con tiêu biểu. Các trang này được sinh tự động bằng LLM với template chặt chẽ, validator kiểm tra cấu trúc và tham chiếu mã. Biên tập viên người duyệt mẫu (review theo lô).

Luồng C — Trang Cấp hàng hóa (Commodity, mã 8 chữ số): 50–150 từ. Mỗi trang là một định nghĩa ngắn, thuật ngữ tiếng Anh giữ trong ngoặc khi dịch tiếng Việt. Số lượng lớn (~100k trang) → không thể duyệt thủ công 100%; chúng tôi dùng kiểm tra mẫu ngẫu nhiên + phản hồi từ người dùng (báo lỗi).

Bốn trạng thái biên tập #

Mỗi trang Chọn Mã ở một trong bốn trạng thái, hiển thị công khai ở chân trang chi tiết:

  • Bản nháp AI (ai_draft): Mới sinh tự động bởi LLM, đã qua validator. Chưa có người đọc. Có thể hiển thị nhưng đánh dấu rõ "chưa kiểm duyệt".
  • AI nháp không đạt (ai_draft_invalid): Validator phát hiện lỗi cấu trúc / tham chiếu / thuật ngữ. Trang bị giữ ở trạng thái nội bộ, không công bố. Sẽ được sinh lại hoặc biên tập viên sửa tay.
  • AI đã duyệt (ai_reviewed): Biên tập viên người đã đọc, xác nhận chất lượng đủ tốt, không sửa hoặc chỉ sửa nhỏ.
  • Người biên tập (human_edited): Biên tập viên viết lại đáng kể hoặc soạn từ đầu. Áp dụng cho các trang trust (như trang này), hướng dẫn nghiệp vụ chuyên sâu, và các trang có phản hồi cải tiến từ người dùng.

Các trang chỉ được công bố ra công chúng (publish_state='published') khi trạng thái biên tập là AI đã duyệt hoặc Người biên tập. Bản nháp AI chưa duyệt KHÔNG xuất hiện trên sitemap và không được công cụ tìm kiếm lập chỉ mục.

Validator tự động #

Trước khi một bản nháp LLM được lưu, hệ thống chạy bộ validator. Các luật chính:

  • Tham chiếu mã: nếu nội dung nhắc tới mã 8 chữ số, mã đó phải tồn tại trong bộ chuẩn UNSPSC phiên bản hiện hành (mặc định UNv260801). Mã hư cấu → loại.
  • Cấu trúc bắt buộc: trang Luồng A phải có ≥ 2 mục ## Section và ≥ 3 mục FAQ. Luồng B phải có phần liệt kê mã con. Luồng C phải có một câu định nghĩa ngắn.
  • Thuật ngữ cấm: không dùng emoji, không dùng câu khẳng định tuyệt đối ("chắc chắn", "duy nhất", "luôn luôn") trong các tuyên bố nghiệp vụ.
  • Độ dài tối thiểu: tránh trang rỗng / hai dòng. Luồng A ≥ 600 từ, B ≥ 300, C ≥ 30.

Vi phạm bất kỳ luật nào → trang vào trạng thái ai_draft_invalid và đi vào hàng đợi sinh lại / biên tập tay.

Vòng lặp phản hồi #

Quan trọng nhất: chúng tôi không coi nội dung là tĩnh. Mọi trang đều có nút "Báo lỗi" gửi thẳng vào hệ thống nội bộ. Mỗi tuần, biên tập viên xử lý hàng đợi báo lỗi: sửa nội dung sai, bổ sung thuật ngữ ngành, làm rõ định nghĩa khó hiểu.

Khi một trang được sửa tay, trạng thái chuyển sang Người biên tập — và không quay về AI đã duyệt kể cả khi pipeline LLM được chạy lại. Sửa của con người luôn được tôn trọng.

Xem thêm về dữ liệu gốc tại Nguồn dữ liệu.