Bài báo: "𝗫𝗟𝗠𝗥𝟰𝗠𝗗: 𝗡𝗲𝘄 𝗩𝗶𝗲𝘁𝗻𝗮𝗺𝗲𝘀𝗲 𝗗𝗮𝘁𝗮𝘀𝗲𝘁 𝗮𝗻𝗱 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸 𝗳𝗼𝗿 𝗗𝗲𝘁𝗲𝗰𝘁𝗶𝗻𝗴 𝘁𝗵𝗲 𝗖𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 𝗼𝗳 𝗗𝗲𝘀𝗰𝗿𝗶𝗽𝘁𝗶𝗼𝗻 𝗮𝗻𝗱 𝗣𝗲𝗿𝗺𝗶𝘀𝘀𝗶𝗼𝗻 𝗶𝗻 𝗔𝗻𝗱𝗿𝗼𝗶𝗱 𝗔𝗽𝗽𝗹𝗶𝗰𝗮𝘁𝗶𝗼𝗻𝘀 𝗨𝘀𝗶𝗻𝗴 𝗟𝗮𝗿𝗴𝗲 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗠𝗼𝗱𝗲𝗹𝘀"

Người thực hiện:

- Nguyễn Ngọc Qúi- Bộ môn Môi trường ảo và phát triển Game

Người hướng dẫn:

- Thầy Nguyễn Tấn Cầm- Khoa Kĩ thuật Thông tin

- Thầy Nguyễn Văn Kiệt- Khoa Kĩ thuật Thông tin

Tóm tắt bài báo:

Google Play và các nền tảng ứng dụng khác có đa dạng ứng dụng Android và các siêu dữ liệu của chúng. Trong số các siêu dữ liệu này, thông tin mô tả và chính sách bảo mật giúp giải thích chức năng của ứng dụng. Chúng cũng mô tả quyền của ứng dụng, đặc biệt là những quyền liên quan đến thông tin nhạy cảm. Phát hiện sự không nhất quán giữa mô tả của ứng dụng, thông tin bảo mật và quyền được trích xuất từ mã nguồn ứng dụng giúp người dùng quyết định liệu họ có cài đặt và sử dụng ứng dụng hay không. Trong nghiên cứu này, chúng tôi đề xuất một phương pháp mới dựa trên một mô hình ngôn ngữ được huấn luyện trước để phát hiện sự không nhất quán giữa quyền được trích xuất từ mô tả ứng dụng, chính sách bảo mật và quyền được trích xuất từ mã nguồn ứng dụng (tập tin APK). Công trình liên quan tập trung vào các mô hình của các bộ dữ liệu quy mô lớn, đặc biệt là cho các ngôn ngữ có tài nguyên phong phú như tiếng Anh. Tuy nhiên, một ngôn ngữ có tài nguyên thấp, cụ thể là tiếng Việt, cần có nhiều bộ dữ liệu hơn cho nhiệm vụ này. Để giải quyết vấn đề này, chúng tôi đề xuất bộ dữ liệu ViDPApp (Mô tả và Chính sách Bảo mật của Ứng dụng trên các miền tiếng Việt) - một bộ dữ liệu được gán nhãn thủ công với hơn 12.000 câu có độ đồng thuận giữa các người gán nhãn (IAA) trên 85%. Ngoài ra, chúng tôi đề xuất XLMR4MD, một framework sử dụng các mô hình ngôn ngữ lớn, vượt trội hơn các mô hình học máy khác (LSTM, Bi-GRU-LSTM-CNN, WikiBERT, DistilBERT, mBERT và PhoBERT). Framework đạt được độ đo F1 tốt nhất với 84,04% trong việc phát hiện sự không nhất quán giữa quyền của ứng dụng Android và mô tả. Khung này có thể được tinh chỉnh cho 100 ngôn ngữ khác nhau, từ đó phát triển cho các ngôn ngữ có tài nguyên thấp giống như tiếng Việt. Bộ dữ liệu này có sẵn cho mục đích nghiên cứu.

--------------------------------------

"Em xin gửi lời cảm ơn chân thành nhất đến Thầy Nguyễn Tấn Cầm và Thầy Nguyễn Văn Kiệt. Bằng lòng thành và sự tận tâm mà hai Thầy đã dành cho chúng em trong quá trình hướng dẫn, chỉ ra những hạn chế quan trọng trong quá trình nghiên cứu. Sự hỗ trợ của hai Thầy là nguồn động viên lớn lao, giúp em vượt qua những thách thức và hoàn thành công việc nghiên cứu một cách tốt nhất. Em xin chân thành tri ân sự hướng dẫn và những kiến thức quý báu mà hai Thầy đã truyền đạt cho em. Một lần nữa em xin gửi lời cảm ơn đến hai Thầy rất nhiều!"

431739670 843021217863884 5003389288286229975 n