Sinh viên nghiên cứu ứng dụng mạng tích chập nơ ron trích xuất thông tin từ dữ liệu y văn

Đề tài khoa học của sinh viên Nguyễn Đức Thắng giúp các nhà nghiên cứu dễ dàng truy xuất nhanh thông tin liên quan đến bệnh và thuốc từ nguồn dữ liệu y văn khổng lồ…
Sinh viên nghiên cứu ứng dụng mạng tích chập nơ ron trích xuất thông tin từ dữ liệu y văn
Sinh viên nghiên cứu ứng dụng mạng tích chập nơ ron trích xuất thông tin từ dữ liệu y văn

Nguyễn Đức Thắng sinh viên năm thứ 3 khoa Công nghệ thông tin, Trường Đại học Công nghệ vẫn miệt mài thực hiện đề tài “Nâng cao chất lượng liên kết thực thể sinh học bằng cách xếp hạng lại dựa trên mạng nơ-ron tích chập”.

Đề tài dưới sự hướng dẫn của TS. Đặng Thanh Hải với những kết quả đạt được, đề tài đã đạt giải Ba sinh viên nghiên cứu khoa học trường Đại học Quốc gia Hà Nội (ĐHQGHN).

Đam mê thuật toán từ khi còn ngồi ghế trường THPT 

Từng đạt giải nhất môn Tin học cấp quốc gia khi còn là học sinh THPT, Nguyễn Đức Thắng luôn có sẵn niềm đam mê tìm hiểu, khám phá và nghiên cứu các thuật toán.

 “Cho đến khi vào học tại Trường Đại học Công nghệ (ĐHQGHN), thuật toán không chỉ là niềm đam mê của bản thân mà em còn mong muốn áp dụng những thuật toán đó vào cuộc sống. Ngay từ lúc đó, em đã quyết định tham gia vào phòng thí nghiệm mục tiêu Tin sinh y học do TS. Đặng Thanh Hải phụ trách.

Việc kết hợp Tin học vào lĩnh vực Y Sinh là xu hướng mới và thú vị nên Thắng muốn tìm hiểu thêm về lĩnh vực này. Và đề tài “Enhancing biomedical entity linking with re-ranking based on convolution neural networks” (“Nâng cao chất lượng liên kết thực thể sinh học bằng cách xếp hạng lại dựa trên mạng nơ-ron tích chập”) là cơ hội để Thắng thỏa niềm đam mê.

Dưới sự hướng dẫn của TS. Đặng Thanh Hải, sinh viên Nguyễn Đức Thắng đã giải quyết được một trong những bài toán thực tế, quan trọng trong việc trích xuất thông tin từ dữ liệu y văn.

 

Đức Thắng cho biết, hiện nay trong lĩnh vực khai phá dữ liệu y văn, có nhiều nhóm nghiên cứu trên thế quan tâm đến bài toán liên kết tên thực thể trong dữ liệu y văn, ví dụ như mô hình DNORM vào năm 2013; TaggerOne vào năm 2016 của Leaman và các cộng sự từ Trung tâm Công nghệ Tin Sinh học Hoa Kỳ; mô hình NormCo của Wright và các cộng sự vào năm 2019 từ Trung tâm Nghiên cứu trí tuệ nhân tạo của IBM và Đại học California San Diego…

Dựa trên việc nghiên cứu những mô hình này, đề tài khoa học của em đã đề xuất phương pháp truy xuất nhanh thông tin liên quan đến bệnh và thuốc từ nguồn dữ liệu y văn khổng lồ (PubMed là một ví dụ, hiện có gần 28 triệu bài báo khoa học, cứ 1 phút có 2 bài báo mới được thêm vào). Từ đó sẽ góp phần giảm thiểu chi phí và thời gian cho các nhà nghiên cứu liên quan.

Là người trực tiếp hướng dẫn Nguyễn Đức Thắng, TS. Đặng Thanh Hải chia sẻ, đề tài có khả năng ứng dụng ngay trong hệ thống trích xuất thông tin từ dữ liệu y văn bằng tiếng Anh và đối với hệ thống tiếng Việt trong tương lai. Dựa trên những ý nghĩa khoa học và tính thực tiễn của đề tài, Đức Thắng đã hoàn thiện bản thảo bài báo để gửi đăng tạp chí quốc tế uy tín.

Tính chính xác cao hơn so với một số mô hình trên thế giới

Đề tài tập trung vào giai đoạn “liên kết thực thể sinh học” trong bài toán trích xuất thông tin từ dữ liệu y văn. “Liên kết thực thể sinh học” là việc chuẩn hóa thực thể y sinh trong văn bản tới bộ định danh chuẩn của chúng được định sẵn trong cơ sở tri thức.

Theo đó, đề tài Đức Thắng nghiên cứu sẽ góp phần nâng cao độ chính xác của kết quả trong bước này. Hiện nay, trên thế giới cũng có nhiều nhóm đang nghiên cứu cùng với chủ đề của chàng sinh viên năm 3 này. Tuy nhiên đề tài của Đức Thắng đang có độ chính xác cao hơn so với một số mô hình sử dụng trên thế giới trong cùng một điều kiện so sánh.

Được biết, trong thời gian tới, Đức Thắng sẽ tiếp tục nghiên cứu để có thể cho ra một kết quả về độ chính xác tốt hơn nữa. “Và trong tương lai em sẽ tiếp tục nghiên cứu về pha khác như pha Nhận diện tên thực thể (Name-entity regconition), Trích xuất quan hệ (Relationship extraction) trong bài toán trích xuất thông tin y sinh từ các văn bản sinh học, để nâng cao hiệu quả trong lĩnh vực này” – Đức Thắng chia sẻ.

H. Anh 

Chủ đề :

khcn

 
List comment
 
 
Giống ngô nếp lai VNUA69 tăng năng suất, thu nhập cao cho bà con
icon

Việc thử nghiệm các giống ngô nếp lai mới, nhằm tìm ra những giống ngô nếp có năng suất, chất lượng cao, chống chịu sâu bệnh tốt để đưa vào cơ cấu sản xuất là vấn đề cần thiết.

 
 
Nghiên cứu Data Espresso đánh giá thông tin điện tử hàng hóa
icon

TS. Nguyễn Trường Thắng - Viện Công nghệ Thông tin – Viện Hàn lâm KHCN Việt Nam và cộng sự đã nghiên cứu hệ thống phần mềm Data Espresso để đánh giá thông tin điện tử hàng hóa trong hệ thống thương mại điện tử.

 
 
Sản xuất hạt lai F1 ngô nếp tím chứa chất oxy hóa có lợi cho sức khỏe con người
icon

Giống ngô nếp tím VNUA141 giàu anthocyanin - một trong những chất oxy hóa mang lại nhiều lợi ích cho sức khỏe con người do các nhà khoa học Học viện NNVN lai tạo được các chuyên gia đánh giá cao. 

 
 
Nghiên cứu module đèn LED tản nhiệt giúp tiết kiệm năng lượng
icon

TS. Bùi Hùng Thắng - Viện Khoa học vật liệu – Viện Hàn lâm Khoa học và Công nghệ Việt Nam và cộng sự đã nghiên cứu ra module đèn LED chiếu sáng công cộng tản nhiệt bằng chất lỏng cácbonnanô giúp tiết kiệm chi phí.

 
 
Nghỉ việc nhà nước, đôi vợ chồng trồng thành công cây cà gai leo trên vùng đất “gió Lào”
icon

Nghỉ việc nhà nước, vợ chồng anh Bình, chị Giang (Quảng Bình) đã làm giàu bằng cách lựa chọn trồng cây dược liệu cà gai leo ở vùng đất “gió Lào”, vừa hợp thổ nhưỡng, khí hậu, lại không lo gió bão tàn phá.

 
 
Chuyển đổi số góp phần phục hồi kinh tế sau đại dịch Covid-19
icon

Diễn đàn Cấp cao CNTT-TT - Ngày Chuyển đổi số Việt Nam 2020 được khai mạc tại Hà Nội do Hiệp hội Phần mềm và Dịch vụ CNTT Việt Nam, Cục Tin học hóa (Bộ TT&TT), Trung tâm Xúc tiến ĐT-TM&DL TP. Hà Nội phối hợp tổ chức.

 
Vắc xin Covid-19 thử nghiệm trên người Việt được sản xuất như thế nào?
icon

Ngày 10/12, vắc xin Covid-19 đầu tiên của Việt Nam được triển khai thử nghiệm lâm sàng trên người Việt với khoảng 60 tình nguyện viên tham gia và nếu thành công hứa hẹn mang lại giá trị phòng chống dịch cao.

 
Xây dựng hệ thống CSDL KH&CN cho địa phương: Còn nhiều thách thức
icon

Hệ thống cơ sở dữ liệu về KH&CN tại địa phương sẽ cung cấp đầy đủ thông tin cho các cá nhân, tổ chức, nhà nghiên cứu, nhà đầu tư trong việc nghiên cứu và ứng dụng tiến bộ công nghệ trong thực tiễn đời sống.

 
Vĩnh Phúc xây dựng cơ sở dữ liệu KH&CN để phục vụ phát triển kinh tế - xã hội
icon

Cơ sở dữ liệu khoa học và công nghệ tỉnh Vĩnh Phúc đã tổng hợp, đánh giá được đầy đủ hiện trạng nguồn nhân lực, vật lực, tiềm lực KH&CN tại địa phương.

 
Hoàn thiện hệ thống cơ sở dữ liệu KH&CN trong lĩnh vực nông nghiệp
icon

Mới đây, Bộ NN-PTNT đã tổ chức hội thảo thu thập, đăng ký, công bố thông tin khoa học và công nghệ, đồng thời giới thiệu phần mềm quản lý CSDL về thị trường KH&CN.