Thứ Bảy, 30 tháng 5, 2020

Ví dụ về cách viết tổng quan tình hình nghiên cứu liên quan vấn đề nghiên cứu

Tiếp theo bài viết "Tổng quan tình hình nghiên cứu, luận giải về mục tiêu và những nội dung nghiên cứu" (http://bitnetvn1.blogspot.com/2020/05/tong-quan-tinh-hinh-nghien-cuu-luan.html), 

Để minh họa cho kỹ thuật viết trong bài viết "Tổng quan tình hình nghiên cứu, luận giải về mục tiêu và những nội dung nghiên cứu", xin giới thiệu tới quý độc giả bài viết Tổng quan về tình hình nghiên cứu và luận giải mục tiêu của nghiên cứu của một đề tài cụ thể, với tên đề tài là "Nghiên cứu phát triển một số thuật toán phát hiện và phân loại phương tiện từ dữ liệu video giao thông". Bài viết tổng quan này đã vượt qua nhiều cấp độ review, được nhiều nhà khoa học góp ý, chỉnh sủa, tác giả đã sửa chữa và được các review đánh giá cao.

          Trong bài viết, tác giả đã viết thành 2 mục nội dung, bao gồm: nội dung 1 là "Một số phương pháp và công trình nghiên cứu liên quan"; nội dung 2 là hướng tiếp cận của nghiên cứu.
          Nội dug 1, đầu tiên tác giả giới thiệu khái quát về tình hình nghiên cứu, tiếp theo tác giả giới thiệu 4 công trình nghiên cứu tiêu biểu liên quan chặt chẽ với đề tài, cuối cùng tác giả giới thiệu 2 nhóm các giải pháp mà các nhà khoa học trên thế giới và Việt nam liên quan đến vấn đề phát hiện và phân loại phươn tiện giáo thông (nội dung trực tiếp của nghiên cứu). Tại mỗi công trình giới thiệu, tác giả giới thiệu cách làm của nhóm nghiên cứu, thành quả đạt được, đồng thời đánh giá những nhược nhiểm còn tồn tại liên quan đến vấn đề trực tiếp của nghiên cứu. Tại nội dung giới thiệu 2 phương pháp "phát hiện" và "phân loại" tác giả trình bày như một khảo sát đầy đủ nhiều công trình nghiên cứu, từ đó thấy được những khoảng trống cẩn cải tiến, cần cập nhật thêm các phương pháp mới để cải thiện độ chính xác, độ tin cậy và áp dụng cho những trường hợp cần giải quyết liên quan đến nghiên cứu.
          Nội dung 2,  tác giả nêu được khung làm việc, một số sơ đồ làm việc của nghiên cứu tổng thể cũng như nội dung chuyên sâu; tác giả cũng làm rõ những nội dung công việc liên quan đến đầu vào, đầu ra, nội dung khái quát quá trình làm việc; cuối cùng tác giả xác định rõ nhiệm vụ của nghiên cứu bao gồm 2 nhiệm vụ.
          Xin giới thiệu nguyên văn bài viết để các bạn tham khảo cách viết cho những nghiên cứu tương tự, tự rút ra những kinh nghiệm để kỹ thuật viết của mình được cải thiện hơn trong tương lai.

Để tài "Nghiên cứu phát triển một số thuật toán phát hiện và phân loại phương tiện từ dữ liệu video giao thông"


1. Một số phương pháp và công trình nghiên cứu liên quan

Trên thế giới, nhiều công trình nghiên cứu về hệ thống giám sát giao thông tự động đã công bố và có những kết quả xác định. Ví dụ như hệ thống đếm xe ô tô của Clement Chun Cheong Pang và cộng sự [8]; hệ thống phát hiện và phân loại xe dựa trên video của nhóm Guohui Zhang, trường đại học Washington [12]; hệ thống tích hợp phát hiện, theo dõi và phân loại cho mục đích giám sát video thông minh của Yigithan Dedeoglu [26], năm 2004.
Ở Việt nam gần đây, cũng đã có những công trình nghiên cứu về vấn đề này, một vài nghiên cứu đã triển khai ứng dụng hiệu quả trong công tác quản lý giao thông. Năm 2014 nhóm Phạm Hồng Quang, Tạ Tuấn Anh, xây dựng cấu trúc hệ thống giao thông thông minh và các quy chuẩn công nghệ thông tin, truyền thông, điều khiển áp dụng trong hệ thống giao thông thông minh tại Việt Nam thuộc đề tài KC01.14/11-15, Trung tâm Tin học và Tính Toán, Viện Hàn lâm KHCN Việt Nam. Năm 2014, Phạm Hồng Quang và cộng sự Công ty Cổ phần Phần mềm - Tự động hóa - Điều khiển đã Xây dựng mạng camera với hệ thống xử lý hình ảnh thông minh phục vụ điều khiển giao thông và giám sát an ninh thuộc đề tài KC03.DA06/11-15. Năm 2011, nhóm Trần Thanh Việt, Trần Công Chiến, Huỳnh Cao Tuấn, Nguyễn Hữu Nam, Đỗ Năng Toàn, Trần Hành đã công bố công trình nghiên cứu "Một kỹ thuật bám đối tượng và ứng dụng". Kỷ yếu hội thảo quốc gia "Những vấn đề nghiên cứu trọng điểm về công nghệ thông tin", lần thứ XIV, Đại học Cần Thơ.

1.1. Hệ thống điều khiển giao thông và giám sát an ninh

Nhóm nghiên cứu Phạm Hồng Quang (2014), Trung tâm Tin học và Tính Toán, Viện Hàn lâm KHCN Việt Nam cùng đồng nghiệp chủ trì Đề tài KC01.14/11-15 “Xây dựng cấu trúc hệ thống giao thông thông minh và các quy chuẩn công nghệ thông tin, truyền thông, điều khiển áp dụng trong hệ thống giao thông thông minh tại Việt Nam” [1] và Dự án SXTN mã số KC03.DA06/11-15 “Hoàn thiện tính năng hệ thống giám sát hình ảnh giao thông thông minh” [2] sử dụng các quá trình thu nhận dữ liệu từ Camera IP, truyền dẫn dữ liệu và xử lý ảnh, video thời gian thực áp dụng cho các hệ thống điều khiển giao thông và giám sát an ninh (Hình 1.9).
Quá trình xử lý ảnh được coi là bộ não xử lý của hệ thống. Yêu cầu của hệ thống phải xử lý được với dữ liệu hình ảnh có độ phân giải cao và chạy ở thời gian thực. Do đó quy trình xử lý hình ảnh phải được nghiên cứu và tối ưu hóa tại các bước để hệ thống cho ra kết quả đạt chất lượng như mục tiêu nhưng vẫn phải đảm bảo hiệu năng hệ thống theo thời gian thực.
Các nhà khoa học đã thiết kế mạng lưới camera và quy trình xử lý ảnh chụp được, nhằm nhận dạng biển số và đo tốc độ, phân loại xe, đo chiều dài xe, phát hiện các hành vi khác của phương tiện như dừng đỗ, đi sai làn đường...
Hệ thống đã được triển khai áp dụng trong tại cao tốc Cầu Giẽ - Ninh Bình. Có cả tất 22 camera đã được lắp đặt tại 11 vị trí khác nhau dọc tuyến đường cao tốc từ Km212+480 cho đến Km259+060. Tại mỗi vị trí lắp đặt, có 2 camera để giám sát theo 2 chiều đi khác nhau của đường cao tốc. Các camera được lắp đặt trên các khung giá long môn hoặc trên cột có tay vươn ở độ cao trên 6m.
Hình 1.9. Trạm nghiệp vụ xử lý phạt nguội vượt đèn đỏ ngã tư
Hệ thống xử lý ảnh đã đưa ra được ngày giờ và vị trí của các lượt đếm xe, biển số xe nhận dạng, tốc độ xe đo được, phân loại xe theo kích thước, cảnh báo sự kiện xe đi ngược chiều, xe dừng đỗ, xe đi vào đường cấm…từ nguồn hình ảnh video ghi được do các camera gửi về từ hiện trường.
Từ đây, các dữ liệu sẽ truyền về các cơ quan chức năng (cảnh sát giao thông, thanh tra giao thông) để phát hiện các xe đi quá tốc độ, lấn đường...và có thể in biên bản phạt nguội.
Tuy nhiên, camera mới chỉ hoạt động tốt ở thời điểm ánh sáng mạnh, còn vào thời điểm ban đêm hoặc chiều tối, độ chính xác nhận dạng biển số và đếm lượng xe có bị giảm. Khi mức độ dày đặc phương tiện được gia tăng, việc căn cứ vào một số đặc tính kỹ thuật khác về kích thước khối hỗn hợp phương tiện, phân tách và nhận dạng vẫn là vấn đề vẫn cần nghiên cứu tiếp tục.

1.2. Hệ thống phát hiện và phân loại xe dựa trên video

Năm 2007, nhóm Guohui Zhang, trường đại học Washington [12], đã phát triển một hệ thống phát hiện và phân loại xe dựa trên video (Video-based Vehicle Detection and Classification- VVDC). Hệ thống được phát triển nhằm mục đích thu thập thông tin các xe tải từ camera quan sát tầm rộng. Một vài thuật toán dựa trên thị giác máy tính được phát triển hoặc áp dụng để tách ra ảnh nền từ một chuỗi video, phát hiện ra hình dáng xe tải, xác định và loại bỏ bóng của xe, cuối cùng tính toán chiều dài xe dựa trên điểm ảnh rồi phân loại xe. Sự cẩn thận được yêu cầu nghiêm ngặt để xử lý các tác động tiêu cực do sự tắc nghẽn theo chiều ngang và độ rung nhẹ của máy ảnh. Những điểm ảnh thể hiện độ dài xe được mô tả nhằm phân biệt sự khác nhau tương đối giữa loại xe dài và xe ngắn.
Cấu trúc của hệ thống VVDC bao gồm 6 mô-đun: quay video trực tiếp, người dùng nhập liệu, xuất ảnh nền, phát hiện xe tải, loại bỏ bóng và phân loại xe dựa vào độ dài xe. Hình 1.10 thề hiện rõ chu trình của hệ thống. Hệ thống VVDC lấy những bức ảnh video kỹ thuật số hay những tín hiệu video trực tiếp làm dữ liệu đầu vào. Phần ảnh nền sẽ được tách ra từ video đầu vào và được cập nhật thường xuyên sao cho thích hợp với sự thay đổi của môi trường. Một khi hệ thống bắt đầu thu thập dữ liệu, nó giám sát các vòng lặp ảo để phát hiện xe tải. Bước loại bỏ bóng được áp dụng với từng chiếc xe đã phát hiện trước khi tính toán độ dài xe dựa trên những điểm ảnh. Cuối cùng một chiếc xe được xếp vào loại dài hay ngắn dựa trên độ dài tính toán qua điểm ảnh.

Hình 1.10. Cấu trúc hệ thống phát hiện và phân loại xe dựa trên video

 Thuật toán thực hiện trong hệ thống VVDC được cài đặt bằng Microsoft Visual C#, có khả năng xử lý tất cả loạt ảnh được số hóa cũng như những tín hiệu video trực tiếp trong thời gian thực. Hệ thống được thử nghiệm tại ba địa điểm với sự khác nhau về giao thông cũng như điều kiện môi trường. Kết quả thu được là độ chính xác để phát hiện ra xe lên đến trên 97%, và tỷ lệ lỗi khi đếm xe tải thấp hơn 9% trong cả ba lần thử nghiệm. Điều này chứng tỏ rằng việc phát triển phương pháp xử lý hình ảnh trên video nhằm phát hiện và phân loại trong nghiên cứu này là một giải pháp thay thế khả thi cho việc thu thập dữ liệu các loại xe tải.
Đánh giá hướng tiếp cận theo phương pháp của Guohui Zhang:
- Phát hiện đối tượng chuyển động bằng phương pháp trừ nền (BSM), cụ thể Guohui Zhang đã sử dụng phương pháp trung bình các khung hình để mô hình nền.
- Phát hiện biên đối tượng, tính toán độ dài để phân loại xe ô tô tải.
- Kết quả chủ yếu là phát hiện được xe tải, xác định và phân hoạch được sự khác biệt giữa 2-3 xe con nối tiếp nhau và xe tải dài.
- Chưa tiếp cận và nói đến việc nhận dạng và đếm số lượng xe máy, xe thô sơ và người đi bộ. Tham số giao thông trong điều kiện riêng có của Việt Nam đa dạng và đông đúc các phương tiện thì tiếp cận theo phương pháp Guohui Zhang chưa đáp ứng được yêu cầu nhiều thông tin của phương tiện chuyển động.

1.3. Hệ thống giám sát giao thông dựa trên độ dài

Năm 2010, nhóm nghiên cứu của Chung-Cheng Chiu và cộng sự [7], đã phát triển một hệ thống giám sát giao thông tự động nhận dạng và theo dõi ô tô dựa trên kích thước. Nghiên cứu của Chung-Cheng Chiu phát triển một hệ thống giám sát giao thông thời gian thực, bao gồm phát hiện, nhận dạng và theo dõi các phương tiện từ các ảnh chụp trên đường (Hình 1.11). Các ô tô chuyển động có thể được tự động tách từ các ảnh chụp liên tiếp bằng phương pháp phân đoạn đối tượng chuyển động.
Phương pháp phân đoạn và nhận dạng sử dụng chiều dài, chiều rộng và kích thước mui xe để phân loại các phương tiện như xe tải lớn/nhỏ, xe con hoặc các phương tiện lớn khác. Các đối tượng được phân đoạn có thể được nhận dạng và đếm tương ứng với các đặc tính khác nhau của chúng, tùy theo các phương pháp nhận dạng và theo dõi được đề xuất.
Hệ thống đã được thử nghiệm trên các đoạn đường, sử dụng nhiều cảnh đường phức tạp, dưới ảnh hưởng của nhiều điều kiện thời tiết khác nhau, từ đó thảo luận và chứng minh độ chính xác, khả năng đáp ứng nhanh của phương pháp này. Kết quả xác định phát hiện các loại xe, từ xe tải to đến các xe con, xe chuyên dùng mini,... có độ chính xác từ 90% đến 98%.
Giai đoạn đầu tiên, phân đoạn các ô tô chuyển động, sử dụng BSM. Các đối tượng chuyển động được phát hiện bằng cách lấy ảnh đầu vào trừ đi ảnh nền.
Giai đoạn thứ hai, các ô tô chuyển động được gán nhãn các thành phần kết nối để thu được các khung có đường biên. Các ô tô trong khối được phát hiện và phân đoạn trong các ô biên. Phương pháp này hiệu quả đối với việc phát hiện và phân đoạn các loại ô tô khác nhau trong khối trên dựa trên đặc điểm hình dạng của chúng, có thể phân thành hai hoặc nhiều hơn hai khối ô tô ràng buộc nhau.

Hình 1.11. Sơ đồ của hệ thống giám sát giao thông tự động
Cuối cùng, các phương pháp nhận dạng và theo dõi được áp dụng để xử lý cho mỗi xe. Hệ thống đề xuất có thể phân loại thành 5 loại xe ô tô, phát hiện luồng giao thông và tốc độ trung bình theo thời gian thực.
Đánh giá hướng tiếp cận của Chung-Cheng Chiu:
- Hệ thống dùng BSM để phát hiện đối tượng chuyển động, sử dụng độ dài  của các đối tượng, bao gồm chiều dài, chiều rộng, độ dài một số thuộc tính của xe ô tô để tiến hành nhận dạng và phân loại. Kết quả đã phân loại được một số loại xe ô tô như xe con, xe tải, xe bán tải, xe tải.
- Hệ thống đã sử dụng một CSDL kích thước xe (chiều dài, chiều rộng) để phân biệt một xe ô tô và các ô tô dính khối với nhau, từ đó phân giải các khối nhiều hơn một ô tô. Trong một số trường hợp như rất nhiều xe dính khối, hoặc che khuất tầm nhìn một phần thì việc phân giải các khối bị thất bại.
- Tuy vậy, hệ thống mới đề cập đến vấn đề phương tiện giao thông là ô tô, chưa đề cập đến các phương tiện khác như xe máy, phương tiện thô sơ khác.

1.4. Hệ thống giám sát tích hợp phát hiện, theo dõi, phân loại

Trong nghiên cứu của Yigithan Dedeoglu [26], đã đề xuất một hệ thống tích hợp phát hiện, theo dõi và phân loại (Hình 1.12) cho mục đích giám sát video thông minh.

Hình 1.12. Cấu trúc hệ thống tích hợp phát hiện, phân loại, theo dõi đối tượng
Hệ thống phát hiện đối tượng chuyển động đề cập đến ba phương pháp cơ bản đó là: trừ nền, thống kê và chênh lệch thời gian.
Về phân loại đối tượng chuyển động, Yigithan Dedeoglu đề cập đến phương pháp phân loại dựa trên hình chiếu đối tượng.
Đầu tiên, giai đoạn offline, xây dựng một CSDL hình chiếu mẫu dựa trên việc vector hóa khoảng cách từ trọng tâm đối tượng tới biên của hình dạng đối tượng. Bước này được thực hiện theo phương pháp thủ công.
Tiếp theo, giai đoạn online, từ kết quả phát hiện đối tượng chuyển động, rút trích hình chiếu các đối tượng theo vector hóa khoảng cách từ trọng tâm đối tượng đến biên của hình dạng đối tượng. So sánh dấu hiệu khoảng cách của tập đối tượng phát hiện được với dấu hiệu khoảng cách có trong tập mẫu, thỏa mãn một ngưỡng xác định, qua đó kết luận thông tin của đối tượng cần xác định.
Hình 1.13. Cấu trúc hệ thống phát hiện đối tượng chuyển động
Yigithan Dedeoglu sử dụng phương pháp trừ nền, thống kê, chênh lệch tạm thời để phát hiện tiền cảnh, hình 1.13. Về phân loại, Yigithan Dedeoglu sử dụng một cơ sở dữ liệu chứa các dấu hiệu khoảng cách của các đối tượng mẫu cho việc đối sánh và nhận dạng (hình 1.14).
Đánh giá hướng tiếp cận của Yigithan Dedeoglu:
- Hệ thống nghiên cứu của Yigithan Dedeoglu đề cập ba chức năng chính của một hệ thống giám sát tự động từ video: phát hiện, phân loại và theo dõi.
- Về phát hiện đối tượng chuyển động, Yigithan Dedeoglu sử dụng dựa trên BSM, dựa trên mô hình Gauss hỗn hợp. Tuy nhiên chưa đề cập chi tiết đến sự tác động của ánh sáng thay đổi, đặc biệt là với các ứng dụng giám sát ngoài trời.
- Về phân loại đối tượng chuyển động, Yigithan Dedeoglu sử dụng dựa trên độ dài khoảng cách hình chiếu đối tượng. Cách tiếp cận này tỏ ra hiệu quả trong nhiều trường hợp các đối tượng phát hiện được có hình dạng phức tạp, tức là có hình dạng không thuộc các hình dạng cơ bản như: hình chữ nhật, hình vuông, hình tròn... Tuy nhiên Yigithan Dedeoglu chưa đề cập đến các đặc trưng riêng của các phương tiện giao thông. Nếu phân tích riêng tới các đặc trưng của phương tiện giao thông như chiều dài, chiều rộng đối tượng, các đặc trưng đường viền, các đặc trưng đường biên ngang trên thân đối tượng,... hoặc chỉ số hóa các tập đối tượng so sánh, rút ngắn thời gian tính toán của hệ thống.
Hình 1.14. Lược đồ khái quát phân loại đối tượng dựa trên hình chiếu
(O là đối tượng, Dist là khoảng cách)

1.5. Phát hiện đối tượng

Bài toán phát hiện chuyển động đã được thế giới nghiên cứu từ rất sớm. Cho tới thời điểm hiện nay, đã có nhiều thuật toán phát hiện chuyển động được công bố [17]. Một số thuật toán mới được công bố trong những năm qua đã được chứng minh có độ chính xác tương đối cao, thời gian tính toán thấp và xử lý được môi trường biến động, nhiều đối tượng chuyển động. Theo các nghiên cứu trong [15], [17], [21], [23] bài toán phát hiện đối tượng được khái quát:
·        Đầu vào:
o   Các khung hình được trích chọn từ video
·        Đầu ra:
o   Ảnh nhị phân chứa các đối tượng chuyển động
o   Các thông số khác về ảnh: lưu lượng quang học, đường biên, đường biên, trọng tâm, khoảng cách.
·        Phương pháp tiếp cận:
o   Mô hình hóa nền (Background model)
o   Trừ nền (Background Subtraction)
o   Phương pháp thống kê (Statistical Methods)
o   Vi phân ảnh theo thời gian (Temporal Differencing)
o   Luồng quang học (Optical Flow)
o   Phát hiện bóng và thay đổi ánh sáng
o   Và một số phương pháp tiếp cận kết hợp khác    
Theo nghiên cứu trong [24], để giải quyết mô hình hóa nền, nhiều phương pháp đã được phát triển và được phân loại thành các loại sau:
Mô hình nền cơ bản: sử dụng giá trị trung bình hoặc bình quân hoặc phân tích lược đồ xám cho toàn thời gian.
Mô hình nền thống kê: sử dụng một Gauss đơn hoặc một hỗn hợp Gauss hoặc một tính toán mật độ lõi. Các biến thống kê được sử dụng để phân loại các điểm ảnh là điểm tiền cảnh hay là nền.
Mô hình nền mờ: sử dụng một giá trị trung bình mờ hoặc hỗn hợp mờ loại 2 của Gauss. Phát hiện tiền cảnh được sử dụng tích phân Sugeno hoặc tích phân Choquet.
Phân cụm nền: mỗi điểm ảnh trong khung hình có thể được phân cụm theo thời gian xuất hiện. Các điểm ảnh đang xem xét được xếp loại và ghép vào cụm theo một tiêu chí đặt ra. Cách tiếp cận phân cụm có sử dụng thuật toán K-mean hoặc sử dụng Codebook.
Mô hình nền mạng nơ ron: Mô hình nền được biểu diễn bằng trị trung bình của các hệ số của một mạng nơ ron được huấn luyện trên N khung hình không có nhiễu. Mạng huấn luyện như thế nào để phân loại mỗi điểm ảnh là nền hoặc tiền cảnh.
Mô hình nền Wavelet: Mô hình nền được định nghĩa trong vùng thời gian, sử dụng hệ số biến đổi wavelet rời rạc.
Ước tính nền: Nền được ước tính bằng cách sử dụng bộ lọc. Mỗi điểm ảnh của ảnh hiện tại lệch đáng kể so với giá trị dự đoán được khai báo là tiền cảnh. Bộ lọc này có thể là lọc Wiener, lọc Kalman hoặc lọc Tchebychev [53].
Cũng theo nghiên cứu trong [24], các phương pháp được tổng kết theo nhóm, năm, tác giả được tổng hợp và thể hiện trong bảng 1.1.
Các phương pháp tiếp cận mô hình nền trên (trong bảng 1.2) đều sử dụng phép trừ nền: Mô hình hóa nền, khởi tạo nền, duy trì nền, phát hiện tiền cảnh, chọn kích thước đặc trưng (điểm ảnh, khối hoặc cụm), chọn kiểu đặc trưng (đặc trưng màu sắc, đường biên, stereo, chuyển động và đường vân). Phát triển BSM tập trung vào các tình huống quan trọng trong dãy video: nhiễu ảnh làm chất lượng ảnh nguồn kém, khẩu độ nổi trên nền, các đối tượng chuyển động trên nền, chèn thêm vào nền, đối tượng đi bộ, đối tượng dừng lại và bóng. Khác nhau chính đến từ các nền động và sự thay đổi ánh sáng.
- Các nền động thường xuất hiện ở các cảnh ngoài trời. Ví dụ cây cối cử động, nước gợn sóng và bề mặt nước.
- Ánh sáng thay đổi xuất hiện trong các cảnh trong nhà và ngoài trời. Sự thay đổi ánh sáng có thể là dần dần hoặc đột ngột.
Bảng 1.1. Phân loại các phương pháp mô hình nền
Loại
Phương pháp, Tác giả (Năm xuất bản) [Tài liệu]
Mô hình nền cơ bản
Trung bình, Lee (2002); Trung vị, Mac Farlane, (1995)
Mô hình nền thống kê
Gauss đơn, Wren (1997); Hỗn hợp Gauss, Stauffer và Grimson (1999); Ước tính mật độ lõi, Elgammal (2000). 
Mô hình nền logic mờ
Giá trị trung bình chạy mờ, Sigari (2008); Hỗn hợp Gauss mờ loại 2n El Baf (2008).
Sự phân cụm nền
K trung bình (2003); CodeBook, Kim (2005).
Mô hình nền mạng nơ ron
Mạng nơ ron hồi quy tổng hợp, Culbrik (2006); Mạng nơ ron tự tổ chức, Maddalena (2007).
Mô hình nền Wavelet
Biến đổi Wavelet rời rạc, Biswas (2011)
Tính toán nền
Lọc Wiener, Toyama (1999); Lọc Kalman, Messelodi (2005); 
Bảng 1.1 trình bày phân loại các phương pháp mô hình nền [17], [24], chỉ ra cho thấy, mô hình nền thường sử dụng là phương pháp mô hình thống kê với ưu điểm giải quyết các tình huống quan trọng, mô hình này có nhiều phát triển gần đây, xoay quanh mô hình GMM và phát triển của nó.
Đánh giá về phương pháp phát hiện đối tượng:
Phương pháp phát hiện đối tượng sử dụng BSM là chủ yếu. Trong đó sử dụng phương pháp GMM được nhiều nghiên cứu phát triển và áp dụng. Các trọng số của các hệ số tham số mô hình được thực hiện qua phép lặp, với sự lựa chọn hệ số α trong phương trình lặp là rất cần thiết. Khi hệ số α được tham số hóa thì GMM trở thành GMM thích nghi. Việc lựa chọn α để GMM thích nghi với ánh sáng thay đổi phù hợp hơn trong các ứng dụng ngoài trời là cần thiết.

1.6. Phân loại đối tượng

Có nhiều cách phân loại đối tượng trong ảnh khác nhau. Phương pháp thủ công là sử dụng so sánh/đối sánh ảnh, tuy nhiên chi phí thời gian lớn và khó thực hiện. Các phương pháp thường được sử dụng là dựa trên một số đặc trưng của ảnh, đối tượng trong ảnh như lược đồ xám, màu sắc, hình dạng, đường viền, kết cấu vân,.... Các đặc trưng thông thường được sử dụng trong việc phân loại dựa trên hình dạng là hình bao, diện tích, hình chiếu, và gradient của các vùng đối tượng phát hiện được. Ví dụ nghiên cứu của Guohui Zhang dựa trên trọng tâm, biên và độ dài đối tượng [12].
Cách tiếp cận của A. J. Lipton (1999) [16] sử dụng độ dài đường biên hình chiếu của đối tượng và thông tin về diện tích để phân loại các đối tượng phát hiện được vào ba nhóm: người, xe, và các loại phương tiện khác. Phương pháp xuất phát từ giả thuyết người nhỏ hơn các phương tiện và có các hình dạng phức tạp.
Bảng 1.2. Kết quả sử dụng độ dài đường biên hình chiếu
Đối tượng phân loại
Tổng số
Không phân loại
% không phân loại được
Độ chính xác
Phương tiện giao thông
319
10.7%
2.5%
86.8%
Người
291
11.00%
6.2%
82.8%
Sai số
4




Theo bảng kết quả 1.2 thì độ chính xác còn khá thấp (86.8% đối với phương tiện và 82.8% đối với người). [16]
Phương pháp phân loại được phát triển bởi Collins [10] sử dụng các đặc trưng trực quan phụ thuộc của các đối tượng để huấn luyện một bộ lọc mạng nơron nhận biết bốn lớp đối tượng: người, nhóm người, xe và các loại khác. Đầu vào của mạng nơron là độ phân bố, diện tích và tỉ lệ bề ngoài của vùng đối tượng và độ phóng đại của camera. Giống như phương pháp trước, việc phân loại được thực hiện tại mỗi khung hình. Các kết quả được giữ trong lược đồ xám để cải thiện chất lượng phân loại theo sự phân biệt nhất quán thời gian.
Một phương pháp đơn giản hơn dựa trên sự tổng hợp của sự chênh lệch thời gian và đối sánh ảnh mẫu cho phép đạt hiệu quả cao trong việc theo dõi trong môi trường nhiễu và cho phép phân loại tốt. Do đó sử dụng bộ lọc Kalman hoặc các cách tiếp cận xác suất khác để giải quyết nhược điểm này.
          So khớp mẫu là cách phân loại sử dụng trong các phương pháp đo lường đối tượng tương tự như dựa trên việc so sánh hình dạng của đối tượng (được gán nhãn và chuẩn bị trước trong CSDL) với các vùng đối tượng được phát hiện trích chọn từ bản đồ điểm ảnh trên nền được. Quá trình phân loại đối tượng theo phương pháp này được chia thành hai bước.
        Bước chuẩn bị (Offline): Tạo CSDL mẫu của hình mẫu đối tượng bằng tay và gán nhãn đối tượng cho nó.
        Bước thực hiện trực tiếp (Online): Trong quá trình giám sát, trích chọn hình dạng của đối tượng trong mỗi khung hình và nhận dạng kiểu của nó bằng việc so sánh đặc tính dựa trên hình dạng đó với mẫu trong CSDL mẫu. Sau khi so sánh đối tượng với hình mẫu trong CSDL, tìm thấy hình dạng mẫu có khoảng cách tối thiểu so với đối tượng. Kiểu của đối tượng này được xác định là kiểu của đối tượng mong muốn phân loại. Trong bước này, kết quả của đối tượng theo dõi được sử dụng để đạt được thống nhất thời gian của kết quả phân loại.
        - Kỹ thuật được sử dụng trong phân loại đối tượng.
        - Các kỹ thuật so khớp mẫu so sánh các phần của ảnh với nhau.
        - Ảnh mẫu được sử dụng để nhận dạng các đối tượng tương tự trong ảnh nguồn.
        - Độ lệch chuẩn của ảnh mẫu so với ảnh gốc là đủ nhỏ, ảnh mẫu được sử dụng.
        - Tập mẫu thường được sử dụng để xác định các ký tự in, số, các đối tượng nhỏ và đơn lẻ, riêng rẽ khác.
Quá trình phù hợp mẫu chuyển ảnh mẫu tới tất cả các vị trí trong vùng ảnh rộng lớn và tính toán số chỉ mục được chỉ ra sự phù hợp mẫu tốt như thế nào so với vị trí đó. So khớp được thực hiện cơ bản là điểm so với điểm.
Hình chiếu của đối tượng trên ảnh là đường biên bao quanh đối tượng. Phân loại dựa trên hình chiếu chia thành hai bước:
- Bước 1 (offline): Tạo một mẫu CSDL của các hình chiếu đối tượng mẫu bằng cách thu thập thủ công ảnh các trường hợp, chuyển đổi biểu diễn và lưu trữ vào CSDL.
- Bước 2 (online): Trích rút hình chiếu của mỗi đối tượng phát hiện được trong mỗi khung hình và nhận ra loại của nó bằng cách so sánh hình chiếu dựa trên đặc trưng với các hình chiếu trong CSDL mẫu trong thời gian thực trong khi theo dõi. Sau khi so sánh đối tượng đó với đối tượng trong CSDL, một hình mẫu với khoảng cách nhỏ nhất được tìm thấy. Loại của đối tượng này được gán cho loại của đối tượng muốn phân loại. Trong bước này kết quả của bước theo dõi đối tượng được tận dụng để thu được các kết quả phân loại nhất quán theo thời gian.
Trích rút hình chiếu của đối tượng: Trong cả hai bước online và offline của thuật toán phân loại, các hình chiếu của các vùng đối tượng phát hiện được từ bản đồ điểm ảnh cận cảnh được trích rút bằng cách sử dụng một thuật toán theo vết đường biên. 
CSDL mẫu các hình chiếu: CSDL hình chiếu mẫu được tạo offline bằng cách trích rút một vài đường biên đối tượng từ các cảnh khác nhau. Do sơ đồ phân loại sử dụng sự giống nhau (sự tương đồng), các hình dạng của các đối tượng trong CSDL nên thể hiện các dáng điệu của các loại đối tượng khác nhau. Xem xét kiểu người, thêm các hình dạng người trong các tư thế khác nhau vào CSDL mẫu nhằm tăng khả năng của một đối tượng truy vấn của kiểu người được phân loại đúng. Ví dụ, nếu có tất cả hình người trong tư thế thẳng đứng, có thể không phân loại được một người đang ngồi trên ghế. Hoặc nếu các hình chiếu của ô tô được nhìn theo phương ngang từ camera, có thể sẽ phân loại sai các phương tiện chuyển động theo chiều dọc với góc nhìn của camera.
Trong bước phân loại, phương pháp không sử dụng hình chiếu trong định dạng thô, đúng hơn là so sánh các dấu hiệu khoảng cách của hình chiếu đã được chuyển đổi. Vì vậy, trong CSDL khuôn mẫu chỉ lưu trữ dấu hiệu khoảng cách của hình chiếu và thông tin tương ứng cho cả việc tính toán và lưu trữ sao cho hiệu quả.
Nhận xét về phương pháp phân loại đối tượng:
Có nhiều cách tiếp cận để phân loại đối tượng như dựa vào mô hình hình dạng đối tượng, trên vùng ảnh, đường viền, đặc trưng kết cấu, xác suất. Tuy nhiên phương pháp dựa vào hình dạng và đường viền đối tượng được các nhà khoa học nghiên cứu và triển khai trên nhiều ứng dụng.
Để áp dụng phương pháp phân loại dựa trên hình dạng và đường viền, các ứng dụng thường chia thành 2 pha: pha thứ nhất, sưu tập và tạo mẫu so sánh; pha thứ hai áp dụng phép đối sánh ảnh dựa trên những tập đối tượng cần phân loại kết hợp với tập dữ liệu mẫu dựa trên một tập luật đối sánh tương ứng. Việc biến đổi hình dạng hình học của biên đối tượng cũng như đường viền thành vector hóa đại số mang lại khả năng nhận dạng và phân loại đối tượng.
Nói tóm lại, bài toán phân loại phương tiện giao thông thông qua hình ảnh/video được đặt ra là:
·     Đầu vào:
o  Khung hình chứa đối tượng chuyển động đã được bước phát hiện xử lý, thông thường là những bức ảnh nhị phân.
o  Các thông số về ảnh: lưu lượng quang học, đường biên, trọng tâm,...
·     Đầu ra:
o  Các loại đối tượng có trong khung hình
·     Phương pháp tiếp cận:
o  Phân loại dựa trên hình dạng  
o  Phân loại dựa trên chuyển động.
o  Tổng hợp giữa hình dạng và chuyển động.
o  Dựa trên vùng ảnh.
o  Dựa trên đặc tính màu sắc
o  Dựa trên thao tác đường viền 
o  Dựa trên đặc trưng kết cấu.
o  Dựa trên xác suất.

2. Hướng tiếp cận nghiên cứu

2.1. Sơ đồ khái quát hướng tiếp cận xử lý bài toán

Hạt nhân của hầu hết các phương pháp tiếp cận trước đây tập trung vào ba khối chính: Phát hiện, phân loại và theo dõi. Từ kết quả của bài toán phát hiện, theo dõi và phân loại sẽ thực hiện nhận diện và trích chọn các thông tin cần quan tâm đưa ra màn hình quan sát hoặc lưu trữ vào CSDL, phục vụ các nhu cầu của con người.
Thu nhận video liên quan đến: 
- Vị trí đặt camera, bao gồm độ cao so với mặt đường, khoảng cách từ camera đến vùng cần đếm xe hay còn gọi là ROI.
- Hướng quay, bao gồm việc xác định hướng quay đối tượng tham gia giao thông từ hướng nào? Trực diện theo hướng đang đến, theo hướng đang di chuyển ra xa, quay ngang sườn xe theo cả hai hướng di chuyển,...
- Góc quay, luồng ảnh quay tạo góc với phương nằm ngang chứa đối tượng chuyển động góc bao nhiêu độ. Máy quay đặt cố định hay di động,...
Cách lắp đặt camera ảnh hướng nhiều tới các phương pháp tiếp cận, giải quyết xử lý ở các bước tiếp theo. Vị trí đặt máy ảnh hưởng tới kích thước đối tượng thu được trong video. Hướng quay ảnh hưởng đến hình dạng đối tượng trong video, bởi vì các đối tượng trong video giao thông (chủ yếu là xe) sẽ có hình dạng phía trước và phía sau khác nhau. Góc quay cũng ảnh hưởng tới hình dạng đối tượng.
Để phù hợp với các hệ thống giám sát giao thông bằng camera, ta chỉ xét trường hợp máy quay đặt cố định, hướng quay thẳng hướng với đối tượng chuyển động. Khoảng cách khu vực quan tâm tới máy quay 40 đến 100 mét, góc quay chếch phương nằm ngang 30o

Hình 1.15. Cấu trúc khái quát hệ thống nhận dạng đối tượng chuyển động
Trích chọn khung hình. Đặc tính cơ bản của video là cấu thành bằng sự kết hợp các khung hình liên tiếp. Do vậy, từ dữ liệu video (trực tiếp từ máy quay camera IP hoặc từ file video), để lấy ảnh vào phân tích, hệ thống phải tách thành các khung hình (chứa ảnh đối tượng) để tiến hành trừ nền, phát hiện đối tượng,...
Mô hình nền: Cách tốt nhất để thu nhận nền là lưu trữ ảnh nền khi không có bất kỳ đối tượng chuyển động nào, nhưng trong môi trường thực thì khó có thể như vậy. Hơn nữa, nó cũng luôn luôn thay đổi dưới điều kiện thực tế như thay đổi ánh sáng, các đối tượng đến hoặc rời khỏi cảnh...Nhiều phương pháp mô hình hóa nền đã được nghiên cứu và triển khai.
Phát hiện đối tượng, Theo dõi đối tượng, Phân loại đối tượng là những khối xử lý chính của hệ thống. Tuy nhiên trong nhiều phương pháp sự kế thừa và phối hợp giữa những khối này là liên quan chặt chẽ với nhau. Nội dung và những nghiên cứu liên quan đến những vấn đề này sẽ được tiếp tục trình bày trong luận án ở những phần tiếp theo.
Thông tin đối tượng là khâu cuối cùng xử lý đầu ra của bài toán. Kết quả có thể lưu trữ vào CSDL hoặc ra màn hình phục vụ quan sát.

2.2. Xác định vùng quan tâm và nhiệm vụ nghiên cứu

Với phân tích đặc trưng phương tiện giao thông, video giao thông, việc tiếp cận phát hiện và phân loại dựa trên màu sắc là khó thành công.
Sơ đồ cấu trúc các hướng tiếp cận trong giải quyết bài toán phát hiện và phân loại phương tiện giao thông từ video được thể hiện qua hình 1.16.











Hình 1.16. Sơ đồ xác định vùng nghiên cứu
Về phân loại phương tiện dựa trên ảnh/video, cơ bản thực hiện trên hai pha: pha huấn luyện và pha nhận dạng.
Pha huấn luyện, tìm ra các đối tượng mẫu có trên thực tế, trích chọn ra và xây dựng đặc trưng mẫu dùng cho việc nhận dạng và phân loại. Đối tượng mẫu và đặc trưng mẫu là những thành phần mà tùy theo từng loại đối tượng, từng yêu cầu bài toán mà có thể lựa chọn theo nhiều cách khác nhau, thường dựa vào những phân tích và kinh nghiệm.
Đối với bài toán phân loại phương tiện chuyển động từ video, để có được cơ sở dữ liệu đối sánh cần chọn ảnh các phương tiện mẫu cần phân loại phù hợp với các điều kiện về độ phân giải, kích thước, từ đó trích chọn các đặc trưng như độ dài, chiều cao, chu vi, số đỉnh, góc,... để lưu vào kho cơ sở dữ liệu.
Pha nhận dạng và phân loại, ở đây từ dữ liệu video, trích chọn ra các khung hình, dựa trên các khung hình phát hiện đối tượng chuyển động. Từ các đối tượng phát hiện được, rút trích ra các đặc trưng (tương tự như pha huấn luyện), so sánh với các đặc trưng đã huấn luyện từ trước để kết luận về đối tượng.
Đối với bài toán phát hiện và phân loại phương tiện từ Video, thu nhận các khung hình, thông qua các khung hình sử dụng các thuật toán để phát hiện phương tiện chuyển động (ô tô, xe máy, xe đạp), tức là kết luận có đối tượng chuyển động hay không. Rút trích các đặc trưng của đối tượng như các đặc trưng về hình dạng, kích thước, đường viền. So sánh các đặc trưng với các đặc trưng mẫu chứa trong kho cơ sở dư liệu để kết luận thông tin về đối tượng.
Trên cơ sở xác định vùng nghiên cứu trên, để giải quyết vấn đề phát hiện và phân loại phương tiện từ dữ liệu video giao thông cần thực hiện hai nhiệm vụ chính (Hình 1.17).
Phân loại đối tượng dựa trên đặc trưng hình dạng và độ dài. Trước hết là trích chọn các đặc trưng hình dạng và độ dài của phương tiện giao thông. Xây dựng CSDL cho việc nhận dạng và phân loại. Sự kết hợp các phương pháp nhận dạng theo hình dạng và độ dài tạo ra khả năng phân loại nhanh. 
Phân loại đối tượng dựa trên đặc trưng đường viền. Việc biểu diễn đường viền theo phương pháp nào đó để so sánh, phân tích đường viền dễ dàng và chính xác, thông qua đó để phân loại đối tượng chính xác hơn.  
Text Box: Phát hiện và phân loại phương tiện từ video giao thông
Hình 1.17. Hướng tiếp cận xử lý bài toán
Nhiệm vụ 1. Phát hiện đối tượng chuyển động. Sử dụng phương pháp GMM, xem xét thêm một số trường hợp sự tác động của ánh sáng để GMM thích nghi nhanh với sự thay đổi ánh sáng là hoàn toàn có thể, qua đó cải thiện tốc độ tính toán.
Nhiệm vụ 2. Phân loại đối tượng chuyển động. Sử dụng kích thước và véc tơ khoảng cách để phân loại. Dựa vào phân tích đường viền thông qua các đặc trưng như chu vi, số đỉnh để phân loại.