Để minh họa
cho kỹ thuật viết trong bài viết "Tổng quan tình hình nghiên cứu, luận
giải về mục tiêu và những nội dung nghiên cứu", xin giới thiệu tới quý
độc giả bài viết Tổng quan về tình hình nghiên cứu và luận giải mục tiêu của
nghiên cứu của một đề tài cụ thể, với tên đề tài là "Nghiên cứu phát
triển một số thuật toán phát hiện và phân loại phương tiện từ dữ liệu video
giao thông". Bài viết tổng quan này đã vượt qua nhiều cấp độ review, được
nhiều nhà khoa học góp ý, chỉnh sủa, tác giả đã sửa chữa và được các review
đánh giá cao.
1. Một số phương pháp và công trình nghiên cứu liên quan
1.1. Hệ
thống điều khiển giao thông và giám sát an ninh
1.2. Hệ thống phát hiện và phân loại xe dựa trên video
1.3. Hệ thống giám sát giao thông dựa trên độ dài
1.4. Hệ thống giám sát tích hợp phát hiện, theo dõi, phân loại
1.5. Phát hiện đối tượng
1.6. Phân loại đối tượng
2. Hướng tiếp cận nghiên cứu
2.1. Sơ đồ khái quát hướng tiếp cận xử lý bài toán
2.2. Xác định vùng quan tâm và nhiệm vụ nghiên cứu
Trong bài viết, tác giả đã viết thành
2 mục nội dung, bao gồm: nội dung 1 là "Một số phương pháp và công trình
nghiên cứu liên quan"; nội dung 2 là hướng tiếp cận của nghiên cứu.
Nội dug 1, đầu tiên tác giả giới thiệu
khái quát về tình hình nghiên cứu, tiếp theo tác giả giới thiệu 4 công trình
nghiên cứu tiêu biểu liên quan chặt chẽ với đề tài, cuối cùng tác giả giới
thiệu 2 nhóm các giải pháp mà các nhà khoa học trên thế giới và Việt nam liên
quan đến vấn đề phát hiện và phân loại phươn tiện giáo thông (nội dung trực
tiếp của nghiên cứu). Tại mỗi công trình giới thiệu, tác giả giới thiệu cách
làm của nhóm nghiên cứu, thành quả đạt được, đồng thời đánh giá những nhược
nhiểm còn tồn tại liên quan đến vấn đề trực tiếp của nghiên cứu. Tại nội dung
giới thiệu 2 phương pháp "phát hiện" và "phân loại" tác giả
trình bày như một khảo sát đầy đủ nhiều công trình nghiên cứu, từ đó thấy được
những khoảng trống cẩn cải tiến, cần cập nhật thêm các phương pháp mới để cải
thiện độ chính xác, độ tin cậy và áp dụng cho những trường hợp cần giải quyết
liên quan đến nghiên cứu.
Nội dung 2, tác giả nêu được khung làm việc, một số sơ đồ
làm việc của nghiên cứu tổng thể cũng như nội dung chuyên sâu; tác giả cũng làm
rõ những nội dung công việc liên quan đến đầu vào, đầu ra, nội dung khái quát
quá trình làm việc; cuối cùng tác giả xác định rõ nhiệm vụ của nghiên cứu bao
gồm 2 nhiệm vụ.
Xin giới thiệu nguyên văn bài viết để
các bạn tham khảo cách viết cho những nghiên cứu tương tự, tự rút ra những kinh
nghiệm để kỹ thuật viết của mình được cải thiện hơn trong tương lai.
Để tài "Nghiên cứu phát triển một số thuật toán phát hiện và phân loại phương tiện từ dữ liệu video giao thông"
1. Một số phương pháp và công trình nghiên cứu liên quan
Trên thế giới, nhiều công trình nghiên cứu về hệ thống giám sát giao
thông tự động đã công bố và có những kết quả xác định. Ví dụ như hệ thống đếm
xe ô tô của Clement Chun Cheong Pang và cộng sự [8]; hệ thống phát hiện và phân
loại xe dựa trên video của nhóm Guohui Zhang, trường đại học Washington [12]; hệ
thống tích hợp phát hiện, theo dõi và phân loại cho mục đích giám sát video
thông minh của Yigithan Dedeoglu [26], năm 2004.
Ở Việt nam gần đây, cũng đã có những công trình nghiên cứu về vấn đề
này, một vài nghiên cứu đã triển khai ứng dụng hiệu quả trong công tác quản lý
giao thông. Năm 2014 nhóm Phạm Hồng Quang, Tạ Tuấn Anh, xây dựng cấu trúc hệ thống giao thông
thông minh và các quy chuẩn công nghệ thông tin, truyền thông, điều
khiển áp dụng trong hệ thống giao thông thông minh tại Việt Nam thuộc đề tài
KC01.14/11-15, Trung tâm Tin học và Tính Toán, Viện Hàn lâm KHCN Việt Nam. Năm
2014, Phạm Hồng Quang và cộng sự Công ty Cổ phần Phần mềm - Tự động hóa - Điều
khiển đã Xây dựng mạng camera với hệ thống xử lý hình ảnh thông minh phục vụ điều
khiển giao thông và giám sát an ninh thuộc đề tài KC03.DA06/11-15. Năm 2011,
nhóm Trần Thanh Việt, Trần Công Chiến, Huỳnh Cao Tuấn, Nguyễn Hữu Nam, Đỗ Năng
Toàn, Trần Hành đã công bố công trình nghiên cứu "Một kỹ thuật bám đối tượng
và ứng dụng". Kỷ yếu hội thảo quốc gia "Những vấn đề nghiên cứu trọng
điểm về công nghệ thông tin", lần thứ XIV, Đại học Cần Thơ.
1.1. Hệ
thống điều khiển giao thông và giám sát an ninh
Nhóm nghiên cứu Phạm Hồng Quang (2014), Trung tâm Tin học và Tính Toán,
Viện Hàn lâm KHCN Việt Nam cùng đồng nghiệp chủ trì Đề tài KC01.14/11-15 “Xây dựng
cấu trúc hệ thống giao thông thông minh và các quy chuẩn công nghệ thông tin, truyền thông, điều khiển áp dụng trong hệ thống
giao thông thông minh tại Việt Nam” [1] và Dự án SXTN mã số KC03.DA06/11-15
“Hoàn thiện tính năng hệ thống giám sát hình ảnh giao thông thông minh” [2] sử
dụng các quá trình thu nhận dữ liệu từ Camera IP, truyền dẫn dữ liệu và xử lý ảnh,
video thời gian thực áp dụng cho các hệ thống điều khiển giao thông và giám sát
an ninh (Hình 1.9).
Quá trình xử lý ảnh được coi là bộ não xử lý của hệ thống. Yêu cầu của
hệ thống phải xử lý được với dữ liệu hình ảnh có độ phân giải cao và chạy ở thời
gian thực. Do đó quy trình xử lý hình ảnh phải được nghiên cứu và tối ưu hóa tại
các bước để hệ thống cho ra kết quả đạt chất lượng như mục tiêu nhưng vẫn phải
đảm bảo hiệu năng hệ thống theo thời gian thực.
Các nhà khoa học đã thiết kế mạng lưới camera và quy trình xử lý ảnh chụp
được, nhằm nhận dạng biển số và đo tốc độ, phân loại xe, đo chiều dài xe, phát
hiện các hành vi khác của phương tiện như dừng đỗ, đi sai làn đường...
Hệ thống đã được triển khai áp dụng trong tại cao tốc Cầu Giẽ - Ninh
Bình. Có cả tất 22 camera đã được lắp đặt tại 11 vị trí khác nhau dọc tuyến đường
cao tốc từ Km212+480 cho đến Km259+060. Tại mỗi vị trí lắp đặt, có 2 camera để
giám sát theo 2 chiều đi khác nhau của đường cao tốc. Các camera được lắp đặt
trên các khung giá long môn hoặc trên cột có tay vươn ở độ cao trên 6m.
Hệ thống xử lý ảnh đã đưa ra được ngày giờ và vị trí của các lượt đếm
xe, biển số xe nhận dạng, tốc độ xe đo được, phân loại xe theo kích thước, cảnh báo sự kiện xe đi ngược chiều, xe dừng đỗ, xe đi vào đường cấm…từ nguồn
hình ảnh video ghi được do các camera gửi về từ hiện trường.
Từ đây, các dữ liệu sẽ truyền về các cơ quan chức năng (cảnh sát giao
thông, thanh tra giao thông) để phát hiện các xe đi quá tốc độ, lấn đường...và
có thể in biên bản phạt nguội.
Tuy nhiên, camera mới chỉ hoạt
động tốt ở thời điểm ánh sáng mạnh, còn vào thời điểm ban đêm hoặc chiều tối, độ
chính xác nhận dạng biển số và đếm lượng xe có bị giảm. Khi mức độ dày đặc
phương tiện được gia tăng, việc căn cứ vào một số đặc tính kỹ thuật khác về
kích thước khối hỗn hợp phương tiện, phân tách và nhận dạng vẫn là vấn đề vẫn cần
nghiên cứu tiếp tục.
1.2. Hệ thống phát hiện và phân loại xe dựa trên video
Năm 2007, nhóm Guohui Zhang, trường đại học Washington [12], đã phát
triển một hệ thống phát hiện và phân loại xe dựa trên video (Video-based Vehicle Detection and
Classification- VVDC). Hệ thống được phát triển nhằm mục đích thu thập
thông tin các xe tải từ camera quan sát tầm rộng. Một vài thuật toán dựa trên
thị giác máy tính được phát triển hoặc áp dụng để tách ra ảnh nền từ một chuỗi
video, phát hiện ra hình dáng xe tải, xác định và loại bỏ bóng của xe, cuối
cùng tính toán chiều dài xe dựa trên điểm ảnh rồi phân loại xe. Sự cẩn thận
được yêu cầu nghiêm ngặt để xử lý các tác động tiêu cực do sự tắc nghẽn theo
chiều ngang và độ rung nhẹ của máy ảnh. Những điểm ảnh thể hiện độ dài xe được
mô tả nhằm phân biệt sự khác nhau tương đối giữa loại xe dài và xe ngắn.
Cấu trúc của hệ
thống VVDC bao gồm 6 mô-đun: quay video trực tiếp, người dùng nhập liệu, xuất
ảnh nền, phát hiện xe tải, loại bỏ bóng và phân loại xe dựa vào độ dài xe. Hình
1.10 thề hiện rõ chu trình của hệ thống. Hệ thống VVDC lấy những bức ảnh video
kỹ thuật số hay những tín hiệu video trực tiếp làm dữ liệu đầu vào. Phần ảnh
nền sẽ được tách ra từ video đầu vào và được cập nhật thường xuyên sao cho
thích hợp với sự thay đổi của môi trường. Một khi hệ thống bắt đầu thu thập dữ
liệu, nó giám sát các vòng lặp ảo để phát hiện xe tải. Bước loại bỏ bóng được
áp dụng với từng chiếc xe đã phát hiện trước khi tính toán độ dài xe dựa trên
những điểm ảnh. Cuối cùng một chiếc xe được xếp vào loại dài hay ngắn dựa trên
độ dài tính toán qua điểm ảnh.
Thuật toán thực hiện trong hệ thống VVDC được
cài đặt bằng Microsoft Visual C#, có khả năng xử lý tất cả loạt ảnh được số hóa
cũng như những tín hiệu video trực tiếp trong thời gian thực. Hệ thống được thử
nghiệm tại ba địa điểm với sự khác nhau về giao thông cũng như điều kiện môi
trường. Kết quả thu được là độ chính xác để phát hiện ra xe lên đến trên 97%,
và tỷ lệ lỗi khi đếm xe tải thấp hơn 9% trong cả ba lần thử nghiệm. Điều này
chứng tỏ rằng việc phát triển phương pháp xử lý hình ảnh trên video nhằm phát
hiện và phân loại trong nghiên cứu này là một giải pháp thay thế khả thi cho
việc thu thập dữ liệu các loại xe tải.
Đánh giá hướng tiếp cận theo phương pháp của Guohui Zhang:
- Phát hiện đối tượng chuyển động bằng phương pháp
trừ nền (BSM), cụ thể Guohui Zhang đã sử dụng phương pháp trung bình các khung hình để mô
hình nền.
- Phát hiện biên đối tượng, tính toán độ dài để
phân loại xe ô tô tải.
- Kết quả chủ yếu là phát hiện được xe tải, xác
định và phân hoạch được sự khác biệt giữa 2-3 xe con nối tiếp nhau và xe tải
dài.
- Chưa tiếp cận và nói đến việc nhận dạng và đếm
số lượng xe máy, xe thô sơ và người đi bộ. Tham số giao thông trong điều kiện
riêng có của Việt Nam đa dạng và đông đúc các phương tiện thì tiếp cận theo
phương pháp Guohui Zhang chưa
đáp ứng được yêu cầu nhiều thông tin của phương tiện chuyển động.
1.3. Hệ thống giám sát giao thông dựa trên độ dài
Năm 2010, nhóm
nghiên cứu của Chung-Cheng Chiu và cộng sự [7], đã phát triển một hệ thống giám
sát giao thông tự động nhận dạng và theo dõi ô tô dựa trên kích thước. Nghiên
cứu của Chung-Cheng Chiu phát triển một hệ thống giám sát giao thông thời gian
thực, bao gồm phát hiện, nhận dạng và theo dõi các phương tiện từ các ảnh chụp
trên đường (Hình 1.11). Các ô tô chuyển động có thể được tự động tách từ các
ảnh chụp liên tiếp bằng phương pháp phân đoạn đối tượng chuyển động.
Phương pháp phân
đoạn và nhận dạng sử dụng chiều dài, chiều rộng và kích thước mui xe để phân
loại các phương tiện như xe tải lớn/nhỏ, xe con hoặc các phương tiện lớn khác.
Các đối tượng được phân đoạn có thể được nhận dạng và đếm tương ứng với các đặc
tính khác nhau của chúng, tùy theo các phương pháp nhận dạng và theo dõi được
đề xuất.
Hệ thống đã được
thử nghiệm trên các đoạn đường, sử dụng nhiều cảnh đường phức tạp, dưới ảnh
hưởng của nhiều điều kiện thời tiết khác nhau, từ đó thảo luận và chứng minh độ
chính xác, khả năng đáp ứng nhanh của phương pháp này. Kết quả xác định phát
hiện các loại xe, từ xe tải to đến các xe con, xe chuyên dùng mini,... có độ
chính xác từ 90% đến 98%.
Giai đoạn đầu
tiên, phân đoạn các ô tô chuyển động, sử dụng BSM. Các đối tượng chuyển động
được phát hiện bằng cách lấy ảnh đầu vào trừ đi ảnh nền.
Giai đoạn thứ
hai, các ô tô chuyển động được gán nhãn các thành phần kết nối để thu được các
khung có đường biên. Các ô tô trong khối được phát hiện và phân đoạn trong các
ô biên. Phương pháp này hiệu quả đối với việc phát hiện và phân đoạn các loại ô
tô khác nhau trong khối trên dựa trên đặc điểm hình dạng của chúng, có thể phân
thành hai hoặc nhiều hơn hai khối ô tô ràng buộc nhau.
Cuối cùng, các
phương pháp nhận dạng và theo dõi được áp dụng để xử lý cho mỗi xe. Hệ thống đề
xuất có thể phân loại thành 5 loại xe ô tô, phát hiện luồng giao thông và tốc
độ trung bình theo thời gian thực.
Đánh giá hướng tiếp cận của Chung-Cheng Chiu:
- Hệ thống dùng BSM để phát hiện đối tượng chuyển động, sử dụng độ
dài của các đối tượng, bao gồm chiều
dài, chiều rộng, độ dài một số thuộc tính của xe ô tô để tiến hành nhận dạng và
phân loại. Kết quả đã phân loại được một số loại xe ô tô như xe con, xe tải, xe
bán tải, xe tải.
- Hệ thống đã sử dụng một CSDL kích thước xe
(chiều dài, chiều rộng) để phân biệt một xe ô tô và các ô tô dính khối với
nhau, từ đó phân giải các khối nhiều hơn một ô tô. Trong một số trường hợp như
rất nhiều xe dính khối, hoặc che khuất tầm nhìn một phần thì việc phân giải các
khối bị thất bại.
- Tuy vậy, hệ thống mới đề cập đến vấn đề phương
tiện giao thông là ô tô, chưa đề cập đến các phương tiện khác như xe máy,
phương tiện thô sơ khác.
1.4. Hệ thống giám sát tích hợp phát hiện, theo dõi, phân loại
Trong nghiên cứu của
Yigithan Dedeoglu [26], đã đề xuất một hệ thống tích hợp phát hiện, theo dõi và
phân loại (Hình 1.12) cho mục đích giám sát video thông minh.
Hệ thống phát hiện đối tượng
chuyển động đề cập đến ba phương pháp cơ bản đó là: trừ nền, thống kê và chênh
lệch thời gian.
Về phân loại đối
tượng chuyển động, Yigithan Dedeoglu đề cập đến phương pháp phân loại dựa trên hình chiếu đối
tượng.
Đầu tiên, giai đoạn
offline, xây dựng một CSDL hình chiếu mẫu dựa trên việc vector hóa khoảng cách
từ trọng tâm đối tượng tới biên của hình dạng đối tượng. Bước này được thực hiện
theo phương pháp thủ công.
Tiếp theo, giai đoạn
online, từ kết quả phát hiện đối tượng chuyển động, rút trích hình chiếu các đối
tượng theo vector hóa khoảng cách từ trọng tâm đối tượng đến biên của hình dạng
đối tượng. So sánh dấu hiệu khoảng cách của tập đối tượng phát hiện được với dấu
hiệu khoảng cách có trong tập mẫu, thỏa mãn một ngưỡng xác định, qua đó kết luận
thông tin của đối tượng cần xác định.
Yigithan Dedeoglu sử dụng
phương pháp trừ nền, thống kê, chênh lệch tạm thời để phát hiện tiền cảnh, hình
1.13. Về phân loại, Yigithan Dedeoglu sử dụng một cơ sở dữ liệu chứa các dấu hiệu
khoảng cách của các đối tượng mẫu cho việc đối sánh và nhận dạng (hình 1.14).
Đánh giá hướng tiếp cận của Yigithan Dedeoglu:
- Hệ thống nghiên cứu của Yigithan Dedeoglu đề cập ba chức năng chính của một hệ thống
giám sát tự động từ video: phát hiện, phân loại và theo dõi.
- Về phát hiện đối tượng chuyển động, Yigithan Dedeoglu sử
dụng dựa trên BSM, dựa trên mô hình Gauss hỗn hợp. Tuy nhiên chưa đề cập chi tiết
đến sự tác động của ánh sáng thay đổi, đặc biệt là với các ứng dụng giám sát
ngoài trời.
- Về phân loại đối tượng chuyển động, Yigithan Dedeoglu sử
dụng dựa trên độ dài khoảng cách hình chiếu đối tượng. Cách tiếp cận này tỏ ra
hiệu quả trong nhiều trường hợp các đối tượng phát hiện được có hình dạng phức
tạp, tức là có hình dạng không thuộc các hình dạng cơ bản như: hình chữ nhật,
hình vuông, hình tròn... Tuy nhiên Yigithan Dedeoglu chưa đề cập đến các đặc
trưng riêng của các phương tiện giao thông. Nếu phân tích riêng tới các đặc
trưng của phương tiện giao thông như chiều dài, chiều rộng đối tượng, các đặc
trưng đường viền, các đặc trưng đường biên ngang trên thân đối tượng,... hoặc
chỉ số hóa các tập đối tượng so sánh, rút ngắn thời gian tính toán của hệ thống.
(O là đối tượng, Dist là
khoảng cách)
1.5. Phát hiện đối tượng
Bài toán phát hiện chuyển động đã
được thế giới nghiên cứu từ rất sớm. Cho tới thời điểm hiện nay, đã có nhiều
thuật toán phát hiện chuyển động được công bố [17]. Một số thuật toán mới được
công bố trong những năm qua đã được chứng minh có độ chính xác tương đối cao,
thời gian tính toán thấp và xử lý được môi trường biến động, nhiều đối tượng
chuyển động. Theo các nghiên cứu trong [15], [17], [21], [23] bài toán phát
hiện đối tượng được khái quát:
·
Đầu vào:
o
Các
khung hình được trích chọn từ video
·
Đầu ra:
o
Ảnh nhị
phân chứa các đối tượng chuyển động
o
Các
thông số khác về ảnh: lưu lượng quang học, đường biên, đường biên, trọng tâm,
khoảng cách.
·
Phương pháp tiếp cận:
o
Mô hình
hóa nền (Background model)
o
Trừ nền
(Background Subtraction)
o
Phương
pháp thống kê (Statistical Methods)
o
Vi phân
ảnh theo thời gian (Temporal Differencing)
o
Luồng
quang học (Optical Flow)
o
Phát
hiện bóng và thay đổi ánh sáng
o
Và một
số phương pháp tiếp cận kết hợp khác
Theo nghiên cứu trong [24], để giải quyết mô hình hóa nền, nhiều phương pháp đã được
phát triển và được phân loại thành các loại sau:
Mô hình nền cơ bản: sử dụng giá trị trung bình hoặc bình quân hoặc phân tích lược đồ xám cho
toàn thời gian.
Mô hình nền thống kê: sử dụng một Gauss đơn hoặc một hỗn hợp Gauss hoặc một tính toán mật độ
lõi. Các biến thống kê được sử dụng để phân loại các điểm ảnh là điểm tiền cảnh
hay là nền.
Mô hình nền mờ: sử dụng một giá trị trung bình mờ hoặc hỗn hợp mờ loại 2 của Gauss. Phát
hiện tiền cảnh được sử dụng tích phân Sugeno hoặc tích phân Choquet.
Phân cụm nền: mỗi điểm ảnh trong khung hình có thể được phân cụm theo thời gian xuất
hiện. Các điểm ảnh đang xem xét được xếp loại và ghép vào cụm theo một tiêu chí
đặt ra. Cách tiếp cận phân cụm có sử dụng thuật toán K-mean hoặc sử dụng
Codebook.
Mô hình nền mạng nơ ron: Mô hình nền được biểu diễn bằng trị trung bình của các hệ số của một mạng
nơ ron được huấn luyện trên N khung hình không có nhiễu. Mạng huấn luyện như
thế nào để phân loại mỗi điểm ảnh là nền hoặc tiền cảnh.
Mô hình nền Wavelet: Mô hình nền được định nghĩa trong vùng thời gian, sử dụng hệ số biến đổi
wavelet rời rạc.
Ước tính nền: Nền được ước tính bằng cách sử dụng bộ lọc. Mỗi điểm ảnh của ảnh hiện tại
lệch đáng kể so với giá trị dự đoán được khai báo là tiền cảnh. Bộ lọc này có
thể là lọc Wiener, lọc Kalman hoặc lọc Tchebychev [53].
Cũng theo nghiên
cứu trong [24], các phương pháp được tổng kết theo nhóm, năm, tác giả được tổng
hợp và thể hiện trong bảng 1.1.
Các phương pháp
tiếp cận mô hình nền trên (trong bảng 1.2) đều sử dụng phép trừ nền: Mô hình
hóa nền, khởi tạo nền, duy trì nền, phát hiện tiền cảnh, chọn kích thước đặc
trưng (điểm ảnh, khối hoặc cụm), chọn kiểu đặc trưng (đặc trưng màu sắc, đường
biên, stereo, chuyển động và đường vân). Phát triển BSM tập trung vào các tình
huống quan trọng trong dãy video: nhiễu ảnh làm chất lượng ảnh nguồn kém, khẩu
độ nổi trên nền, các đối tượng chuyển động trên nền, chèn thêm vào nền, đối
tượng đi bộ, đối tượng dừng lại và bóng. Khác nhau chính đến từ các nền động và
sự thay đổi ánh sáng.
- Các nền động
thường xuất hiện ở các cảnh ngoài trời. Ví dụ cây cối cử động, nước gợn sóng và
bề mặt nước.
- Ánh sáng thay
đổi xuất hiện trong các cảnh trong nhà và ngoài trời. Sự thay đổi ánh sáng có
thể là dần dần hoặc đột ngột.
Loại
|
Phương pháp, Tác giả (Năm xuất bản) [Tài
liệu]
|
Mô hình
nền cơ bản
|
Trung
bình, Lee (2002); Trung vị, Mac Farlane, (1995)
|
Mô hình
nền thống kê
|
Gauss đơn, Wren (1997); Hỗn hợp Gauss, Stauffer và Grimson (1999); Ước
tính mật độ lõi, Elgammal (2000).
|
Mô hình
nền logic mờ
|
Giá trị
trung bình chạy mờ, Sigari (2008); Hỗn hợp Gauss mờ loại 2n El Baf (2008).
|
Sự phân
cụm nền
|
K trung
bình (2003); CodeBook, Kim (2005).
|
Mô hình
nền mạng nơ ron
|
Mạng nơ
ron hồi quy tổng hợp, Culbrik (2006); Mạng nơ ron tự tổ chức, Maddalena
(2007).
|
Mô hình
nền Wavelet
|
Biến đổi
Wavelet rời rạc, Biswas (2011)
|
Tính toán
nền
|
Lọc Wiener, Toyama (1999); Lọc Kalman, Messelodi
(2005);
|
Bảng 1.1 trình bày phân loại các phương pháp mô
hình nền [17], [24], chỉ ra cho thấy, mô hình nền thường sử dụng là phương pháp
mô hình thống kê với ưu điểm giải quyết các tình huống quan trọng, mô hình này
có nhiều phát triển gần đây, xoay quanh mô hình GMM và phát triển của nó.
Đánh giá về
phương pháp phát hiện đối tượng:
Phương pháp phát
hiện đối tượng sử dụng BSM là chủ yếu. Trong đó sử dụng phương pháp GMM được
nhiều nghiên cứu phát triển và áp dụng. Các trọng số của các hệ số tham số mô
hình được thực hiện qua phép lặp, với sự lựa chọn hệ số α trong phương trình lặp là rất cần thiết. Khi hệ
số α được tham số hóa thì
GMM trở thành GMM thích nghi. Việc lựa chọn α để GMM thích nghi với ánh sáng thay đổi phù hợp hơn trong các ứng dụng
ngoài trời là cần thiết.
1.6. Phân loại đối tượng
Có nhiều cách phân loại đối tượng trong ảnh
khác nhau. Phương pháp thủ công là sử dụng so sánh/đối sánh ảnh, tuy nhiên chi
phí thời gian lớn và khó thực hiện. Các phương pháp thường được sử dụng là dựa
trên một số đặc trưng của ảnh, đối tượng trong ảnh như lược đồ xám, màu sắc,
hình dạng, đường viền, kết cấu vân,.... Các đặc trưng thông thường được sử dụng
trong việc phân loại dựa trên hình dạng là hình bao, diện tích, hình chiếu, và
gradient của các vùng đối tượng phát hiện được. Ví dụ nghiên cứu của Guohui
Zhang dựa trên trọng tâm, biên và độ dài đối tượng [12].
Cách tiếp cận của
A. J. Lipton (1999) [16] sử dụng
độ dài đường biên hình chiếu của đối tượng và thông tin về diện tích để phân
loại các đối tượng phát hiện được vào ba nhóm: người, xe, và các loại phương
tiện khác. Phương pháp xuất phát từ giả thuyết người nhỏ hơn các phương tiện và
có các hình dạng phức tạp.
Đối tượng phân loại
|
Tổng số
|
Không phân loại
|
% không phân loại được
|
Độ chính xác
|
Phương tiện giao thông
|
319
|
10.7%
|
2.5%
|
86.8%
|
Người
|
291
|
11.00%
|
6.2%
|
82.8%
|
Sai số
|
4
|
|
|
|
Theo bảng kết quả 1.2 thì độ chính xác còn
khá thấp (86.8% đối với phương tiện và 82.8% đối với người). [16]
Phương pháp phân loại được phát triển bởi
Collins [10] sử dụng các đặc trưng trực quan phụ thuộc của các đối tượng để
huấn luyện một bộ lọc mạng nơron nhận biết bốn lớp đối tượng: người, nhóm
người, xe và các loại khác. Đầu vào của mạng nơron là độ phân bố, diện tích và
tỉ lệ bề ngoài của vùng đối tượng và độ phóng đại của camera. Giống như phương
pháp trước, việc phân loại được thực hiện tại mỗi khung hình. Các kết quả được
giữ trong lược đồ xám để cải thiện chất lượng phân loại theo sự phân biệt nhất
quán thời gian.
Một phương pháp đơn giản hơn dựa trên sự tổng
hợp của sự chênh lệch thời gian và đối sánh ảnh mẫu cho phép đạt hiệu quả cao
trong việc theo dõi trong môi trường nhiễu và cho phép phân loại tốt. Do đó sử
dụng bộ lọc Kalman hoặc các cách tiếp cận xác suất khác để giải quyết nhược
điểm này.
So khớp mẫu là cách phân loại sử dụng trong các phương pháp
đo lường đối tượng tương tự như dựa trên việc so sánh hình dạng của đối tượng
(được gán nhãn và chuẩn bị trước trong CSDL) với các vùng đối tượng được phát
hiện trích chọn từ bản đồ điểm ảnh trên nền được. Quá trình phân loại đối tượng
theo phương pháp này được chia thành hai bước.
Bước chuẩn bị (Offline):
Tạo CSDL mẫu của hình mẫu đối tượng bằng tay và gán nhãn đối tượng cho nó.
Bước thực hiện trực tiếp
(Online): Trong quá trình giám sát, trích chọn hình dạng của đối tượng trong
mỗi khung hình và nhận dạng kiểu của nó bằng việc so sánh đặc tính dựa trên
hình dạng đó với mẫu trong CSDL mẫu. Sau khi so sánh đối tượng với hình mẫu
trong CSDL, tìm thấy hình dạng mẫu có khoảng cách tối thiểu so với đối tượng.
Kiểu của đối tượng này được xác định là kiểu của đối tượng mong muốn phân loại.
Trong bước này, kết quả của đối tượng theo dõi được sử dụng để đạt được thống
nhất thời gian của kết quả phân loại.
-
Kỹ thuật được sử dụng trong phân loại đối tượng.
- Các kỹ thuật so khớp mẫu so sánh các
phần của ảnh với nhau.
- Ảnh mẫu được sử dụng để nhận dạng các
đối tượng tương tự trong ảnh nguồn.
- Độ lệch chuẩn của ảnh mẫu so với ảnh gốc
là đủ nhỏ, ảnh mẫu được sử dụng.
-
Tập mẫu thường được sử dụng để xác định các ký tự in, số, các đối tượng nhỏ và
đơn lẻ, riêng rẽ khác.
Quá trình phù
hợp mẫu chuyển ảnh mẫu tới tất cả các vị trí trong vùng ảnh rộng lớn và tính
toán số chỉ mục được chỉ ra sự phù hợp mẫu tốt như thế nào so với vị trí đó. So
khớp được thực hiện cơ bản là điểm so với điểm.
Hình chiếu của
đối tượng trên ảnh là đường biên bao quanh đối tượng. Phân loại dựa trên hình
chiếu chia thành hai bước:
- Bước 1
(offline): Tạo một mẫu CSDL của các hình chiếu đối tượng mẫu bằng cách thu thập
thủ công ảnh các trường hợp, chuyển đổi biểu diễn và lưu trữ vào CSDL.
- Bước 2
(online): Trích rút hình chiếu của mỗi đối tượng phát hiện được trong mỗi khung
hình và nhận ra loại của nó bằng cách so sánh hình chiếu dựa trên đặc trưng với
các hình chiếu trong CSDL mẫu trong thời gian thực trong khi theo dõi. Sau khi
so sánh đối tượng đó với đối tượng trong CSDL, một hình mẫu với khoảng cách nhỏ
nhất được tìm thấy. Loại của đối tượng này được gán cho loại của đối tượng muốn
phân loại. Trong bước này kết quả của bước theo dõi đối tượng được tận dụng để
thu được các kết quả phân loại nhất quán theo thời gian.
Trích rút hình
chiếu của đối tượng: Trong cả hai bước online và offline của thuật toán phân
loại, các hình chiếu của các vùng đối tượng phát hiện được từ bản đồ điểm ảnh
cận cảnh được trích rút bằng cách sử dụng một thuật toán theo vết đường
biên.
CSDL mẫu các
hình chiếu: CSDL hình chiếu mẫu được tạo offline bằng cách trích rút một vài
đường biên đối tượng từ các cảnh khác nhau. Do sơ đồ phân loại sử dụng sự giống
nhau (sự tương đồng), các hình dạng của các đối tượng trong CSDL nên thể hiện
các dáng điệu của các loại đối tượng khác nhau. Xem xét kiểu người, thêm các
hình dạng người trong các tư thế khác nhau vào CSDL mẫu nhằm tăng khả năng của
một đối tượng truy vấn của kiểu người được phân loại đúng. Ví dụ, nếu có tất cả
hình người trong tư thế thẳng đứng, có thể không phân loại được một người đang
ngồi trên ghế. Hoặc nếu các hình chiếu của ô tô được nhìn theo phương ngang từ
camera, có thể sẽ phân loại sai các phương tiện chuyển động theo chiều dọc với
góc nhìn của camera.
Trong bước phân
loại, phương pháp không sử dụng hình chiếu trong định dạng thô, đúng hơn là so
sánh các dấu hiệu khoảng cách của hình chiếu đã được chuyển đổi. Vì vậy, trong
CSDL khuôn mẫu chỉ lưu trữ dấu hiệu khoảng cách của hình chiếu và thông tin
tương ứng cho cả việc tính toán và lưu trữ sao cho hiệu quả.
Nhận xét về
phương pháp phân loại đối tượng:
Có nhiều cách
tiếp cận để phân loại đối tượng như dựa vào mô hình hình dạng đối tượng, trên
vùng ảnh, đường viền, đặc trưng kết cấu, xác suất. Tuy nhiên phương pháp dựa
vào hình dạng và đường viền đối tượng được các nhà khoa học nghiên cứu và triển
khai trên nhiều ứng dụng.
Để áp dụng
phương pháp phân loại dựa trên hình dạng và đường viền, các ứng dụng thường
chia thành 2 pha: pha thứ nhất, sưu tập và tạo mẫu so sánh; pha thứ hai áp dụng
phép đối sánh ảnh dựa trên những tập đối tượng cần phân loại kết hợp với tập dữ
liệu mẫu dựa trên một tập luật đối sánh tương ứng. Việc biến đổi hình dạng hình
học của biên đối tượng cũng như đường viền thành vector hóa đại số mang lại khả
năng nhận dạng và phân loại đối tượng.
Nói tóm lại, bài toán
phân loại phương tiện giao thông thông qua hình ảnh/video được đặt ra là:
· Đầu vào:
o
Khung
hình chứa đối tượng chuyển động đã được bước phát hiện xử lý, thông thường là
những bức ảnh nhị phân.
o
Các
thông số về ảnh: lưu lượng quang học, đường biên, trọng tâm,...
· Đầu ra:
o
Các loại
đối tượng có trong khung hình
· Phương pháp tiếp cận:
o
Phân
loại dựa trên hình dạng
o
Phân
loại dựa trên chuyển động.
o
Tổng hợp
giữa hình dạng và chuyển động.
o
Dựa trên
vùng ảnh.
o
Dựa trên
đặc tính màu sắc
o
Dựa trên
thao tác đường viền
o
Dựa trên
đặc trưng kết cấu.
o
Dựa trên
xác suất.
2. Hướng tiếp cận nghiên cứu
2.1. Sơ đồ khái quát hướng tiếp cận xử lý bài toán
Hạt nhân của hầu
hết các phương pháp tiếp cận trước đây tập trung vào ba khối chính: Phát hiện,
phân loại và theo dõi. Từ kết quả của bài toán phát hiện, theo dõi và phân loại
sẽ thực hiện nhận diện và trích chọn các thông tin cần quan tâm đưa ra màn hình
quan sát hoặc lưu trữ vào CSDL, phục vụ các nhu cầu của con người.
Thu nhận video liên quan đến:
- Vị trí đặt
camera, bao gồm độ cao so với mặt đường, khoảng cách từ camera đến vùng cần đếm
xe hay còn gọi là ROI.
- Hướng quay,
bao gồm việc xác định hướng quay đối tượng tham gia giao thông từ hướng nào?
Trực diện theo hướng đang đến, theo hướng đang di chuyển ra xa, quay ngang sườn
xe theo cả hai hướng di chuyển,...
- Góc quay, luồng
ảnh quay tạo góc với phương nằm ngang chứa đối tượng chuyển động góc bao nhiêu
độ. Máy quay đặt cố định hay di động,...
Cách lắp đặt
camera ảnh hướng nhiều tới các phương pháp tiếp cận, giải quyết xử lý ở các
bước tiếp theo. Vị trí đặt máy ảnh hưởng tới kích thước đối tượng thu được
trong video. Hướng quay ảnh hưởng đến hình dạng đối tượng trong video, bởi vì
các đối tượng trong video giao thông (chủ yếu là xe) sẽ có hình dạng phía trước
và phía sau khác nhau. Góc quay cũng ảnh hưởng tới hình dạng đối tượng.
Để phù hợp với
các hệ thống giám sát giao thông bằng camera, ta chỉ xét trường hợp máy quay
đặt cố định, hướng quay thẳng hướng với đối tượng chuyển động. Khoảng cách khu
vực quan tâm tới máy quay 40 đến 100 mét, góc quay chếch phương nằm ngang 30o.
Trích chọn khung hình. Đặc tính cơ bản của
video là cấu thành bằng sự kết hợp các khung hình liên tiếp. Do vậy, từ dữ liệu
video (trực tiếp từ máy quay camera IP hoặc từ file video), để lấy ảnh vào phân
tích, hệ thống phải tách thành các khung hình (chứa ảnh đối tượng) để tiến hành
trừ nền, phát hiện đối tượng,...
Mô hình nền: Cách tốt nhất để thu
nhận nền là lưu trữ ảnh nền khi không có bất kỳ đối tượng chuyển động nào, nhưng trong môi trường thực thì khó
có thể như vậy. Hơn nữa, nó cũng luôn luôn thay đổi dưới điều kiện thực tế như
thay đổi ánh sáng, các đối tượng đến hoặc rời khỏi cảnh...Nhiều phương pháp mô
hình hóa nền đã được nghiên cứu và triển khai.
Phát hiện đối tượng, Theo dõi đối tượng, Phân loại
đối tượng là những khối xử lý chính của hệ thống. Tuy nhiên trong nhiều phương pháp
sự kế thừa và phối hợp giữa những khối này là liên quan chặt chẽ với nhau. Nội
dung và những nghiên cứu liên quan đến những vấn đề này sẽ được tiếp tục trình
bày trong luận án ở những phần tiếp theo.
Thông tin đối tượng là khâu cuối cùng xử lý
đầu ra của bài toán. Kết quả có thể lưu trữ vào CSDL hoặc ra màn hình phục vụ
quan sát.
2.2. Xác định vùng quan tâm và nhiệm vụ nghiên cứu
Với phân tích đặc trưng
phương tiện giao thông, video giao thông, việc tiếp cận phát hiện và phân loại
dựa trên màu sắc là khó thành công.
Sơ đồ cấu trúc
các hướng tiếp cận trong giải quyết bài toán phát hiện và phân loại phương tiện
giao thông từ video được thể hiện qua hình 1.16.
Về phân loại phương tiện dựa
trên ảnh/video, cơ bản thực hiện trên hai pha: pha huấn luyện và pha nhận dạng.
Pha huấn luyện, tìm ra các đối tượng mẫu có trên thực tế, trích chọn
ra và xây dựng đặc trưng mẫu dùng cho
việc nhận dạng và phân loại. Đối tượng mẫu và đặc trưng mẫu là những thành phần
mà tùy theo từng loại đối tượng, từng yêu cầu bài toán mà có thể lựa chọn theo
nhiều cách khác nhau, thường dựa vào những phân tích và kinh nghiệm.
Đối với bài toán
phân loại phương tiện chuyển động từ video, để có được cơ sở dữ liệu đối sánh
cần chọn ảnh các phương tiện mẫu cần phân loại phù hợp với các điều kiện về độ
phân giải, kích thước, từ đó trích chọn các đặc trưng như độ dài, chiều cao,
chu vi, số đỉnh, góc,... để lưu vào kho cơ sở dữ liệu.
Pha nhận dạng và phân loại, ở
đây từ dữ liệu video, trích chọn ra các khung hình, dựa trên các khung hình phát hiện
đối tượng chuyển động. Từ các đối tượng phát hiện được, rút trích ra các đặc
trưng (tương tự như pha huấn luyện), so sánh với các đặc trưng đã huấn luyện từ
trước để kết luận về đối tượng.
Đối với bài toán
phát hiện và phân loại phương tiện từ Video, thu nhận các khung hình, thông qua
các khung hình sử dụng các thuật toán để phát hiện phương tiện chuyển động (ô
tô, xe máy, xe đạp), tức là kết luận có đối tượng chuyển động hay không. Rút
trích các đặc trưng của đối tượng như các đặc trưng về hình dạng, kích thước,
đường viền. So sánh các đặc trưng với các đặc trưng mẫu chứa trong kho cơ sở dư
liệu để kết luận thông tin về đối tượng.
Trên cơ sở xác định vùng
nghiên cứu trên, để giải quyết vấn đề phát hiện và phân loại phương tiện từ dữ
liệu video giao thông cần thực hiện hai nhiệm vụ chính (Hình 1.17).
Phân loại đối tượng dựa trên
đặc trưng hình dạng và độ dài. Trước hết là trích chọn các đặc trưng hình dạng
và độ dài của phương tiện giao thông. Xây dựng CSDL cho việc nhận dạng và phân
loại. Sự kết hợp các phương pháp nhận dạng theo hình dạng và độ dài tạo ra khả
năng phân loại nhanh.
Phân loại đối tượng dựa trên
đặc trưng đường viền. Việc biểu diễn đường viền theo phương pháp nào đó để so
sánh, phân tích đường viền dễ dàng và chính xác, thông qua đó để phân loại đối
tượng chính xác hơn.
Nhiệm vụ 1. Phát hiện đối tượng chuyển động.
Sử dụng phương pháp GMM, xem xét thêm một số trường hợp sự tác động của ánh
sáng để GMM thích nghi nhanh với sự thay đổi ánh sáng là hoàn toàn có thể, qua
đó cải thiện tốc độ tính toán.
Nhiệm vụ 2. Phân loại đối tượng chuyển động.
Sử dụng kích thước và véc tơ khoảng cách để phân loại. Dựa vào phân tích đường
viền thông qua các đặc trưng như chu vi, số đỉnh để phân loại.
Không có nhận xét nào:
Đăng nhận xét