So sánh hiệu suất của mạng nơ-ron phân đoạn ngữ nghĩa Deeplab V3+ khi sử dụng Resnet-50 backbone và Mobilenet V2 backbone trong việc xác định các bộ phận thân cành lá của cây cà chua
Main Article Content
So sánh hiệu suất của mạng nơ-ron phân đoạn ngữ nghĩa Deeplab V3+ khi sử dụng Resnet-50 backbone và Mobilenet V2 backbone trong việc xác định các bộ phận thân cành lá của cây cà chua
Tóm tắt
Trong dự án nghiên cứu tự động hóa tại các trang trại thông minh, cụ thể là trồng cây cà chua trong nhà lưới, chúng tôi hướng tới việc tự động cắt tỉa cây cà chua bằng robot. Để đạt được điều này, chúng tôi cần một hệ thống phân tích xác định được vị trí cành, chồi của cây sau đó tiến hành chọn lựa và cắt tỉa. Sau quá trình tìm hiểu, chúng tôi nhận thấy rằng Semantic segmentation neural network (mạng nơ-ron phân đoạn ngữ nghĩa) có thể giải quyết được vấn đề trên. Deeplab V3+ là một trong các mạng nơ-ron có kết quả tốt mà chúng tôi hướng đến sử dụng. Tuy nhiên đây là hệ thống sẽ được thực thi trên máy tính nhúng hoặc máy tính có tài nguyên thấp, chúng tôi cần đánh giá lại hiệu suất cũng như tốc độ thực thi của Deeplab V3+ với backbone là Resnet và MobileNet để có sự lựa chọn phù hợp. Trong nghiên cứu này, chúng tôi sẽ trình bày về đánh giá này trên cùng một dataset về các chỉ số thời gian cũng như độ chính xác trong dự đoán.
Article Details
Tác phẩm này được cấp phép theo Giấy phép quốc tế Creative Commons Attribution-NonCommercial-NoDeri Phái sinh 4.0 .
Tài liệu tham khảo
- Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L. (2018a). DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence 40, 834–848.
- Chen, L.C., Zhu, Y., Papandreou, G., Schroff, F., Adam, H. (2018b). Encoder-decoder with atrous separable convolution for semantic image segmentation Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), pp. 833–851.
- Cordts, M., Omran, M., Ramos, S. et al. (2016). The Cityscapes Dataset for Semantic Urban Scene Understanding. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2016-December, 3213–3223.
- Everingham, M., Eslami, S.M.A., Van Gool, L., Williams, C.K.I., Winn, J., Zisserman, A. (2015). The Pascal Visual Object Classes Challenge: A Retrospective. International Journal of Computer Vision 111, 98–136.
- He, K., Zhang, X., Ren, S., Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2016-Decem, 770–778.
- Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., Chen L.C. (2018). MobileNetV2: Inverted Residuals and Linear Bottlenecks. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 4510–4520.
- Zhou D., Hou Q., Chen, Y., Feng, J., Yan, S. (2020). Rethinking Bottleneck Structure for Efficient Mobile Network Design. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) 12348 LNCS, 680–697.