Big Data tại Việt Nam đang được thực hiện ra sao?
Big Data – hay còn được gọi là Dữ liệu lớn, là một trong những đặc trưng của kỷ nguyên số hóa. Nó được sử dụng để mô tả khối lượng khổng lồ của cả dữ liệu có cấu trúc và phi cấu trúc, lớn đến mức khó có thể xử lý bằng phương pháp thủ công.
Big data là gì?
Big Data – hay còn được gọi là Dữ liệu lớn được sử dụng để mô tả khối lượng khổng lồ của cả dữ liệu có cấu trúc và phi cấu trúc, lớn đến mức khó có thể xử lý bằng phương pháp thủ công.
Nói một cách đơn giản, dữ liệu lớn là các tập dữ liệu lớn hơn, phức tạp hơn, đặc biệt là thu thập từ nhiều nguồn dữ liệu mới. Những bộ dữ liệu này đồ sộ đến nỗi phần mềm xử lý dữ liệu truyền thống không thể quản lý chúng. Nhưng khối lượng dữ liệu khổng lồ này có thể được sử dụng để giải quyết các vấn đề thuộc nhiều lĩnh vực khác nhau mà trước đây chưa thể thể giải quyết được.
Khái niệm Big Data hiện nay đã trở nên tương đối quen thuộc. Nó đại diện cho số lượng dữ liệu này càng tăng lên, cũng như những loại dữ liệu đa dạng khác nhau đang được thu thập. Khi ngày càng nhiều thông tin trên thế giới được trao đổi online và số hóa, các nhà phân tích có thể bắt đầu sử dụng những thông tin đó làm dữ liệu. Những thứ như mạng xã hội, sách trực tuyến, âm nhạc, video,... đã làm tăng đáng kể lượng dữ liệu sẵn có để phân tích.
Mọi thứ hiện nay chúng ta thao tác online đều được lưu trữ và theo dõi như dữ liệu.
Ví dụ: Đọc sách trên Kindle sẽ sinh ra dữ liệu về việc chúng ta đang đọc sách gì, khi nào chúng ta đọc, chúng ta đọc trong bao lâu. Tương tự, nghe nhạc sẽ sinh ra dữ liệu về việc chúng ta đang nghe thể loại nhạc gì, chúng ta thường nghe khi nào. Điện thoại thông minh liên tục cập nhật dữ liệu về vị trí, tốc độ di chuyển và các ứng dụng đang hoạt động,...
Do đó, Big data cũng đề cập đến khả năng tận dụng, khai thác thông tin từ kho dữ liệu một cách hợp lý nhằm mang lại nhiều lợi ích thiết thực.
Một điều quan trọng chúng ta cần lưu ý, đó là khái niệm Big Data không chỉ là số lượng dữ liệu mà chúng ta đang tạo ra, nó còn bao gồm tất cả các dạng dữ liệu khác nhau: Text, video, lượt khách hàng ra vào, số giao dịch,…
Mặc dù chỉ mới được biết đến rộng rãi trong một vài năm trở lại đây, nhưng thực tế, nguồn gốc của tập dữ liệu lớn có từ những năm 1960 - 1970, khi thế giới dữ liệu mới bắt đầu từ việc xây dựng những trung tâm dữ liệu đầu tiên và sự phát triển của cơ sở dữ liệu quan hệ.
Khoảng năm 2005, các tổ chức bắt đầu nhận ra tầm quan trọng của khối lượng lớn dữ liệu mà người dùng tạo ra thông qua Facebook, YouTube cũng như nhiều dịch vụ trực tuyến khác. Hadoop (một khung nguồn mở thiết kế riêng để lưu trữ, phân tích tập dữ liệu lớn) đã được phát triển cùng năm đó. Hệ thống quản lý dữ liệu không quan hệ (NoSQL) cũng bắt đầu trở nên phổ biến trong thời gian này.
Sự ra đời của các khung nguồn mở, chẳng hạn như Hadoop (gần đây hơn là Spark) là điều cần thiết cho sự phát triển của dữ liệu lớn. Chúng giúp cho Big data trở nên dễ dàng hơn trong ứng dụng cũng như lưu trữ rẻ.
Trong những năm kể từ đó, khối lượng dữ liệu lớn đã tăng vọt. Người dùng vẫn đang tiếp tục tạo ra lượng dữ liệu khổng lồ hàng ngày. Đồng thời, không chỉ con người mới làm việc đó. Với sự ra đời của Internet vạn vật (IoT), nhiều đối tượng, thiết bị được kết nối với internet, thu thập dữ liệu về mô hình sử dụng của khách hàng và hiệu suất sản phẩm. Sự xuất hiện của Máy học (ML) cũng góp phần tạo ra nhiều dữ liệu hơn.
Mặc dù dữ liệu lớn đã tiến xa nhưng tính hữu dụng của nó chỉ mới bắt đầu. Điện toán đám mây tăng cường phạm vi khả năng của Dữ liệu lớn. Đám mây giúp Big data mở rộng hoặc thu hẹp linh hoạt, nơi nhà phát triển chỉ cần tạo các cụm đặc biệt để kiểm tra một tập hợp con dữ liệu. Và khi cơ sở dữ liệu đồ thị ngày càng trở nên quan trọng, với khả năng hiển thị lượng dữ liệu khổng lồ, nó có thể giúp phân tích nhanh chóng, toàn diện.
Việt Nam có nhiều lợi thế trong phát triển dữ liệu lớn
Ở Việt Nam, nhiều lĩnh vực, đơn vị đã có ý thức từ rất sớm trong việc sử dụng dữ liệu lớn trong công tác quản lý nhà nước, trong quá trình sản xuất và kinh doanh. Việt Nam đang sở hữu những lợi thế cho quá trình chuyển đổi số, bắt đầu bằng xây dựng dữ liệu lớn. Lợi thế thứ nhất, có thể kể đến đó chính là tỷ lệ dân số sở hữu điện thoại thông minh, máy tính tại Việt Nam tăng nhanh qua các năm, rất thuận lợi cho việc thu thập dữ liệu. Lợi thế thứ hai, đó là các công ty tại Việt Nam còn rất trẻ, chính vì thế, họ có thể bắt đầu xây dựng cơ sở hạ tầng mà không bị ảnh hưởng từ hệ thống cũ tồn tại trước đó. Đây cũng là lợi thế giúp các công ty trẻ tại Việt Nam có được sức bật nhanh chóng nếu được đầu tư một cách nghiêm túc ngay từ đầu.
Điều đáng chú ý nhất trong việc sử dụng dữ liệu lớn tại Việt Nam đó là Nhà nước đã và đang dần xây dựng bộ cơ sở dữ liệu lớn để phát triển thành phố thông minh và chính quyền điện tử giai đoạn 2020 – 2025. Với mục tiêu xây dựng thành phố thông minh, Hà Nội đã thực hiện hàng loạt ứng dụng công nghệ vào quản lý điều hành, cũng như cung cấp dịch vụ công ích cho Nhân dân. Trong năm 2017, Hà Nội đã bắt đầu xây dựng một số hệ thống điều hành thông minh. Theo đó, cách làm hướng đến của kế hoạch này là giải quyết bài toán bằng giải pháp số hóa tài liệu chuyên nghiệp, góp phần đẩy mạnh việc ứng dụng công nghệ thông tin để xây dựng, phát triển thành phố thông minh1.
Trong kinh doanh, một số đơn vị như FPT, VNG, VCCorp đã tham gia nghiên cứu và ứng dụng dữ liệu lớn trong phân tích hành vi khách hàng. Một số trang bán hàng điện tử áp dụng được một phần của kho dữ liệu lớn trong hoạt động thương mại của mình như trang bán lẻ Sendo.Vn trực thuộc Tập đoàn FPT. Sendo.Vn đã vận dụng phân tích dữ liệu lớn trên 5 triệu sản phẩm được bán bởi 80.000 shop đòi hỏi sự chuyên nghiệp trong quá trình xử lý, nhằm bảo đảm loại trừ chính xác hàng giả, hàng nhái; và kiểm tra độ tin cậy về giá bán cuối cùng của các shop trong lễ hội mua sắm trực tuyến ngày 02/12/20182.
Trong lĩnh vực tài chính – ngân hàng, nhiều ngân hàng đã dùng dữ liệu tiêu dùng, mua, vay, vị trí thanh toán của khách hàng để xác định giao dịch có hợp lệ hoặc có phải bị gian lận hay không.
Về ngành vận chuyển, có thể kể đến Hãng hàng không Vietnamairlines (VNA). VNA là hãng hàng không Việt Nam đầu tiên đã triển khai xong giai đoạn đầu của nền tảng dữ liệu mở Skywise được phát triển bởi Airbus và đối tác Big Data – Palantir. Skywise được đánh giá là “trái tim” của cuộc cách mạng số ngành Hàng không. Hiện nay, VNA đã và đang triển khai tích hợp các cơ sở dữ liệu vào hệ thống Skywise như: thông tin lịch bay, kế hoạch bay (Netlines, FIM), dữ liệu cảm biến trên tàu bay (AGS), các cảnh báo kỹ thuật từ tàu bay (Airman)…3.
Về lĩnh vực cải cách hành chính có Công ty FSI với giải pháp số hóa tài liệu và công nghệ nhận dạng và bóc tách thông tin văn bản. Các công ty bán lẻ dựa trên dữ liệu về mua bán, tiêu thụ tại các cửa hàng, kết hợp với dữ liệu về vị trí cửa hàng, khoảng cách với cửa hàng của đối thủ cạnh tranh gần đó… để dự báo doanh thu, lợi nhuận hằng tháng. Ngoài ra, một số lĩnh vực khác ở Việt Nam như bất động sản, khám, chữa bệnh… đang dần tiếp cận và khai thác những giá trị mà dữ liệu lớn mang lại.
Để có được những kết quả ban đầu trong việc ứng dụng dữ liệu lớn ở các lĩnh vực khác nhau như trên, việc đầu tư, phát triển hạ tầng nhằm đón đầu sự lớn mạnh không ngừng của dữ liệu lớn là mối quan tâm hàng đầu của các nhà nghiên cứu.
Nhiều phương án phát triển hạ tầng dữ liệu lớn cũng đã được đưa ra
Trong thời gian qua, Việt Nam cũng đã có nhiều phương án để phát triển hạ tầng dữ liệu lớn.
Một là, trong phát triển hạ tầng hệ thống lưu trữ và máy chủ.
Tại Việt Nam, HPE hiện đang nắm giữ 41,3% thị phần máy chủ x86, 64% thị phần máy chủ phiến (blade server). Dell đứng ở vị trí thứ 2 với 28,6% (máy chủ x86) và 20,6% (máy chủ phiến), tiếp theo, đó là Cisco với 2% thị phần, còn lại là những hãng công nghệ khác như Fujitsu, Hitachi4. Sở dĩ thị trường máy chủ Việt Nam tiếp tục bùng nổ là nhờ chu kỳ phát triển mới của doanh nghiệp và nhu cầu gia tăng dịch vụ đám mây đi vào giai đoạn chuyển đổi số mạnh mẽ.
Các doanh nghiệp tiếp tục đầu tư cho hạ tầng để hỗ trợ các ứng dụng thế hệ mới và đạt được các lợi ích như điện toán đám mây. Tăng trưởng doanh thu máy chủ nhờ đó được thúc đẩy không ngừng, đặc biệt là HPE với các cấu hình, nền tảng bộ xử lý mới phong phú và những giải pháp công nghệ trọn gói đáng tin cậy. Chiếm thị phần lớn về máy chủ, thị phần thiết bị lưu trữ và thiết bị mạng có dây lẫn không dây, đồng thời đứng trong top 5 về cung cấp hệ thống tích hợp, ở thời điểm hiện tại, HPE là đơn vị sở hữu những giải pháp mạnh trong xây dựng các thành phố thông minh. Trong tương lai, HPE sẽ hỗ trợ mạnh mẽ về mặt công nghệ cho các dự án Chính phủ điện tử và thành phố thông minh trên khắp cả nước.
Để thúc đẩy phát triển hạ tầng dữ liệu lớn, Thủ tướng Chính phủ đã ban hành Quyết định số 677/QĐ-TTg ngày 18/5/2017 về việc phê duyệt Đề án “Phát triển Hệ tri thức Việt số hóa”. Đây là đề án rất quan trọng, mang tính dài hạn, trong đó giao cho Bộ Khoa học và Công nghệ với tư cách thường trực, phối hợp với các bộ, ngành, địa phương, doanh nghiệp tổ chức thực hiện Đề án. Đề án mang tính kết nối tri thức dựa trên nền tảng những công nghệ mới nhất, như: trí tuệ nhân tạo (AI) và dữ liệu lớn (Big Data). Hệ tri thức Việt số hóa được xây dựng thông qua việc tổng hợp, hệ thống hóa, Việt hóa, số hóa, lưu trữ và phổ biến tri thức trong mọi lĩnh vực, trước hết là hỗ trợ cho giáo dục, đào tạo, đổi mới sáng tạo và các lĩnh vực liên quan trực tiếp đến đời sống của người dân như pháp luật, y tế, kỹ thuật sản xuất… Đồng thời, tạo môi trường thuận lợi thu hút mọi người dân và doanh nghiệp tham gia, với vai trò vừa khai thác vừa đóng góp để làm giàu các tài nguyên tri thức số hóa của Việt Nam.
Hai là, đối với phát triển hạ tầng các phần mềm quản lý, tích hợp dữ liệu, phần mềm phân tích dữ liệu.
Ở nước ta, trong những năm gần đây, nhiều doanh nghiệp đã cung cấp các giải pháp phần mềm và cung ứng thiết bị công nghệ viễn thông trong việc quản lý, tích hợp và phân tích dữ liệu. Một số doanh nghiệp được đánh giá cao, như: FPT, VNPT, CMC TS, MISA, HIPT… Bên cạnh đó, thông qua Đề án “Phát triển Hệ tri thức Việt số hóa”, việc quản lý, tích hợp và phân tích dữ liệu bước đầu có những hiệu quả nhất định. Đến nay, Đề án đã dần hình thành hệ thống nền tảng với các chức năng và công cụ cho phép thu thập, xử lý và chia sẻ các dữ liệu dùng chung trong một số lĩnh vực. Trong đó, Bản đồ số Việt Nam (Vmap) và Hệ thống thông tin nhân đạo (iNhandao) là hai dự án tiên phong của đề án và đã đạt được một số kết quả quan trọng trong giai đoạn 1 để giới thiệu với công chúng.
Ba là, về xây dựng hạ tầng bảo mật.
Việt Nam cũng chú trọng đến vấn đề xây dựng hạ tầng bảo mật dữ liệu, bao gồm việc mã hóa dữ liệu, xác thực người dùng và các quyền truy cập, giám sát hệ thống, xây dựng tường lửa, quản lý doanh nghiệp và các sản phẩm khác để bảo vệ hệ thống và dữ liệu. Tuy nhiên, thực trạng vấn đề bảo mật thông tin ở nước ta vẫn còn nhiều bất cập, dẫn đến nhiều hệ lụy nghiêm trọng.
Thời gian gần đây, các hacker thường xuyên lợi dụng các sơ hở của người dùng cũng như những lỗ hổng bảo mật của hệ thống để tấn công các doanh nghiệp và người dùng Việt Nam, khiến nhiều thông tin quan trọng bị lộ và bị mất, gây ảnh hưởng về cả vật chất và tinh thần. Theo thống kê của Bộ Công an, mỗi năm có hàng nghìn trang mạng của Việt Nam bị tin tặc tấn công nhằm đánh cắp thông tin, chiếm quyền điều khiển, thay đổi, chèn nội dung, cài cắm mã độc… Trong 6 tháng đầu năm 2019, Bộ Công an đã phát hiện trên 2.500 trang tin, cổng thông tin điện tử tên miền quốc gia Việt Nam bị tấn công; hằng trăm ngàn máy tính bị nhiễm mã độc. Đáng lưu ý, Việt Nam xếp thứ 4 trong top 10 quốc gia bị kiểm soát bởi mạng máy tính ma botet5.
Việt Nam có nhiều thuận lợi là lực lượng dân số trẻ, mức độ cập nhật công nghệ cao. Tuy nhiên, với lãnh đạo doanh nghiệp thì chúng ta có một độ trễ nhất định trong việc ứng dụng dữ liệu lớn. Dữ liệu nằm yên một chỗ thì không có ý nghĩa, phải biến nó thành dữ liệu biết nói và nói đúng ngữ cảnh. Từ đó, nó sẽ giúp chúng ta đưa ra hành động hợp lý, tối ưu hóa được nhiều vấn đề. Bên cạnh một số ít doanh nghiệp đã triển khai và có những thành công nhất định trong việc ứng dụng dữ liệu lớn trong sản xuất – kinh doanh thì vẫn còn nhiều doanh nghiệp thương mại điện tử Việt Nam chưa thực sự tiếp cận được với công nghệ dữ liệu lớn, bởi nó đòi hỏi một nền tảng công nghệ thông tin mạnh, kho lưu trữ khổng lồ và các hỗ trợ của Chính phủ trong việc khai thác kho dữ liệu. Do đó, cần phải khẳng định lại vấn đề muốn sử dụng và khai thác dữ liệu lớn một cách hiệu quả, điều cần thiết là phải xây dựng hạ tầng đủ để thu thập và lưu trữ dữ liệu, quản lý, tích hợp, phân tích dữ liệu, đồng thời, cung cấp quyền truy cập và bảo mật thông tin trong khi lưu trữ và chuyển tiếp.
Anh Thư