15 Big Data là gì? Data Scientist là gì? Hãy để “Tiến sĩ Cambridge” trả lời | Educationuk-vietnam.org mới nhất

Đang đọc: Big Data là gì? Data Scientist là gì? Hãy để “Tiến sĩ Cambridge” trả lời | Educationuk-vietnam.org in Educationuk-vietnam

Dữ liệu lớn là gì? Dữ liệu lớn là tập hợp dữ liệu quá lớn (có cấu trúc và phi cấu trúc), đa dạng, thay đổi nhanh chóng và phức tạp đến mức các công nghệ hoặc phần mềm truyền thống không thể xử lý nó trong một khoảng thời gian nhất định.

Dung lượng chính xác của Big Data không quan trọng (có thể là vài petabyte hoặc exabyte), điểm chính là nếu được sử dụng đúng hướng, Big Data sẽ mang lại tiềm năng cạnh tranh lớn cho doanh nghiệp.

Để hiểu thêm về Dữ liệu lớn là gì, ITviec đã trao đổi với anh Đặng Hoàng Vũ – Nhà khoa học trưởng của Tập đoàn FPT và đã “sử dụng” rất nhiều thông tin hữu ích.

Xem thêm các công việc về Dữ liệu lớn trên trang web ITviec

Dữ liệu lớn là gì?

Dữ liệu lớn là gì?

Theo ông Vũ, Big Data là dữ liệu lớn, thay đổi nhanh và phức tạp. Tuy nhiên, thực sự không có định nghĩa duy nhất về Dữ liệu lớn là gì. Ví dụ: như IBM định nghĩa Dữ liệu lớn là 4V, bao gồm:

  • Âm lượng: Khối lượng dữ liệu
  • Tốc độ, vận tốc: Tốc độ dữ liệu
  • Đa dạng: Đa dạng dữ liệu
  • Sự thật: Tính xác thực của dữ liệu

Trên thực tế, thuật ngữ Dữ liệu lớn cũng đang thịnh hành. Có nghĩa là, đôi khi người ta vẫn sử dụng tên Big Data cho dữ liệu quy mô bình thường, không phải lúc nào cũng là dữ liệu quy mô lớn.

Ông Vũ khẳng định, Big Data không chỉ thực sự cần thiết mà còn là “xương sống” của hầu hết các công nghệ.

Ví dụ, mọi sản phẩm có mặt trên các website thương mại điện tử như Tiki, Lazada, Sendo… đều là Big Data.

Các công ty truyền thống cũng sử dụng Big Data để tối ưu hóa hoạt động kinh doanh, chăm sóc khách hàng, phục vụ marketing, v.v.

Xem thêm: Những siêu năng lực mà Big Data mang lại cho doanh nghiệp

Khó khăn khi làm việc với Dữ liệu lớn là gì?

Khi làm việc với Dữ liệu lớn, sẽ gặp những khó khăn lớn như sau:

  • Chất lượng dữ liệu không được đảm bảo

Trong quá trình làm việc với Big Data, ông Vũ chỉ ra rằng giai đoạn thu thập và xử lý dữ liệu là phần đòi hỏi nhiều thời gian và công sức nhất. Vào thời điểm đó, anh phải làm việc với nhiều bộ phận khác nhau dẫn đến nguồn dữ liệu không nhất quán và chất lượng dữ liệu kém.

  • Kết quả sắp xếp không đạt yêu cầu

Với kinh nghiệm làm việc của mình, anh cho rằng sai lầm phổ biến nhất là đánh giá và triển khai kết quả dựa trên dữ liệu đã thu thập và xử lý. Nhiều khi dân kỹ thuật thường đưa ra các tiêu chí theo lý thuyết hoặc theo các case study có sẵn nhưng lại không phù hợp với quy trình kinh doanh thực tế.

Trước đây, anh đã làm việc với một khách hàng nổi tiếng trong lĩnh vực thương mại điện tử (anh không tiện nêu tên). Mục tiêu của họ là tăng số lượng sản phẩm được bán trên trang web.

Sau khi phân tích và đánh giá dựa trên dữ liệu thu thập được, nhóm của ông quyết định rằng việc để khách hàng xem nhiều sản phẩm hơn sẽ kích thích hành vi mua hàng.

Kết quả là khách hàng ở lại website lâu hơn và xem nhiều sản phẩm hơn những gì họ cần nhưng kết quả kinh doanh không được cải thiện. Nguyên nhân là do họ cảm thấy “ngộp thở”, không biết phải quyết định thế nào nên không mua nữa.

Tất nhiên, mặc dù nó đã đáp ứng được tiêu chí tự đặt ra là kích thích hành vi xem sản phẩm, nhưng nó vẫn chưa mang lại lợi ích thực sự nào cho doanh nghiệp.

Theo ông, các công ty Dữ liệu lớn không thực sự quan tâm nhiều đến việc định nghĩa chính xác Dữ liệu lớn là gì. Họ chỉ quan tâm đến kết quả cuối cùng mà quá trình khai thác dữ liệu mang lại, vì vậy những người làm việc với Dữ liệu lớn cần hiểu mục tiêu cuối cùng là gì.

READ  Thông tin tuyển sinh trường Đại học Giao thông vận tải | Educationuk-vietnam.org

Nghề “làm” Big Data là gì? Trở thành một nhà khoa học dữ liệu!

Công việc hàng ngày của một nhà khoa học dữ liệu

Anh Vũ chia sẻ về những “bước đi” trong công việc hàng ngày của một nhà khoa học dữ liệu:

  • Phân tích vấn đề cần giải quyết, mục tiêu dự án, tiêu chí thành công …
  • Thu thập và xử lý dữ liệu
  • Xây dựng mô hình và thuật toán để cung cấp kết quả
  • Kiểm tra, đánh giá kết quả
  • Đặt tại chỗ

Trong bước triển khai, công ty sẽ sử dụng các kết quả, dự đoán, khuyến nghị … thu được từ dữ liệu để đưa vào hoạt động kinh doanh và tiếp thị, như ông Vũ đã đề cập ở phần trên.

Các kỹ năng cần thiết để trở thành nhà khoa học dữ liệu

Để trở thành nhà khoa học dữ liệu, bạn cần học nhiều kỹ năng và công cụ:

  • Kỹ năng đầu tiên bạn cần tất nhiên là lập trình. Bạn cần học ngôn ngữ lập trình Python
  • Ngoài Python, còn có SQL, Spark, R hoặc các công cụ cấp cao hơn như H2O, hoạt cảnh
  • Công cụ khoa học dữ liệu: Numpy, Pandas, Matplotlib, Scikit-learning
  • Công cụ học máy: Tensorflow, Keras, Pytorch
  • Một số hiểu biết về dữ liệu lớn, các khuôn khổ như Hadoop hoặc Scala
  • Thống kê cơ bản

Ngoài các kỹ năng kỹ thuật cứng, bạn cũng cần các kỹ năng mềm. Nghề này đòi hỏi tư duy rõ ràng, mạch lạc và bạn cần biết cách làm việc với Data Engineer.

Kỹ sư dữ liệu là người xử lý và chuẩn bị dữ liệu để Nhà khoa học dữ liệu thực hiện quá trình phân tích. Khi bạn làm việc cùng nhau, một người sẽ giúp đỡ một số công việc của người kia, nhưng trách nhiệm cơ bản là như nhau.

Có rất nhiều kỹ năng và kiến ​​thức mà bạn cần cải thiện, tất nhiên ban đầu có thể hơi khó khăn nhưng bạn sẽ làm được khi bạn học được.

Xem thêm: 20 tài liệu học lập trình Python

Cơ hội nghề nghiệp với Dữ liệu lớn

Anh Vũ nhận định, cơ hội nghề nghiệp cho những ai muốn làm việc với Big Data là vô cùng rộng mở. Tất nhiên so với nghề lập trình viên nói chung, số lượng công việc liên quan đến Dữ liệu lớn sẽ ít hơn rất nhiều. Tuy nhiên, vì là hàng hiếm nên mức thu nhập cũng khá. Công việc cũng giúp bạn có cái nhìn tổng thể hơn về sản phẩm mà bạn đang làm.

Xem ngay: Việc làm của Nhà khoa học dữ liệu tại ITviec

Trên cương vị của mình, anh cũng tham gia tuyển dụng Nhà khoa học dữ liệu. Từ đó, ông Vũ chia sẻ một số tiêu chí mà ông sử dụng để tuyển người vào làm việc:

  • Khả năng viết mã rõ ràng, mạch lạc.
  • Kiến thức cơ bản về Python. Nếu bạn biết về học máy, cơ sở dữ liệu hoặc toán thống kê là một lợi thế lớn.
  • tâm hồn tốt Đặc biệt là không được cố chấp, vì mắc lỗi mà ghi nhớ là chuyện bình thường.
  • Khả năng giao tiếp, diễn đạt và lắng nghe người khác. Hãy nhớ rằng, đây không phải là một vị trí độc lập.

READ  Giải Sinh học 8 Bài 15: Đông máu và nguyên tắc truyền máu | Educationuk-vietnam.org

Tài nguyên tham khảo dữ liệu lớn

  • Thiết kế các ứng dụng chuyên sâu về dữ liệu: Cuốn sách này, được viết vào năm 2017 bởi Martin Kleppmann, mô tả bức tranh toàn cảnh về dữ liệu lớn và tập trung vào các khía cạnh của hệ thống dữ liệu phân tán.
  • Dữ liệu lớn: Nguyên tắc và Thực tiễn tốt nhất của Hệ thống dữ liệu thời gian thực có thể mở rộng: Trả lời câu hỏi Dữ liệu lớn là gì và mọi thứ liên quan đến hệ thống, bao gồm các công cụ như Hadoop, Cassandra và Storm.
  • Hadoop: The Definitive Guide: được viết bởi Tom White – thành viên của tổ chức phần mềm Apache uy tín. Cuốn sách là tất cả những gì bạn cần biết + những ví dụ cụ thể khi làm việc với Hadoop.
  • High Performance Spark: Một cuốn sách cần thiết cho những ai muốn tìm hiểu về Apache Spark với nhiều hình ảnh minh họa thiết thực.

Ngoài ra, các khóa học trực tuyến về Dữ liệu lớn trên Coursera cũng đáng xem xét.

Các nhà khoa học dữ liệu đang nói gì trong ngành?

Anh Vũ kể về một quan niệm sai lầm, một sự hiểu lầm mà anh đã nghe thấy trong quá trình làm việc với Big Data nói chung, với tư cách là Nhà khoa học dữ liệu nói riêng.

Có một số người nghĩ rằng Data Scientist là một nhà khoa học hoặc để trở thành Data Scientist thì cần rất nhiều toán, nhưng thực tế không phải vậy. Nếu bạn giỏi toán, điều đó thật tuyệt, nhưng viết mã vẫn quan trọng hơn.

Nhà khoa học dữ liệu là người giải quyết các vấn đề kinh doanh bằng cách phân tích dữ liệu, không phải là nhà khoa học nghiên cứu những điều mới.

Có lẽ vì từ Nhà khoa học Đây là một nghề mà nhiều người cho rằng là một nghề đòi hỏi nhiều rủi ro và thỏa hiệp. Thực ra là không. Data Scientist không nguy hiểm, chỉ cần trình độ tư duy tốt và tinh thần ham học hỏi là đủ.

READ  Thông tin công ty & tin tuyển dụng từ Hệ thống giáo dục Edufit | Educationuk-vietnam.org

Anh Vũ (thứ hai từ trái sang) cùng các đồng nghiệp.

Lịch sử: Sau khi tốt nghiệp Tiến sĩ Toán học tại Đại học Cambridge, ông Vũ làm Kỹ sư phần mềm cho HP Corporation (Hewlett-Packard) tại Vương quốc Anh. Tại đây, anh trai của anh làm việc trong lĩnh vực Machine Learning, xử lý ảnh nên khi về Việt Nam, anh cũng chọn làm các dự án về Khoa học dữ liệu.

Năm 2014, anh trở về Việt Nam và gia nhập FPT với vai trò Nhà khoa học dữ liệu. Hiện tại, anh là Trưởng ban Khoa học của Ban Công nghệ Tập đoàn FPT.

Nô lệ 2

Bạn có nghĩ rằng những thông tin chi tiết về Dữ liệu lớn này thực sự có ý nghĩa không? Hoặc bài viết này có thể giúp các nhà phát triển khác không? Chia sẻ ngay bây giờ để giúp cộng đồng nhà phát triển cùng nhau phát triển.

Và đừng quên tham khảo các việc làm Big Data tại ITviec nhé!


Xem thêm:

  • Mục lục ngân sách nhà nước mới 2022
  • Vậy nhân viên chốt đơn là gì? Công việc của nhân viên chốt đơn | Educationuk-vietnam.org
  • Cờ Việt Nam và ý nghĩa lá cờ Việt Nam? | Educationuk-vietnam.org
  • Thông tin công ty & tin tuyển dụng từ FPT Smart Cloud | Educationuk-vietnam.org
  • Kinh tế đầu tư là gì? Các vấn đề ngành kinh tế đầu tư nên biết | Educationuk-vietnam.org