Góc công nghệ

Tại sao 80% thời gian làm AI là để làm sạch dữ liệu? – Câu chuyện thật từ công ty lớn

Tại sao 80% thời gian làm AI là để làm sạch dữ liệu? – Câu chuyện thật từ công ty lớn

Trong suy nghĩ của nhiều sinh viên và người mới học trí tuệ nhân tạo (AI), phần hấp dẫn nhất luôn là việc xây dựng model: chọn thuật toán, tối ưu loss, chạy thử, rồi khoe kết quả accuracy cao ngất. Nhưng thực tế ở các công ty lớn như Google, Amazon, Grab lại hoàn toàn khác: hầu hết thời gian của các team AI được dành để… làm sạch dữ liệu.

29/07/2025

Tại sao các tập đoàn lớn đều có bộ phận “Data Platform”? – Sinh viên cần hiểu điều này trước khi nộp CV

Tại sao các tập đoàn lớn đều có bộ phận “Data Platform”? – Sinh viên cần hiểu điều này trước khi nộp CV

Trong các buổi tuyển dụng hoặc hội thảo hướng nghiệp, sinh viên thường nghe nói nhiều đến các vị trí “Data Analyst”, “Data Scientist” hay “Data Engineer”. Nhưng ít ai chú ý đến một bộ phận không nổi bật nhưng lại đóng vai trò cốt lõi trong toàn bộ hệ sinh thái dữ liệu của doanh nghiệp – đó là “Data Platform”.

29/07/2025

Tại sao sinh viên nên học SQL thành thạo trước khi học Spark hay Kafka?

Tại sao sinh viên nên học SQL thành thạo trước khi học Spark hay Kafka?

Trong thời đại Big Data và các hệ thống phân tán trở thành tiêu chuẩn trong xử lý dữ liệu, các công nghệ như Apache Spark và Apache Kafka nhanh chóng trở thành những công cụ chủ chốt mà nhiều sinh viên và kỹ sư dữ liệu trẻ muốn nắm bắt. Tuy nhiên, trong quá trình học và triển khai các hệ thống hiện đại này, nhiều người bỏ qua một nền tảng cực kỳ quan trọng – đó là SQL.

29/07/2025

Tổ chức dữ liệu: Nền tảng vận hành trong hệ thống dữ liệu hiện đại

Tổ chức dữ liệu: Nền tảng vận hành trong hệ thống dữ liệu hiện đại

Trong bối cảnh doanh nghiệp ngày càng phụ thuộc vào dữ liệu để ra quyết định, tối ưu vận hành và phát triển sản phẩm, việc tổ chức và quản lý dữ liệu đã trở thành một năng lực hạ tầng không thể thiếu. Dù không trực tiếp liên quan đến việc viết thuật toán hay xây dựng mô hình phức tạp, kỹ năng tổ chức dữ liệu đóng vai trò đảm bảo chất lượng và tính ổn định cho toàn bộ hệ thống dữ liệu vận hành phía sau.

28/07/2025

Tư duy quan sát hệ thống (observability) – Kỹ năng ít được dạy nhưng rất cần có

Tư duy quan sát hệ thống (observability) – Kỹ năng ít được dạy nhưng rất cần có

Khi hệ thống gặp sự cố, việc khôi phục nhanh chóng không chỉ phụ thuộc vào khả năng phản ứng kỹ thuật, mà trước tiên là khả năng hiểu điều gì đang xảy ra, bắt đầu từ đâu, lan đến mức độ nào và vì sao lại phát sinh.

28/07/2025

Tại sao cần học Systems Manager và các công cụ tự động hóa để làm việc hiệu quả trong môi trường Devops?

Tại sao cần học Systems Manager và các công cụ tự động hóa để làm việc hiệu quả trong môi trường Devops?

Trong môi trường vận hành hiện đại, đặc biệt với hệ thống phân tán và khối lượng máy chủ ngày càng mở rộng, việc quản lý hạ tầng theo cách thủ công không còn khả thi. Việc đăng nhập vào từng máy chủ qua SSH để cập nhật, khắc phục sự cố hoặc triển khai ứng dụng không chỉ tốn thời gian, mà còn tiềm ẩn nhiều rủi ro về bảo mật, sai sót vận hành và thiếu khả năng kiểm soát tập trung.

28/07/2025

Docker Compose và Dockerfile: Phân biệt và ứng dụng thực tiễn

Docker Compose và Dockerfile: Phân biệt và ứng dụng thực tiễn

Trong hệ sinh thái Docker, DockerfileDocker Compose là hai công cụ nền tảng nhưng phục vụ các mục đích riêng biệt. Hiểu rõ vai trò và phạm vi ứng dụng của từng công cụ là yêu cầu cơ bản để xây dựng và triển khai ứng dụng một cách hiệu quả. Bài viết này sẽ phân tích sâu về sự khác biệt giữa chúng và đưa ra các tiêu chí lựa chọn rõ ràng, đặc biệt trong bối cảnh các kiến trúc đa dịch vụ.

18/07/2025

Zero Trust Architecture là gì và vì sao mô hình truyền thống đã lỗi thời?

Zero Trust Architecture là gì và vì sao mô hình truyền thống đã lỗi thời?

Trong nhiều thập kỷ, các tổ chức CNTT đã vận hành hệ thống bảo mật theo kiến trúc perimeter-based, đặt niềm tin vào các công nghệ như firewall, VPN, và IDS/IPS để kiểm soát truy cập từ bên ngoài vào mạng nội bộ. Mô hình này dựa trên giả định cơ bản: mọi thực thể nội bộ là đáng tin cậy.

17/07/2025

GitHub Actions Bị Lợi Dụng Để Tấn Công Chuỗi CI/CD – Đây Là Cách Phòng Thủ

GitHub Actions Bị Lợi Dụng Để Tấn Công Chuỗi CI/CD – Đây Là Cách Phòng Thủ

Software supply chain đang trở thành mục tiêu béo bở của các tác nhân độc hại, và các nền tảng CI/CD đóng vai trò trung tâm trong chuỗi này. Gần đây, chúng ta đã chứng kiến nhiều trường hợp các nhóm tấn công lợi dụng chính các công cụ CI/CD để thực hiện các cuộc tấn công tinh vi. Đặc biệt, GitHub Actions – một nền tảng tự động hóa mạnh mẽ, phổ biến trong cộng đồng mã nguồn mở – cũng không ngoại lệ. Bài viết này sẽ mổ xẻ một kịch bản tấn công thực tế từ cộng đồng open source, nơi kẻ tấn công tiêm mã độc qua Pull Request và quan trọng hơn, chỉ ra cách các tổ chức có thể phòng thủ bằng cách tận dụng OpenID Connect (OIDC)Secrets Scanner.

17/07/2025