TIR - Today I read - My weakness as a Data scientist


Posted on 28 Oct 2018 by Tulip Tulip

Đây là bài viết mở đầu chuyên mục TIR - Today I read của mình. Vì mỗi ngày mình thường đọc khá nhiều, tuy nhiên nếu không note lại thì khá dễ quên (có note thì lâu quên hơn - nhưng vẫn quên) và sau này lục tìm cũng khó. Vì vậy, mình quyết định sẽ lập ra cái topic này, để lưu lại những gì mình đọc hàng ngày. Song song với nói về nội dung, sẽ là bước soi chiếu lên cá nhân mình. Gọi là hàng ngày nhưng việc này khá là takes time nên mình có lẽ chỉ làm 2 bài / tuần là phù hợp.

Bài viết mở đầu hôm nay là: [My weakness as a Data scientist] (https://towardsdatascience.com/my-weaknesses-as-a-data-scientist-1310dab9f566). Đây là 1 bài viết nói về những điểm yếu của 1 data scientist vốn từ academic chuyển sang. Cá nhân mình có những điểm yếu y hệt tác giả, nên đây là 1 bài viết mình khá thích.

Dưới đây là nội dung bài viết qua ý hiểu của mình, cũng như kèm thêm soi chiếu bản thân.

Self-reflection

Cá nhân mình cho rằng, để có thể tiến bộ hơn, self-reflection là 1 trong những điều cần thiết nhất. Self-reflection có nhìn nhận điểm mạnh bản thân để tập trung vào, nhìn nhận điểm yếu bản thân để cải thiện. Tác giả có đánh giá 3 điểm yếu của bản thân như sau:

  • Software engineering
  • Scaling data science
  • Deep learning

Cá nhân mình đánh giá đây là 3 (trong số các) điểm yếu của mình. Thật sự thì mình đánh giá mình còn 1 số điểm yếu khác, cũng như chưa nhận ra điểm yếu số 2. Một trong những vấn đề của mình là English chẳng hạn.

Software engineering

Một số vấn đề thường gặp của tác giả:

  • (sometimes) write code that only runs once
  • (usually) a lack of documentation
  • (sometimes) difficult-to-read code without a consistent style
  • (rarely) hard coding specific values

Cá nhân mình gặp vấn đề về tổ chức code hơn:

  • việc sử dụng git để quản lý (đang sửa dần dần)
  • việc làm việc chung cho hiệu quả (vd sử dụng code chung, sử dụng variable names chung)

Cách xử lý của tác giả:

  • Writing unit tests (still not - but how?)
  • Following a coding style guide (you should - will install some lint package later)
  • Writing functions that accept changing parameters (huh)
  • Documenting code thoroughly (comment? - ok)
  • Having code reviewed by others (will try)
  • Refactoring code to make it simpler and easier to read (hmmmm)

Scaling data science

Thực sự mình chưa nghĩ sẽ đụng phần này nhiều lắm, và cấp thiết trong tương lai gần. Mình cũng đang làm quen với GCP, vậy nên mình nghĩ tạm bỏ qua phần này.

Cách almf của tác giả đơn giản là viết pipeline, cho pyspark chạy paralel. Mình chưa làm được.

Deep learning

Phần này mình nghĩ là tiến trình hiện tại của mình tạm ổn và phù hợp.

  • xem MOOC
  • làm bài tập
  • thực hành trên công ty

Nhìn chung vậy là hết rồi. Điểm quan trọng của bài viết không hẳn là những nội dung này, mà là lời khuyên xây dựng plan và habit để cải thiện những weakness này. Hiện mình đang làm 3 tạm tạm, 1 hơi kém (và chưa có habit cụ thể). Sẽ phải lên plan cải thiện thêm. Cheer!