Liên kết website :
Số người truy cập: 829.754
Đang online: 18
[ Đăng ngày: 24/12/2018 ]

1. Numpy

      Đây là thư viện ứng dụng khoa học, được thiết kế để xử lý các mảng và ma trận đa chiều lớn, các hàm toán học cấp cao và các phương thức được thực hiện làm cho nó có thể thực hiện các phép toán khác nhau. Một số chức năng cũng được cập nhật để xử lý các tệp của bất kỳ mã hóa nào có sẵn trong Python.Scipy

2. Spicy

Thư viện cốt lõi khoa học máy tính dựa trên Numpy và mở rộng khả năng của nó. Cấu trúc dữ liệu chính Scipy lại là một mảng đa chiều, các gói chứa các công cụ giúp giải quyết đại số tuyến tính, lý thuyết xác suất, tích phân và nhiều nhiệm vụ khác. Ngoài ra còn có nhiều chức năng Blas và Lapack.

3. Pandash

      Là thư viện Python cung cấp các cấu trúc dữ liệu cấp cao và một loạt các công cụ để phân tích.Tính năng tuyệt vời là có khả năng dịch các hoạt động khá phức tạp với dữ liệu thành một hoặc hai lệnh. Pandas chứa nhiều phương thức tích hợp để nhóm, lọc và kết hợp dữ liệu, cũng như chức năng chuỗi thời gian.

4. StatsModels

      Statsmodels là một mô đun Python cung cấp nhiều cơ hội để phân tích dữ liệu thống kê, chẳng hạn như ước lượng mô  hình thống kê, thực hiện kiểm tra thống kê,...Với sự trợ giúp của nó, bạn có thể thực hiện nhiều phương pháp học máy và khám phá các khả năng vẽ khác nhau.
      Thư viện liên tục được cập nhật, mang lại cải tiến về chuỗi thời gian và các mô hình đếm mới, cụ thể là Generalized Poisson.

Visualization

5.Matplotlib

     Là một thư viện cấp thấp để tạo sơ đồ và đồ thị hai chiều. Với sự giúp đỡ của nó, bạn có thể xây dựng các biểu đồ đa dạng, từ biểu đồ và phân tán đến đồ thị tọa độ không Descartes.


6. Seaborn

    Seaborn về bản chất là một API cấp cao dựa trên thư viện matplotlib. Nó chứa các cài đặt mặc định phù hợp cho các biểu đồ xử lý. Ngoài ra, còn có một bộ sưu tập phong phú gồm một số loại phức tạp như chuỗi thời gian, các điểm nối và biểu đồ violon.

7. Plotly

    Là một thư viện phổ biến cho phép bạn xây dựng đồ họa tinh vi dễ dàng. Các phần mềm được điểu chỉnh để làm việc trong các ứng dụng web tương tác. Trong số các hình ảnh đáng chú ý của nó là đồ họa đường viền, các ô ternary và các biểu đồ 3D.

8. Bokeh

    Thư viện Bokeh tạo ra các hình ảnh tương tác và có thể mở rộng trong trình duyệt bằng cách sử dụng các tiện ích JavaScript. Thư viện cung cấp một bộ sưu tập linh hoạt các đồ thị, khả năng tạo kiểu, khả năng tương tác dưới dạng liên kết các ô, thêm các tiện ích, và xác định các cuộc gọi lại, và nhiều tính năng hữu ích khác.


9. Pydot

    Pydot là một thư viện để tạo ra các đồ thị phức tạp và định hướng. Nó là một giao diện cho Graphviz, được viết bằng Python thuần túy. Với sự giúp đỡ của nó, nó có thể hiển thị cấu trúc của đồ thị, rất thường xuyên cần thiết khi xây dựng mạng thần kinh và quyết định các thuật toán dựa trên cây.


Machine learning

10. Scikit-learn

    Mô-đun Python này dựa trên NumPy và SciPy là một trong những thư viện tốt nhất để làm việc với dữ liệu. Nó cung cấp các thuật toán cho nhiều nhiệm vụ học tập và khai thác dữ liệu tiêu chuẩn của máy như phân cụm, hồi quy, phân loại, giảm kích thước và lựa chọn mô hình.

11. XGBoost / LightGBM / CatBoost

    Gradient boosting là một trong những thuật toán học máy phổ biến nhất, nằm trong việc xây dựng một tập hợp các mô hình tiểu học được tinh chỉnh liên tục, cụ thể là cây quyết định . Vì vậy, có những thư viện đặc biệt được thiết kế để thực hiện nhanh chóng và thuận tiện phương pháp này. Cụ thể, chúng tôi nghĩ rằng XGBoost, LightGBM, và CatBoost xứng đáng đặc biệt chú ý. Họ là tất cả các đối thủ cạnh tranh giải quyết một vấn đề chung và được sử dụng trong hầu như giống nhau. Các thư viện này cung cấp khả năng tăng cường tối ưu, mở rộng và nhanh chóng, làm cho chúng trở nên rất phổ biến trong các nhà khoa học dữ liệu và đối thủ cạnh tranh Kaggle, khi nhiều cuộc thi giành được với sự trợ giúp của các thuật toán này.

12. Eli5

    Thường thì kết quả của các dự đoán mô hình học máy không hoàn toàn rõ ràng, và đây là thách thức mà thư viện eli5 giải quyết. Nó là một gói cho các mô hình học trực quan hóa và gỡ lỗi máy và theo dõi công việc của một bước giải thuật từng bước. Nó cung cấp hỗ trợ cho các thư viện scikit-learning, XGBoost, LightGBM, lightning, và sklearn-crfsuite và thực hiện các nhiệm vụ khác nhau cho mỗi người trong số họ.
Deep learning

13. TensorFlow

    TensorFlow là một khuôn khổ phổ biến cho việc học sâu và máy, được phát triển trong Google Brain. Nó cung cấp khả năng làm việc với mạng nơron nhân tạo với nhiều bộ dữ liệu. Trong số các ứng dụng TensorFlow phổ biến nhất là nhận diện đối tượng, nhận dạng giọng nói và hơn thế nữa. Ngoài ra còn có các lớp trợ giúp khác nhau trên TensorFlow thông thường, chẳng hạn như tflearn, tf-slim, skflow,....

14. PyTorch

    PyTorch là một khung công tác lớn cho phép bạn thực hiện tính toán tensor với khả năng tăng tốc GPU, tạo ra các đồ thị tính toán động và tự động tính toán độ dốc. Trên đây, PyTorch cung cấp một API phong phú để giải quyết các ứng dụng liên quan đến mạng thần kinh.
   Thư viện dựa trên Torch, một thư viện học tập sâu nguồn mở được triển khai trong C với một trình bao bọc trong Lua. API Python đã được giới thiệu vào năm 2017 và f rom đã chỉ ra, khuôn khổ này đang trở nên phổ biến và thu hút ngày càng nhiều nhà khoa học dữ liệu.

15. Keras

    Keras là một thư viện cấp cao để làm việc với các mạng nơ-ron, chạy trên TensorFlow, Theano, và bây giờ là kết quả của các phiên bản mới, nó cũng có thể sử dụng CNTK và MxNet làm các phần phụ trợ. Nó đơn giản hóa nhiều nhiệm vụ cụ thể và làm giảm đáng kể số lượng mã đơn điệu. Tuy nhiên, nó có thể không phù hợp với một số điều phức tạp.

Distribute deep learning

16. Dist- keraselephas / spark-deep-learning

    Các vấn đề học tập sâu sắc ngày càng trở nên quan trọng vì ngày càng nhiều trường hợp sử dụng đòi hỏi nỗ lực và thời gian đáng kể. Tuy nhiên, việc xử lý số lượng dữ liệu như vậy dễ dàng hơn nhiều với việc sử dụng các hệ thống tính toán phân tán như Apache Spark, một lần nữa mở rộng khả năng học tập sâu. Do đó, dist-keras, elephas và spark-deep-learning đang trở nên phổ biến và phát triển nhanh chóng, và rất khó để tách ra một trong các thư viện vì chúng được thiết kế để giải quyết một nhiệm vụ chung. Các gói này cho phép bạn đào tạo các mạng nơron dựa trên thư viện Keras trực tiếp với sự trợ giúp của Apache Spark. Spark-deep-learning cũng cung cấp các công cụ để tạo ra một đường ống với mạng nơron Python.

Natural Language Processing

17. NLTK

    NLTK là một tập hợp các thư viện, một nền tảng hoàn chỉnh cho việc xử lý ngôn ngữ tự nhiên. Với sự trợ giúp của NLTK, bạn có thể xử lý và phân tích văn bản theo nhiều cách khác nhau, mã hóa và gắn thẻ nó, trích xuất thông tin, vv NLTK cũng được sử dụng để tạo mẫu và xây dựng hệ thống nghiên cứu .

18. Spacy

    SpaCy là một thư viện xử lý ngôn ngữ tự nhiên với các ví dụ tuyệt vời, tài liệu API và các ứng dụng demo. Thư viện được viết bằng ngôn ngữ Cython là phần mở rộng C của Python. Nó hỗ trợ gần 30 ngôn ngữ, cung cấp sự tích hợp học tập sâu sắc và hứa hẹn sự vững mạnh và độ chính xác cao. Một tính năng tuyệt vời khác của spaCy là một kiến ​​trúc được thiết kế để xử lý toàn bộ tài liệu mà không cần phải chia tài liệu thành các cụm từ.

19. gensim

   Gensim là một thư viện Python để phân tích ngữ nghĩa mạnh mẽ, mô hình hóa chủ đề và mô hình hóa không gian vector, và được xây dựng dựa trên Numpy và Scipy. Nó cung cấp một triển khai các thuật toán NLP phổ biến, chẳng hạn như word2vec. Mặc dù gensim có triển khai models.wrappers.fasttext riêng, thư viện fasttext cũng có thể được sử dụng để học hiệu quả các biểu diễn từ .

Data Scraping

20. scrapy

    Scrapy là một thư viện được sử dụng để tạo ra các chương trình thu thập dữ liệu quét trang web và thu thập dữ liệu có cấu trúc. Ngoài ra, Scrapy có thể trích xuất dữ liệu từ API. Thư viện xảy ra rất tiện dụng do khả năng mở rộng và tính di động của nó.
    Dưới đây chỉ là một vài trong số vô vàn thư viện tuyệt vời và hữu ích khác xứng đáng được xem xét. Hy vọng bài viết giúp bạn đọc có thêm nhiều kiến thức.

Tham khảo: Data sciencecentral
CÁC TIN KHÁC