Νέα ιστορία

Γιατί η μετατροπή γραφημάτων σε κώδικα Python βελτιώνει την τεχνητή νοοτροπία

Πολύ μακρύ; Να διαβασω

Το COCOGEN μετατρέπει εργασίες γραφήματος κοινής λογικής σε κώδικα Python, επιτρέποντας σε CodeLLMs όπως το CODEX να δημιουργήσουν ακριβείς δομές συλλογισμού μέσω γνωστής σύνταξης.
featured image - Γιατί η μετατροπή γραφημάτων σε κώδικα Python βελτιώνει την τεχνητή νοοτροπία
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Το τραπέζι της Αριστεράς

ΠΕΡΙΕΧΟΜΕΝΑ ΚΑΙ 1 ΕΙΣΑΓΩΓΗ

2 COCOGEN: Αντιπροσωπεύοντας τις δομές Commonsense με κώδικα και 2.1 Μετατροπή (T,G) σε κώδικα Python

2.2 Αρκετές προειδοποιήσεις για τη δημιουργία G

3 Αξιολόγηση και 3.1 Πειραματική εγκατάσταση

3.2 Γενιά σεναρίου: PROSCRIPT

3.3 Παρακολούθηση κατάστασης οντότητας: PROPARA

3.4 Δημιουργία γραφήματος επιχειρήματος: ΕΚΛΟΓΙΣΜΟΙ

4 Ανάλυση

5 Σχετικές εργασίες

6 Συμπέρασμα, αναγνώριση, περιορισμοί και αναφορές

Αρκετές εκτιμήσεις μεγέθους μοντέλων

Δυναμική γρήγορη δημιουργία

C Ανθρώπινη αξιολόγηση

Δ Στατιστικά Δεδομένα

Δείκτης Εξόδου

F Βιασύνη

G Σχεδιασμός τάξης Python για μια δομημένη εργασία

Η επίδραση του μεγέθους του μοντέλου

Αλλαγές σε ταχείς ρυθμούς

2 COCOGEN: Αντιπροσωπεύοντας τις δομές του Commonsense με κώδικα

Εστιάζουμε στις εργασίες της δομημένης γενιάς κοινής λογικής. Κάθε εκπαιδευτικό παράδειγμα για τέτοιες εργασίες είναι στη μορφή (T, G), όπου το T είναι μια εισαγωγή κειμένου και το G είναι η δομή που πρέπει να δημιουργηθεί (συνήθως ένα γράφημα). Η βασική ιδέα του COCOGEN είναι η μετατροπή ενός γράφματος εξόδου G σε ένα σημασιολογικά ισοδύναμο πρόγραμμα Gc γραμμένο σε μια γλώσσα προγραμματισμού γενικού σκοπού. Σε αυτό το έργο, επιλέξαμε το Python λόγω της δημοτικότητάς του στα δεδομένα εκπαίδευσης των σύγχρονων CodeLLMs (Xu et al., 2022), αλλά η προσέγγισή μας είναι αγνωστική για τη γλώσσα προγραμματισμού. Τα μετασχηματισμένα γράφημα κώδικ


Χρησιμοποιούμε το έργο της δημιουργίας σεναρίου (PROSCRIPT, Σχήμα 1) ως παράδειγμα για να παρακινήσουμε τη μέθοδο μας: η δημιουργία σεναρίου στοχεύει στη δημιουργία ενός σεναρίου (G) για την επίτευξη ενός δεδομένου στόχου υψηλού επιπέδου (T).

2.1 Μετατροπή (T, G) σε κώδικα Python

Η γενική διαδικασία περιλαμβάνει την προσθήκη του κειμένου εισόδου T στην αρχή του κώδικα ως χαρακτηριστικό κατηγορίας ή περιγραφικό σχόλιο και την κωδικοποίηση της δομής G χρησιμοποιώντας τυποποιημένες κατασκευές για την εκπροσώπηση της δομής στον κώδικα (π.χ. hashmaps, χαρακτηριστικά αντικειμένου) ή κλήσεις λειτουργίας.


Για παράδειγμα, για την εργασία δημιουργίας σεναρίου, μετατρέπουμε το ζεύγος (T, G) σε μια τάξη δένδρου (Σχήμα 1b). Ο στόχος T προστίθεται ως χαρακτηριστικό τάξης (στόχος) και το σενάριο G προστίθεται με την απαρίθμηση των κόμβων και των άκρων ξεχωριστά. Πρώτα εντοπίζουμε τη λίστα των κόμβων ως αντικείμενα της τάξης Node. Στη συνέχεια, οι άκρες προστίθενται ως παιδιά χαρακτηριστικού για κάθε κόμβο (Σχήμα 1b). Για παράδειγμα, εντοπίζουμε τον κόμβο "Εξαγάγετε αρκετές πλάκες" ως take_out_several_plates = Node(), και το προσθέτουμε ως παιδί του κόμβου take_pies_


Ενώ υπάρχουν πολλοί τρόποι να αντιπροσωπεύουμε ένα παράδειγμα εκπαίδευσης ως τάξη Python, βρήκαμε εμπειρικά ότι αυτή η σχετικά απλή μορφή είναι η πιο αποτελεσματική, ειδικά με μεγαλύτερα μοντέλα.

2.2 Αρκετές προειδοποιήσεις για τη δημιουργία G





Figure 2: COCOGEN uses a prompt consisting of k (5-10) Python classes. During inference, the test input is converted to a partial class, as shown above, appended to the prompt, and completed by a code generation model such as CODEX.



Στα πειράματά μας, χρησιμοποιήσαμε το CODEX (Chen et al., 2021a) και διαπιστώσαμε ότι σχεδόν πάντα δημιουργεί συντακτικά έγκυρη Python. Έτσι, ο παραγόμενος κώδικας μπορεί εύκολα να μετατραπεί πίσω σε ένα γράφημα και να αξιολογηθεί χρησιμοποιώντας την τυπική, πρωτότυπη, μετρήσεις του συνόλου δεδομένων.


Αυτό το έγγραφο είναι διαθέσιμο στο archiv υπό την άδεια CC BY 4.0 DEED.

Αυτό το έγγραφο είναιΔιαθέσιμο στα Αρχείαμε την άδεια CC BY 4.0 DEED.


Οι συγγραφείς:

(1) Aman Madaan, Ινστιτούτο Γλωσσικών Τεχνολογιών, Πανεπιστήμιο Carnegie Mellon, ΗΠΑ ([email protected])

(2) Shuyan Zhou, Ινστιτούτο Γλωσσικών Τεχνολογιών, Πανεπιστήμιο Carnegie Mellon, ΗΠΑ ([email protected])

(3) Uri Alon, Ινστιτούτο Γλωσσικών Τεχνολογιών, Πανεπιστήμιο Carnegie Mellon, ΗΠΑ ([email protected])

(4) Yiming Yang, Ινστιτούτο Γλωσσικών Τεχνολογιών, Πανεπιστήμιο Carnegie Mellon, ΗΠΑ ([email protected])

(5) Graham Neubig, Ινστιτούτο Γλωσσικών Τεχνολογιών, Πανεπιστήμιο Carnegie Mellon, ΗΠΑ ([email protected]).

Authors:

(1) Aman Madaan, Ινστιτούτο Γλωσσικών Τεχνολογιών, Πανεπιστήμιο Carnegie Mellon, ΗΠΑ ([email protected])

(2) Shuyan Zhou, Ινστιτούτο Γλωσσικών Τεχνολογιών, Πανεπιστήμιο Carnegie Mellon, ΗΠΑ ([email protected])

(3) Uri Alon, Ινστιτούτο Γλωσσικών Τεχνολογιών, Πανεπιστήμιο Carnegie Mellon, ΗΠΑ ([email protected])

(4) Yiming Yang, Ινστιτούτο Γλωσσικών Τεχνολογιών, Πανεπιστήμιο Carnegie Mellon, ΗΠΑ ([email protected])

(5) Graham Neubig, Ινστιτούτο Γλωσσικών Τεχνολογιών, Πανεπιστήμιο Carnegie Mellon, ΗΠΑ ([email protected]).


L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication  HackerNoon profile picture
The FewShot Prompting Publication @fewshot
Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

ΚΡΕΜΑΣΤΕ ΕΤΙΚΕΤΕΣ

ΑΥΤΟ ΤΟ ΑΡΘΡΟ ΠΑΡΟΥΣΙΑΣΤΗΚΕ ΣΤΟ...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks